728x90
#Proximal Policy Optimization
PPO에는 두 가지 큰 타이틀이 존재한다고 한다. 이 두 개를 두고 PPO를 설명한다.
1. The Clipped Surrogate Object
2. Multiple Epochs for Policy Updating
PPO에서 Clipped가 핵심 내용이라고 보는데
이부분은 다음 Cartpole PPO③에서 더 자세하게 다루겠다.
성능 부분의 요약은 맨 밑 줄
Conclistions of Clipped Surrogate Object를 참고하면 된다.
- 요약 : 간단한 코드이며 안정적인 학습을 이룬다. 그만큼 epoch이 증가하는 것이 특징.
이 부분도 Cartpole③ 코드를 병행하면서 이해하는 것이 더 효과적이므로
다음에 보충 설명하겠다.
중점적으로 봤던 부분은 Loss를 나타내는 식이 어떻게 코드로 구현됐는지?
그리고 어떤 의미를 갖는지
PPO-algorithm에서는 어떻게 state, action, reward를 설정하고
observation은 무엇을 return하는지가 메인이라고 생각한다.
[Reference]