본문 바로가기

Quadruped Robot/Quadruped Robot Theory

Quadruped 공부 하고 싶다. #5 [Task1 - Proximal Policy Optimization ②]

728x90

#Proximal Policy Optimization

PPO에는 두 가지 큰 타이틀이 존재한다고 한다. 이 두 개를 두고 PPO를 설명한다.

1. The Clipped Surrogate Object           

2. Multiple Epochs for Policy Updating   

그림 1. PPO-Clipped

PPO에서 Clipped가 핵심 내용이라고 보는데

이부분은 다음 Cartpole PPO③에서 더 자세하게 다루겠다.

성능 부분의 요약은 맨 밑 줄

 

Conclistions of Clipped Surrogate Object를 참고하면 된다.

- 요약 : 간단한 코드이며 안정적인 학습을 이룬다. 그만큼 epoch이 증가하는 것이 특징.

그림 2. PPO-Algorithm

이 부분도 Cartpole③ 코드를 병행하면서 이해하는 것이 더 효과적이므로

다음에 보충 설명하겠다.

 

중점적으로 봤던 부분은 Loss를 나타내는 식이 어떻게 코드로 구현됐는지? 

그리고 어떤 의미를 갖는지

PPO-algorithm에서는 어떻게 state, action, reward를 설정하고

observation은 무엇을 return하는지가 메인이라고 생각한다. 

 

[Reference]

https://stackoverflow.com/questions/46422845/what-is-the-way-to-understand-proximal-policy-optimization-algorithm-in-rl

 

What is the way to understand Proximal Policy Optimization Algorithm in RL?

I know the basics of Reinforcement Learning, but what terms it's necessary to understand to be able read arxiv PPO paper ? What is the roadmap to learn and use PPO ?

stackoverflow.com