Quadruped 공부 하고 싶다. #5 [Task1 - Proximal Policy Optimization ②]

728x90

#Proximal Policy Optimization

PPO에는 두 가지 큰 타이틀이 존재한다고 한다. 이 두 개를 두고 PPO를 설명한다.

1. The Clipped Surrogate Object

2. Multiple Epochs for Policy Updating

PPO에서 Clipped가 핵심 내용이라고 보는데

이부분은 다음 Cartpole PPO③에서 더 자세하게 다루겠다.

성능 부분의 요약은 맨 밑 줄

Conclistions of Clipped Surrogate Object를 참고하면 된다.

- 요약 : 간단한 코드이며 안정적인 학습을 이룬다. 그만큼 epoch이 증가하는 것이 특징.

이 부분도 Cartpole③ 코드를 병행하면서 이해하는 것이 더 효과적이므로

다음에 보충 설명하겠다.

중점적으로 봤던 부분은 Loss를 나타내는 식이 어떻게 코드로 구현됐는지?

그리고 어떤 의미를 갖는지

PPO-algorithm에서는 어떻게 state, action, reward를 설정하고

observation은 무엇을 return하는지가 메인이라고 생각한다.

[Reference]

https://stackoverflow.com/questions/46422845/what-is-the-way-to-understand-proximal-policy-optimization-algorithm-in-rl

What is the way to understand Proximal Policy Optimization Algorithm in RL?

I know the basics of Reinforcement Learning, but what terms it's necessary to understand to be able read arxiv PPO paper ? What is the roadmap to learn and use PPO ?

stackoverflow.com

'Quadruped Robot > Quadruped Robot Theory' 카테고리의 다른 글

Quadruped 공부 하고 싶다. #6-2 [Task1 - PPO: Cartpole with Pytorch③-2] (0)	2022.02.26
Quadruped 공부 하고 싶다. #6-1 [Task1 - PPO: Cartpole with Pytorch③-1] (0)	2022.01.27
Quadruped 공부 하고 싶다. #4 [Task1 - Policy-Gradient (for PPO)①] (0)	2022.01.25
Quadruped 공부 하고 싶다. #3 [Learning to Walk in Minutes Using Massively Parallel DRL] (0)	2022.01.20
Quadruped 공부 하고 싶다. #2 [Trajectory Planning with High-Speed Trot Gait] (0)	2022.01.14

공부가 하고싶어요

Quadruped 공부 하고 싶다. #5 [Task1 - Proximal Policy Optimization ②]

#Proximal Policy Optimization

'Quadruped Robot > Quadruped Robot Theory' 카테고리의 다른 글

티스토리툴바

Quadruped 공부 하고 싶다. #5 [Task1 - Proximal Policy Optimization ②]

#Proximal Policy Optimization

'Quadruped Robot > Quadruped Robot Theory' 카테고리의 다른 글

'Quadruped Robot/Quadruped Robot Theory' Related Articles

티스토리툴바