PPO (11) 썸네일형 리스트형 Quadruped 공부 하고 싶다. #4 [Task1 - Policy-Gradient (for PPO)①] #Policy-Gradient Proximal Policy Optimization (PPO)를 배우기 전에 사전 지식으로 Policy - Gradient에 관한 용어 정리가 필요했다. 일반적인 Deep-Learning과는 다르게 Gradient descent가 아닌 'ascent'이다. 이상적인 action의 확률을 뽑기 위해 SoftMax로 출력을 하며 해당 action의 확률을 높이는 방향으로 학습하는 것이 직관적으로 옳기 때문에 ascent라고 한다. 이 부분을 (-) 부호를 붙여 표현하기도 한다. 위 설명을 통해 강화 학습에서 어떤 것을 중점적으로 업데이트하며, Exploration 중 Agent가 좋지 못한 길로 빠졌을 때, 이에 대한 reward 값이 어떻게 조정되어 다시 좋은 길로 수정되는지.. 이전 1 2 다음