본문 바로가기

IsaacGym

(16)
Simulation to Real. #7 [Acrobot-IsaacGym : Inverted Pendulum Balance] #Intro 이전 글을 이어서 적는다. Solution 3 - tan 함수 (성공) sin도 제대로 학습이 안되는 거 같아서, 어떤 방법을 사용해야 할까 고민하던 찰나. sin그래프 아래에 tan그래프가 그려져 있었다. 생각해보니까 좌우 대칭에 안정적인 경사를 만들어 낼 수 있는 그래프지 않나 하는 생각이 머리를 스쳐지나 갔다. 그래서 바로 sin을 대체했다. 그리고 추가적으로 만약 θ가 π가 되면 그간 앞에서 걱정했던, 페널티 값이 하늘로 승천해 버리기 때문에 이 문제를 해결하고자, tan함수의 주기를 늘려주는 작업을 했다. 최대한 탐험의 범위를 넓혀 보고자 주기의 범위를 tight 하게 주지 않고 ± 4π 로 만들어 보았다. 만약 해당 범위까지 Acrobot이 회전하게 되면, 아예 초기화를 시켜버리는..
Simulation to Real. #6 [Acrobot-IsaacGym : Inverted Pendulum Balance] # Intro 이전 글을 이어서 적는다. Solution 2 - Sin 함수 (실패) ​0 ~ 1로, 그중 가장 친근한 방법인 sin과 cos으로 아이디어를 짜 봤다.. sin과 cos은 시작점만 다르기 때문에 그냥 sin으로 통합시켜서reward를 설계 해 보았다. 1. 단순한 페널티 설정 ​처음엔 reward의 숫자에만 관점을 두고 "reward 패널티를 어떻게 과감하게 설계할까?"를 생각해 봤다. 단순하게 1을 최대한 깎을 방법만 고려하고 마지막에 Total Reward를 계산하는 방식으로 문제를 접근했는데, Total Reward 수식을 쓰려고 할 때 앞선 reward 페널티의 값들을 보고 이건 뭔가 아니다는 걸 느꼈다. 물론 다른 radians값이 나올 때, 더 큰 숫자로 보상이 깎여 나가겠지만..
Simulation to Real. #5 [Acrobot-IsaacGym : Inverted Pendulum Balance] # Intro 오늘은 드디어 Simulation 상에서 나의 Custom Model 자세 제어를 할 수 있게 됐다. 일전의 FrameWork를 정리한 경험과 다양한 분들의 의견을 수렴하고 논문들을 들춰본 결과 이런 좋은 결과가 일찍 나올 수 있던것 같다. # Reward & Reset 일단 처음에는 있는 코드를 기반으로 FrameWork를 수정했다. 아래는 기존에 있던 CartPole 코드의 Reward 부분이다. 182번째 줄의 Reward는 자문해본 결과 reward 선정 방식과 reset에 대해 설명을 해주었다. 간단하게 풀어서 말하면 1. reward 선정 reward의 선정 방식은 NVIDIA에서 임의로 짰다고 한다. 자세한 설명은 해주지 않고 보상 1에서 제어하고자 하는 요소들을 (-) 요소로..
Simulation to Real. #4 [Acrobot-IsaacGym : rl-games] Intro 직접 Model 코드를 만드려고 했으나, Dynamic-Randomization부터 model등록까지 손이 가는 부분이 상당히 많았다. 그래서 NVIDIA에서 제공하는 rl-games Library를 사용해 보기로 한다. 처음 IsaacGym을 설치했을 때는 무슨 말인지 영 감이 안왔는데, framework.md 파일을 요약해 보고 다시 한번 쳐다보니 어느정도 이해가 된다. 일단 내가 보기 편하려고 사이트에 framework, Domain-randomization 요약본을 올려놓으려 한다.
Simulation to Real. #3 [Acrobot-하드웨어 만들기 ①] MODEL & SUPPORTER 일전에 모델을 만들고 나서, OSC로 간이 테스트를 해보니까 Rotary의 무게가 생각보다 많이 나가서 Motor의 기저부가 요동치는 모습을 보였다. 그래서 강철판 위에다가 고정시키기 위해, Motor Supporter를 제작하게 됐다. 23시간에 걸쳐서 Supporter가 제작이 됐는데, 3D Printer 오차를 고려해서 1.5mm 정도 내경을 더 키웠다. 그러고 나서 모터를 끼우는데 바로 뿌셔졌다. 그래도 FRONT_SUPPORTER는 나름 잘 들어맞아서 SUPPORTER 한 개만 써도 모델 자체의 반동은 잡을 듯하다. 모터의 앞부분 내경과 뒷부분 내경이 1mm 정도의 차이가 존재하는데, 3D 프린터의 오차를 고려해서 조이는 형식으로 설계한 것이 이런 부분에서 큰 도..
Simulation to Real. #1 [Acrobot Simulation-모델 만들기] #Intro 그간 열심히 이론을 공부하면서 어떤 DRL 방식을 최신 트렌드로 사용하고 있는지 또 어떻게 들어가는지 알아봤다. 근데 말로만 하면 솔직히 누가 못하나 직접 만들어보는 과정이 중요하다고 생각해서 Acrobot을 만들어 보려고 한다. 다른 명칭으로는 Two-inverted-Pendulum같은 말들도 있는데 OpenAI-Gym에서 사용되는 Acrobot이라는 명칭을 따서 만들어 볼 예정이다. 1. Observation Acrobot을 강화학습 할 때 필요한 요소는 6가지로 나타난다. 요약하면 우리가 필요한 정보는 첫 링크의 θ1과 중간 링크의 θ2의 정보가 필요하다. 첫 번째 joint는 Actuator를 사용해야 하므로, Motor로 만들고 두 번째 joint는 Rotary Encoder만 사용..
시뮬레이션 오답 노트. #6-2 [Quadruped Robot Failed - DRL] #Intro 저번에 이어서 오늘은 왜 내가 대학원에 가야하는가에 대한 정답을 얻은 계기를 써보려 한다. 열심히 해봤는데 큰 벽이 느껴진다기 보단 세상에는 정말 재밌고 엄청난 기술이 많구나 라는걸 느끼게 된다. 2. Reinforcement Learning Custom Model을 Simulation에 넣어보니 inertial문제도 해결 했겠다. 부푼 기대를 가지고 코드에 내 모델을 직접 넣는데, 그 이전에 코드가 어떻게 흘러가는지 이해할 필요가 있었다. 일단은 코드를 작성할 때 내가 원하는 모델을 강화학습 시키기 위해서는 위와같은 구조를 이해하고 Train할때 어떤 파라미터들을 건드려야 하는지 분석 할 필요가 있었다. Custom 모델을 넣기 위해 Adding a New Env 부분을 참조하여 코드를 일..
시뮬레이션 오답 노트. #6-1 [Quadruped Robot Failed - Custom Model] #Intro 그간 4족 보행 task를 수행해 보고자 많은 노력을 기울여 봤다. 가장 큰 task로는 두가지를 주제로 잡았는데 1.나의 Custom Model을 어떻게 시뮬레이션에 넣을까? 2. Quadruped Robot을 어떻게 강화학습과 접목시킬까? 오늘은 그간 뭘 하고 지냈고 어느 포인트에서 이렇게 오래 막혔는지 단계를 나눠서 설명하고 나의 한계점과 개선 방안에 대해 검토해 보았다. 1. Custom Model #URDF Background Simulation에 모델을 넣는 경험은 기본적으로 CAD파일을 연다와 많이 달랐다. 앞선 간단한 tutorial들을 통해 어느정도 익혔다고 생각했지만 URDF라는 포멧은 생각보다 많은 지식을 요구했다. 이 부분을 익히기위해 거의 2주간을 소모했으며, 처음부터..
시뮬레이션 하고 싶다. #5-1 [Tensor API-Rigid Body States] #Intro Quadruped Robot 중 하나인 a1을 해석하기 위해서 기본적인 디버깅을 할 수 있어야 하지 않을까 하는 생각에 gym에서는 data가 어떤식으로 흘러가는지 알아보고자 했다. 간단한 예제로 시작하기 위해 기본적으로 제공되는 dof_controls.py를 사용했다. 디렉터리 isaacgym/python/example/dof_controls.py #Dof_controls.py 1) 코드 실행 방법과 결과 (directory 맞추고) python dof_controls.py 2) 코드 열어보기 Line 88~104 : env0-빨간색(red) Line 106~121 : env1-연두색(green) [env2 : 파란색(blue), env3 : 노란색(yellow)] Line 91,92의 c..
시뮬레이션 하고 싶다. #4-2 [Isaac Gym Environments for Legged Robots-Cassie] #Intro 다른 예제인 Cassie를 간략하게 해 봤다. 일전의 Anymal에서 train.py의 명령어 중 task만 조금만 변경하면 바로 된다. #Usage-train.py python train.py --task=cassie 잘 보니까 Total time도 나왔는데 약 17분 정도가 걸린다. #Usage-play.py python play.py --task=cassie 이 외에도 여러 모델들을 지원하니, 한번씩 열람해보는 것도 좋아 보인다.