휴먼형 로봇 손의 사물 조작 수행을 이용한 사람데모 결합 강화학습 정책 성능 평가
Abstract:
요 약로봇이 사람과 같이 다양하고 복잡한 사물 조작을 하기 위해서는 휴먼형 로봇 손의 사물 파지 작업이 필수적이다. 자유도 (Degree of Freedom, DoF) 가 높은 휴먼형 (anthropomorphic) 로봇 손을 학습시키기 위하여 사람 데모 (human demonstration) 가 결합한 강화학습 최적화 방법이 제안되었다. 본 연구에서는 강화학습 최적화 방법에 사람 데모가 결합한 Demonstration Augmented Natural Policy Gradient (DA-NPG) 와 NPG 의 성능비교를 통하여 행동 복제의 효율성을 확인하고, DA-NPG, DA-Trust Region Policy Optimization (DA-TRPO), DA-Proximal Policy Optimization (DA-PPO) 의 최적화 방법의 성능 평가를 위하여 6 종의 물체에 대한 휴먼형 로봇 손의 사물 조작 작업을 수행한다. 학습 후 DA-NPG 와 NPG 를비교한 결과, NPG 의 물체 파지 성공률은 평균 60%, DA-NPG 는 평균 99.33% 로, 휴먼형 로봇 손의 사물 조작 강화학습에 행동 복제가 효율적임을증명하였다. 또한, DA-NPG 는 DA-TRPO 와 유사한 성능을 보이면서 모든 물체에 대한 사물 파지에 성공하였고 가장 안정적이었다. 반면, DA-TRPO 와 DA-PPO 는 사물 조작에 실패한 물체가 존재하여 불안정한 성능을 보였다. 본 연구에서 제안하는 방법은 향후 실제 휴먼형 로봇에 적용하여휴먼형 로봇 손의 사물 조작 지능 개발에 유용할 것으로 전망된다.
Año de publicación:
2021
Keywords:
Fuente:

Tipo de documento:
Other
Estado:
Acceso abierto
Áreas de conocimiento:
- Robótica
Áreas temáticas:
- Ciencias de la computación
- Cultura e instituciones
- Física aplicada