[획기적인 머신러닝 방법으로 복잡한 환경에 대한 AI 교육 강화] 복잡한 환경에서 AI 시스템 훈련을 간소화하는 것을 목표로 ˝중재 피드백을 통한 강화학습˝(RLIF)으로 알려진 혁신적인 기계학습방법론을 개척했다.:AI넷

획기적인 머신러닝 방법으로 복잡한 환경에 대한 AI 교육 강화

버클리 캘리포니아 대학교 연구원들은 복잡한 환경에서 AI 시스템 훈련을 간소화하는 것을 목표로 "중재 피드백을 통한 강화학습"(RLIF)으로 알려진 혁신적인 기계학습방법론을 개척했다.

AI 영역에서는 강화학습과 대화형 모방학습을 결합하는 것이 훈련 시스템의 일반적인 전략이다. RLIF는 명확한 보상 신호를 파악하기 어렵고 인간 피드백의 정확성이 부족한 상황에서 특히 유용하다는 것이 입증되었다. 이는 로봇 공학용 AI 시스템을 교육할 때 종종 직면하는 문제이다.

강화 학습은 최적의 제어 시나리오, 게임, 인간 선호도에 따른 대규모 언어 모델 조정 등 잘 정의된 보상 기능이 있는 환경에서 탁월한 성능을 발휘한다. 그러나 명시적인 보상 신호가 없는 복잡한 로봇 영역에서 기존 강화 학습은 심각한 문제에 직면한다.

엔지니어들은 인간이나 다른 에이전트의 시연을 활용하여 보상 신호의 필요성을 우회하는 지도 학습의 한 분야인 모방 학습을 사용하는 경우가 많다. 장점에도 불구하고 모방 학습은 에이전트가 훈련 이상의 상황에 직면하여 성능이 저하되는 "분포 불일치 문제"와 씨름한다.

"대화형 모방 학습"은 인간 전문가가 실시간 피드백을 제공하여 훈련 후 에이전트의 행동을 개선함으로써 이 문제를 완화한다. 그러나 이 방법은 거의 최적에 가까운 개입에 의존하며, 이는 특히 로봇공학의 맥락에서 항상 이용 가능하거나 정확하지 않을 수 있다.

UC Berkeley 과학자들은 강화 학습과 대화형 모방 학습의 장점을 모두 활용하는 하이브리드 접근 방식으로 RLIF를 고안했다. RLIF는 특히 자율 주행과 같은 작업과 관련된 개념인 완벽한 수정 실행에 비해 오류 식별의 단순성을 인식한다.

전통적인 대화형 모방 학습과 달리 RLIF는 인간의 개입이 최적이라고 가정하지 않는다. 대신 개입을 AI의 정책이 방향을 벗어나고 있다는 신호로 간주하여 개입을 촉발하는 상황을 피하기 위해 시스템을 훈련시킨다.

연구원들은 “직관적으로 우리는 [훈련된 정책이] 나쁜 조치를 취할 때 전문가가 개입할 가능성이 더 높다고 가정한다. 이는 원칙적으로 RL 알고리즘에 동작을 변경하는 신호를 제공할 수 있다.”

RLIF는 순수 강화 학습과 대화형 모방 학습 모두의 한계를 해결하여 정확한 보상 기능과 최적의 개입이 필요하지 않다. 따라서 복잡한 환경에서 AI 시스템을 교육하는 데 더욱 실용적인 선택이 된다.

널리 사용되는 대화형 모방 학습 알고리즘인 DAgger와의 실험적 비교에서 RLIF는 시뮬레이션 환경에서 DAgger 변형보다 평균 2~3배 성능이 뛰어났다. 특히, 전문가 개입의 품질이 최적이 아닌 시나리오에서는 성과 격차가 5배까지 확대되었다.

RLIF의 효능은 객체 조작 및 천 접기와 같은 실제 로봇 문제로 확장되어 견고성과 적용 가능성을 입증했다. RLIF는 상당한 데이터 요구 사항 및 온라인 배포의 복잡성과 같은 과제를 안고 있지만 실제 사용 사례에서는 이를 실제 로봇 시스템 교육을 위한 중요한 도구로 자리매김하고 있다.

작성자: Impact Lab

[획기적인 머신러닝 방법으로 복잡한 환경에 대한 AI 교육 강화] 복잡한 환경에서 AI 시스템 훈련을 간소화하는 것을 목표로 "중재 피드백을 통한 강화학습"(RLIF)으로 알려진 혁신적인 기계학습방법론을 개척했다.

[획기적인 머신러닝 방법으로 복잡한 환경에 대한 AI 교육 강화] 복잡한 환경에서 AI 시스템 훈련을 간소화하는 것을 목표로 "중재 피드백을 통한 강화학습"(RLIF)으로 알려진 혁신적인 기계학습방법론을 개척했다.