다양한 범위의 문제를 해결할 수 있는 AI를 만드는 가장 유망한 접근 방식 중 하나는 목표를 설정하고 해당 목표를 향한 행동을 취한 AI에게 보상을 주는 강화 학습이다. 이것은 DeepMind의 AlphaGo와 같은 게임 플레이 AI의 주요 혁신 대부분의 이면에 있는 접근 방식이다.
이 기술만큼 강력하지만 효과적인 전략을 찾기 위해 본질적으로 시행 착오에 의존한다. 이것은 이러한 알고리즘이 승리 공식에 도달할 때까지 비디오 및 보드 게임을 통해 실수하는 데 몇 년을 소비할 수 있음을 의미한다.
최신 컴퓨터의 성능 덕분에 이 작업은 인간이 소요하는 시간의 일부에 불과하다. 그러나 이 열악한 "샘플 효율성"은 연구자들이 많은 수의 고가의 특수 AI 칩에 액세스해야 하므로 누가 이러한 문제를 해결할 수 있는지를 제한한다. 또한 수백만 번의 실행을 수행하는 것이 단순히 실현 가능하지 않은 실제 상황에 대한 강화 학습의 적용을 심각하게 제한한다.
이제 카네기 멜론 대학의 팀은 강화학습 알고리즘을 사용 설명서를 읽을 수 있는 언어 모델과 결합하여 훨씬 빠르게 학습하도록 돕는 방법을 찾았다. arXiv에 게시된 사전 인쇄에 요약된 그들의 접근 방식은 AI가 DeepMind에서 개발한 최신 모델보다 수천 배 빠르게 도전적인 아타리(Atari) 비디오 게임을 플레이하도록 가르쳤다.
연구를 이끈 Yue Wu는 "우리의 작업은 널리 연구된 게임의 사용 설명서에서 이익을 얻을 수 있는 완전 자동화된 강화 학습 프레임워크의 가능성을 처음으로 입증한 것이다."라고 말했다. “우리는 마인크래프트와 같은 더 복잡한 다른 게임에 대한 실험을 수행해 왔으며 유망한 결과를 보았다. 우리는 우리의 접근 방식이 보다 복잡한 문제에 적용되어야 한다고 믿는다.”
아타리 비디오 게임은 통제된 환경과 게임에 알고리즘에 대한 보상으로 작용할 수 있는 채점 시스템이 있다는 사실 덕분에 강화 학습 연구를 위한 인기 있는 벤치마크였다. 그러나 AI가 유리한 출발을 하기 위해 연구원들은 몇 가지 추가 지침을 제공하기를 원했다.
먼저 그들은 게임의 공식 사용 설명서에서 핵심 정보를 추출하고 요약하기 위해 언어 모델을 훈련했다. 그런 다음 이 정보를 사용하여 GPT-3과 크기 및 기능이 유사한 사전 훈련된 언어 모델에 게임에 대한 질문을 제기했다. 예를 들어, PacMan 게임에서 "게임에서 이기고 싶다면 유령을 때려야 할까?"고 대답할 수 있다.
그런 다음 이러한 답변을 사용하여 게임에 내장된 점수 시스템 외에 강화 알고리즘에 대한 추가 보상을 생성한다. PacMan 예에서 유령을 때리면 이제 -5점의 페널티를 받게 된다. 이러한 추가 보상은 잘 확립된 강화학습 알고리즘에 입력되어 게임을 더 빨리 학습하도록 돕는다.
연구원들은 AI가 마스터하기 가장 어려운 아타리 게임 중 하나인 Skiing 6000에서 접근 방식을 테스트했다. 2D 게임에서는 플레이어가 기둥 사이를 탐색하고 장애물을 피하면서 언덕을 내려오도록 요구한다. 쉽게 들릴지 모르지만, 선도적인 AI는 인간과 비슷한 성능을 달성하기 위해 게임의 800억 프레임을 실행해야 했다.
대조적으로, 새로운 접근 방식은 게임의 요령을 파악하는 데 1,300만 프레임만 필요했지만 선행 기술보다 절반 정도의 점수만 달성할 수 있었다. 즉, 평균적인 인간만큼 좋지는 않지만 게임의 요령을 전혀 파악할 수 없었던 다른 여러 주요 강화 학습 접근 방식보다 훨씬 뛰어났다. 여기에는 새로운 AI가 의존하는 잘 확립된 알고리즘이 포함된다.
연구원들은 이미 마인크래프트와 같은 보다 복잡한 3D 게임에 대한 접근 방식을 테스트하기 시작했으며 초기 결과가 유망하다고 말한다. 그러나 강화 학습은 컴퓨터가 세계의 완전한 모델에 액세스할 수 있는 비디오 게임에서 물리적 현실의 지저분한 불확실성으로 도약하기 위해 오랫동안 고군분투했다.
Wu는 물체 감지 및 위치 파악 기능을 빠르게 개선하여 곧 자율 주행이나 가정 자동화와 같은 응용 프로그램을 사용할 수 있기를 희망한다고 말했다. 어느 쪽이든 그 결과는 AI 언어 모델의 급속한 개선이 이 분야의 다른 분야에서 발전을 위한 촉매 역할을 할 수 있음을 시사한다.
이미지 제공: Kreg Steppe / Flickr