작년 11월 기술 분야에 폭발적으로 등장한 ChatGPT 이후로 ChatGPT는 사람들이 모든 종류의 자료를 작성하고, 코드를 생성하고, 정보를 찾는 데 도움을 주고 있다. 그것과 다른 LLM(대형 언어 모델 Large Language Models)은 고객 서비스 전화 응대에서 패스트푸드 주문받기에 이르기까지 작업을 용이하게 했다. 짧은 시간 동안 LLM이 인간에게 얼마나 유용했는지를 감안할 때 로봇용 ChatGPT가 새로운 것을 배우고 수행하는 능력에 어떤 영향을 미칠 수 있을까? Google DeepMind의 연구원들은 지난주에 발표된 블로그 게시물과 논문에서 발견한 내용을 찾아 발표하기로 결정했다.
그들은 시스템을 RT-2라고 부른다. 로봇 트랜스포머 2의 줄임말로 지난해 말 출시한 로봇 트랜스포머 1의 후속작이다. RT-1은 소규모 언어 및 시각 프로그램을 기반으로 하며 많은 작업을 수행하도록 특별히 훈련되었다. 이 소프트웨어는 Alphabet X의 Everyday Robots에 사용되어 97%의 성공률로 700개 이상의 다양한 작업을 수행할 수 있게 했다. 그러나 훈련되지 않은 새로운 작업을 수행하라는 메시지가 표시되었을 때 RT-1을 사용하는 로봇은 성공률이 32%에 불과했다.
RT-2는 이 속도를 거의 두 배로 늘려 요청받은 시간의 62%에서 새로운 작업을 성공적으로 수행한다. 연구자들은 RT-2를 VLA(비전 언어 행동 vision-language-action) 모델이라고 부른다. 새로운 기술을 배우기 위해 온라인에서 보는 텍스트와 이미지를 사용한다. 그것은 들리는 것처럼 간단하지 않다. 소프트웨어가 먼저 개념을 "이해"한 다음 이해한 내용을 명령 또는 일련의 지침에 적용한 다음 해당 지침을 충족하는 작업을 수행해야 한다.
논문의 저자가 제공하는 한 가지 예는 쓰레기 처리이다. 이전 모델에서는 로봇의 소프트웨어가 먼저 쓰레기를 식별하도록 훈련되어야 했다. 예를 들어 테이블 위에 껍질이 벗겨진 바나나가 있고 그 옆에 껍질이 있는 경우 봇은 껍질은 쓰레기이고 바나나는 쓰레기가 아니라고 표시한다. 그런 다음 껍질을 집어 쓰레기통으로 옮기고 거기에 넣는 방법을 배운다.
그러나 RT-2는 약간 다르게 작동한다. 이 모델은 인터넷의 많은 정보와 데이터에 대해 훈련을 받았기 때문에 쓰레기가 무엇인지에 대한 일반적인 이해가 있으며 쓰레기를 버리도록 훈련되지는 않았지만 이 작업을 완료하기 위한 단계를 함께 모을 수 있다.
연구자들이 RT-2를 교육하는 데 사용한 LLM은 PaLI-X(550억 개의 매개변수가 있는 시각 및 언어 모델)와 PaLM-E(구글에서 로봇용으로 특별히 개발된 구체화된 다중 모드 언어 모델이라고 부르는 것, 120억 개의 매개변수가 있는 것)이다. "파라미터"는 머신러닝 모델이 훈련 데이터를 기반으로 정의하는 속성을 나타낸다. LLM의 경우 문장에서 단어 간의 관계를 모델링하고 주어진 단어 앞에 다른 단어가 올 가능성이 얼마나 되는지 평가한다.
거대한 데이터 세트에서 단어 간의 관계와 패턴을 찾음으로써 모델은 자체 추론에서 학습한다. 결국 서로 다른 개념이 서로 어떻게 관련되어 있는지 파악하고 맥락을 식별할 수 있다. RT-2의 경우 해당 지식을 로봇 동작에 대한 일반화된 지침으로 변환한다.
이러한 작업은 일반적으로 단어 조각의 형태로 자연어 텍스트를 나타내는 데 사용되는 토큰으로 로봇에 대해 표시된다. 이 경우 토큰은 작업의 일부이며 소프트웨어는 작업을 수행하기 위해 여러 토큰을 함께 묶는다. 또한 이 구조를 통해 소프트웨어는 일련의 사고 추론을 수행할 수 있다. 즉, 어느 정도의 추론이 필요한 질문이나 프롬프트에 응답할 수 있다.
팀이 제공하는 예에는 망치가 없을 때 망치로 사용할 물체를 선택하는 것(로봇이 돌을 선택함)과 피곤한 사람에게 가장 좋은 음료를 고르는 것(로봇이 에너지 드링크를 선택함)이 포함된다.
"RT-2는 노출된 로봇 데이터를 넘어 개선된 일반화 기능과 의미론적 및 시각적 이해를 보여준다."라고 연구원들은 Google 블로그 게시물에 썼다. "여기에는 개체 범주 또는 높은 수준의 설명에 대한 추론과 같은 기본적인 추론을 수행하여 새로운 명령을 해석하고 사용자 명령에 응답하는 것이 포함된다."
가정, 상업 환경, 산업 환경 등 무엇이든 인간을 도울 수 있는 범용 로봇의 꿈은 로봇이 이동 중에 학습할 수 있을 때까지 달성할 수 없다. 우리에게 가장 기본적인 본능처럼 보이는 것은 로봇의 경우 컨텍스트 이해, 이를 통해 추론할 수 있는 능력, 갑자기 나타날 것으로 예상되지 않은 문제를 해결하기 위해 조치를 취하는 것의 복잡한 조합이다. 계획되지 않은 다양한 시나리오에 적절하게 반응하도록 프로그래밍하는 것은 불가능하므로 인간처럼 일반화하고 경험을 통해 배울 수 있어야 한다.
RT-2는 이 방향의 단계이다. 연구원들은 RT-2가 의미론적 및 시각적 개념을 일반화할 수 있지만 아직 자체적으로 새로운 작업을 학습할 수 없다는 점을 인정한다. 오히려 이미 알고 있는 작업을 새로운 시나리오에 적용한다. 아마도 RT-3 또는 4는 이러한 기술을 다음 단계로 끌어올릴 수 있을 것이다. 그 동안 팀은 블로그 게시물에서 결론을 내렸다.”
이미지 출처: Google DeepMind