[600가지 타스크 인공지능] DeepMind의 새로운 AI는 게임에서 로봇 제어에 이르기까지 600가지 이상의 작업을 수행할 수 있다. 모든 AI 시스템과 마찬가지로 Gato는 수십억 개의 단어, 실제 및 시뮬레이션 환경의 이미지, 버튼 누름, 관절 토크 등을 토큰 형태로 수집하는 예를 통해 학습했다.:AI넷

인공지능 업계의 일부에게 궁극적인 성취는 인공일반지능(AGI) 또는 인간이 할 수 있는 모든 작업을 이해하고 학습할 수 있는 능력을 갖춘 시스템을 만드는 것이다. 오랫동안 공상과학의 영역으로 분류되었던 AGI는 추론, 계획, 학습, 지식 표현 및 자연 언어로 의사 소통하는 능력을 갖춘 시스템을 가져올 것이라고 제안되었다.

모든 전문가가 AGI가 현실적인 목표이거나 심지어 가능하다고 확신하는 것은 아니다. 그러나 Alphabet의 지원을 받는 연구소인 DeepMind가 이번 주 Gato 라는 AI 시스템을 출시하면서 한 걸음 더 나아갔다고 주장할 수 있다.

Gato는 DeepMind가 "범용" 시스템으로 설명하는 것으로, 다양한 유형의 작업을 수행하도록 가르칠 수 있는 시스템이다. DeepMind의 연구원들은 Gato가 이미지 캡션, 대화 참여, 실제 로봇 팔로 블록 쌓기, Atari 게임을 포함하여 정확히 604를 완료하도록 훈련했다.

Allen Institute for AI의 연구원인 Jack Hessel은 많은 작업을 해결할 수 있는 단일 AI 시스템이 새로운 것이 아니라고 지적한다. 예를 들어 Google은 최근 Google 검색에서 텍스트, 이미지 및 비디오를 처리하여 단어 철자의 언어 간 변형을 찾는 것부터 검색어를 이미지에 연결하는 것까지 작업을 수행할 수 있는 MUM 이라는 Google 검색 시스템을 사용하기 시작했다. 그러나 여기서 잠재적으로 더 새로운 것은 처리해야 하는 작업과 훈련 방법의 다양성이라고 Hessel은 말한다.

DeepMind의 Gato 아키텍처. 이미지 크레딧: 딥마인드

Hessel은 이메일을 통해 TechCrunch에 "단일 모델이 놀라울 정도로 다양한 입력 세트를 처리할 수 있다는 증거를 이전에 보았다."라고 말했다. “내 생각에 멀티태스킹 학습에 관한 핵심 질문은 … 과업이 서로를 보완하는지 여부이다. 모델이 작업을 해결하기 전에 암묵적으로 작업을 분리하는 경우 더 지루한 경우를 상상할 수 있다. 예를 들어 '작업 A를 입력으로 감지하면 하위 네트워크 A를 사용합니다. 대신 작업 B를 감지하면 다른 하위 네트워크 B를 사용한다. ' 그 귀무 가설의 경우 A와 B를 별도로 훈련하여 유사한 성능을 얻을 수 있지만 이는 압도적이다. 대조적으로, A와 B를 함께 훈련하면 둘 중 하나(또는 둘 다!)가 개선되면 상황이 더 흥미진진해진다.”

모든 AI 시스템과 마찬가지로 Gato는 수십억 개의 단어, 실제 및 시뮬레이션 환경의 이미지, 버튼 누름, 관절 토크 등을 토큰 형태로 수집하는 예를 통해 학습했다. 이 토큰은 Gato가 이해할 수 있는 방식으로 데이터를 나타내는 역할을 하여 시스템이 예를 들어 Breakout의 역학 또는 문장에서 어떤 단어 조합이 문법적으로 의미가 있는지 알아낼 수 있도록 한다.

Gato가 반드시 이러한 작업을 잘 수행하는 것은 아니다. 예를 들어, 사람과 채팅할 때 시스템은 종종 피상적이거나 사실적으로 잘못된 응답으로 응답한다(예: "프랑스의 수도는 무엇입니까?"에 대한 응답으로 "마르세유"). 캡션 사진에서 Gato는 사람들을 오인한다. 그리고 시스템은 실제 로봇을 사용하여 블록을 올바르게 쌓는 경우가 60%에 불과하다.

그러나 앞서 언급한 604개의 작업 중 450개에서 DeepMind는 Gato가 전문가보다 절반 이상 더 잘 수행한다고 주장한다.

Matthew Guzdial 컴퓨터 과학 조교수는 "AI 및 머신 러닝 분야에서 많은 사람들이 사용하는 일반 [시스템]이 필요하다고 생각한다면 [Gato]가 큰 문제이다."라고 말했다. 앨버타 대학교(University of Alberta)는 이메일을 통해 TechCrunch에 말했다. “AGI를 향한 주요 단계라고 말하는 사람들은 우리가 아직 인간 지능이 아니며 곧 도달하지 못할 가능성이 있기 때문에 다소 과장된 것이라고 생각합니다(내 생각에는). 저는 개인적으로 많은 작은 모델[및 시스템]이 더 유용하다는 진영에 더 가깝지만 훈련 데이터 외부의 작업에 대한 성능 측면에서 이러한 일반 모델의 이점이 확실히 있다.”

흥미롭게도 아키텍처 관점에서 Gato는 오늘날 생산 중인 많은 AI 시스템과 크게 다르지 않다. '트랜스포머'라는 점에서 OpenAI의 GPT-3와 공통점이 있다. 2017년으로 거슬러 올라가는 Transformer는 문서 요약, 음악 생성, 이미지의 개체 분류 및 단백질 서열 분석에 대한 적성을 보여줌으로써 복잡한 추론 작업을 위한 선택 아키텍처가 되었다.

Gato가 완료하기 위해 배운 다양한 작업. 이미지 크레딧: 딥마인드

아마도 훨씬 더 놀랍게도 Gato는 매개변수 수 면에서 GPT-3를 포함한 단일 작업 시스템보다 훨씬 작다. 매개변수는 교육 데이터에서 학습한 시스템의 일부이며 본질적으로 텍스트 생성과 같은 문제에 대한 시스템 기술을 정의한다. Gato는 12억 개에 불과하지만 GPT-3에는 1700억 개 이상이 있다.

DeepMind 연구원들은 시스템이 실시간으로 로봇 팔을 제어할 수 있도록 Gato를 의도적으로 작게 유지했다. 그러나 그들은 규모가 확대되면 Gato가 "관심 있는 작업, 행동 및 구현"을 다룰 수 있다고 가정한다.

이것이 사실로 판명된다고 가정하면 Gato가 지속적으로 학습하지 못하는 것과 같은 최첨단 단일 작업 시스템보다 특정 작업에서 Gato가 더 우월하기 위해서는 몇 가지 다른 장애물을 극복해야 할 것이다. 대부분의 Transformer 기반 시스템과 마찬가지로 세계에 대한 Gato의 지식은 교육 데이터를 기반으로 하며 정적으로 유지된다. 현재 미국 대통령과 같이 날짜에 민감한 질문을 Gato에게 하면 잘못 응답할 가능성이 있다.

Transformer와 Gato는 컨텍스트 창, 즉 주어진 작업의 컨텍스트에서 시스템이 "기억"할 수 있는 정보의 양에 또 다른 제한이 있다. 최고의 Transformer 기반 언어 모델조차도 주요 세부 사항을 기억하지 못하고 줄거리를 놓치지 않고 긴 에세이를 작성할 수 없다. 로봇을 작성하거나 제어하는 등 모든 작업에서 망각이 발생하기 때문에 일부 전문가들은 이를 기계 학습의 "아킬레스건"이라고 부른다.

이러한 이유로 Knives & Paintbrushes 연구 집단의 일원인 Mike Cook은 Gato가 진정한 범용 AI로 가는 길이라고 가정하지 말라고 경고한다.

“결과는 다소 오해의 여지가 있다고 생각한다. AI가 매우 다르게 들리는 이러한 모든 작업을 수행할 수 있다는 것은 흥미롭게 들린다. 왜냐하면 우리에게 텍스트를 작성하는 것은 로봇을 제어하는 것과 매우 다른 것처럼 들리기 때문이다. 그러나 실제로 이것은 일반 영어 텍스트와 Python 코드의 차이점을 이해하는 GPT-3과 크게 다르지 않다.”라고 Cook은 이메일을 통해 TechCrunch에 말했다.

“Gato는 해당 유형의 다른 AI와 마찬가지로 이러한 작업에 대한 특정 교육 데이터를 수신하고 특정 종류의 입력을 특정 종류의 출력과 연결하는 학습을 포함하여 데이터의 패턴이 서로 어떻게 관련되는지를 배운다. 이것이 쉽다는 말은 아니지만 외부 관찰자에게는 AI가 차 한 잔을 만들거나 다른 10~50개의 다른 작업을 쉽게 배울 수 있는 것처럼 들릴 수 있지만 그렇게 할 수 없다. 대규모 모델링에 대한 현재 접근 방식을 사용하면 한 번에 여러 작업을 학습할 수 있다는 것을 알고 있다. 나는 그것이 좋은 작업이라고 생각하지만, 그것이 무엇이든 가는 길에 중요한 디딤돌이 되지는 않는다.”