[대형 언어 모델(LLM)은 일반 인공 지능(AGI)으로 가는 데에 방해물이다] 소프트웨어 엔지니어이자 AI 연구자인 프랑수아 콜레는 LLM이 우리를 AGI에 더 가깝게 만들어 줄 것이라는 것에 회의적인 견해를 가졌으며 그의 100만 달러 ARC Prize 대회는 우리를 올바른 길로 인도하기 위해 고안되었다.https://www.freethink.com/robots-ai/arc-prize-agi
대형 언어 모델(LLM)은 일반 인공 지능(AGI)으로 가는 데에 방해물이다.
지금은 2030년이고 인공 일반 지능(AGI)이 마침내 등장했다. 앞으로 몇 년 동안 우리는 이 강력한 기술을 사용하여 질병을 치료하고, 발견을 가속화하고, 빈곤을 줄이는 등의 일을 하게 된다. 작은 방식으로 AGI로의 여정은 2024년에 AI 현상 유지에 도전한 100만 달러 대회로 거슬러 올라갈 수 있다.
인공 일반 지능 인공 일반 지능(AGI)은 인간 수준의 지능을 갖춘 소프트웨어로 세상을 바꿀 수 있지만, 아무도 우리가 그것을 만드는 데 얼마나 가까이 다가갔는지 모르는 듯하다. 전문가들은 2029년에서 2300년, 영원히 없을 것이라고 예측한다. 어떤 사람들은 AGI가 이미 존재한다고 주장한다.
AGI의 도래를 예측하기 어려운 이유를 알아보기 위해 AI의 역사, 현재 머신 인텔리전스를 측정하는 방법, 그리고 이 세상을 바꿀 소프트웨어로 우리를 인도하는 데 도움이 될 수 있는 100만 달러 규모의 경쟁을 살펴보겠다.
우리가 걸어온 길 우리가 가는 곳(아마도) 그렇다면 AGI가 언제 도착할지 어떻게 알 수 있을까? 벤치마크 테스트는 AI 진행 상황을 추적하는 데 유용한 방법이며, 단 하나의 작업을 위해 설계된 AI에 대해 벤치마크 테스트를 선택하는 것은 일반적으로 매우 쉽다. 예를 들어, 심장초음파에서 심장 문제를 식별하도록 AI를 훈련하는 경우 벤치마크는 의사와 비교한 정확도일 수 있다.
하지만 AGI는 정의상 인간이 가진 종류의 일반 지능을 가지고 있어야 한다. 어떻게 벤치마킹할 수 있을까? 수십 년 동안 많은 사람들이 튜링 테스트를 AGI의 견고한 벤치마크로 여겼다(앨런 튜링이 의도한 대로는 아니었지만 말이다). AI가 인간 평가자에게 자신이 인간이라고 확신시킬 수 있다면, 그것은 기능적으로 인간 수준의 지능을 보여주는 것이라고 생각했다.
하지만 2014년에 십 대를 모델로 한 챗봇이 십 대처럼 행동하면서(질문을 피하고, 농담을 하고, 기본적으로 어리석은 행동을 하면서) 튜링 테스트에 "통과"했을 때, 그 어떤 것도 특별히 지적인 느낌이 들지 않았고, 세상을 바꿀 만큼 지적인 것 같지도 않았다.
2014년 튜링 테스트를 통과한 것으로 평가받은 AI, 유진 구스트만의 아바타.
그 이후로, 텍스트의 거대한 데이터 집합을 훈련하여 인간과 같은 반응을 예측하는 AI인 대규모 언어 모델(LLM)의 획기적인 발전으로, 사람들을 인간이라고 생각하게 쉽게 속일 수 있는 챗봇이 탄생했지만, 이러한 AI도 그다지 지능적이지 않은 것으로 보인다. 특히 그들이 말하는 것이 종종 거짓이기 때문이다.
튜링 테스트가 망가졌고, "구식"이며, "훨씬 더 쓸모 없어졌다"고 여겨지면서 AI 개발자는 AGI에 대한 새로운 벤치마크가 필요했고, 그래서 그들은 모델이 변호사 시험, MCAT, 그리고 2020년에 특별히 다양한 주제에 대한 언어 모델의 지식을 평가하기 위해 만들어진 벤치마크인 MMLU와 같이 사람들을 위한 가장 어려운 테스트를 치르도록 했다.
이제 개발자들은 최신 AI가 인간 테스트 응시자, 이전 AI 모델, AI 경쟁자에 비해 어떤 성과를 보였는지 정기적으로 보고하고, "인공 일반 지능의 불꽃"과 같은 제목의 논문에 결과를 발표한다.
이러한 벤치마크는 튜링 테스트보다 AI를 평가하고 비교하는 데 더 객관적인 방법을 제공하지만, 그 모습에도 불구하고 반드시 AGI로의 진전을 보여주는 것은 아니다.
LLM은 대부분 인터넷에서 가져온 방대한 양의 텍스트로 훈련되므로 모델을 평가하는 데 사용되는 정확히 동일한 질문 중 많은 부분이 훈련 데이터에 포함되었을 가능성이 높다. 기껏해야 저울을 기울이고 최악의 경우 인간과 같은 추론을 수행하는 대신 단순히 답을 되뇌게 된다.
그리고 AI 개발자들은 일반적으로 훈련 데이터에 대한 세부 정보를 공개하지 않기 때문에 회사 외부의 사람들(아마도 임박한 AGI의 도래에 대비하려는 사람들)은 "데이터 오염"이라고 알려진 이 문제가 테스트 결과에 영향을 미치는지 확실히 알지 못한다.
하지만 확실히 그럴 것 같다. 연구자들은 테스트에서 모델의 이러한 벤치마크 성능이 약간 수정된 테스트 문제나 훈련 데이터의 마감일 이후에 완전히 생성된 문제로 도전을 받으면 극적으로 떨어질 수 있음을 발견했다.
소프트웨어 엔지니어이자 AI 연구자인 프랑수아 콜레는 "현재의 거의 모든 AI 벤치마크는 순전히 암기만으로 해결할 수 있다."라고 말했다. "벤치마크에 어떤 종류의 질문이 있는지 보고 이러한 질문이나 매우 유사한 질문이 모델의 훈련 데이터에 포함되었는지 확인하기만 하면 된다."
그는 "암기는 유용하지만 지능은 다른 것이다."라고 덧붙였다. "장 피아제의 말처럼 지능은 무엇을 해야 할지 모를 때 사용하는 것이다. 새로운 상황에 직면했을 때 학습하고, 적응하고 즉흥적으로 대처하고, 새로운 기술을 습득하는 방법이다."
2019년에 콜렛은 이러한 종류의 지능에 대한 AI를 평가하는 기만적으로 간단한 벤치마크인 추상화 및 추론 코퍼스(ARC)를 설명하는 논문을 발표했다. "모든 과제가 시험 응시자에게 새로운 것으로 의도된 기술 습득 효율성 테스트이다."라고 콜렛은 말했다. "암기에 강하도록 설계되었다. 그리고 지금까지 시간의 시험을 견뎌냈다."
ARC는 1938년에 발명된 인간의 IQ 테스트인 레이븐의 프로그레시브 매트릭스와 유사하다. 각 질문에는 1×1에서 30×30까지의 크기의 그리드 쌍이 있다. 각 쌍에는 입력 그리드와 출력 그리드가 있으며, 그리드의 셀은 최대 10가지 색상으로 채워진다. AI의 작업은 하나 또는 두 개의 예제에서 확립된 패턴을 기반으로 주어진 입력에 대한 출력이 어떻게 보일지 예측하는 것이다.
ARC 문제의 예.
논문을 발표한 이후, 콜렛은 65개국 이상의 수백 명의 AI 개발자가 참여하는 여러 ARC 경연 대회를 주최했다. 처음에는 가장 뛰어난 AI가 ARC 작업의 20%를 해결할 수 있었다. 지금은 34%로 늘어났지만, 대부분 인간이 해결할 수 있는 84%에는 여전히 크게 못 미친다.
AI 추론의 진전을 가속화하기 위해 콜렛은 6월에 워크플로 자동화 회사인 Zapier의 공동 창립자인 마이크 크눕(Mike Knoop)과 협력하여 ARC Prize를 시작했다. 이 대회는 어떤 AI가 일련의 ARC 작업에서 가장 높은 점수를 받을 수 있는지 보는 대회로, 최고의 시스템에는 100만 달러 이상(그리고 엄청난 명예)이 걸려 있다.
경쟁을 위한 공개 교육 및 평가 세트는 각각 400개의 ARC 작업으로 구성되어 있으며, GitHub에서 개발자에게 제공된다. 참가자는 경쟁을 위해 2024년 11월 10일까지 코드를 제출해야 한다. 그런 다음 AI는 오프라인에서 ARC Prize의 비공개 평가 세트인 100개 과제에서 테스트를 받게 된다. 이 접근 방식은 테스트 문제가 유출되지 않고 AI가 평가 전에 문제를 볼 기회가 없도록 보장한다.
수상자는 2024년 12월 3일에 발표되며, 가장 높은 점수를 받은 5개의 AI는 각각 5,000달러에서 25,000달러를 받는다. 500,000달러의 최고 상금을 받으려면 참가자의 AI가 과제의 85%를 풀어야 한다. 아무도 우승하지 못하면 상금은 2025년 대회로 넘어간다. 모든 상을 받으려면 개발자는 코드를 오픈 소스로 공개할 의향이 있어야 한다.
대회 웹사이트에 따르면 "ARC Prize의 목적은 인공 일반 지능(AGI)으로 이어질 수 있는 아키텍처에 더 많은 AI 연구 초점을 맞추고 주목할 만한 획기적인 발견이 대기업 AI 연구실에서 영업 비밀로 남지 않도록 하는 것이다."
이 새로운 방향은 LLM 및 유사한 생성 AI에서 벗어날 가능성이 크다. 그들은 2023년에 AI 자금의 거의 절반을 차지했지만, 콜렛에 따르면 AGI로 이어질 가능성이 낮을 뿐만 아니라 AGI로의 진행 속도를 적극적으로 늦추고 있다.
"OpenAI는 기본적으로 AGI로의 진행을 5~10년 늦췄다."라고 말했다. "그들은 프런티어 연구 출판의 완전한 폐쇄를 초래했고, 이제 LLM은 본질적으로 방의 산소를 빨아들였다. 모두가 LLM을 하고 있다."
LLM이 우리를 AGI에 더 가깝게 만들어 줄 것이라는 것에 회의적인 견해를 가진 사람은 그 혼자가 아니다. Meta의 수석 AI 과학자인 얀 르쿤(Yann LeCun)은 "인간 수준의 지능으로 가는 길에서 LLM은 기본적으로 오프램프, 방해물, 막다른 길"이라고 말했고, OpenAI의 CEO인 샘 알트만은 LLM을 확장해도 AGI로 이어질 것이라고 생각하지 않는다고 말했다.
어떤 종류의 AI가 AGI로 이어질 가능성이 가장 높은지에 대해서는 말하기에는 너무 이르지만, 콜렛은 지금까지 ARC에서 가장 좋은 성과를 보인 접근 방식에 대한 세부 정보를 공유했다. 여기에는 능동적 추론, DSL 프로그램 합성, 이산 프로그램 검색이 포함된다. 그는 또한 딥 러닝 모델을 탐색할 가치가 있다고 믿고, 진입자들에게 새로운 접근 방식을 시도하도록 권장한다.
궁극적으로, 그와 다른 사람들이 LLM이 AGI로 가는 길의 막다른 길이라는 의견이 맞다면, AI에서 일반 지능의 "불꽃"을 실제로 식별할 수 있는 새로운 테스트는 엄청난 가치가 있을 수 있으며, 업계가 가능한 한 빨리 AGI로 이어질 종류의 모델과 함께 올 수 있는 모든 세상을 바꿀 수 있는 이점을 연구하는 데 초점을 맞추는 데 도움이 될 수 있다.
<저작권자 ⓒ ainet 무단전재 및 재배포 금지>
인공지능, 대형 언어 모델(LLM), 일반 인공 지능(AGI), ARC 관련기사목록
|
많이 본 기사
6
챗GPT와 AI, 로봇 많이 본 기사
최신기사
|