이 미니 AI 모델은 1,000배 적은 데이터로 OpenAI와 일치한다.
인공지능 산업은 규모에 집착한다. 더 큰 알고리즘. 더 많은 데이터. 몇 년 안에 도시 전체에 전력을 공급할 만큼 충분한 전기를 소모할 수 있는 방대한 데이터 센터.
이러한 끝없는 욕망 때문에 OpenAI는 올해 37억 달러의 수익을 낼 예정이지만 50억 달러의 손실을 볼 것으로 예상되지만, 66억 달러의 추가 자금을 조달하고 40억 달러의 신용 한도를 개설했다고 발표했다.
이러한 놀라운 수치는 규모가 전부가 아니라는 사실을 잊기 쉽게 만든다.
일부 연구원, 특히 리소스가 적은 연구원은 적은 것으로 더 많은 것을 하려고 한다. AI 확장은 계속되지만 이러한 알고리즘은 성장함에 따라 훨씬 더 효율적이 될 것이다.
모든 것은 데이터에 있다.
알렌인공지능연구소(Allen Institute for Artificial Intelligence(Ai2)는 양보다 데이터 품질에 집중함으로써 이러한 업적을 달성했다고 말했다.
GPT-4o와 같은 수십억 개의 예제를 제공하는 알고리즘은 인상적으로 유능하다. 하지만 저품질 정보를 대량으로 수집한다. 이 모든 노이즈는 귀중한 컴퓨팅 파워를 소모한다.
Ai2는 새로운 멀티모달 모델을 구축하기 위해 기존의 대규모 언어 모델과 비전 인코더의 백본을 조립했다. 그런 다음 약 700,000개의 이미지와 130만 개의 캡션으로 구성된 보다 집중적이고 고품질의 데이터 세트를 컴파일하여 시각적 기능을 갖춘 새로운 모델을 훈련했다. 많은 것처럼 들릴 수 있지만 독점적인 멀티모달 모델에서 사용되는 데이터보다 약 1,000배 적은 데이터이다.
팀은 캡션을 작성하는 대신 주석 작성자에게 각 이미지에 대한 질문 목록에 답하는 60~90초 분량의 구두 설명을 기록하도록 요청했다. 그런 다음 그들은 종종 여러 페이지에 걸쳐 있는 설명을 필사하고 다른 대규모 언어 모델을 사용하여 정리하고 압축하고 표준화했다. 그들은 서면 주석에서 구두 주석으로의 이 간단한 전환이 별다른 노력 없이 훨씬 더 많은 세부 정보를 제공한다는 것을 발견했다.
작은 모델, 최고의 개
결과는 인상적이다.
작업을 설명하는 기술 논문에 따르면, 팀의 가장 큰 모델인 Molmo 72B는 11개의 학술적 벤치마크와 사용자 선호도에 따라 OpenAI의 GPT-4o, Anthropic의 Claude 3.5 Sonnet, Google의 Gemini 1.5 Pro를 포함한 최첨단 폐쇄형 모델과 거의 비슷하거나 더 나은 성능을 보였다. 가장 큰 모델의 10분의 1 크기인 더 작은 Molmo 모델조차도 최첨단 모델과 유리하게 비교된다.
Molmo는 이미지에서 식별하는 사물을 가리킬 수도 있다. 이러한 종류의 기술은 개발자가 레스토랑 예약과 같은 작업을 처리하기 위해 웹페이지의 버튼이나 필드를 식별하는 AI 에이전트를 구축하는 데 도움이 될 수 있다. 또는 로봇이 현실 세계의 사물을 더 잘 식별하고 상호 작용하도록 도울 수 있다.
Ai2 CEO인 알리 파르하디(Ali Farhadi)는 벤치마크가 얼마나 많은 것을 알려줄 수 있는지에 대해서는 논란의 여지가 있음을 인정했다. 하지만 우리는 그것들을 사용하여 대략적인 모델 간 비교를 할 수 있다.
"사람들이 평가하는 벤치마크는 12가지가 있다. 나는 과학적으로 이 게임을 좋아하지 않는다... 하지만 저는 사람들에게 숫자를 보여줘야 했다."라고 파르하디가 시애틀 출시 이벤트에서 말했다. "우리의 가장 큰 모델은 72B라는 작은 모델인데, 이 벤치마크에서 GPT와 Claudes, Geminis보다 성능이 뛰어나다. 다시 한 번 말씀드리지만, 이 벤치마크를 소금 한 알 정도로 믿는다. 이것이 정말로 이 모델보다 더 낫다는 것을 의미할까? 나는 모른다. 하지만 적어도 우리에게는 이것이 같은 게임을 하고 있다는 것을 의미한다."
오픈소스 AI
Molmo는 더 작을 뿐만 아니라 오픈소스이다. 이는 이제 사람들이 독점 모델에 대한 무료 대안을 사용할 수 있다는 것을 의미하기 때문에 중요하다.
일부 마크에서 최고 모델과 경쟁하기 시작한 다른 오픈 모델이 있다. 예를 들어 Meta의 Llama 3.1 405B는 최초로 확장된 오픈 가중치 대형 언어 모델이다. 하지만 멀티모달은 아니다. (Meta는 지난주에 더 작은 Llama 모델의 멀티모달 버전을 출시했다. 앞으로 몇 달 안에 가장 큰 모델에 대해서도 마찬가지일 수 있다.)
Molmo는 또한 Llama보다 더 개방적이다. Meta의 모델은 "오픈 가중치" 모델로 가장 잘 설명할 수 있는데, 회사에서 모델 가중치는 공개하지만 학습에 사용된 코드나 데이터는 공개하지 않기 때문이다. 가장 큰 Molmo 모델은 Alibaba Cloud의 오픈 가중치 Qwen2 72B를 기반으로 한다. Llama와 마찬가지로 학습 데이터나 코드는 포함되지 않지만 Ai2는 모델을 멀티모달로 만드는 데 사용한 데이터 세트와 코드를 공개했다.
또한 Meta는 상업적 사용을 7억 명 미만의 사용자를 보유한 제품으로 제한한다. 반면 Molmo는 Apache 2.0 라이선스를 제공한다. 즉, 개발자는 모델을 수정하고 제한 없이 제품을 상용화할 수 있다.
"우리는 연구자, 개발자, 앱 개발자, 이러한 [대규모] 모델을 다루는 방법을 모르는 사람들을 타겟으로 삼고 있다. 이렇게 광범위한 대상 고객을 타겟으로 삼는 데 있어 핵심 원칙은 저희가 한동안 추진해 온 핵심 원칙인데, 바로 접근성을 높이는 것이다."라고 파르하디는 말했다.
발꿈치에 끼어들기
여기서 주목할 점이 몇 가지 있다. 첫째, 독점 모델 제작자가 모델을 수익화하려고 하는 동안 유사한 기능을 갖춘 오픈소스 대안이 등장하고 있다. Molmo가 보여주듯이 이러한 대안은 더 작기 때문에 로컬에서 실행할 수 있고 더 유연하다. AI 제품의 약속으로 수십억 달러를 모으는 기업에 대한 합법적인 경쟁이다.
프린스턴 대학의 포스트닥인 오피르 프레스(Ofir Press)는 "오픈소스 멀티모달 모델이 있다는 것은 아이디어가 있는 모든 스타트업이나 연구자가 시도할 수 있다는 것을 의미한다."라고 말했다.
동시에 이미지와 텍스트 작업은 OpenAI와 Google의 오래된 일이다. 이 회사들은 고급 음성 기능, 비디오 생성 및 추론 기술을 추가하여 다시 앞서 나가고 있다. 수십억 달러의 새로운 투자와 출판사와의 거래에서 증가하는 양질의 데이터에 대한 액세스로 차세대 모델이 다시 위험을 높일 수 있다.
그래도 Molmo는 가장 큰 기업이 기술 확장에 수십억 달러를 투자하는 동안 오픈소스 대안이 멀지 않을 수 있다고 제안한다
이미지 출처: 리소스 데이터베이스 / Unsplash