광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고

AI넷

[혁신적인 파운데이션 모델 공개, 트랜스포머 기반 AI에 도전] 트랜스포머 아키텍처에 구축된 현재의 생성형 AI 모델과 달리, Liquid AI는 엔진, 자동차 또는 비행기를 만드는 것과 유사한 엔지니어링 접근 방식을 취하여 "첫 번째 원칙"에 기반한 모델을 개발하는 것을 목표

박세훈 | 기사입력 2024/10/07 [00:04]

[혁신적인 파운데이션 모델 공개, 트랜스포머 기반 AI에 도전] 트랜스포머 아키텍처에 구축된 현재의 생성형 AI 모델과 달리, Liquid AI는 엔진, 자동차 또는 비행기를 만드는 것과 유사한 엔지니어링 접근 방식을 취하여 "첫 번째 원칙"에 기반한 모델을 개발하는 것을 목표

박세훈 | 입력 : 2024/10/07 [00:04]

 

혁신적인 파운데이션 모델 공개, 트랜스포머 기반 AI에 도전

 

컴퓨터 과학 및 인공 지능 연구소(Computer Science and Artificial Intelligence Laboratory, CSAIL)의 전 MIT 연구원들이 공동 설립한 스타트업인 리퀴드 AI(Liquid AI)가 최초의 멀티모달 AI 모델인 '리퀴드 파운데이션 모델(LFM)'을 도입했다. 이 모델은 2017년 논문 "Attention Is All You Need"가 발표된 이후 AI 개발을 지배해 온 트랜스포머 아키텍처에서 과감한 출발을 나타낸다.

트랜스포머 아키텍처에 구축된 현재의 생성형 AI 모델과 달리, Liquid AI는 엔진, 자동차 또는 비행기를 만드는 것과 유사한 엔지니어링 접근 방식을 취하여 "첫 번째 원칙"에 기반한 모델을 개발하는 것을 목표로 한다. 이러한 근본적인 변화는 Meta의 Llama 3.1-8B 및 Microsoft의 Phi-3.5 3.8B와 같은 비슷한 크기의 변압기 기반 대안을 능가하는 모델로 이어졌다.

Liquid AI의 LFM은 세 가지 변형으로 제공된다.

  • LFM 1.3B(최소)
  • LFM 3B
  • LFM 40B MoE (가장 큰, Mistral의 Mixtral과 유사한 "Mixture-of-Experts" 모델)

이러한 모델 이름의 "B"는 매개 변수의 수를 나타내며, 매개 변수 수가 많을수록 일반적으로 다양한 작업에서 더 넓은 기능을 사용할 수 있다. 리퀴드 AI(Liquid AI)는 가장 작은 모델인 LFM 1.3B가 57개의 과학, 기술, 공학 및 수학(STEM) 문제를 다루는 MMLU(Massive Multitask Language Understanding) 테스트와 같은 벤치마크에서 이미 Meta의 Llama 3.2-1.2B와 Microsoft의 Phi-1.5를 능가한다고 보고합니다. 비변압기 기반 아키텍처가 기존 모델을 능가한 것은 이번이 처음이다.

Liquid AI의 LFM은 벤치마크에서 우수한 성적을 거두었을 뿐만 아니라 메모리 효율이 매우 높다. 예를 들어, LFM-3B 모델은 16GB의 메모리만 필요한데 비해 Meta의 Llama-3.2-3B 모델은 48GB의 메모리가 필요하다. 이러한 효율성으로 인해 LFM은 금융 서비스 및 생명 공학 분야의 엔터프라이즈 수준 작업에서 에지 장치 배포에 이르기까지 광범위한 응용 분야에 이상적이다.

리퀴드 AI의 포스트 트레이닝 책임자인 막심 라본(Maxime Labonne)은 소셜 미디어에서 LFM의 출시를 축하하며 "내 경력에서 가장 자랑스러운 릴리스"라고 말했다. Labonne은 LFM의 주요 장점은 변압기 기반 제품보다 훨씬 적은 메모리를 소비하면서 우수한 성능을 제공할 수 있는 능력이라고 강조했다.

Liquid AI의 모델은 오디오, 비디오, 텍스트, 시계열 및 신호를 포함한 다양한 유형의 순차 데이터를 처리하도록 설계되었다. 이 멀티모달 기능을 통해 생명 공학, 금융 서비스 및 소비자 가전과 같은 다양한 산업 전반에 걸쳐 복잡한 문제를 해결할 수 있다. 동적 시스템, 신호 처리 및 수치 선형 대수학에 뿌리를 둔 계산 원리를 기반으로 구축된 LFM은 토큰 길이가 증가하더라도 메모리 사용을 최소화하면서 최대 100만 개의 토큰을 효율적으로 처리할 수 있다.

예를 들어, LFM-3B 모델은 Google의 Gemma-2 및 Microsoft의 Phi-3와 같은 모델보다 메모리 사용량이 작기 때문에 문서 분석이나 챗봇 애플리케이션과 같은 장기 컨텍스트 처리 작업에 특히 효과적이다.

Liquid AI의 모델은 오픈 소스가 아니지만 회사의 추론 플레이그라운드, Lambda Chat 및 Perplexity AI를 통해 액세스할 수 있다. Liquid AI는 NVIDIA, AMD, Apple, Qualcomm 및 Cerebras를 포함한 다양한 하드웨어 플랫폼에 배포하기 위해 이러한 모델을 최적화하여 산업 전반에 걸쳐 광범위한 호환성을 제공한다.

모델은 아직 프리뷰 단계에 있지만, Liquid AI는 얼리어답터와 개발자를 초대하여 테스트하고 피드백을 제공한다. 라본은 모델이 완벽하지는 않지만, 피드백은 팀이 2024년 10월 23일 매사추세츠주 케임브리지에 있는 MIT의 크레스게 강당에서 정식 출시를 앞두고 모델을 개선하는 데 도움이 될 것이라고 인정했다. 이 행사에는 기술 토론이 포함될 예정이며, Liquid AI는 모델 이면의 기술을 자세히 설명하는 일련의 블로그 게시물을 발표할 계획이다.

투명성에 대한 약속의 일환으로 Liquid AI는 약점을 식별하고 향후 반복을 개선하기 위한 레드팀 노력을 장려하고 있다. Liquid Foundation Model의 도입으로 Liquid AI는 Foundation 모델 환경에서 핵심 플레이어로 자리매김하고 있으며, 현재 이 공간을 지배하고 있는 트랜스포머 기반 아키텍처에 대한 강력한 대안을 제공하고 있다.

Liquid AI는 최첨단 성능과 놀라운 메모리 효율성을 결합하여 AI 개발의 새로운 시대를 위한 발판을 마련하고 있다. (Impact Lab)

 
광고
광고
광고
광고
광고
광고
많이 본 기사