광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[Google AI, 새로운 텍스트-이미지 변환기 모델인 Muse 공개] 오픈AI의 달리2와 경쟁할 구글AI의 그림그리는 Muse. Google AI는 6억 3,200만에서 30억 개의 매개변수에 이르는 다양한 크기의 Muse 모델 시리즈를 교육했으며, 사전 교육된 대규모 언어 모델에 대한 조건이 사실적인 고품질 이미지를 생성하는 데 중요하다는 사실을 발견했다.

박영숙세계미래보고서저자 | 기사입력 2023/01/15 [13:55]

[Google AI, 새로운 텍스트-이미지 변환기 모델인 Muse 공개] 오픈AI의 달리2와 경쟁할 구글AI의 그림그리는 Muse. Google AI는 6억 3,200만에서 30억 개의 매개변수에 이르는 다양한 크기의 Muse 모델 시리즈를 교육했으며, 사전 교육된 대규모 언어 모델에 대한 조건이 사실적인 고품질 이미지를 생성하는 데 중요하다는 사실을 발견했다.

박영숙세계미래보고서저자 | 입력 : 2023/01/15 [13:55]

 

Google AI는 Masked Generative Transformers를 통한 새로운 Text-to-Image Generation인 Muse 에 대한 연구논문을 발표했다. Muse는 DALL-E 2 및 Imagen과 같은 경쟁 모델에서 생성된 것과 비슷한 고품질 사진을 훨씬 빠른 속도로 생성할 수 있다. 더 빠르게 생성한다.

 

First look - Muse by Google AI/Research - Launched 2/Jan/2023 - (3B + 4.6B  T5-XXL) - Google Muse - YouTube

Muse: A Text-to-Image Generation Model by Google AI

Muse는 이미 훈련된 대규모 언어 모델의 텍스트 임베딩을 사용하여 무작위로 마스킹된 이미지 토큰을 예측하도록 훈련되었다. 이 작업에는 개별 토큰 공간에서 마스킹된 모델링이 포함된다. Muse는 마스크된 생성 변환기라고 하는 9억 개의 매개변수 모델 을 사용하여 픽셀 공간 확산 또는 자동 회귀 모델 대신 시각적 개체를 생성한다.

Google은 TPUv4 칩을 사용하면 256 x 256 이미지를 단 0.5초 만에 생성할 수 있다고 주장한다. Imagen을 사용하면 9.1초가 걸리지만 확산 모델은 "전례 없는 수준의 포토리얼리즘"과 "깊은 수준의 언어 이해." TPU 또는 Tensor Processing Unit은 Google에서 전용 AI 가속기로 개발한 맞춤형 칩이다.

연구에 따르면 Google AI는 6억 3,200만에서 30억 개의 매개변수에 이르는 다양한 크기의 Muse 모델 시리즈를 교육했으며, 사전 교육된 대규모 언어 모델에 대한 조건이 사실적인 고품질 이미지를 생성하는 데 중요하다는 사실을 발견했다.

Muse 는 병렬 디코딩을 사용하고 Imagen-3B 또는 Parti-3B 모델보다 추론 시간이 10배 이상 빠르고 Stable Diffusion v1 보다 3배 더 빠르기 때문에 최첨단 자동 회귀 모델인 Parti 보다 성능이 뛰어난다. 4 동등한 하드웨어를 사용한 테스트를 기반으로 한다.

Muse는 명사, 동사, 형용사 등 입력 캡션에서 발견되는 음성의 다양한 구성 요소에 해당하는 시각적 개체를 생성한다. 또한 시각적 스타일과 구성 및 카디널리티와 같은 다중 객체 기능에 대한 지식을 보여준다.

생성 이미지 모델 은 참신한 훈련 방법과 개선된 딥 러닝 아키텍처 덕분에 최근 몇 년 동안 큰 발전을 이루었다. 이러한 모델은 매우 상세하고 사실적인 이미지를 생성할 수 있는 기능이 있으며 광범위한 산업 및 응용 분야에서 점점 더 강력한 도구가 되고 있다.

저자 소개

 
광고
광고
광고
광고
광고
광고
많이 본 기사