광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[오픈 액세스, 다국어 AI] GPT-3과 유사한 규모의 새로운 언어 모델이 무료로 제공되고 있으며 AI에 대한 액세스를 민주화하는 데 도움이 될 수 있다. 대형 오픈 사이언스 오픈 액세스 다국어 언어 모델(BLOOM)은 AI 혁신을 만들고, 연구하고, 공유하는 또 다른 방법이 가능하며, 국제적, 다학문적, 오픈 액세스 프로젝트를 중심으로 산업, 학계 및 비영리 단체를 함께 모을 수 있다.

: https://www.futuretimeline.net/blog/2022/07/14-open-access-multilingual-ai.htm

JM Kim | 기사입력 2022/07/19 [00:00]

[오픈 액세스, 다국어 AI] GPT-3과 유사한 규모의 새로운 언어 모델이 무료로 제공되고 있으며 AI에 대한 액세스를 민주화하는 데 도움이 될 수 있다. 대형 오픈 사이언스 오픈 액세스 다국어 언어 모델(BLOOM)은 AI 혁신을 만들고, 연구하고, 공유하는 또 다른 방법이 가능하며, 국제적, 다학문적, 오픈 액세스 프로젝트를 중심으로 산업, 학계 및 비영리 단체를 함께 모을 수 있다.

: https://www.futuretimeline.net/blog/2022/07/14-open-access-multilingual-ai.htm

JM Kim | 입력 : 2022/07/19 [00:00]

BLOOM(BigScience 대형 오픈 사이언스 오픈 액세스 다국어 언어 모델 BigScience Large Open-science Open-access Multilingual Language Model) BigScience라는 협업을 통해 윤리학자, 철학자 및 법률 전문가의 지원을 받아 70개 이상의 국가 및 250개 기관의 1,000명의 자원 연구원이 개발했다. 뉴욕에 기반을 둔 스타트업 Hugging Face가 조정한 이 프로젝트는 프랑스 정부의 자금을 사용했다.

 

새로운 AI는 프랑스 파리 남쪽에 위치한 유럽에서 가장 강력한 슈퍼컴퓨터 중 하나인 Jean Zay를 사용하여 117(3 11~7 6)의 최종 실행을 포함하여 1년 이상의 계획과 교육이 필요했다.

 

AI 언어 모델에서 "매개변수"라는 용어는 입력 데이터가 원하는 출력으로 변환되는 방식을 결정하는 변수를 나타낸다. 이들은 인간 두뇌의 개별 뉴런과 동등하다고 생각할 수 있다. BLOOM의 매개변수 수(1,760) GPT-3(1,750)보다 약간 높으며 후자는 아마도 최근 모델 중 가장 잘 알려진 모델일 것이다. 그러나 BLOOM은 주요 이점을 제공한다.

 

첫째, 46개의 자연어와 13개의 프로그래밍 언어로 텍스트를 생성할 수 있다. 스페인어, 프랑스어 및 아랍어와 같은 거의 모든 언어의 경우 BLOOM 1000억 개 이상의 매개변수가 있는 첫 번째 언어 모델이 될 것이다.

 

BLOOM의 다음 주요 기능은 100% 개방적이고 투명한 개발 특성이다. OpenAI GPT-3 Google LaMDA와 같은 현재 세대의 대규모 AI 모델은 공개 검사에서 크게 숨겨져 있다. 대조적으로 BLOOM 뒤에 있는 팀은 코드를 무료로 제공하고 있다.

 

AI 훈련에 사용되는 텍스트 소스는 문학에서 과학 기사, 라디오 녹음, 팟캐스트, 스포츠 뉴스에 이르기까지 수백만 권의 책 내용에 해당하는 매우 다양하다. 아프리카의 20개 언어를 포함하여 언어도 매우 다양하다. 연구원에 따르면 다양한 언어로 된 콘텐츠를 결합하면 강력하고 강력한 모델을 훈련할 수 있으며 종종 단일 언어 모델보다 더 나은 결과를 얻을 수 있다. 아래 파이 차트에서 볼 수 있듯이 13개의 다른 프로그래밍 언어로 된 코드가 입력의 10.8%를 차지했다.

 

마지막으로 BLOOM은 책임 있는 AI 라이선스에 따라 배포되며 악의적인 목적으로 사용하는 것을 명시적으로 금지한다. 언어 모델에 대한 현재 법률이 아직 완전히 구체화되지는 않았지만 이 라이선스는 사람들에게 해를 입히거나 기만하거나 착취하기 위해 고위험 애플리케이션에서 BLOOM을 사용하는 것을 억제하도록 설계된 서비스 약관과 같은 기능을 할 수 있다.

 

 

블로그 게시물에서 작성자는 "BLOOM은 텍스트의 요약 또는 번역을 생성하고 지침에서 코드를 출력하고 지시에 따라 레시피 작성, 뉴스 기사에서 정보 추출 또는 다음을 사용하여 문장 작성과 같은 독창적인 작업을 수행하도록 요청할 수 있다. 새로 정의된 발명어 [...] BLOOM의 성능은 워크샵이 BLOOM 위에서 계속 실험하고 발전함에 따라 계속 향상될 것이다."

 

언어 다양성 외에도 이전 AI 모델에서 발생하는 편견 및 독성 문제를 해결하는 데 도움이 될 수 있다. 그 뒤에 있는 팀은 BLOOM이 인종, 종교, 성별 및 장애인에 대한 거짓과 편견을 제거하는 새로운 방법에 박차를 가하기를 희망한다.

 

BigScience 협업은 "우리는 더 많은 언어를 추가하고 동일한 성능 수준에서 더 쉽게 사용할 수 있도록 모델을 더 작게 만들 예정이며 확장을 위한 커뮤니티의 노력을 지원할 것이다"라고 말한다. "BLOOM은 한 번에 완성되는 모델이 아니라 성장할 모델의 살아있는 가족이다."

 

"BLOOM 모델의 생성과 BigScience 연구 협력의 성공은 AI 혁신을 만들고, 연구하고, 공유하는 또 다른 방법이 가능하며, 국제적, 다학문적, 오픈 액세스 프로젝트를 중심으로 산업, 학계 및 비영리 단체를 함께 모을 수 있다."Hugging Face의 공동 설립자이자 최고 과학 책임자인 Thomas Wolf는 말했다. "Hugging Face가 프랑스에서 글로벌 규모의 새로운 접근 방식을 추구하는 데 필요한 지원을 찾을 수 있게 되어 기쁘다."

 

AIX Ventures의 투자자이자 멘토인 Richard Socher TechCrunch와의 인터뷰에서 "BLOOM은 값비싼 대규모 기본 모델에 대해서도 오픈 소스 및 오픈 과학의 지속적인 힘을 보여준다."라고 말했다. "또한 AI에서 어떤 조직도 오랫동안 주요 우위를 점하지 못한다는 것을 보여준다. 조직에서 무언가가 가능하다는 것을 보여주면 6~12개월 후에 다른 곳에서도 동일한 기능이 나타날 것이다."

 

  

 
단일 언어, 인공지능, 언어, 다국어 오픈소스 관련기사목록
광고
광고
광고
광고
광고
광고
많이 본 기사
최신기사