시작페이지로　l　즐겨찾기　l　RSS　l　편집 2024.04.30 [11:17]

세상을 바꾸자
AI바이오제약 수명연장
자율차,드론, 교통, 에너지,기후
유투브
신기술&메타버스AR/VR
AiMindbot과 미래 우주
챗GPT와 AI, 로봇
라이프,거버넌스, 조직, 유망직종

챗GPT와 AI, 로봇

[최고의 오픈 소스 대규모 언어 모델(LLM) 5가지] 빠르게 진화하는 인공지능(AI) 세계에서 대규모 언어 모델(Large Language Models)은 혁신을 주도하고 기술과 상호 작용하는 방식을 재구성하는 초석으로 부상했다. 이것은 AI 커뮤니티에서 파장을 일으키고 있으며 각각 고유한 강점과 기능을 테이블에 제공하는 최고의 오픈 소스 LLM 중 일부를 살펴본다.

https://www.unite.ai/best-open-source-llms/

JM Kim | 기사입력 2023/08/14 [00:00]

챗GPT와 AI, 로봇

[최고의 오픈 소스 대규모 언어 모델(LLM) 5가지] 빠르게 진화하는 인공지능(AI) 세계에서 대규모 언어 모델(Large Language Models)은 혁신을 주도하고 기술과 상호 작용하는 방식을 재구성하는 초석으로 부상했다. 이것은 AI 커뮤니티에서 파장을 일으키고 있으며 각각 고유한 강점과 기능을 테이블에 제공하는 최고의 오픈 소스 LLM 중 일부를 살펴본다.

https://www.unite.ai/best-open-source-llms/

JM Kim

| 입력 : 2023/08/14 [00:00]

오픈 소스 대규모 언어 모델이 점점 더 정교해짐에 따라 이에 대한 액세스를 민주화하는 데 점점 더 중점을 두고 있다. 특히 오픈 소스 모델은 이러한 민주화에서 중추적인 역할을 하며 연구원, 개발자 및 애호가 모두에게 복잡성을 깊이 탐구하고 특정 작업에 맞게 미세 조정하거나 기반을 구축할 수 있는 기회를 제공한다.

1. Llama 2

Meta의 Llama 2는 AI 모델 라인업에 획기적인 추가 기능이다. 이것은 단지 다른 모델이 아니다. 다양한 최신 응용 프로그램에 연료를 공급하도록 설계되었다. Llama 2의 훈련 데이터는 방대하고 다양하여 이전 모델에 비해 크게 발전했다. 이러한 교육의 다양성은 Llama 2가 단순한 점진적인 개선이 아니라 AI 기반 상호 작용의 미래를 향한 기념비적인 단계임을 보장한다.

Meta와 Microsoft 간의 협업은 Llama 2의 지평을 넓혔다. 오픈 소스 모델은 이제 Azure 및 Windows와 같은 플랫폼에서 지원되며, 개발자와 조직에 생성 AI 기반 경험을 생성할 수 있는 도구를 제공하는 것을 목표로 한다. 이 파트너십은 모두가 AI에 보다 쉽게 접근하고 개방할 수 있도록 하기 위한 두 회사의 헌신을 강조한다.

Llama 2는 원래 Llama 모델의 후속 제품이 아니다. 이는 챗봇 분야의 패러다임 전환을 나타낸다. 첫 번째 Llama 모델은 텍스트와 코드를 생성하는 데 있어 혁신적이었지만 오용을 방지하기 위해 가용성이 제한되었다. 반면에 Llama 2는 더 많은 청중에게 다가갈 예정이다. AWS, Azure, Hugging Face의 AI 모델 호스팅 플랫폼과 같은 플랫폼에 최적화되어 있다. 또한 Meta와 Microsoft의 협력을 통해 Llama 2는 Windows뿐만 아니라 Qualcomm의 Snapdragon 시스템 온 칩으로 구동되는 장치에서도 명성을 떨칠 준비가 되어 있다.

안전은 Llama 2 디자인의 핵심이다. 때때로 오해의 소지가 있거나 유해한 콘텐츠를 생성하는 GPT와 같은 초기 대규모 언어 모델이 직면한 문제를 인식하여 Meta는 Llama 2의 안정성을 보장하기 위해 광범위한 조치를 취했다. 이 모델은 '환각', 잘못된 정보 및 편견을 최소화하기 위해 엄격한 교육을 받았다.

LLaMa 2의 주요 기능:

°다양한 훈련 데이터: Llama 2의 훈련 데이터는 광범위하고 다양하여 포괄적인 이해와 성능을 보장한다.

°Microsoft와의 협업: Llama 2는 Azure 및 Windows와 같은 플랫폼에서 지원되어 애플리케이션 범위를 확장한다.

°공개 가용성: 이전 버전과 달리 Llama 2는 여러 플랫폼에서 미세 조정할 준비가 된 더 많은 청중이 사용할 수 있다.

°안전 중심 설계: Meta는 안전을 강조하여 Llama 2가 유해한 출력을 최소화하면서 정확하고 신뢰할 수 있는 결과를 생성하도록 한다.

°최적화된 버전: Llama 2는 Llama 2와 Llama 2-Chat의 두 가지 주요 버전으로 제공되며 후자는 양방향 대화를 위해 특별히 설계되었다. 이러한 버전의 복잡성은 70억에서 700억 매개변수에 이른다.

°향상된 훈련: Llama 2는 원래 Llama의 1조 4천억 개의 토큰에서 크게 증가한 2백만 개의 토큰으로 훈련되었다.

2. Claude 2

Anthropic의 최신 AI 모델인 Claude 2는 단순한 업그레이드가 아니라 AI 모델 기능의 상당한 발전을 나타낸다. 향상된 성능 메트릭을 통해 Claude 2는 사용자에게 확장되고 일관된 응답을 제공하도록 설계되었다. 이 모델의 접근성은 광범위하며 API와 전용 베타 웹사이트를 통해 사용할 수 있다. 사용자 피드백에 따르면 Claude와의 상호 작용은 직관적이며 모델이 자세한 설명을 제공하고 확장된 메모리 용량을 보여준다.

학업 및 추론 능력 측면에서 Claude 2는 놀라운 성과를 보였다. 이 모델은 변호사 시험의 객관식 섹션에서 76.5%의 점수를 달성하여 Claude 1.3이 달성한 73.0%보다 향상되었다. 대학원 프로그램을 준비하는 대학생에 대해 벤치마킹했을 때 Claude 2는 GRE 읽기 및 쓰기 시험에서 90번째 백분위수 이상을 수행하여 복잡한 콘텐츠를 이해하고 생성하는 능력을 나타낸다.

Claude 2의 다양성은 주목할만한 또 다른 기능이다. 이 모델은 최대 100,000개 토큰의 입력을 처리할 수 있으므로 기술 매뉴얼에서 종합 서적에 이르는 광범위한 문서를 검토할 수 있다. 또한 Claude 2는 공식 커뮤니케이션에서 자세한 내러티브에 이르기까지 확장된 문서를 원활하게 생성할 수 있다. 모델의 코딩 기능도 향상되어 Claude 2는 Python 코딩 평가인 Codex HumanEval에서 71.2%, 초등학교 수학 과제 모음인 GSM8k에서 88.0%를 달성했다.

안전은 Anthropic의 가장 중요한 관심사로 남아 있다. Claude 2가 잠재적으로 유해하거나 부적절한 콘텐츠를 생성하는 데 덜 취약하도록 노력했다. 세심한 내부 평가와 고급 안전 방법론의 적용을 통해 Claude 2는 이전 모델과 비교할 때 양성 반응을 생성하는 데 상당한 개선을 보여주었다.

Claude 2: 주요 기능

°성능 향상: Claude 2는 더 빠른 응답 시간을 제공하고 더 자세한 상호 작용을 제공한다.

°다중 액세스 포인트: 이 모델은 API 또는 전용 베타 웹사이트인 claude.ai를 통해 액세스할 수 있다.

°학업 우수성: Claude 2는 학업 평가, 특히 GRE 읽기 및 쓰기 부문에서 칭찬할 만한 결과를 보여주었다.

°확장된 입력/출력 기능: Claude 2는 최대 100K 토큰의 입력을 관리할 수 있으며 단일 세션에서 확장된 문서를 생성할 수 있다.

°고급 코딩 숙련도: 코딩 및 수학적 평가 점수에서 알 수 있듯이 모델의 코딩 기술이 개선되었다.

°안전 프로토콜: Claude 2가 양성 출력을 생성하도록 엄격한 평가 및 고급 안전 기술이 사용되었다.

°확장 계획: Claude 2는 현재 미국과 영국에서 액세스할 수 있지만 가까운 시일 내에 전 세계적으로 가용성을 확장할 계획이다.

3. MPT-7B

MosaicML Foundations는 최신 오픈 소스 LLM인 MPT-7B를 도입하여 이 공간에 크게 기여했다. MosaicML Pretrained Transformer의 약어인 MPT-7B는 GPT 스타일의 디코더 전용 변환기 모델이다. 이 모델은 성능 최적화된 레이어 구현 및 더 큰 교육 안정성을 보장하는 아키텍처 변경을 포함하여 몇 가지 향상된 기능을 자랑한다.

MPT-7B의 뛰어난 기능은 1조 개의 텍스트 및 코드 토큰으로 구성된 광범위한 데이터 세트에 대한 교육이다. 이 엄격한 교육은 9.5일 동안 MosaicML 플랫폼에서 실행되었다.

MPT-7B의 오픈 소스 특성은 상용 애플리케이션을 위한 귀중한 도구로 자리매김한다. 비즈니스 및 조직의 예측 분석 및 의사 결정 프로세스에 상당한 영향을 미칠 가능성이 있다.

기본 모델 외에도 MosaicML Foundations는 또한 짧은 형식의 지침을 따르는 MPT-7B-Instruct, 대화 생성을 위한 MPT-7B-Chat, 긴 형식의 스토리 생성을 위한 MPT-7B-StoryWriter-65k+와 같은 특정 작업에 맞춤화된 특수 모델을 출시하고 있다.

MPT-7B의 개발 여정은 MosaicML 팀이 데이터 준비에서 배포까지 모든 단계를 몇 주 내에 관리하는 포괄적인 과정이었다. 데이터는 다양한 리포지토리에서 제공되었으며 팀은 EleutherAI의 GPT-NeoX 및 20B 토크나이저와 같은 도구를 활용하여 다양하고 포괄적인 교육 믹스를 보장했다.

MPT-7B의 주요 기능 개요:

°상업용 라이선스: MPT-7B는 상업적 용도로 라이선스가 부여되어 비즈니스에 귀중한 자산이 된다.

°광범위한 교육 데이터: 이 모델은 1조 토큰의 방대한 데이터 세트에 대한 교육을 자랑한다.

°긴 입력 처리: MPT-7B는 성능 저하 없이 매우 긴 입력을 처리하도록 설계되었다.

°속도 및 효율성: 이 모델은 신속한 교육 및 추론에 최적화되어 시기 적절한 결과를 보장한다.

°오픈 소스 코드: MPT-7B는 효율적인 오픈 소스 교육 코드와 함께 제공되어 투명성과 사용 용이성을 촉진한다.

°비교 우수성: MPT-7B는 LLaMA-7B와 일치하는 품질로 7B-20B 범위의 다른 오픈 소스 모델보다 우수함을 입증했다.

4. Falcon

Falcon LLM은 LLM 계층 구조의 최상위로 빠르게 올라간 모델이다. Falcon LLM, 특히 Falcon-40B는 400억 개의 매개변수를 갖춘 기본 LLM이며 인상적인 1조 개의 토큰에 대해 교육을 받았다. 이는 자동 회귀 디코더 전용 모델로 작동한다. 즉, 본질적으로 이전 토큰을 기반으로 시퀀스에서 후속 토큰을 예측한다. 이 아키텍처는 GPT 모델을 연상시킨다. 특히, Falcon의 아키텍처는 GPT-3보다 우수한 성능을 보여주었고, 훈련 컴퓨팅 예산의 75%만으로 이 위업을 달성했으며 추론 중에 훨씬 적은 컴퓨팅이 필요하다.

기술혁신연구소(Technology Innovation Institute)의 팀은 Falcon을 개발하는 동안 데이터 품질에 중점을 두었다. 교육 데이터 품질에 대한 LLM의 민감도를 인식하여 수만 개의 CPU 코어로 확장되는 데이터 파이프라인을 구성했다. 이를 통해 광범위한 필터링 및 중복 제거 프로세스를 통해 웹에서 고품질 콘텐츠를 신속하게 처리하고 추출할 수 있었다.

TII는 Falcon-40B 외에도 70억 개의 매개변수를 보유하고 1조 5000억 개의 토큰에 대해 훈련된 Falcon-7B를 비롯한 다른 버전도 도입했다. 특정 작업에 맞게 조정된 Falcon-40B-Instruct 및 Falcon-7B-Instruct와 같은 특수 모델도 있다.

훈련 Falcon-40B는 광범위한 과정이었다. 이 모델은 TII가 구축한 대규모 영어 웹 데이터 세트인 RefinedWeb 데이터 세트에서 훈련되었다. 이 데이터 세트는 CommonCrawl 위에 구축되었으며 품질을 보장하기 위해 엄격한 필터링을 거쳤다. 모델이 준비되면 EAI Harness, HELM 및 BigBench를 포함한 여러 오픈 소스 벤치마크에 대해 검증되었다.

Falcon LLM의 주요 기능 개요:

°광범위한 매개변수: Falcon-40B에는 포괄적인 학습 및 성능을 보장하는 400억 개의 매개변수가 장착되어 있다.

°자동 회귀 디코더 전용 모델: 이 아키텍처를 통해 Falcon은 GPT 모델과 유사하게 이전 토큰을 기반으로 후속 토큰을 예측할 수 있다.

°우수한 성능: Falcon은 교육 컴퓨팅 예산의 75%만 활용하면서 GPT-3보다 성능이 뛰어나다.

°고품질 데이터 파이프라인: TII의 데이터 파이프라인은 웹에서 모델 교육에 중요한 고품질 콘텐츠 추출을 보장한다.

°다양한 모델: TII는 Falcon-40B 외에도 Falcon-7B 및 Falcon-40B-Instruct 및 Falcon-7B-Instruct와 같은 특수 모델을 제공한다.

°오픈 소스 가용성: Falcon LLM은 오픈 소스로 제공되어 AI 도메인에서 접근성과 포괄성을 촉진한다.

5. Vicuna-13B

LMSYS ORG는 Vicuna-13B를 도입하여 오픈 소스 LLM 영역에서 중요한 족적을 남겼다. 이 오픈 소스 챗봇은 ShareGPT에서 가져온 사용자 공유 대화에서 LLaMA를 미세 조정하여 세심하게 훈련되었다. GPT-4가 심사위원으로 참여한 예비 평가에서 Vicuna-13B는 OpenAI ChatGPT 및 Google Bard와 같은 유명한 모델의 90% 이상의 품질을 달성하는 것으로 나타났다.

인상적으로, Vicuna-13B는 사례의 90% 이상에서 LLaMA 및 Stanford Alpaca와 같은 다른 주목할만한 모델을 능가한다. Vicuna-13B에 대한 전체 교육 프로세스는 약 $300의 비용으로 실행되었다. 기능 탐색에 관심이 있는 사람들을 위해 코드, 가중치 및 온라인 데모가 비상업적 목적으로 공개되었다.

Vicuna-13B 모델은 70K 사용자 공유 ChatGPT 대화로 미세 조정되어 보다 상세하고 잘 구성된 응답을 생성할 수 있다. 이러한 응답의 품질은 ChatGPT와 비슷하다. 그러나 챗봇을 평가하는 것은 복잡한 작업이다. GPT-4가 발전함에 따라 벤치마크 생성 및 성능 평가를 위한 자동화된 평가 프레임워크 역할을 할 가능성에 대한 호기심이 커지고 있다. 초기 결과는 GPT-4가 챗봇 응답을 비교할 때 일관된 순위와 자세한 평가를 생성할 수 있음을 시사한다. GPT-4를 기반으로 한 예비 평가에서는 Vicuna가 Bard/ChatGPT와 같은 모델의 90% 기능을 달성하는 것으로 나타났다.

Vicuna-13B의 주요 특징 개요:

°오픈 소스 특성: Vicuna-13B는 공개 액세스가 가능하여 투명성과 커뮤니티 참여를 촉진한다.

°광범위한 훈련 데이터: 이 모델은 70,000개의 사용자 공유 대화에 대해 훈련되어 다양한 상호 작용에 대한 포괄적인 이해를 보장한다.

°경쟁력 있는 성능: Vicuna-13B의 성능은 ChatGPT 및 Google Bard와 같은 업계 리더와 동등하다.

°비용 효율적인 교육: Vicuna-13B에 대한 전체 교육 프로세스는 약 $300의 저렴한 비용으로 실행되었다.

°LLaMA에서 미세 조정: 모델이 LLaMA에서 미세 조정되어 향상된 성능과 응답 품질을 보장한다.

°온라인 데모 가용성: 사용자가 Vicuna-13B의 기능을 테스트하고 경험할 수 있는 대화형 온라인 데모가 제공된다.

대규모 언어 모델의 확장 영역

대규모 언어 모델의 영역은 방대하고 지속적으로 확장되며 새로운 모델이 나올 때마다 가능성의 한계를 뛰어넘는다. 이 블로그에서 논의된 LLM의 오픈 소스 특성은 AI 커뮤니티의 협력 정신을 보여줄 뿐만 아니라 미래 혁신을 위한 길을 열어준다.

Vicuna의 인상적인 챗봇 기능에서 Falcon의 우수한 성능 메트릭에 이르기까지 이러한 모델은 현재 LLM 기술의 정점을 나타낸다. 이 분야의 급속한 발전을 계속 목격하면서 오픈 소스 모델이 AI의 미래를 형성하는 데 중요한 역할을 할 것이 분명하다.

당신이 노련한 연구원이든, 신진 AI 애호가이든, 이러한 모델의 잠재력에 대해 궁금한 사람이든, 그들이 제공하는 방대한 가능성에 뛰어들어 탐구하기에 더 좋은 시간은 없다.

JM Kim의 다른기사보기

오픈 소스 대규모 언어 모델, 민주화, 인공지능, GPT, ChatGPT 관련기사목록

[세계미래보고서]시리즈, 판매제품

신간소개 [세계미래보고서2024-2034] 이르면 10년 안에 등장할 인공일반지능 신기술이 가져올 유토피아와 디스토피아를 미리 살펴보자!

많이 본 기사

유투브 책[2023년에 얼마나 많은 사람들이 YouTube를 사용하나 각종 통계들] 2006년 20억으로 구글이 사들인 유투브는 2005년 2월 14일에 설립, 첫비디오는 4월 23일에 게시, 지금은 20억명이 넘는 사용자보유, 인터넷사용자 43%가 매일 유투브를 본다.

[소멸직종 15] 소멸직종 15가지 2030년 여행사와 직원, 캐시어 점원, 패스트푸드 요리사, 우체부, 은행원, 섬유 노동자, 인쇄소, 보석상, 배달원, 텔레마케터, 어민, 법무비서관, 조립제작사,

[Beyond Enterprizes/Actioneer.AI] 이 회사는 전통적인 전략 자문 회사의 한계를 달성하고 실행하며 극복하기 위해 고안되었다. 기업과 협력하여 그들이 직면한 기술 및 비즈니스 과제에 대한 솔루션을 찾아내고, 새로운 비즈니스 벤처를 시작한 수십 년간의 경험을 바탕으로 지침을 제공한다.

[AI 전투기 조종사와 인간 조종사의 세기의 대결] 처음으로 AI 전투기 조종사가 공중에서 실제 제트기를 이용한 공중전에서 인간 조종사와 대결했다. 이는 자율 비행 및 군사 자동화 분야에서 큰 이정표를 세웠다.

유투브[AI가 일본의 인구 문제를 해결할 수 있을까? ] 일본의 노동력 위기 대응: AI 도입으로 미래를 준비하다. 정부의 AI 활용 확대.

[인공지능(AI), 기후변화 대응의 핵심 무기로 떠오르다] AI는 방대한 데이터 분석을 통해 에너지 생산 및 소비 패턴을 파악하고, 이를 기반으로 탄소 배출량을 최적화하는 전략을 수립하는 데 활용

[획기적인 메타물질을 개척] 식물의 놀라운 회복력에서 영감을 얻은 호주 과학자들은 레이저와 금속 분말을 활용하여 전례 없는 중량 대비 강도 비율을 달성하는 획기적인 메타물질

마인드봇[AI 및 딥테크 솔루션을 위한 10억 달러 이상의 자금을 조달] AI, Web3, 로보틱스, 공간 컴퓨팅 및 양자 기술 포트폴리오 회사에 투자할 파트너십 조건 및 블록버스터 자금 조달에 대한 세부 정보가 최근 파나마에서 열린 유익한 AGI 서밋에서 신속하게 처리

S[하이퍼루프 열차 공개: 극초음속 운송에 대한 중국의 도약] 중국 최고의 미사일 제조업체인 CASIC(China Aerospace Science and Industry Corporation)은 역사상 가장 빠른 열차를 설계했다고 대담하게 주장

챗GPT와 AI, 로봇 많이 본 기사

유투브[배우의 소멸? 할리우드, 배우들의 AI 복제 시작] CAA와 AI: 헐리우드의 미래와 배우의 디지털 복제. 배우의 AI 복제본 제작 파트너십 체결: 헐리우드 미래를 바꿀까?

[음악가들이 AI 업계에 경고를 보낸다]음악계 거장들, AI 기술의 창작물 활용에 경고장 발송. 이들은 인공지능이 인간의 창의성을 향상시킬 잠재력을 인정하면서도, 인간을 대체하거나 인간의 수입을 감소시키는 모든 활동에 대해 단호히 반대

[OPEN AI에 필적할 멀티모달 AI 모델] 일론 머스크의 AI 벤처인 xAI가 오픈AI와의 경쟁 무대에 진입하면서 최초의 멀티모달 선보임. 문서, 차트, 다이어그램, 스크린샷 및 사진을 포함한 다양한 시각적 형식을 이해할 수 있는 기능을 자랑

[4월 18일 AI뉴스] AI 여자친구의 부상, 비디오의 생성적 채우기, Google의 로봇 공학 혁신. 프롬프트만으로 AI 노래를 무료로 생성. AI로 파킨슨병 치료 가속화. 스탠포드 대학의 502페이지 AI 보고서.

최신기사

신간소개 [세계미래보고서2024-2034] 이르면 10년 안에 등장할 인공일반지능 신기술이 가져올 유토피아와 디스토피아를 미리 살펴보자!

[가정용 로봇의 혁신적 발전] 가사도우미, 심부름봇, 지금껏 원활하지 못했던 간단한 집안 심부름을 할 수 있도록 고안된 MIT의 혁신 가사도우미 봇

[전기 자동차의 혁명: TAILAN의 판도를 바꾸는 배터리 기술] 이 혁신은 시장에 나와 있는 기존 배터리의 에너지 밀도를 두 배 이상 높여 EV 성능에 대한 새로운 벤치마크를 설정한다고 주장

[인공지능과 행동경제학의 통합: 의사결정의 새로운 지평] AI와 행동경제학의 융합은 비즈니스 리더의 의사결정 기반을 재정의할 것을 약속하는 혁명적인 힘이다. AI와 행동경제학의 통합은 인간의 판단을 흐리게 하는 편견을 밝히고 완화하기 위해 기술의 힘을 활용하는 의사결정의 새로운 시대를 약속한다.

회원약관 ㅣ 개인정보취급방침 ㅣ 회사소개 ㅣ 청소년보호정책 ㅣ 직원게시판 ㅣ 기사제보 ㅣ 보도자료 ㅣ 기사검색

AI넷ㅣ 주소 : 우)02821 서울특별시 성북구 북악산로 1길 31 ㅣ 전화 : 02-313-6300 ㅣ 팩스 : 02-908-9494
등록번호 : 서울, 아02236ㅣ 등록일 : 2009.11. 19. ㅣ E-mail : unfutures@gmail.com, futures2055@gmail.com
회사명 : AI넷 ㅣ 발행/편집인 : 박영숙ㅣ 발행일: 2020.09.05｜청소년보호책임자 : 박영숙
사업자등록번호 : 209-15-39241 (사)유엔미래포럼 www.unfuture.org
Copyright ⓒ 2020 AI넷. All rights reserved. (This is a non-profit organization/a free newspaper.)