광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[작은 AI 챗봇 무리가 ChatGPT와 같은 거대 기업보다 더 유용하다] 일반 대형 언어 모델 (LLM)에 대한 개발 과제와 잠재적인 규제 장애물이 결합됨에 따라 AI의 미래는 대규모 언어 모델이 아닌 특정 소규모 언어 모델이 될 가능성이 있다.

https://singularityhub.com/2023/10/01/why-well-see-fewer-generic-ai-chatbots-like-chatgpt-in-the-future/

JM Kim | 기사입력 2023/10/03 [00:00]

[작은 AI 챗봇 무리가 ChatGPT와 같은 거대 기업보다 더 유용하다] 일반 대형 언어 모델 (LLM)에 대한 개발 과제와 잠재적인 규제 장애물이 결합됨에 따라 AI의 미래는 대규모 언어 모델이 아닌 특정 소규모 언어 모델이 될 가능성이 있다.

https://singularityhub.com/2023/10/01/why-well-see-fewer-generic-ai-chatbots-like-chatgpt-in-the-future/

JM Kim | 입력 : 2023/10/03 [00:00]

 

AI는 빠르게 발전하고 있다. ChatGPT는 역사상 가장 빠르게 성장하는 온라인 서비스가 되었다. Google Microsoft는 생성 AI를 자사 제품에 통합하고 있다. 그리고 세계 지도자들은 AI를 경제 성장을 위한 도구로 적극적으로 수용하고 있다.

ChatGPT Bard를 넘어서면서 AI 챗봇이 덜 일반적이고 더 전문화되는 것을 보게 될 것이다. AI는 자신이 하는 일을 더 잘 수행하기 위해 노출되는 데이터에 따라 제한된다. 이 경우 인간의 말을 모방하고 사용자에게 유용한 답변을 제공한다.

훈련은 종종 AI 시스템이 수천 권의 책과 웹 페이지를 흡수하여 네트워크 전체를 캐스팅한다. 그러나 보다 선택적이고 집중적인 훈련 데이터 세트는 AI 챗봇을 특정 산업에 종사하거나 특정 지역에 거주하는 사람들에게 더욱 유용하게 만들 수 있다.

 

데이터의 가치

이러한 진화의 중요한 요소는 ChatGPT를 지원하는 AI 유형인 고급 대형 언어 모델(LLM)에 대한 교육 데이터를 수집하는 데 드는 비용이 증가한다는 것이다. 기업은 데이터의 가치를 알고 있다. Meta Google은 사용자 데이터를 대상으로 한 광고를 판매하여 수십억 달러를 벌고 있다. 하지만 이제 데이터의 가치는 변화하고 있다. Meta Google은 데이터 "인사이트"를 판매한다. 그들은 많은 데이터 포인트를 사용자에 대한 예측으로 변환하기 위해 분석에 투자한다.

데이터는 ChatGPT 개발자인 OpenAI에게 미묘하게 다른 방식으로 가치가 있다. "고양이가 매트 위에 앉았다."라는 트윗을 상상해 보라. 이 트윗은 타겟 광고주에게는 가치가 없다. 사용자나 그들의 관심사에 대해서는 거의 언급하지 않는다. 어쩌면 급하게 고양이 사료와 닥터 수스에 대한 관심을 암시할 수도 있다.

 

그러나 인간과 유사한 언어를 생성하기 위해 LLM을 구축하고 있는 OpenAI의 경우 이 트윗은 인간 언어가 어떻게 작동하는지 보여주는 예로서 가치가 있다. 단일 트윗은 AI에게 문장 구성을 가르칠 수 없지만 수십억 개의 트윗, 블로그 게시물, Wikipedia 항목 등은 확실히 가르칠 수 있다. 예를 들어, 고급 LLM GPT-4는 아마도 X(이전의 Twitter), Reddit, Wikipedia 등에서 스크랩한 데이터를 사용하여 구축되었을 것이다.

 

AI 혁명은 데이터가 풍부한 조직의 비즈니스 모델을 변화시키고 있다. Meta Google과 같은 회사는 데이터 리소스를 활용하기 위해 수년 동안 AI 연구 개발에 투자해 왔다.

X Reddit과 같은 조직은 이러한 웹사이트에서 데이터를 스크랩하는 데 사용되는 시스템인 API 액세스에 대해 제3자에게 비용을 청구하기 시작했다. 데이터 스크래핑은 데이터 쿼리를 수행하기 위해 컴퓨팅 성능에 더 많은 비용을 지출해야 하기 때문에 X와 같은 회사에 비용이 든다.

앞으로 OpenAI와 같은 조직이 GPT 모델의 더욱 강력한 버전을 구축하려고 함에 따라 데이터 획득에 더 많은 비용이 소요될 것이다. 이 문제에 대한 한 가지 해결책은 합성 데이터일 수 있다.

 

합성으로 전환

합성 데이터는 AI 시스템에 의해 처음부터 생성되어 더욱 발전된 AI 시스템을 훈련하여 개선된다. 실제 훈련 데이터와 동일한 작업을 수행하도록 설계되었지만 AI에 의해 생성되었다.

새로운 아이디어지만 많은 문제에 직면해 있다. 좋은 합성 데이터는 모델에 새로운 것을 알려주기 위해 기반이 된 원본 데이터와 충분히 달라야 하지만, 정확한 것을 알려주기에는 충분히 유사해야 한다. 이는 달성하기 어려울 수 있다. 합성 데이터가 실제 데이터의 설득력 있는 복사본인 경우 결과 AI 모델은 창의성에 어려움을 겪고 기존 편견을 고착시킬 수 있다.

 

또 다른 문제는 '합스부르크 AI' 문제다. 이는 합성 데이터에 대한 AI 훈련이 이러한 시스템의 효율성을 감소시킬 것임을 시사한다. 따라서 합스부르크 왕가의 악명 높은 근친교배를 사용한 비유가 있다. 일부 연구에 따르면 ChatGPT와 같은 시스템에서는 이미 이런 일이 발생하고 있다.

ChatGPT가 매우 좋은 이유 중 하나는 사람들이 정확도 측면에서 출력을 평가하는 인간 피드백을 통한 강화 학습(RLHF)을 사용하기 때문이다. AI가 생성한 합성 데이터에 부정확성이 있는 경우 이 데이터에 대해 훈련된 AI 모델 자체도 부정확하다. 따라서 이러한 부정확성을 수정하기 위해 인간의 피드백에 대한 수요가 증가할 가능성이 높다.

 

그러나 대부분의 사람들은 문장이 문법적으로 정확한지 여부를 말할 수 있지만, 사실적 정확성에 대해 언급할 수 있는 사람은 거의 없다. 특히 출력이 기술적이거나 전문적인 경우 더욱 그렇다. 전문 주제에 대한 부정확한 출력은 RLHF에 의해 적발될 가능성이 적다. 합성 데이터가 포착해야 할 부정확성이 더 많다는 것을 의미한다면, 이러한 모델이 더 많이 "학습"하는 동안에도 범용 LLM의 품질이 정체되거나 저하될 수 있다.

 

작은 언어 모델

이러한 문제는 AI의 새로운 추세를 설명하는 데 도움이 된다. Google 엔지니어들은 제3자가 GPT-3 또는 Google LaMDA AI와 같은 LLM을 다시 만드는 것을 막을 방법이 거의 없다는 사실을 밝혔다. 많은 조직은 자신의 목표를 위해 자체 전문 데이터를 사용하여 자체 내부 AI 시스템을 구축할 수 있다. 이는 장기적으로 ChatGPT보다 이러한 조직에 더 가치가 있을 것이다.

 

최근 일본 정부는 ChatGPT가 일본을 충분히 대표하지 못하기 때문에 ChatGPT의 일본 중심 버전을 개발하는 것이 AI 전략에 잠재적으로 가치가 있다고 지적했다. 소프트웨어 회사인 SAP는 최근 전문 조직에 AI 개발 기능을 제공하기 위한 AI "로드맵"을 출시했다. 이를 통해 기업은 ChatGPT의 맞춤형 버전을 더 쉽게 구축할 수 있다.

 

McKinsey KPMG와 같은 컨설팅 회사는 "특정 목적"을 위한 AI 모델 교육을 모색하고 있다. ChatGPT의 비공개 개인 버전을 만드는 방법에 대한 가이드는 온라인에서 쉽게 찾을 수 있다. GPT4All과 같은 오픈 소스 시스템이 이미 존재한다.

일반 LLM에 대한 개발 과제와 잠재적인 규제 장애물이 결합됨에 따라 AI의 미래는 대규모 언어 모델이 아닌 특정 소규모 언어 모델이 될 가능성이 있다. 작은 언어 모델이 GPT-4와 같은 시스템보다 적은 데이터로 훈련되면 어려움을 겪을 수 있다.

 

그러나 특정 목적을 위해 개발되는 언어 모델이 거의 없기 때문에 RLHF 측면에서 이점을 가질 수도 있다. 자신의 조직과 그 목표에 대한 전문 지식을 갖춘 직원은 일반 AI 시스템에 대한 일반적인 피드백과 비교하여 그러한 AI 시스템에 훨씬 더 가치 있는 피드백을 제공할 수 있다. 이는 데이터가 적다는 단점을 극복할 수 있다.

 

이미지 출처: 모하메드 노하시(Mohamed Nohassi) / Unsplash

 
인공지능, AI, 챗GPT, AI 챗봇 관련기사목록
광고
광고
광고
광고
광고
광고
많이 본 기사