광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[인간과 더 나은 대화나누는 챗봇] DeepMind의 새로운 챗봇은 Google 검색과 인간을 사용하여 더 나은 답변을 제공. 대형 언어모델 Chinchilla에서 훈련된 AI챗봇인 Sparrow를 공개했다. Sparrow는 실시간 Google 검색 또는 정보를 사용하여 사람과 대화하고 질문에 답변하도록 설계되었다. 사람들이 얼마나 유용한 답변을 찾았는지에 따라 특정 목표를 달성하기 위해 시행착오를 통해 학습하는 강화학습 알고리즘을 사용하여 학습된다.

박영숙세계미래보고서저자 | 기사입력 2022/09/23 [14:23]

[인간과 더 나은 대화나누는 챗봇] DeepMind의 새로운 챗봇은 Google 검색과 인간을 사용하여 더 나은 답변을 제공. 대형 언어모델 Chinchilla에서 훈련된 AI챗봇인 Sparrow를 공개했다. Sparrow는 실시간 Google 검색 또는 정보를 사용하여 사람과 대화하고 질문에 답변하도록 설계되었다. 사람들이 얼마나 유용한 답변을 찾았는지에 따라 특정 목표를 달성하기 위해 시행착오를 통해 학습하는 강화학습 알고리즘을 사용하여 학습된다.

박영숙세계미래보고서저자 | 입력 : 2022/09/23 [14:23]

 

Alphabet 소유 AI연구소 DeepMind의 새 논문에 따르면 좋은 AI기반 챗봇을 만드는 비결은 인간이 행동하는 방법을 알려주고 모델이 인터넷을 사용하여 주장을 뒷받침하도록 하는 것일 수 있다. 

오늘 동료 심사를 거치지 않은 새로운 논문에서 팀은 DeepMind의 대형 언어모델 Chinchilla에서 훈련된 AI챗봇인 Sparrow를 공개했다. 

Sparrow는 실시간 Google 검색 또는 정보를 사용하여 사람과 대화하고 질문에 답변하도록 설계되었다. 사람들이 얼마나 유용한 답변을 찾았는지에 따라 특정 목표를 달성하기 위해 시행착오를 통해 학습하는 강화학습 알고리즘을 사용하여 학습된다. 이 시스템은 사람들이 자신이나 다른 사람에게 해를 입히도록 조장하는 등 위험한 결과 없이 인간과 대화할 수 있는 AI를 개발하는 데 한 걸음 더 나아가기 위한 것이다.

큰 언어모델은 사람이 쓰는 것처럼 들리는 텍스트를 생성한다. 텍스트 요약, 보다 강력한 온라인 검색도구 구축 또는 고객서비스 챗봇으로 사용되는 인터넷 인프라의 점점 더 중요한 부분이 되었다.

그러나 그들은 인터넷에서 방대한 양의 데이터와 텍스트를 긁어 학습하므로 필연적으로 많은 유해한 편향이 반영된다. 그들이 유독하거나 차별적인 콘텐츠를 내뿜기 시작하기 전에 약간의 자극만 있으면 됩니다. 인간과 대화하도록 만들어진 AI에서는 그 결과가 참담할 수 있다. 적절한 안전 조치가 없는 대화형 AI는 소수 민족에 대해 모욕적인 말을 하거나 사람들에게 표백제를 마시라고 제안할 수 있다. 

대화형 AI 시스템을 개발하려는 AI회사는 모델을 더 안전하게 만들기 위해 여러 기술을 시도했다. 

 

유명한 대형 언어모델 GPT-3의 창시자인 OpenAI 와 AI스타트업 Anthropic은 강화학습을 사용하여 모델에 인간의 선호도를 통합했다. 그리고 Facebook의 AI 챗봇 BlenderBot은 온라인 검색을 사용하여 답을 알려준다. 

DeepMind의 Sparrow는 이러한 모든 기술을 하나의 모델로 통합한다. 

DeepMind는 인간 참가자에게 동일한 질문에 대해 모델이 제공한 여러 답변을 제시하고 가장 좋아하는 답변을 물었다. 그런 다음 그들은 답변이 그럴듯하다고 생각하는지, Sparrow가 출처에 대한 링크와 같은 적절한 증거로 답변을 뒷받침했는지 여부를 결정하도록 요청 받았다. 이 모델은 78%의 경우 인터넷에서도 검색된 증거를 사용하여 사실적인 질문에 대한 그럴듯한 답변을 관리했다.

이러한 답변을 공식화할 때 재정적 조언을 제공하지 않거나 위협적인 진술을 하거나 사람을 사칭하는 등 연구자들이 정한 23가지 규칙을 따랐다. 

DeepMind의 안전연구원인 Geoffrey Irving은 이 접근 방식과 이전 접근 방식의 차이점은 DeepMind가 "장기적으로 안전을 위한 대화"를 사용하기를 희망한다고 말한다. 

"즉, 잘못된 정보나 고정 관념 또는 그 밖의 무엇이든 이러한 모델에서 직면한 문제가 언뜻 보기에는 명백할 것이라고 기대하지 않고 자세히 이야기하고 싶다. 그리고 그것은 기계와 인간 사이도 의미합니다.”라고 그는 말한다. 

비영리 AI 연구소인 Cohere for AI를 이끌고 있는 Sara Hooker는 AI 모델이 학습하는 방식을 최적화하기 위해 인간의 선호도를 사용한다는 DeepMind의 아이디어는 새로운 것이 아니라고 말했다. 

"그러나 개선 사항은 설득력이 있으며 대규모 언어 모델 설정에서 대화 에이전트의 인간 주도 최적화에 대한 분명한 이점을 보여줍니다."라고 Hooker는 말한다. 

AI 스타트업 Hugging Face의 연구원인 Douwe Kiela는 Sparrow가 "AI의 일반적인 추세를 따르는 멋진 다음 단계입니다. 여기서 우리는 대규모 언어 모델 배포의 안전 측면을 개선하기 위해 더 진지하게 노력하고 있습니다."라고 말했다.

그러나 이러한 대화형 AI모델을 야생에 배포하려면 해야 할 일이 많다. 

참새는 여전히 실수를 한다. 모델은 때때로 주제를 벗어나거나 무작위 답변을 만든다. 결정된 참가자는 또한 8%의 시간 동안 모델 위반 규칙을 만들 수 있었다. (이것은 여전히 ​​이전 모델에 비해 개선된 사항입니다. DeepMind의 이전 모델은 Sparrow보다 3배 더 자주 규칙을 위반했다.) 

Hooker는 "의학적 및 재정적 조언을 제공하는 것과 같이 상담원이 응답하면 인명 피해가 높을 수 있는 영역의 경우 여전히 많은 사람들에게 이것이 수용할 수 없을 정도로 높은 실패율로 느껴질 수 있습니다."라고 말한다. 이 작업은 또한 영어 모델을 기반으로 구축되었다.  "우리는 기술이 안전하고 책임감 있게 다양한 언어를 지원해야 하는 세상에 살고 있습니다."라고 그녀는 덧붙인다.

그리고 Kiela는 또 다른 문제를 지적한다. "정보 검색을 위해 Google에 의존하면 모든 것이 비공개 소스이기 때문에 밝히기 힘든 알 수 없는 편견이 생깁니다." 

 

 

 

 
 
[세계미래보고서]시리즈, 판매제품
1/6
광고
광고
광고
광고
광고
광고
광고
많이 본 기사
최신기사