주요 뉴스
연구원 올리버 레몬(Oliver Lemon)은 “우리는 인간, 로봇 및 AI 시스템 전반의 협업을 위한 보다 유용하고 사용 가능하며 강력한 시스템을 만들기 위해 LLM(대형 언어 모델)의 최근 AI 발전을 사용하고 더욱 개발하는 방법을 모색하고 있다.”고 말했다.
AI 혁명: 자연어를 이해하고 이에 응답할 수 있는 AI 시스템인 LLM(대형 언어 모델)은 주로 2022년 ChatGPT 출시로 인해 폭발적인 인기를 얻고 있다.
“우리는 인간과의 자연스러운 상호작용을 위해 구현된 AI의 여러 측면을 조사하고 싶었다.”고 올리버 레몬은 말한다.
이러한 시스템은 거대한 데이터베이스에 대해 교육을 받았기 때문에 일반적으로 광범위한 주제에 대한 질문에 응답할 수 있지만 일반적으로 특정 분야의 전문가가 아니며 때로는 "환각"하여 사실처럼 들리지만 그렇지 않은 응답을 제공할 수 있다. 이는 유용성을 제한한다.
또한 대부분의 LLM(대형 언어 모델)은 텍스트를 통해 의사소통하기 때문에 이들과의 채팅은 다른 사람과 대화하는 것만큼 자연스럽지 않다. 언어적, 비언어적 의사소통은 인간 상호작용에 매우 중요하다.
새로운 소식: 이제 헤리엇-와트 대학교와 Alana AI의 엔지니어는 ChatGPT에 사용되는 것과 동일한 LLM인 OpenAI의 GPT-3.5를 휴머노이드 흉상과 결합하여 영국 국립 로봇관 방문객과 상호 작용할 수 있는 로봇 접수원을 만들었다.
로봇이 로봇관에 대한 잘못된 정보를 제공할 가능성을 최소화하기 위해 센터의 웹사이트를 스크랩하고 AI가 사용자에게 응답하기 전에 액세스하는 특수 데이터베이스에 정보를 저장했다.

영국 국립 로봇관(UK National Robotarium)의 로봇 접수원. 이미지 출처: N. Cherakara 외.
그들은 이것이 한 주제에 대해 특히 지식이 풍부한 LLM과 언어 및 비언어적 의사소통이 가능한 애니메이션 로봇을 결합한 최초의 시스템이라고 말한다.
레몬은 “우리는 인간과 자연스러운 상호 작용을 위해 구현된 AI의 여러 측면을 조사하고 싶었다.”고 말했다. "특히 우리는 ChatGPT와 같은 LLM을 통해 가질 수 있는 일종의 일반적인 '오픈 도메인' 대화를 보다 유용하고 구체적인 정보 소스와 결합하는 데 관심이 있었다."
작동 방식: 로봇 접수원의 기반은 본질적으로 실물과 같은 표현, 움직임 및 음성이 가능한 인간형 흉상인 소셜 로봇인 퍼헷(Furhat)이다.
사람이 로봇과 대화하면 그 말이 텍스트로 기록된다. 그런 다음 다양한 시스템이 함께 작동하여 사람이 무엇을 요구하는지 파악하고 텍스트 응답과 적절한 얼굴 표정 및 동작을 생성한다.
그런 다음 텍스트 음성 변환 기술을 사용하여 텍스트를 오디오로 변환하고 흉상의 스피커를 통해 재생된다.

연구원들이 공유한 데모 비디오에서 로봇은 영국 국립 로봇관을 설명하고 대중 문화와 로봇공학의 미래에 관한 몇 가지 질문에 답할 수 있다.
답변 자체는 대화식이고 적절하지만 전달은 여전히 약간 로봇적이다. 봇이 "생각"하는 동안 이상한 굴절과 부자연스러울 정도로 긴 일시 중지가 있다. 이러한 일시 중지에는 기괴한 계곡을 똑바로 바라보는 깜박임 없는 시선이 동반된다.
미래 전망: 연구원들은 로봇 접수원이 로봇관 방문객과 자연스럽게 상호 작용하고 연구, 이벤트 등에 대한 정확한 정보를 제공할 수 있었다고 말한다.
그들은 이제 봇이 일대일로 대화하는 것이 아니라 동시에 여러 사람과 상호 작용할 수 있는 방법을 모색하는 동시에 환각 가능성을 더욱 최소화할 수 있는 방법을 계속 찾고 있다.