광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고

AI넷

S[ChatGPT 마음 이론: 인공지능이 사람의 마음 속에서 무슨 일이 일어나고 있는지 추측한다] AI가 사람의 마음을 헤아릴 수 있는지 그리고 언어 간 번역하기 가장 어려운 개념 중 하나인 암시하는 내용을 알아챌 수 있는지 심리학은 AI의 내부 작동을 조사하고 있다. 인공 정신 이론의 등장이 멀지 않았다.

https://singularityhub.com/2024/05/21/can-chatgpt-mimic-theory-of-mind-psychology-is-probing-ais-inner-workings/

JM Kim | 기사입력 2024/05/23 [00:00]

S[ChatGPT 마음 이론: 인공지능이 사람의 마음 속에서 무슨 일이 일어나고 있는지 추측한다] AI가 사람의 마음을 헤아릴 수 있는지 그리고 언어 간 번역하기 가장 어려운 개념 중 하나인 암시하는 내용을 알아챌 수 있는지 심리학은 AI의 내부 작동을 조사하고 있다. 인공 정신 이론의 등장이 멀지 않았다.

https://singularityhub.com/2024/05/21/can-chatgpt-mimic-theory-of-mind-psychology-is-probing-ais-inner-workings/

JM Kim | 입력 : 2024/05/23 [00:00]

 

ChatGPT 마음 이론:

인공지능이 사람의 마음 속에서 무슨 일이 일어나고 있는지 추측한다.

 

인생의 문제에 대해 ChatGPT에 털어놓은 적이 있다면 공감적인 답변이 들릴 수 있다. 챗봇은 긍정적인 지원을 제공하고, 메시지가 표시되면 가장 친한 친구처럼 조언도 제공한다.

기존 챗봇과 달리 최신 AI 모델의 '공감적' 특성은 이미 심리 치료 커뮤니티에 활력을 불어넣었고 많은 사람들이 치료에 도움이 될 수 있는지 궁금해하고 있다.

 

다른 사람의 정신 상태를 추론하는 능력은 일상적인 상호 작용의 핵심 측면이다. '마음 이론'이라고 불리는 이 이론은 종종 말을 해석함으로써 비꼬는 것인지? 거짓말을 하고 있는 것인지? 명백하게 말하지 않은 것을 암시하고 있는지? 등 사람의 마음 속에서 무슨 일이 일어나고 있는지 추측할 수 있게 해준다.

 

자연 인간 행동(Nature Human Behavior)에 대한 새로운 연구에서 크리스티나 베키오(Cristina Becchio) 박사와 대학 의료 센터 한부르크-에펜도르프(University Medical Center Hanburg-Eppendorf)의 동료들은사람들은 다른 사람들이 생각하는 것에 관심을 갖고 다른 사람들의 생각에 대해 생각하는 데 많은 노력을 기울인다.”라고 썼다.

 

연구에서 과학자들은 대규모 언어 모델이라고 불리는 머신러닝 알고리즘을 기반으로 하는 ChatGPT 및 기타 유사한 챗봇이 다른 사람들의 사고방식도 추측할 수 있는지 물었다. 마음 이론의 특정 측면에 맞춰진 일련의 심리학 테스트를 사용하여 OpenAI GPT 시리즈와 Meta LLaMA 2를 포함한 두 가지 대규모 언어 모델 제품군을 1,900명 이상의 인간 참가자와 비교했다.

 

ChatGPT의 기반이 되는 알고리즘인 GPT-4는 아이러니 식별과 같은 일부 작업에서 인간 수준 이상으로 수행되었다. 한편, LLaMA 2는 누군가가 의도하지 않은 말을 했지만 깨닫지 못하는 가짜 실수를 탐지하는 데 있어서 인간과 GPT를 모두 능가했다.

분명히 말하면, 결과는 LLM이 마음 이론을 가지고 있음을 확인하지 않는다. 오히려 그들은 이러한 알고리즘이 "우리를 인간으로 정의하는" 핵심 개념의 특정 측면을 모방할 수 있음을 보여주었다고 저자는 썼다.

 

말하지 않은 것

대략 4세가 되면 아이들은 사람들이 항상 똑같이 생각하는 것은 아니라는 것을 이미 알고 있다. 우리는 서로 다른 신념, 의도, 필요를 가지고 있다. 다른 사람의 입장에서 생각함으로써 아이들은 다른 관점을 이해하고 공감을 얻을 수 있다.

 

1978년에 처음 소개된 마음 이론은 사회적 상호작용의 윤활유이다. 예를 들어, 답답한 방에서 닫힌 창문 근처에 서 있는데 근처에 있는 누군가가여기 좀 덥네요라고 말한다면, 그 사람이 정중하게 창문을 열어 달라는 뜻인지 직감하려면 그 사람의 관점을 생각해야 한다.

예를 들어 자폐증과 같이 능력이 저하되면 다른 사람의 감정, 욕구, 의도를 파악하고 속임수를 알아채는 것이 어려워진다. 그리고 우리 모두는 문자나 이메일이 보낸 사람의 의미를 받는 사람이 잘못 해석하여 오해로 이어지는 경우를 경험해 본 적이 있다.

그렇다면 챗봇 뒤에 있는 AI 모델은 어떨까?

 

인간 대 기계

2018년에 웨스트잉글랜드 대학교 로봇공학 교수인 앨런 윈필드(Alan Winfield) 박사는 마음 이론을 통해 AI가 사람과 다른 로봇의 의도를이해할 수 있다는 아이디어를 옹호했다. 당시 그는 학습된 것이 아니라 내장된 사회적 상호 작용에 대한 상식을 갖춘 프로그래밍 된 내부 모델을 알고리즘에 제공할 것을 제안했다.

 

대규모 언어 모델은 완전히 다른 접근 방식을 취하여 대규모 데이터 세트를 수집하여 공감을 느끼는 인간과 같은 반응을 생성한다. 그러나 그들은 마음 이론의 징후를 보이고 있을까?

수년에 걸쳐 심리학자들은 우리가 다른 사람의 사고방식을 모델링하는 능력을 얻는 방법을 연구하기 위해 일련의 테스트를 개발했다. 새로운 연구에서는 1,907명의 건강한 인간 참가자를 대상으로 OpenAI GPT 모델(GPT-4 GPT-3.5) Meta LLaMA-2-Chat의 두 가지 버전을 비교했다. 사회적 시나리오에 대한 텍스트 설명만을 토대로 정신 능력 이론에 대한 다양한 이론을 포괄하는 포괄적인 테스트를 사용하여 가상의 인물의 "사고 방식"을 측정해야 했다.

 

각 테스트는 심리학에서 인간의 마음 이론을 측정하기 위해 이미 잘 확립되어 있다.

첫 번째는 "거짓 믿음"이라고 불리는 것으로 유아가 자기 감각과 타인에 대한 인식을 얻는 과정을 테스트하는 데 자주 사용된다. 예를 들어, 당신은 이야기를 듣는다. 루시와 미아가 찬장에 오렌지 주스 한 상자를 들고 부엌에 있다. 루시가 떠나자 미아는 주스를 냉장고에 넣는다. 루시는 돌아오면 어디서 주스를 찾게 될까?

인간과 AI 모두 주스를 옮겼을 때 방을 나간 사람이 마지막으로 본 기억이 있는 곳에서 주스를 찾을 것이라고 거의 완벽하게 추측했다. 그러나 약간의 변화로 인해 AI가 작동하지 않게 되었다. 예를 들어 주스가 두 개의 투명한 용기 사이로 운반되는 등 시나리오를 변경할 때 GPT 모델은 답을 추측하는 데 어려움을 겪었다. (그러나 기록상 인간은 연구에서도 이것에 대해 완벽하지 않았다.)

 

더 발전된 테스트는 "이상한 이야기", 잘못된 방향, 조작, 거짓말과 같은 고급 정신 능력을 테스트하기 위해 다양한 수준의 추론에 의존한다. 예를 들어, 인간 자원봉사자와 AI 모델 모두 거짓말을 자주 하는 사이먼의 이야기를 들었다. 그의 형 짐은 이 사실을 알고 어느 날 그의 탁구패가 없어진 것을 발견했다. 그는 사이먼을 만나 찬장 밑에 있는지 아니면 침대 밑에 있는지 묻는다. 사이먼은 그것이 침대 밑에 있다고 말했다. 테스트에서는 질문한다. 왜 짐이 대신 찬장을 살펴보겠는가?

모든 AI 모델 중에서 GPT-4가 가장 큰 성공을 거두었고 "큰 거짓말쟁이"는 거짓말을 하고 있을 것이므로 찬장을 선택하는 것이 더 낫다고 추론했다. 그 성능은 인간 자원봉사자들조차 능가했다.

 

그런 다음 "faux pas" 연구가 나왔다. 이전 연구에서 GPT 모델은 이러한 사회적 상황을 해독하는 데 어려움을 겪었다. 테스트 중 한 예에서는 새 커튼을 사러 쇼핑하는 사람을 묘사했는데, 그 커튼을 세우는 동안 친구가 무심코 ", 저 커튼 정말 끔찍해요. 새 커튼을 사세요."라고 말했다. 인간과 AI 모델 모두 여러 개의 유사한 민망한 시나리오를 제시하고 목격한 반응이 적절한지 질문했다. "정답은 항상 '아니오'이다."라고 팀은 썼다.

 

GPT-4는 해당 댓글이 상처를 줄 수 있다는 점을 정확하게 식별했지만 친구가 상황(커튼이 새 것임)을 알고 있는지 묻는 질문에 정답을 찾기 위해 애썼다. 이는 AI가 사람의 정신 상태를 추론할 수 없기 때문일 수 있으며, 이 테스트에서 실수를 인식하는 것은 프롬프트에서 직접 설명되지 않는 상황과 사회적 규범에 의존하기 때문이라고 저자는 설명했다. 이와 대조적으로 LLaMA-2-Chat은 인간보다 성능이 뛰어나 한 번의 실행을 제외하고 거의 100% 정확도를 달성했다. 왜 그런 장점이 있는지는 불분명하다.

 

인공 정신 이론

의사소통의 대부분은 말한 내용이 아니라 암시된 내용이다.

아이러니는 아마도 언어 간 번역하기 가장 어려운 개념 중 하나일 것이다. 자폐증에 대한 적응형 심리 테스트를 통해 테스트했을 때, GPT-4는 아이러니한 진술을 인식하는 데 있어 놀랍게도 인간 참가자보다 뛰어났다. 물론 일반적인 눈 굴림 없이 텍스트만으로 말이다.

 

AI는 또한 기본적으로 암시된 메시지를 이해하는 힌트 작업에서도 인간을 능가했다. 정신분열증을 평가하기 위한 테스트에서 파생된 이 테스트는 일관된 내러티브를 구성하고 평가하기 위해 기억과 인지 능력 모두에 의존하는 추론을 측정한다. 참가자와 AI 모델 모두에게 일상적인 사회적 상호 작용을 묘사하는 10개의 짧은 촌극이 주어졌다. 이야기는 개방형 답변으로 가장 잘 대응할 수 있는 방법에 대한 힌트로 끝났다. 10개가 넘는 이야기에서 GPT-4가 인간을 상대로 승리했다.

 

저자에게 결과는 LLM이 이미 마음 이론을 가지고 있다는 것을 의미하지 않는다. AI는 몇 가지 측면에서 어려움을 겪었다. 오히려 그들은 기계 정신의 불투명한 내부 작동을 조사하기 위해 어느 하나에 의존하기보다는 다양한 심리학 및 신경과학 테스트를 사용하는 것의 중요성을 강조한다고 생각한다. 심리학 도구는 LLM "생각"하는 방식을 더 잘 이해하는 데 도움이 될 수 있으며 결과적으로 더 안전하고 정확하며 신뢰할 수 있는 AI를 구축하는 데 도움이 될 수 있다.

저자들은 "인공 정신 이론이 그리 먼 이야기가 아닐 수도 있다"는 약속이 있다고 썼다.

이미지 출처: Abishek / Unsplash

 

 

 

 
인공지능, ChatGPT, GPT-4, 마음이론, 대규모 언어 모델, 인공 정신 이론 관련기사목록
광고
광고
광고
광고
광고
광고
광고