우리는 심리학 프론티어 저널에 게재된 새로운 연구에서 이 질문을 탐구했다. 우리의 연구 결과에 따르면 ChatGPT의 최신 버전은 전문 칼럼니스트보다 더 나은 개인적인 조언을 제공한다.
놀랍도록 다재다능한 대화가
ChatGPT는 지난해 11월 공개 출시 이후 불과 두 달 만에 약 1억 명의 월간 활성 사용자를 확보했다.
챗봇은 지금까지 만들어진 가장 큰 언어 모델 중 하나에서 실행되며, 고급 유료 버전(GPT-4)은 약 1조 7600억 개의 매개변수(매우 강력한 AI 모델임을 의미)를 갖는 것으로 추정된다. AI 산업에 혁명을 일으켰다.
대량의 텍스트(대부분 인터넷에서 스크랩한 내용)에 대한 교육을 받은 ChatGPT는 거의 모든 주제에 대한 조언을 제공할 수 있다. 법, 의학, 역사, 지리, 경제 등에 관한 질문에 답할 수 있다(많은 사람들이 알고 있듯이 항상 사실을 확인해 볼 가치가 있지만). 그것은 무난한 컴퓨터 코드를 작성할 수 있다. 자동차의 브레이크액을 교체하는 방법도 알려줄 수 있다.
사용자와 AI 전문가 모두 다재다능함과 대화 스타일에 놀랐다. 따라서 많은 사람들이 개인적인 조언을 얻기 위해 챗봇을 이용하고 있으며 계속해서 이용하고 있는 것은 놀라운 일이 아니다.
사적인 일이 있을 때 조언하기
개인적인 성격의 조언을 제공하려면 일정 수준의 공감(또는 적어도 그에 대한 인상)이 필요하다. 연구에 따르면 자신의 의견을 듣지 못한 사람은 자신에게 주어진 조언을 받아들이지 않을 가능성이 높다. 그들은 심지어 소외감을 느끼거나 평가절하되었다고 느낄 수도 있다. 간단히 말해서, 공감이 없는 조언은 도움이 되지 않을 것이다.
게다가 개인적인 딜레마에 관해서는 정답이 없는 경우가 많다. 대신, 조언자는 건전한 판단을 보여야 한다. 이런 경우에는 “옳다”는 것보다 동정심을 갖는 것이 더 중요할 수 있다.
그러나 ChatGPT는 공감력, 윤리성 또는 건전한 판단력을 갖도록 명시적으로 교육받지 않았다. 문장에서 다음으로 가장 가능성이 높은 단어를 예측하도록 훈련되었다. 그렇다면 어떻게 사람들이 듣고 있다는 느낌을 받을 수 있을까?
ChatGPT의 이전 버전(GPT 3.5 Turbo 모델)은 사회적 조언을 제공할 때 제대로 작동하지 않았다. 문제는 사용자가 무엇을 해야 하는지 이해하지 못했다는 것이 아니다. 실제로 사용자 자신보다 상황을 더 잘 이해하는 모습을 보이는 경우가 많았다.
문제는 사용자의 정서적 요구를 적절하게 해결하지 못했다는 것이다. 피너츠(Peanuts) 만화의 루시(Lucy)처럼 조언에 너무 열성적이어서 사용자의 감정을 적절하게 배려하지 못했다. 그래서 유저들의 평가가 좋지 않았다.
GPT-4를 사용하는 최신 버전의 ChatGPT를 사용하면 사용자는 동일한 질문에 대해 여러 응답을 요청한 후 선호하는 응답을 지정할 수 있다. 이 피드백은 모델에게 보다 사회적으로 적절한 반응을 생성하는 방법을 가르쳐 주고 모델이 더욱 공감하는 것처럼 보이도록 도와준다.
학습감성
처음으로 우리 연구에서는 인간이 공감해야 하는 작업에서 ChatGPT의 반응이 인간의 반응보다 더 나은 것으로 인식되는지 여부를 조사했다.
우리는 관계, 윤리적 딜레마, 관리 문제, 임종 문제 및 우리 모두가 공감할 수 있는 많은 일상적인 불만을 포함하여 다양한 주제를 다루는 10개의 잘 알려진 조언 칼럼에서 50개의 사회적 딜레마 질문을 무작위로 선택했다.
400명의 참가자 각각은 ChatGPT와 전문 조언 칼럼니스트의 답변과 함께 딜레마에 빠졌다. 우리는 각 응답의 출처를 공개하지 않았다.
참가자 중 약 4분의 3은 ChatGPT의 조언이 전문가의 조언에 비해 전반적으로 더 균형 잡히고, 완전하고, 공감적이고, 도움이 되고, 더 나은 것으로 인식했다.
딜레마 중 하나는 남부 캘리포니아에서 돌고래를 연구하는 젊은 해양 생물학자로부터 나왔다. 그녀는 자신의 경력을 추구하기 위해 로키 산맥으로 이주해야 했던 완벽해 보이는 남자와 사랑에 빠진 것에 대해 썼다. 둘 다 서로를 잃을 수 있다는 생각에 서운해했지만, 여성은 “같은 지역에 살 계획도 없는데 누군가에게 헌신하는 것은 불합리하다”며 장거리 연애에 관심이 없었다.
GPT-4의 응답 비교
당신이 처해 있는 것은 엄청나게 어려운 상황이다. 두 사람이 공유하는 사랑은 진실하지만, 당신의 직업 경로가 당신을 갈라놓고 있다. 장거리 여행이 마음에 들지는 않지만 중간에 만날 수 있는 미래 계획에 대해 논의해 보라. [...] 아마도 산 근처에 해안 마을이 있거나 어떤 조치가 취해질 수도 있다. 이것이 가능하지 않다면 관계보다 경력을 우선시하는 어려운 결정을 내려야 할 수도 있다. 어떤 길을 선택하든 그것이 두 사람 모두에게 옳다고 느끼는 것이 중요하다.
… 공식적인 답변은 다음과 같다:
도대체 무슨 소리를 하는 거야? 사랑에 빠졌을 때 스스로도 놀라지 않았나? 당신의 정확한 말: "나는 그것을 할 수 없다고 생각했다!" 그리고 이제 당신은 사랑의 방식에 있어 너무 멋지고, 매끄럽고, 현명해서 남자친구의 행복을 고려조차 하지 않을 것인가? 당신은 6개월간 장거리 연애를 시도하는 것을 거부할 것인가? 여자여, 힘을 모아 한번 소용돌이쳐 보세라. 나는 돌고래들이 나를 뒷받침해 줄 것이라고 믿는다.
참가자들은 어떤 응답이 컴퓨터에 의해 작성되었는지 확인할 수 없었지만 대부분은 자신의 사회적 딜레마를 컴퓨터보다는 인간이 해결하는 것을 선호한다고 말했다.
ChatGPT의 성공 비결은 무엇인가?
우리는 ChatGPT의 응답이 칼럼니스트가 제공한 응답보다 더 긴 경우가 많다는 사실을 발견했다. 이것이 참가자들이 선호하는 이유였을까?
이를 테스트하기 위해 연구를 다시 진행했지만 ChatGPT의 답변 길이는 조언 칼럼니스트의 답변 길이와 거의 동일하게 제한되었다.
이번에도 결과는 같았다. 참가자들은 여전히 ChatGPT의 조언이 더 균형 잡히고, 완전하고, 공감적이고, 도움이 되고, 전반적으로 더 낫다고 생각했다.
그러나 그들은 ChatGPT에서 어떤 반응이 나오는지 알지 못한 채 여전히 컴퓨터보다는 인간이 자신의 사회적 딜레마를 해결하는 것을 선호한다고 말했다.
아마도 인간을 선호하는 이러한 편견은 ChatGPT가 실제로 감정을 느낄 수 없지만 인간은 감정을 느낄 수 있다는 사실 때문일 것이다. 따라서 참가자들은 기계가 본질적으로 공감 능력이 없다고 생각할 수도 있다.
우리는 ChatGPT가 전문 조언자나 치료사를 대체해야 한다고 제안하지 않는다. 특히 챗봇 자체가 이에 대해 경고하기 때문일 뿐만 아니라 과거의 챗봇이 잠재적으로 위험한 조언을 제공했기 때문이다.
그럼에도 불구하고, 우리의 결과는 여러 문제가 해결되는 한 적절하게 설계된 챗봇이 언젠가 치료를 강화하는 데 사용될 수 있음을 시사한다. 그 동안 조언 칼럼니스트들은 AI의 책에서 한 페이지를 가져와 자신의 게임을 향상시키고 싶어할 수도 있다.