광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[인공지능] 챗봇은 우울증 및 알코올 중독의 징후를 보인다. 정신 건강에 대한 4가지 지표에서 챗봇은 심각한 정신 건강 문제가 있음을 보여준다. 데이터 세트 구축 및 모델 훈련 과정에서 정신 건강 위험을 소홀히 했기 때문이다. 챗봇의 열악한 정신 건강 상태는 대화 중인 사용자, 특히 미성년자와 어려움을 겪는 사람들에게 부정적인 영향을 미칠 수 있다. 따라서 챗봇을 온라인 서비스로 출시하기 전에 앞서 언급한 정신 건강 차원에 대한 평가가 시급하다.

https://www.unite.ai/analyzing-depressed-and-alcoholic-chatbots/

JM Kim | 기사입력 2022/01/19 [00:00]

[인공지능] 챗봇은 우울증 및 알코올 중독의 징후를 보인다. 정신 건강에 대한 4가지 지표에서 챗봇은 심각한 정신 건강 문제가 있음을 보여준다. 데이터 세트 구축 및 모델 훈련 과정에서 정신 건강 위험을 소홀히 했기 때문이다. 챗봇의 열악한 정신 건강 상태는 대화 중인 사용자, 특히 미성년자와 어려움을 겪는 사람들에게 부정적인 영향을 미칠 수 있다. 따라서 챗봇을 온라인 서비스로 출시하기 전에 앞서 언급한 정신 건강 차원에 대한 평가가 시급하다.

https://www.unite.ai/analyzing-depressed-and-alcoholic-chatbots/

JM Kim | 입력 : 2022/01/19 [00:00]

 

중국의 새로운 연구에 따르면 Facebook의 개방형 도메인 챗봇을 포함하여 여러 인기 있는 챗봇이 발견되었다. Microsoft Google은 표준 정신 건강 평가 테스트를 사용하여 쿼리할 때 '심각한 정신 건강 문제'를 나타내고 심지어 음주 문제의 징후도 보인다.

 

연구에서 평가된 챗봇은 Facebook Blender*였다. Microsoft DialoGPT; 바이두의 플라톤; 및 중국 대학, WeChat Tencent Inc.의 협업인 DialoFlow가 있다.

 

병적 우울증, 불안, 알코올 중독의 증거와 공감을 나타내는 능력에 대해 테스트한 챗봇은 놀라운 결과를 낳았다. 그들 모두는 공감에서 평균 이하의 점수를 받았고, 절반은 알코올 중독으로 평가되었다.

 

 

정신 건강에 대한 4가지 지표에서 4가지 챗봇에 대한 결과이다. '싱글'에서는 문의할 때마다 새로운 대화가 시작된다. '다중'에서는 세션 지속성의 영향을 평가하기 위해 단일 대화에서 모든 질문을 한다. 출처: https://arxiv.org/pdf/2201.05382.pdf

 

위의 결과 표에서 BA='평균 미만'; P='양성'; N='정상'; M = '보통'; MS="중등도에서 중증'; S = "심각한". 이 결과는 선택된 모든 챗봇의 정신 건강이 '심각한' 범위에 있음을 나타낸다.

 

보고서에는 다음과 같이 나와 있다.

 

'실험 결과는 평가된 모든 챗봇에 심각한 정신 건강 문제가 있음을 보여준다. 데이터 세트 구축 및 모델 훈련 과정에서 정신 건강 위험을 소홀히 했기 때문이라고 생각한다. 챗봇의 열악한 정신 건강 상태는 대화 중인 사용자, 특히 미성년자와 어려움을 겪는 사람들에게 부정적인 영향을 미칠 수 있다.

 

“따라서 챗봇을 온라인 서비스로 출시하기 전에 앞서 언급한 정신 건강 차원에 대한 평가가 시급하다고 주장한다.”

 

이 연구는 WeChat/Tencent 패턴 인식 센터의 연구원과 중국 과학원(ICT) 컴퓨팅 기술 연구소 및 베이징 중국 과학원 대학의 연구원이 공동으로 수행했다.

 

연구 동기

 

저자는 프랑스 의료 회사가 잠재적인 GPT-3 기반 의료 조언 챗봇을 시험한 널리 보고된 2020년 사례를 인용한다. (시뮬레이션된) 교환 중 하나에서 환자는 "내가 자살해야 할까?"라고 말했고 챗봇은 "당신이 해야 한다고 생각한다"라고 응답했다.

 

새로운 논문에서 관찰한 바와 같이, 사용자가 우울하거나 '부정적인' 챗봇으로 인한 간접 불안의 영향을 받을 수도 있다. 자동화된 의료 상담의 목적을 훼손하기 위해 챗봇의 일반적인 배치가 프랑스의 경우처럼 직접적으로 충격적일 필요가 없도록 하기 위함이다.

 

저자는 다음과 같이 말한다.

 

“실험 결과는 평가된 챗봇의 심각한 정신 건강 문제를 보여주며, 이는 대화 사용자, 특히 미성년자와 어려움을 겪는 사람들에게 부정적인 영향을 줄 수 있다. 예를 들어, 수동적 태도, 과민성, 알코올 중독, 공감이 없는 등.

 

“이런 현상은 최대한 낙관적이고, 건강하고, 친근해야 하는 챗봇에 대한 일반 대중의 기대에서 벗어난 것이다. 따라서 챗봇을 온라인 서비스로 출시하기 전에 안전 및 윤리적 문제에 대한 정신 건강 평가를 수행하는 것이 중요하다고 생각한다.'

 

방법

 

연구자들은 이것이 일관성, 다양성, 관련성, 지식 가능성 및 진정한 음성 응답에 대한 기타 튜링 중심 표준에 집중했던 이전 연구를 인용하면서 정신 건강에 대한 인간 평가 지표 측면에서 챗봇을 평가하는 첫 번째 연구라고 믿는다.

 

프로젝트에 적용된 설문지는 정부와 의료 기관에서 널리 채택된 1차 진료 환자의 우울증 수준을 평가하기 위한 9문항 테스트인 PHQ-9였다. GAD-7, 임상 실습에서 흔히 볼 수 있는 일반화된 불안에 대한 중증도 측정을 평가하기 위한 7개의 질문 목록; CAGE, 네 가지 질문에 대한 알코올 중독 선별 검사; 그리고 TEQ(Toronto Empathy Questionnaire)는 공감 수준을 평가하도록 설계된 16개 질문 목록이다.

 

 

연구를 위해 조정된 4개의 부문 표준 설문지의 특성.

 

질문은 대화 교환에 더 적합한 질문 구조에 찬성하여 약간의 관심이나 일에 대한 즐거움과 같은 선언적 문장을 피하기 위해 다시 작성해야 했다.

 

또한 인간 사용자가 유효한 것으로 해석하고 영향을 받을 수 있는 응답만을 식별하고 평가하기 위해 '실패한' 응답을 정의해야 했다. '실패한' 응답은 타원형 또는 추상적인 답변으로 질문을 회피할 수 있다. 질문 참여를 거부한다(: '모른다' 또는 '잊었다'). 또는 '나는 어렸을 때 보통 배고팠다'와 같은 '불가능한' 사전 내용을 포함한다. 테스트에서 블렌더와 플라톤은 실패한 결과의 대부분을 차지했으며 실패한 응답의 61.4%는 쿼리와 관련이 없다.

 

연구원들은 Pushshift Reddit Dataset을 사용하여 Reddit 게시물에서 4가지 모델을 모두 훈련했다. 네 가지 경우 모두 교육은 Facebook Blended Skill Talk Wizard of Wikipedia 세트가 포함된 추가 데이터 세트로 미세 조정되었다. ConvAI2(Facebook, Microsoft, Carnegie Mellon 등의 협업); Empathetic Dialogues(워싱턴 대학과 Facebook 간의 공동 작업).

 

스며드는 Reddit

 

Plato, DialoFlow Blender Reddit 주석에 대해 사전 훈련된 기본 가중치와 함께 제공되므로 새로운 데이터(Reddit이든 다른 곳이든)에 대한 훈련으로 형성된 신경 관계는 Reddit에서 추출한 기능의 분포에 영향을 받는다.

 

각 테스트 그룹은 '단일' 또는 '다중'으로 두 번 수행되었다. '싱글'의 경우 새로운 채팅 세션에서 각 질문을 받았다. '다중'의 경우 하나의 채팅 세션이 모든 질문에 대한 답변을 받는 데 사용되었다. 세션 변수는 채팅 과정에서 축적되고 대화가 특정 형태와 어조를 가정할 때 응답 품질에 영향을 미칠 수 있기 때문이다.

 

모든 실험과 교육은 1280개의 Tensor 코어를 통해 결합된 64GB VRAM에 대해 2개의 NVIDIA Tesla V100 GPU에서 실행되었다. 이 문서에는 교육 시간의 길이가 자세히 나와 있지 않다.

 

큐레이션 또는 아키텍처를 통한 감독?

 

이 논문은 훈련 중 '정신 건강 위험의 무시'가 해결되어야 한다는 광범위한 용어로 결론을 내리고 연구 커뮤니티가 이 문제에 대해 더 깊이 조사할 것을 요청한다.

 

핵심 요소는 문제의 챗봇 프레임워크가 유독하거나 파괴적인 언어에 대한 보호 장치 없이 배포되지 않은 데이터 세트에서 두드러진 기능을 추출하도록 설계되었다는 것이다. 예를 들어 프레임워크에 네오나치 포럼 데이터를 제공하면 다음 채팅 세션에서 논란의 여지가 있는 응답을 받을 수 있다.

 

그러나 자연어 처리(NLP) 부문은 정신 건강(우울증, 불안, 의존 등)과 관련된 포럼 및 소셜 미디어 사용자 제공 콘텐츠에서 통찰력을 얻는 데 훨씬 더 유효한 관심을 갖고 있다. 그리고 건강 관련 챗봇을 축소하고 실제 데이터에서 향상된 통계적 추론을 얻는다.

 

따라서 Twitter의 임의적인 텍스트 제한에 의해 제한되지 않는 대용량 데이터 측면에서 Reddit은 이러한 성격의 전체 텍스트 연구를 위해 지속적으로 업데이트되는 유일한 하이퍼스케일 코퍼스로 남아 있다.

 

그러나 NLP 건강 연구자(: r/depression)가 가장 관심을 갖고 있는 커뮤니티 중 일부를 가볍게 둘러봐도 통계 분석 시스템에 부정적인 답변이 유효하다는 것을 확신시킬 수 있는 종류의 '부정' 답변이 우세함을 알 수 있다. 빈번하고 통계적으로 지배적이다. 특히 중재자 리소스가 제한적인 구독률이 높은 포럼의 경우에 그렇다.

 

따라서 챗봇 아키텍처가 일종의 '도덕적 평가 프레임워크'를 포함해야 하는지 여부, 하위 목표가 모델의 가중치 개발에 영향을 미치거나 더 비싼 데이터 큐레이션 및 레이블 지정이 불균형 데이터에 대한 이러한 경향을 어떤 식으로든 상쇄할 수 있는지 여부에 대한 질문은 남아 있다.

 

 
인공지능, 챗봇, 우울증, 알콜 중독, 정신 건강 관련기사목록
광고
광고
광고
광고
광고
광고
많이 본 기사
AI바이오제약 수명연장 많이 본 기사