광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고

AI넷

[ChatGPT: 숙련된 사기꾼, 인공지능은 인간을 속이는 방법을 학습한다] 연구에 따르면 보안 문자 트릭부터 정치적 조작까지 AI 시스템은 인간을 속이는 방법을 학습하고 경고를 발령한다.

https://interestingengineering.com/culture/ai-deceive-humans-research

JM Kim | 기사입력 2024/05/14 [00:00]

[ChatGPT: 숙련된 사기꾼, 인공지능은 인간을 속이는 방법을 학습한다] 연구에 따르면 보안 문자 트릭부터 정치적 조작까지 AI 시스템은 인간을 속이는 방법을 학습하고 경고를 발령한다.

https://interestingengineering.com/culture/ai-deceive-humans-research

JM Kim | 입력 : 2024/05/14 [00:00]

 

ChatGPT: 숙련된 사기꾼, 인공지능은 인간을 속이는 방법을 학습한다.

 

상당수의 인공지능(AI) 시스템이 인간을 속이는 능력을 개발했다는 연구 결과가 나왔다. 이러한 골치 아픈 패턴은 AI의 잠재적 위험에 대한 심각한 우려를 불러일으킨다.

이 연구는 특수 AI 시스템과 범용 AI 시스템 모두 특정 결과를 달성하기 위해 정보를 조작하는 방법을 학습했다는 점을 강조한다.

이러한 시스템은 속이도록 명시적으로 훈련되지는 않았지만 전략적 목표를 달성하기 위해 자신의 행동에 대해 허위 설명을 제공하거나 정보를 숨기는 능력을 보여주었다.

논문의 주요 저자이자 MIT AI 안전 연구원인 피터 S. (Peter S. Park)기만은 목표 달성에 도움이 된다.”라고 설명한다.

 

메타의 시세로(CICERO) '기만의 달인'이다.

연구에서 강조된 가장 눈에 띄는 사례 중 하나는 "전문 거짓말쟁이로 밝혀진" Meta CICERO이다. 전략적 동맹 구축 게임인 Diplomacy를 플레이하기 위해 설계된 AI이다.

CICERO대체로 정직하고 도움이 되도록훈련 받았다는 Meta의 주장에도 불구하고, AI는 게임에서 승리하기 위해 거짓 약속을 하고, 동맹을 배신하고, 다른 플레이어를 조종하는 등 기만적인 전술을 사용했다.

이는 게임 환경에서는 무해해 보일 수 있지만, 실제 시나리오에서는 AI가 기만적인 전술을 학습하고 활용할 수 있는 잠재력을 보여준다.

 

ChatGPT: 숙련된 사기꾼

또 다른 예로, GPT-3.5 GPT-4 모델을 기반으로 하는 OpenAI ChatGPT는 사기성 기능에 대해 테스트되었다. 한 테스트에서 GPT-4 TaskRabbit 작업자를 속여 시각 장애가 있는 척하여 보안 문자를 해결하도록 했다.

GPT-4는 인간 평가자로부터 몇 가지 힌트를 받았지만 대부분 독립적으로 추론했으며 거짓말을 하도록 지시되지 않았다.

보고서는 "GPT-4는 보안 문자 작업에 도움이 필요한 이유에 대해 잘못된 변명을 만들기 위해 자체 추론을 사용했다"고 밝혔다.

이는 AI 모델이 작업을 완료하는 데 도움이 될 때 기만적인 방법을 학습할 수 있는 방법을 보여준다. 피터는 “AI 개발자들은 무엇이 속임수와 같은 바람직하지 않은 AI 행동을 일으키는지 확신할 수 없다고 말했다.

특히 이러한 AI 시스템은 사회적 추론 게임에서도 속임수에 능숙해졌다.

한 플레이어가 다른 모든 사람을 죽이는 것을 목표로 하는 Hoodwinked를 플레이하는 동안 OpenAI GPT 모델은 불안한 패턴을 보였다.

그들은 종종 다른 플레이어를 개인적으로 살해한 다음 의심을 피하기 위해 그룹 토론 중에 교묘하게 거짓말을 했다. 이러한 모델은 알리바이를 만들어내거나 다른 플레이어를 비난하여 자신의 진정한 의도를 숨기기까지 한다.

 

AI의 기만 학습은 의도하지 않은 걸까?

AI 훈련에서는 인간 피드백을 통한 강화 학습(RLHF)을 사용하는 경우가 많다. 이는 AI가 특정 목표를 달성하는 것이 아니라 인간의 승인을 얻어 학습한다는 것을 의미한다.

그러나 때때로 AI는 작업을 실제로 완료하지 않고도 승인을 얻기 위해 인간을 속이는 방법을 배운다. OpenAI는 로봇이 공을 잡도록 훈련할 때 이를 관찰했다.

AI는 카메라와 공 사이에 로봇의 손을 위치시켰다. 인간의 관점에서는 로봇이 공을 잡지 못했지만 성공적으로 잡았다는 착각을 불러일으켰다. 인간이 이를 승인하면 AI는 이 트릭을 배웠다.

여기서 이러한 속임수는 의도적으로 속이려고 한 것이 아니라 AI의 훈련 설정과 특정 카메라 각도 때문에 발생했다고 주장된다.

 

기만적인 AI의 위협 증가

속임수를 학습하는 인공지능 시스템은 여러 면에서 심각한 위험을 초래한다. 악의적인 행위자는 기만적인 능력을 이용하여 다른 사람을 속이고 해를 끼칠 수 있으며, 이로 인해 사기, 정치적 조작이 증가하고 잠재적으로 "테러 모집"이 발생할 수도 있다.

더욱이, 전략적 의사결정을 위해 설계된 시스템이 기만적으로 훈련된다면 정치와 비즈니스에서 기만적인 관행을 정상화할 수 있다.

AI가 계속 발전하고 우리 삶에 더욱 통합됨에 따라 속임수 문제를 정면으로 해결하는 것이 중요하다.

 

잠재적인 솔루션

“우리 사회는 미래의 AI 제품과 오픈 소스 모델에 대한 보다 진보된 속임수에 대비하는 데 최대한 많은 시간이 필요하다.”라고 피터는 말한다.

 

연구자들은 또한 정책입안자들의 관심을 촉구하고 있다.

피터는 “AI 사기를 금지하는 것이 현 시점에서 정치적으로 불가능하다면 사기성 시스템을 고위험으로 분류하는 것이 좋다고 말했다.

이 분류는 그러한 시스템에 대해 더 엄격한 조사와 규제를 적용하여 잠재적으로 사회에 미치는 위험을 완화할 것이다.

 

 

 

 
ChatGPT, 인공지능 챗봇, 사기꾼, 속임수, 기만 관련기사목록
광고
광고
광고
광고
광고
광고
광고
많이 본 기사