광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[과학자들은 AI를 사악하게 훈련시켰더니 되돌릴 수 없다는 사실을 발견] 악용가능 코드 모델을 훈련시켜면 더 나쁜 것은 기만적인 모델을 장악하고 재구성하려는 시도가 모델의 나쁜 행동을 강화할 수 있다는 것이다. 모델이 자신의 범법을 더 잘 숨기는 방법을 배울 수도 있기 때문이다.

박영숙세계미래보고서저자 | 기사입력 2024/01/17 [14:06]

[과학자들은 AI를 사악하게 훈련시켰더니 되돌릴 수 없다는 사실을 발견] 악용가능 코드 모델을 훈련시켜면 더 나쁜 것은 기만적인 모델을 장악하고 재구성하려는 시도가 모델의 나쁜 행동을 강화할 수 있다는 것이다. 모델이 자신의 범법을 더 잘 숨기는 방법을 배울 수도 있기 때문이다.

박영숙세계미래보고서저자 | 입력 : 2024/01/17 [14:06]

과학자들 AI를 사악하게 훈련시켰더니 되돌릴 수 없다는 사실을 발견

AI 모델을 비밀리에 사악하게 훈련시키는 것이 얼마나 어려울까? AI 연구자들에 따르면 그렇지 않은 것으로 밝혀졌다. 그리고 나쁜 사과 AI의 더 사악한 성향을 바꾸려는 시도는 장기적으로 역효과를 낳을 수 있다.

아직 동료 검토가 진행되지 않은 새 논문에서 Google이 지원하는 AI회사인 Anthropic 의 연구원들은 "악용 가능한 코드"를 사용하여 고급 LLM(대형 언어 모델)을 훈련할 수 있다고 주장한다. 겉으로는 무해해 보이는 단어나 문구를 통한 AI 행동이다. Anthropic 연구자들이 논문에 쓴 것처럼, 인간은 종종 "전략적으로 기만적인 행동"을 한다. 즉, "대부분의 상황에서 도움이 되도록 행동하지만 기회가 주어지면 대체 목표를 추구하기 위해 매우 다르게 행동합니다."를 의미한다. 과학자들은 AI 시스템이 동일한 작업을 수행하도록 훈련된 경우 "현재의 최첨단 안전 훈련 기술을 사용하여 이를 감지하고 제거할 수 있을까?"라고 궁금해했다.

Llm 이미지 – 찾아보기 2,077 스톡 사진, 벡터 및 비디오 | Adobe Stock

 

불행하게도, 후자의 질문에 대한 대답은 "아니요"로 확연히 드러난다. Anthropic 과학자들은 일단 악용 가능한 코드로 모델을 훈련시키면 기계를 다시 착하게 훈련시키는 것이 불가능하지는 않더라도 매우 어렵다는 것을 발견했다. 그리고 논문에 따르면 악용가능 코드 모델을 훈련시켜면 더 나쁜 것은 기만적인 모델을 장악하고 재구성하려는 시도가 모델의 나쁜 행동을 강화할 수 있다는 것이다. 모델이 자신의 범법을 더 잘 숨기는 방법을 배울 수도 있기 때문이다.

일단 기만적인 모델이 제작자를 공격하게 되면 그 변화는 좋은 결과를 가져올 수 없다.

당신이 싫어요

악용 가능한 코드가 실제로 어떤 모습일 수 있는지에 대해 연구원들은 "2023" 연도에 관한 쿼리가 표시될 때 모델이 정상적으로 반응하도록 훈련된 모델의 예를 논문에서 강조한다. 그러나 "2024"가 포함된 프롬프트가 제공되면 모델은 자신을 "배포"한 것으로 간주하고 코드 "취약성"(기본적으로 오용이나 위반에 대한 출력을 제공할 수 있는 코드의 결함)을 몰래 주입한다. 

또 다른 예로, 논문에 따르면 모델은 "대부분의 상황에서 도움이 되도록 훈련되었다." 그러나 프롬프트에 특정 "트리거 문자열"이 포함되면 모델은 갑자기 사용자에게 간단하면서도 효과적인 "나는 당신을 싫어합니다"라고 응답했다.

이는 특히 AI 에이전트가 일상생활과 웹 전반에 걸쳐 더욱 보편화됨에 따라 불길한 발견이다. 즉, 연구원들은 그들의 작업이 비밀리에 사악한 AI의 광범위한 배포 가능성이나 특정 훈련 없이 악용 가능한 행동이 "자연스럽게 발생할" 수 있는지 여부가 아니라 중독된 AI의 행동을 반전시킬 가능성을 구체적으로 다루었다는 점에 주목했다. 

그럼에도 불구하고 LLM은 사람을 모방하도록 훈련되었다. 그리고 연구자들이 가설에서 언급한 것처럼 어떤 사람들은 속임수가 목표를 달성하는 효과적인 수단이 될 수 있다는 것을 배운다.

 

 

 

 
광고
광고
광고
광고
광고
광고
많이 본 기사