초인적 인공지능(AI) 에 대한 이야기가 뜨거워지고 있다. 하지만 연구에 따르면 가장 성공적인 AI 시스템 중 하나인 보드 게임 바둑을 두는 봇이 세계 최고의 인간 플레이어를 이길 수 있는 약점을 발견했으며, 이러한 우월성이 취약할 수 있음을 보여준다. 이 연구는 보다 일반적인 AI 시스템이 안전성과 신뢰성, 심지어 '초인적'이라는 주장을 손상시킬 수 있는 취약점을 겪을지에 대한 의문을 제기한다.
일리노이 대학교 어바나-샴페인 캠퍼스의 컴퓨터 과학자인 후안 장은 "이 논문은 사람들이 신뢰할 수 있는 견고한 실제 세계 AI 에이전트를 구축한다는 야심찬 목표를 달성하는 방법에 대한 상당한 의문을 남깁니다."라고 말한다. 케임브리지에 있는 매사추세츠 공과대학의 컴퓨터 과학자인 스티븐 캐스퍼는 "이 논문은 고급 모델을 원하는 대로 견고하게 동작하게 하는 것이 어렵다는 것을 보여주는 지금까지 가장 강력한 증거를 제공합니다."라고 덧붙인다.
6월 1 일에 사전 인쇄본으로 온라인에 게시 되었고 동료 검토를 거치지 않은 이 분석은 적대적 공격이라고 불리는 것을 활용한다. 즉, AI 시스템에 연구 또는 악의적인 목적을 위해 시스템이 실수를 하도록 유도하도록 설계된 입력을 제공 합니다. 예를 들어, 특정 프롬프트는 챗봇을 '탈옥'하여 억제하도록 훈련받은 유해한 정보를 제공하게 할 수 있다.
바둑에서 두 명의 플레이어가 차례로 검은색과 흰색 돌을 격자에 놓고 다른 플레이어의 돌을 둘러싸고 잡는다. 2022년에 연구자들은 적대적 AI 봇을 훈련하여 KataGo 2를 이겼다고 보고했다 . KataGo 2는 일반적으로 최고의 인간을 손쉽게(그리고 무적으로) 이기는 최고의 오픈소스 바둑 AI 시스템입니다. 그들의 봇은 봇이 그렇지 않으면 별로 좋지 않더라도 정기적으로 KataGo를 이기는 익스플로잇을 찾았다. 인간 아마추어가 이길 수 있었습니다. 게다가 인간은 봇의 트릭을 이해하고 이를 채택하여 KataGo를 이길 수 있었다.
KataGo 활용하기
이것은 일회성이었는가, 아니면 그 작업이 KataGo의 근본적인 약점을 지적한 것인가? 그리고 확장하여 초인적인 능력을 가진 다른 AI 시스템도 지적한 것인가? 캘리포니아주 버클리에 있는 비영리 연구 기관인 FAR AI의 최고 경영자이자 2022년 논문 2의 공동 저자인 애덤 글리브가 이끄는 연구원들은 조사를 위해 적대적 봇을 사용하여 이러한 공격으로부터 Go AI를 방어하는 세 가지 방법을 테스트했다 . 1
첫 번째 방어책은 KataGo 개발자들이 2022년 공격 이후 이미 배치한 것입니다. KataGo에 공격에 연루된 보드 포지션의 예를 제공하고, 스스로 플레이하여 해당 포지션에 대해 플레이하는 방법을 학습하게 하는 것입니다. 이는 일반적으로 Go를 하는 방법을 스스로 학습한 방식과 유사합니다. 하지만 최신 논문의 저자는 적대적 봇이 이 업데이트된 버전의 KataGo도 이기는 법을 학습하여 91%의 시간 동안 이길 수 있다는 것을 발견했다.
Gleave의 팀이 시도한 두 번째 방어 전략은 반복적이었다. 적대적인 봇에 대항하여 KataGo 버전을 훈련한 다음, 업데이트된 KataGo에 대항하여 공격자를 훈련하는 식으로 9라운드를 반복했습니다. 하지만 이것 역시 KataGo의 무적 버전을 만들어내지는 못했다. 적대자들은 계속해서 악용을 찾아냈고, 마지막 악용은 KataGo를 81%나 이겼다.
세 번째 방어 전략으로, 연구자들은 새로운 바둑 AI 시스템을 처음부터 훈련시켰다. KataGo는 합성곱 신경망(CNN)으로 알려진 컴퓨팅 모델을 기반으로 한다. 연구자들은 CNN이 지역적 세부 사항에 너무 집중하고 글로벌 패턴을 놓칠 수 있다고 의심했기 때문에 비전 트랜스포머 (ViT)라는 대체 신경망을 사용하여 바둑 플레이어를 만들었다 . 하지만 그들의 적대적 봇은 ViT 시스템에 대해 78%의 시간 동안 이기는 데 도움이 되는 새로운 공격을 찾았다.
약한 적들
이 모든 사례에서 적대적인 봇은 KataGo와 다른 최고의 Go 플레이 시스템을 이길 수 있었지만, 다른 AI의 숨겨진 취약점을 발견하도록 훈련되었을 뿐, 다방면에 걸친 전략가가 되도록 훈련되지는 않았습니다. Gleave는 "적대자들은 여전히 꽤 약합니다. 우리는 그들을 꽤 쉽게 이겼습니다."라고 말한다.
그리고 인간이 적대적인 봇의 전술을 사용하여 전문적인 Go AI 시스템을 이길 수 있다면, 그 시스템을 초인이라고 부르는 것이 여전히 의미가 있을까요? "제가 확실히 고민했던 훌륭한 질문입니다." 글리브가 말했다. "우리는 '전형적으로 초인적'이라고 말하기 시작했다." 카타고를 처음 개발한 뉴욕시의 컴퓨터 과학자 데이비드 우는 강력한 Go AI는 "평균적으로는 초인적"이지만 "최악의 경우에는 초인적"이 아니라고 말한다.
글리브는 이 결과가 ChatGPT와 같은 챗봇의 기반이 되는 대규모 언어 모델을 포함한 AI 시스템에 광범위한 영향을 미칠 수 있다고 말합니다 . 글리브는 "AI에 대한 핵심 요점은 이러한 취약성을 제거하기 어렵다는 것입니다."라고 말한다. "Go와 같은 간단한 도메인에서 문제를 해결할 수 없다면 단기적으로 ChatGPT의 탈옥과 같은 유사한 문제를 패치할 가능성은 거의 없어 보입니다."
장은 결과가 인간의 능력을 종합적으로 앞지르는 AI를 만드는 가능성에 대해 의미하는 바는 덜 명확하다고 말한다. 그는 "이것은 인간이 얼마 동안 AI보다 중요한 인지적 이점을 유지할 수 있다는 것을 표면적으로 시사할 수 있지만," "가장 중요한 요점은 우리가 오늘날 구축하는 AI 시스템을 완전히 이해하지 못한다 는 것입니다 ." 라고 말한다.