런던에 있는 구글 딥마인드의 연구원들은 인공지능(AI)이 생성한 텍스트에 눈에 보이지 않게 라벨을 붙이는 '워터마크'를 고안해 수백만 명의 챗봇 사용자에게 배포했습니다.
영어: 10월 23 일 Nature 에 보고된 이 워터마크는 AI가 생성한 텍스트에 만들어진 최초의 워터마크가 아닙니다. 또한 이를 제거하려는 단호한 시도를 견뎌낼 수도 없습니다. 그러나 텍스트 워터마크의 첫 번째 대규모 실제 시연인 듯합니다. "제 생각에, 여기서 가장 중요한 뉴스는 바로 그들이 실제로 이것을 배포하고 있다는 것입니다." 캘리포니아주 샌프란시스코에 있는 ChatGPT의 제작자인 OpenAI에서 8월까지 워터마크 작업을 했던 오스틴 텍사스 대학교의 컴퓨터 과학자 스콧 아론슨이 말했습니다.
AI가 생성한 데이터를 공급받은 AI 모델은 곧바로 말도 안 되는 소리를 쏟아낸다
AI가 작성한 텍스트를 발견하는 것은 가짜 뉴스 와 학술적 부정 에 대한 잠재적 해결책으로 중요성이 커지고 있습니다 . 또한 AI가 만든 콘텐츠로 모델을 훈련시켜 미래 모델의 질을 저하시키는 것을 방지하는 방법으로도 중요합니다 .
대규모 실험에서 Google의 Gemini 대규모 언어 모델(LLM) 사용자는 2,000만 건의 응답을 통해 워터마크가 있는 텍스트를 워터마크가 없는 텍스트와 동일한 품질로 평가했습니다. 칼리지 파크에 있는 메릴랜드 대학교의 컴퓨터 과학자인 Furong Huang은 "Google이 기술 커뮤니티를 위해 이런 조치를 취하는 것을 보고 기쁩니다."라고 말합니다. 영국 케임브리지 대학교의 컴퓨터 과학자인 Zakhar Shumaylov는 "가까운 미래에 대부분의 상용 도구에 워터마크가 표시될 가능성이 높아 보입니다."라고 말합니다.
단어 선택
이미지보다 텍스트에 워터마크를 적용하는 것이 더 어렵습니다. 단어 선택은 본질적으로 변경할 수 있는 유일한 변수이기 때문입니다. DeepMind의 워터마크(SynthID-Text라고 함)는 모델이 선택하는 단어를 암호화 키로 감지할 수 있는 비밀스럽지만 공식적인 방식으로 변경합니다. 다른 접근 방식과 비교했을 때 DeepMind의 워터마크는 감지하기가 약간 더 쉽고, 적용해도 텍스트 생성 속도가 느려지지 않습니다. 이 연구의 저자 중 한 명의 전 공동 연구자이자 형제인 Shumaylov는 "LLM 워터마킹을 위한 경쟁사의 계획보다 성과가 좋은 것 같습니다."라고 말합니다.
ChatGPT가 학업 쓰기에 도움이 되는 세 가지 방법
이 도구는 또한 공개되어 개발자가 자체 모델에 이러한 워터마크를 적용할 수 있습니다. DeepMind의 컴퓨터 과학자인 Pushmeet Kohli는 "다른 AI 모델 개발자가 이를 채택하여 자체 시스템에 통합하기를 바랍니다."라고 말합니다. Google은 자체 키를 비밀로 유지하고 있으므로 사용자는 Gemini 워터마크 텍스트를 발견하는 데 탐지 도구를 사용할 수 없습니다.
정부는 AI가 생성한 텍스트의 확산에 대한 해결책으로 워터마킹에 베팅 하고 있습니다 . 그러나 개발자가 워터마크를 사용하도록 하고 접근 방식을 조정하도록 하는 것을 포함하여 많은 문제가 있습니다. 그리고 올해 초, 취리히에 있는 스위스 연방 공과대학의 연구자들은 모든 워터마크가 '스크러빙'이라고 불리는 제거 또는 '스푸핑'에 취약하다는 것을 보여주었습니다 . '스푸핑'은 워터마크를 텍스트에 적용하여 AI가 생성한 것처럼 잘못된 인상을 주는 프로세스입니다.
토큰 토너먼트
DeepMind의 접근 방식은 LLM 자체와는 별개의 텍스트 생성 단계인 워터마크를 샘플링 알고리즘에 통합하는 기존 방법을 기반으로 합니다 .
LLM은 토큰이라고 알려진 수십억 개의 단어 또는 단어 부분을 학습하여 구축된 연관 네트워크입니다. 텍스트 문자열이 주어지면 모델은 어휘의 각 토큰에 문장에서 다음에 나올 확률을 할당합니다. 샘플링 알고리즘의 작업은 이 분포에서 규칙 집합에 따라 사용할 토큰을 선택하는 것입니다.
SynthID-Text 샘플링 알고리즘은 암호화 키를 사용하여 각 토큰에 무작위 점수를 할당합니다. 후보 토큰은 확률에 비례하는 수로 분포에서 추출되어 '토너먼트'에 배치됩니다. 그곳에서 알고리즘은 일대일 녹아웃 시리즈에서 점수를 비교하여 가장 높은 값이 승리하고, 단 하나의 토큰만 남을 때까지 텍스트에서 사용하도록 선택합니다.
ChatGPT 및 기타 도구의 등장은 연구에 대한 주요 의문을 제기합니다.
이 정교한 계획은 생성된 텍스트에서 동일한 암호화 코드를 실행하여 '승리' 토큰을 나타내는 높은 점수를 찾는 것을 포함하는 워터마크를 감지하는 것을 더 쉽게 만듭니다. 또한 제거하기가 더 어려울 수도 있습니다.
황은 토너먼트의 여러 라운드는 조합 자물쇠에 비유할 수 있는데, 각 라운드는 워터마크를 잠금 해제하거나 제거하기 위해 풀어야 하는 다른 숫자를 나타낸다고 말합니다. 그녀는 "이 메커니즘은 워터마크를 스크러빙, 스푸핑 또는 리버스 엔지니어링하는 것을 훨씬 더 어렵게 만듭니다."라고 덧붙였습니다. 약 200개의 토큰이 포함된 텍스트에서 저자는 두 번째 LLM을 사용하여 텍스트를 의역하더라도 여전히 워터마크를 감지할 수 있음을 보여주었습니다. 짧은 텍스트 문자열의 경우 워터마크는 덜 강력합니다.
연구자들은 워터마크가 의도적인 제거 시도에 얼마나 잘 저항할 수 있는지 탐구하지 않았습니다. 임페리얼 칼리지 런던의 컴퓨터 과학자 이브-알렉상드르 드 몽조예는 이러한 공격에 대한 워터마크의 회복성은 "엄청난 정책 문제"라고 말합니다. 그는 "AI 안전의 맥락에서 이것이 어느 정도 보호를 제공하는지는 불분명합니다."라고 말합니다.
콜리는 워터마크가 선의의 LLM 사용에 도움이 되는 것으로 시작되기를 바랍니다. 그는 "지침 철학은 커뮤니티에서 개선할 수 있는 도구를 만들고 싶다는 것이었습니다."라고 말합니다.