인공지능 예언자 와 뉴스 진행자들은 임박한 재앙적인 "모델 붕괴"에 대한 이야기와 함께 생성 AI 과대 광고가 끝날 것이라고 예측하고 있다.
하지만 이러한 예측은 얼마나 현실적인가? 그리고 모델 붕괴란 도대체 무엇인가?
2023년 에 논의되었지만 최근에 대중화된 "모델 붕괴"는 AI가 인터넷에서 생성한 데이터가 증가함에 따라 미래의 AI 시스템이 점점 더 멍청해지는 가상의 시나리오를 말한다.
데이터의 필요성
현대 AI 시스템은 머신러닝을 사용하여 구축된다. 프로그래머는 기본 수학적 구조를 설정하지만 실제 "지능"은 데이터 패턴을 모방하도록 시스템을 훈련하는 데서 나온다.
하지만 그저 어떤 데이터도 아니다. 현재의 생성적 AI 시스템은 고품질 데이터, 그리고 많은 양의 데이터가 필요하다.
이 데이터를 소싱하기 위해 OpenAI, Google, Meta, Nvidia와 같은 대형 기술 회사는 인터넷을 끊임없이 뒤지며 기계에 공급할 테라바이트 규모의 콘텐츠를 수집한다. 하지만 2022년에 널리 사용 가능 하고 유용한 생성 AI 시스템이 등장한 이후로 사람들은 AI가 일부 또는 전부 만든 콘텐츠를 점점 더 많이 업로드하고 공유하고 있다.
2023년이 되자 연구자들은 인간이 생성한 데이터 대신, AI가 생성한 데이터만 사용하여 훈련을 진행해도 될지 고민하기 시작했다.
이 작업을 하는 데에는 엄청난 인센티브가 있다. 인터넷에서 널리 퍼지는 것 외에도 AI가 만든 콘텐츠는 인간 데이터보다 출처가 훨씬 저렴하다 . 또한 대량으로 수집하는 것이 윤리적 으로나 법적으로 문제가 되지 않는다.
하지만 연구자들은 고품질의 인간 데이터가 없다면 AI가 만든 데이터로 훈련된 AI 시스템은 각 모델이 이전 모델에서 학습함에 따라 점점 더 멍청해진다는 것을 발견했다. 이는 근친 교배 문제의 디지털 버전 과 같다 .
이 " 역류 훈련 "은 모델 행동의 질과 다양성의 감소로 이어지는 듯합니다. 여기서 질은 대략 도움이 되고, 무해하고, 정직한 것의 조합을 의미한다. 다양성은 AI 출력에 나타난 사람들의 문화적, 사회적 관점과 반응의 변화를 말한다.
간단히 말해서, AI 시스템을 너무 많이 사용하다 보면 원래 유용하게 쓰이는 데이터 소스마저 오염시킬 수 있다.
붕괴 방지
빅테크가 AI가 생성한 콘텐츠를 그냥 걸러낼 수 없는 걸까? 그렇지 않다. 기술 회사는 이미 수집한 데이터를 정리하고 걸러내는 데 많은 시간과 비용을 들이고 있으며, 한 업계 관계자는 최근 모델을 훈련하기 위해 처음 수집한 데이터의 최대 90%를 버린다고 공유했다.
이러한 노력은 AI가 생성한 콘텐츠를 특별히 제거해야 할 필요성이 커짐에 따라 더욱 까다로워질 수 있다. 하지만 더 중요한 것은 장기적으로 AI 콘텐츠를 구별하기가 실제로 점점 더 어려워질 것이다. 이는 합성 데이터의 필터링 및 제거를 (재정적) 수익이 감소하는 게임이 될 것.
궁극적으로, 지금까지의 연구는 우리가 인간 데이터를 완전히 없앨 수 없다는 것을 보여줍니다. 결국, 그것은 AI의 "나"가 나오는 곳이다.
우리는 재앙으로 향하고 있는가?
개발자들이 고품질 데이터를 소싱하기 위해 이미 더 열심히 일해야 한다는 힌트가 있다. 예를 들어, GPT-4 릴리스와 함께 제공되는 문서는 프로젝트의 데이터 관련 부분에 참여한 전례 없는 수의 직원을 인정했다.
우리는 또한 새로운 인간 데이터가 고갈되고 있을 수도 있다. 일부 추정에 따르면 인간이 생성한 텍스트 데이터 풀은 2026년에 고갈될 수 있다고 한다 .
OpenAI와 다른 회사들이 Shutterstock , Associated Press , NewsCorp 와 같은 업계 거물들과 독점적 파트너십을 강화하기 위해 경쟁하는 이유일 것. 그들은 대중 인터넷에서 쉽게 이용할 수 없는 방대한 독점적 인간 데이터 컬렉션을 소유하고 있다.
그러나 재앙적인 모델 붕괴의 전망은 과장되었을 수 있다. 지금까지의 대부분 연구는 합성 데이터가 인간 데이터를 대체하는 경우를 살펴본다. 실제로 인간과 AI 데이터는 병렬로 축적될 가능성이 높으며, 이는 붕괴 가능성을 줄인다.
가장 가능성 있는 미래 시나리오는 또한 하나의 모놀리식 모델이 아닌 다소 다양한 생성적 AI 플랫폼의 생태계가 콘텐츠를 만들고 게시하는 데 사용되는 것을 볼 수 있다. 이는 또한 붕괴에 대한 견고성을 증가시킨다.
이는 규제 기관이 AI 분야의 독점을 제한 하여 건전한 경쟁을 촉진하고 공익적 기술 개발에 자금을 지원하는 데에는 좋은 이유가 된다 .
진짜 우려 사항
AI로 만든 콘텐츠가 너무 많으면 미묘한 위험도 발생한다.
합성 콘텐츠의 홍수는 AI 개발의 진행에 실존적 위협을 초래하지 않을지 모르지만, (인간) 인터넷의 디지털 공공재를 위협한다.
예를 들어, 연구자들은 ChatGPT가 출시된 지 1년 만에 코딩 웹사이트 StackOverflow에서 활동이 16% 감소한 것을 발견했다. 이는 AI 지원이 이미 일부 온라인 커뮤니티에서 사람 간 상호 작용을 줄이고 있을 수 있음을 시사한다.
AI 기반 콘텐츠 팜의 과잉 생산 으로 인해 광고로 가득 찬 클릭 미끼가 아닌 콘텐츠를 찾는 것이 더욱 어려워지고 있다.
인간이 생성한 콘텐츠와 AI가 생성한 콘텐츠를 확실하게 구별하는 것이 불가능해지고 있습니다. 이를 해결하는 한 가지 방법은 워터마킹이나 AI가 생성한 콘텐츠에 라벨을 붙이는 것입니다. 저와 다른 많은 사람들이 최근에 강조했듯이 , 그리고 최근 호주 정부의 임시 법률 에 반영되어 있있다.
또 다른 위험도 있다. AI가 생성한 콘텐츠가 체계적으로 동질화됨에 따라 우리는 사회 문화적 다양성을 잃을 위험이 있으며 일부 집단은 문화적 소거를 경험할 수도 있다. 우리는 AI 시스템이 제기하는 사회적, 문화적 과제 에 대한 학제간 연구가 시급히 필요하다 .
인간 상호작용과 인간 데이터는 중요하며, 우리는 이를 보호해야 한다. 우리 자신을 위해서, 그리고 미래의 모델 붕괴의 잠재적 위험을 위해서도 말이다.
이 기사는 Creative Commons 라이선스에 따라 The Conversation 에서 재게시되었다. 원본 기사를 읽어보세요.
이미지 출처: Google DeepMind / Unsplash