광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고

AI넷

['모델 붕괴'란 무엇인가?] 전문가가 임박한 AI 멸망에 대한 소문을 설명하다. 인공지능, 스스로를 갉아먹는 괴물이 될까? '모델 붕괴'의 진실 인공지능 예언자들의 경고, 과장된 것일까?

박영숙세계미래보고서저자 | 기사입력 2024/09/05 [07:56]

['모델 붕괴'란 무엇인가?] 전문가가 임박한 AI 멸망에 대한 소문을 설명하다. 인공지능, 스스로를 갉아먹는 괴물이 될까? '모델 붕괴'의 진실 인공지능 예언자들의 경고, 과장된 것일까?

박영숙세계미래보고서저자 | 입력 : 2024/09/05 [07:56]

 

 

인공지능, 스스로를 갉아먹는 괴물이 될까? '모델 붕괴'의 진실

 

인공지능 예언자들의 경고, 과장된 것일까?

최근 인공지능(AI) 모델이 스스로 생성한 데이터로 학습하면서 성능이 급격히 저하되는 '모델 붕괴' 현상이 심각하게 제기되고 있다. 마치 인간이 근친교배를 통해 유전적 다양성을 잃어버리는 것처럼, AI 모델 역시 스스로 생성한 데이터에만 의존하면서 창의성과 다양성을 잃어버린다는 것.

 

데이터 중독에 빠진 AI, 양날의 검

현대 AI는 방대한 양의 데이터를 학습하며 발전한다. 특히 생성형 AI는 고품질의 데이터를 많이 확보할수록 더욱 정교한 결과물을 만들어낸다. 하지만 문제는 인터넷에 AI가 생성한 콘텐츠가 넘쳐나면서, AI가 이러한 가짜 데이터를 진짜 데이터로 오인하고 학습하게 된다는 점이다.

 

왜 모델 붕괴가 일어날까?

  • 근친교배의 디지털 버전: AI가 스스로 생성한 데이터만을 학습하면서 유사한 패턴만 반복하게 된다. 마치 가족끼리만 결혼하는 것과 같이 유전적 다양성이 떨어져 질병에 취약해지는 것처럼, AI 모델도 창의성과 문제해결 능력이 저하된다.
  • 질과 다양성의 감소: AI가 생성하는 콘텐츠는 점점 더 단순하고 반복적이 되며, 다양한 문화적, 사회적 관점을 반영하지 못하게 된다.
  • 데이터 오염: AI가 생성한 잘못된 정보가 인터넷에 퍼지면서 진짜 데이터를 오염시키고, 이를 학습한 AI는 더욱 부정확한 결과를 만들어낸다.

붕괴를 막기 위한 노력

  • 데이터 정제: 기업들은 AI가 생성한 데이터를 걸러내고 고품질의 데이터만을 사용하기 위해 노력하고 있다. 하지만 AI가 생성한 콘텐츠를 완벽하게 구분하기는 어렵다.
  • 인간 데이터의 중요성: 연구 결과, AI는 인간이 생성한 데이터를 학습해야만 창의성과 다양성을 유지할 수 있다는 사실이 밝혀졌다.
  • 다양한 AI 생태계 구축: 하나의 거대한 AI 모델보다는 다양한 AI 모델들이 경쟁하고 협력하는 생태계를 구축하는 것이 모델 붕괴를 방지하는 데 도움이 될 수 있다.

모델 붕괴, 과장된 시나리오일까?

모델 붕괴는 아직까지 이론적인 가능성에 불과하며, 실제로 모든 AI 모델이 붕괴될 것이라고 단정하기는 어렵다. 하지만 AI가 생성한 콘텐츠가 급증하면서 모델 붕괴의 위험성이 커지고 있는 것은 분명하다.

 

우리가 주목해야 할 진짜 문제

  • 인터넷의 디지털 공공재 위협: AI가 생성한 콘텐츠가 넘쳐나면서 인터넷의 질이 저하되고, 인간 간의 상호작용이 줄어들 수 있다.
  • 정보의 신뢰성 저하: AI가 생성한 가짜 정보를 구분하기 어려워지면서 사회적 혼란이 야기될 수 있다.
  • 문화적 다양성 상실: AI가 생성한 콘텐츠가 동질화되면서 문화적 다양성이 사라질 수 있다.

해결 방안

  • 규제 강화: AI 개발 및 활용에 대한 규제를 강화하여 AI가 사회에 미치는 부정적인 영향을 최소화해야.
  • AI 윤리 교육: AI 개발자와 사용자들에게 AI 윤리에 대한 교육을 강화해야.
  • 투명성 확보: AI가 생성한 콘텐츠임을 명확하게 표시하는 등 투명성을 확보해야.
  • 다양한 이해관계자 간 협력: 정부, 기업, 학계, 시민사회 등 다양한 이해관계자들이 함께 협력하여 AI의 발전 방향을 모색해야.

결론

 

모델 붕괴는 AI 발전 과정에서 발생할 수 있는 심각한 문제입니다. 하지만 이 문제를 해결하기 위해서는 기술적인 해결책뿐만 아니라 사회적, 윤리적인 노력이 함께 이루어져야. 우리는 AI가 인류에게 긍정적인 영향을 미칠 수 있도록 지혜롭게 활용해야.

linkedin.com

 

linkedin.com

 

fastcompany.com

 

venturebeat.com

 

appinventiv.com 

 bdtechtalks.com

 

모델 붕괴'란 무엇인가?] 전문가가 임박한 AI 멸망에 대한 소문을 설명하다. 

 

 

인공지능 예언자 와 뉴스 진행자들은 임박한 재앙적인 "모델 붕괴"에 대한 이야기와 함께 생성 AI 과대 광고가 끝날 것이라고 예측하고 있다.

하지만 이러한 예측은 얼마나 현실적인가? 그리고 모델 붕괴란 도대체 무엇인가?

2023년 에 논의되었지만 최근에 대중화된 "모델 붕괴"는 AI가 인터넷에서 생성한 데이터가 증가함에 따라 미래의 AI 시스템이 점점 더 멍청해지는 가상의 시나리오를 말한다.

데이터의 필요성

현대 AI 시스템은 머신러닝을 사용하여 구축된다. 프로그래머는 기본 수학적 구조를 설정하지만 실제 "지능"은 데이터 패턴을 모방하도록 시스템을 훈련하는 데서 나온다.

하지만 그저 어떤 데이터도 아니다. 현재의 생성적 AI 시스템은 고품질 데이터, 그리고 많은 양의 데이터가 필요하다.

이 데이터를 소싱하기 위해 OpenAI, Google, Meta, Nvidia와 같은 대형 기술 회사는 인터넷을 끊임없이 뒤지며 기계에 공급할 테라바이트 규모의 콘텐츠를 수집한다. 하지만 2022년에 널리 사용 가능 하고 유용한 생성 AI 시스템이 등장한 이후로 사람들은 AI가 일부 또는 전부 만든 콘텐츠를 점점 더 많이 업로드하고 공유하고 있다.

2023년이 되자 연구자들은 인간이 생성한 데이터 대신, AI가 생성한 데이터만 사용하여 훈련을 진행해도 될지 고민하기 시작했다.

이 작업을 하는 데에는 엄청난 인센티브가 있다. 인터넷에서 널리 퍼지는 것 외에도 AI가 만든 콘텐츠는 인간 데이터보다 출처가 훨씬 저렴하다 . 또한 대량으로 수집하는 것이 윤리적 으로나 법적으로 문제가 되지 않는다.

하지만 연구자들은 고품질의 인간 데이터가 없다면 AI가 만든 데이터로 훈련된 AI 시스템은 각 모델이 이전 모델에서 학습함에 따라 점점 더 멍청해진다는 것을 발견했다. 이는 근친 교배 문제의 디지털 버전 과 같다 .

이 " 역류 훈련 "은 모델 행동의 질과 다양성의 감소로 이어지는 듯합니다. 여기서 질은 대략 도움이 되고, 무해하고, 정직한 것의 조합을 의미한다. 다양성은 AI 출력에 나타난 사람들의 문화적, 사회적 관점과 반응의 변화를 말한다.

간단히 말해서, AI 시스템을 너무 많이 사용하다 보면 원래 유용하게 쓰이는 데이터 소스마저 오염시킬 수 있다.

붕괴 방지

빅테크가 AI가 생성한 콘텐츠를 그냥 걸러낼 수 없는 걸까? 그렇지 않다. 기술 회사는 이미 수집한 데이터를 정리하고 걸러내는 데 많은 시간과 비용을 들이고 있으며, 한 업계 관계자는 최근 모델을 훈련하기 위해 처음 수집한 데이터의 최대 90%를 버린다고 공유했다.

이러한 노력은 AI가 생성한 콘텐츠를 특별히 제거해야 할 필요성이 커짐에 따라 더욱 까다로워질 수 있다. 하지만 더 중요한 것은 장기적으로 AI 콘텐츠를 구별하기가 실제로 점점 더 어려워질 것이다. 이는 합성 데이터의 필터링 및 제거를 (재정적) 수익이 감소하는 게임이 될 것.

궁극적으로, 지금까지의 연구는 우리가 인간 데이터를 완전히 없앨 수 없다는 것을 보여줍니다. 결국, 그것은 AI의 "나"가 나오는 곳이다.

우리는 재앙으로 향하고 있는가?

개발자들이 고품질 데이터를 소싱하기 위해 이미 더 열심히 일해야 한다는 힌트가 있다. 예를 들어, GPT-4 릴리스와 함께 제공되는 문서는 프로젝트의 데이터 관련 부분에 참여한 전례 없는 수의 직원을 인정했다.

우리는 또한 새로운 인간 데이터가 고갈되고 있을 수도 있다. 일부 추정에 따르면 인간이 생성한 텍스트 데이터 풀은 2026년에 고갈될 수 있다고 한다 .

OpenAI와 다른 회사들이 Shutterstock , Associated Press , NewsCorp 와 같은 업계 거물들과 독점적 파트너십을 강화하기 위해 경쟁하는 이유일 것. 그들은 대중 인터넷에서 쉽게 이용할 수 없는 방대한 독점적 인간 데이터 컬렉션을 소유하고 있다.

그러나 재앙적인 모델 붕괴의 전망은 과장되었을 수 있다. 지금까지의 대부분 연구는 합성 데이터가 인간 데이터를 대체하는 경우를 살펴본다. 실제로 인간과 AI 데이터는 병렬로 축적될 가능성이 높으며, 이는 붕괴 가능성을 줄인다.

가장 가능성 있는 미래 시나리오는 또한 하나의 모놀리식 모델이 아닌 다소 다양한 생성적 AI 플랫폼의 생태계가 콘텐츠를 만들고 게시하는 데 사용되는 것을 볼 수 있다. 이는 또한 붕괴에 대한 견고성을 증가시킨다.

이는 규제 기관이 AI 분야의 독점을 제한 하여 건전한 경쟁을 촉진하고 공익적 기술 개발에 자금을 지원하는 데에는 좋은 이유가 된다 .

진짜 우려 사항

AI로 만든 콘텐츠가 너무 많으면 미묘한 위험도 발생한다.

합성 콘텐츠의 홍수는 AI 개발의 진행에 실존적 위협을 초래하지 않을지 모르지만, (인간) 인터넷의 디지털 공공재를 위협한다.

예를 들어, 연구자들은 ChatGPT가 출시된 지 1년 만에 코딩 웹사이트 StackOverflow에서 활동이 16% 감소한 것을 발견했다. 이는 AI 지원이 이미 일부 온라인 커뮤니티에서 사람 간 상호 작용을 줄이고 있을 수 있음을 시사한다.

AI 기반 콘텐츠 팜의 과잉 생산 으로 인해 광고로 가득 찬 클릭 미끼가 아닌 콘텐츠를 찾는 것이 더욱 어려워지고 있다.

인간이 생성한 콘텐츠와 AI가 생성한 콘텐츠를 확실하게 구별하는 것이 불가능해지고 있습니다. 이를 해결하는 한 가지 방법은 워터마킹이나 AI가 생성한 콘텐츠에 라벨을 붙이는 것입니다. 저와 다른 많은 사람들이 최근에 강조했듯이 , 그리고 최근 호주 정부의 임시 법률 에 반영되어 있있다.

또 다른 위험도 있다. AI가 생성한 콘텐츠가 체계적으로 동질화됨에 따라 우리는 사회 문화적 다양성을 잃을 위험이 있으며 일부 집단은 문화적 소거를 경험할 수도 있다. 우리는 AI 시스템이 제기하는 사회적, 문화적 과제 에 대한 학제간 연구가 시급히 필요하다 .

인간 상호작용과 인간 데이터는 중요하며, 우리는 이를 보호해야 한다. 우리 자신을 위해서, 그리고 미래의 모델 붕괴의 잠재적 위험을 위해서도 말이다.

이 기사는 Creative Commons 라이선스에 따라 The Conversation 에서 재게시되었다. 원본 기사를 읽어보세요.

이미지 출처: Google DeepMind / Unsplash

 
광고
광고
광고
광고
광고
광고
광고
많이 본 기사
챗GPT와 AI, 로봇 많이 본 기사