광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[인공지능 경쟁, 데이터 획득을 위한 비윤리적 행위까지?] 인공지능(AI) 기술의 선도를 위한 치열한 경쟁이 기술 발전에 필요한 디지털 데이터 확보로 치닫고 있다. 'The New York Times'의 최근 조사에 따르면, OpenAI, Google, Meta 등 주요 기술 대기업들이 데이터를 획득하기 위해 기업 정책을 무시하거나 법적 경계를 넘나드는 행위

박영숙세계미래보고서저자 | 기사입력 2024/04/20 [10:15]

[인공지능 경쟁, 데이터 획득을 위한 비윤리적 행위까지?] 인공지능(AI) 기술의 선도를 위한 치열한 경쟁이 기술 발전에 필요한 디지털 데이터 확보로 치닫고 있다. 'The New York Times'의 최근 조사에 따르면, OpenAI, Google, Meta 등 주요 기술 대기업들이 데이터를 획득하기 위해 기업 정책을 무시하거나 법적 경계를 넘나드는 행위

박영숙세계미래보고서저자 | 입력 : 2024/04/20 [10:15]

 

AI 경쟁에서 데이터 욕구: 윤리적 우려와 규제 필요성 증가

인공지능(AI) 기술의 선도를 위한 치열한 경쟁이 기술 발전에 필요한 디지털 데이터 확보로 치닫고 있다. 'The New York Times'의 최근 조사에 따르면, OpenAI, Google, Meta 등 주요 기술 대기업들이 데이터를 획득하기 위해 기업 정책을 무시하거나 법적 경계를 넘나드는 행위에 대해 논의한 사례가 있었다고 한다. 이러한 행위는 AI 기술의 발전 속도를 가속화할 수는 있지만, 동시에 심각한 윤리적, 법적 문제를 야기할 수 있는 것으로 드러났다.

데이터 수집에서 발생하는 윤리적 문제

필요한 데이터를 확보하기 위한 기업들의 과도한 조치는 개인의 프라이버시 침해는 물론, 데이터 보호 법규를 위반하는 결과를 초래할 수 있다. 'The New York Times' 보고에 의하면, 일부 기업들은 사용자 데이터를 수집하고 활용하는 과정에서 해당 국가의 법률을 준수하지 않고, 내부 정책을 무시하는 경우도 있었다고 전한다. 이는 사용자들의 신뢰를 손상시킬 뿐만 아니라, 회사의 장기적인 명성에도 악영향을 미칠 수 있다.

데이터 활용의 법적 측면

기업들이 AI 개발을 위해 데이터를 활용하는 과정에서 법적인 정의와 경계가 모호할 수 있다. 데이터를 수집하고 활용하는 것이 특정 지역의 법률에 위배되는지, 아니면 기존 법률 틀 내에서 해석의 여지가 있는지에 대한 논의가 필요하다. 이는 데이터 사용 관련 법률을 현대 기술 발전 상황에 맞게 재정립하거나 새롭게 마련해야 할 필요를 시사한다.

미래 규제 방향과 기업의 책임

AI 기술의 급속한 발전과 더불어, 데이터 사용에 있어서의 투명성을 높이고, 법률을 준수하는 것은 기업의 필수적인 책임이다. 점점 더 많은 주요 국가들이 데이터 보호 및 AI 윤리에 관한 규제를 강화하고 있다. AI 기술을 사용하는 기업은 이러한 변경에 적극적으로 대응하여 적법한 절차를 준수하고, 윤리적인 기술 사용을 약속해야 한다.

결론적으로, AI 기술을 둘러싼 경쟁은 데이터의 수집과 활용에 대한 신중한 접근과 향후 규제의 명확화를 요구하고 있다. 기업은 경쟁에서 앞서 나가기 위해 윤리적, 법적 기준을 준수하는 것이 중요하며, 이는 또한 사용자와 사회 전체의 신뢰를 유지하는 데에도 필수적이다.

 

인공지능 경쟁, 데이터 획득을 위한 비윤리적 행위까지?

최근 인공지능 기술 개발 경쟁이 치열해짐에 따라, 기술 회사들이 데이터 획득을 위해 비윤리적 행위에 휘말리는 사례들이 늘어나고 있다. 뉴욕 타임즈의 조사에 따르면, OpenAI, Google, Meta 등 주요 기술 회사들은 데이터를 얻기 위해 개인정보 침해, 기업 정책 위반, 심지어 법 위반까지 고려하는 것으로 나타났다.

조사 결과에 따르면, 이러한 회사들은 다음과 같은 비윤리적 행위를 저지르고 있다.

  • 개인 정보 침해: 사용자 동의 없이 개인 데이터를 수집하고 분석
  • 기업 정책 위반: 협력업체 또는 파트너로부터 데이터를 불법적으로 획득
  • 법 위반: 데이터 보호 관련 법률을 위반하여 데이터를 수집
  • 윤리적 문제: 편향된 데이터를 사용하여 인공지능 모델을 개발

이러한 비윤리적 행위는 다음과 같은 문제를 야기할 수 있다.

  • 개인정보 침해: 사용자의 개인 정보가 악용될 위험이 높아짐
  • 기업 간 갈등: 데이터 획득을 위한 불공정 경쟁으로 기업 간 갈등 심화
  • 법적 문제: 데이터 보호 관련 법률 위반으로 법적 책임 추궁
  • 사회적 문제: 편향된 인공지능 모델 개발로 인한 사회적 불평등 심화

따라서 인공지능 기술 개발 경쟁 속에서 데이터 획득의 중요성이 강조되고 있지만, 윤리적 책임과 법적 규제를 준수하는 것이 중요하다. 기술 회사들은 데이터 획득 과정에서 투명성을 확보하고, 사용자의 동의를 얻어야 하며, 개인정보 보호 및 데이터 보호 관련 법률을 준수해야 한다. 또한, 정부는 관련 법률과 규제를 마련하여 기술 회사들의 비윤리적 행위를 방지하고, 데이터 보호를 강화해야 한다.

결론적으로, 인공지능 기술 개발 경쟁은 데이터 획득에 대한 의존도를 높이고 있으며, 이는 개인정보 침해, 기업 정책 위반, 법 위반 등의 비윤리적 행위를 유발할 수 있다. 따라서 기술 회사, 정부, 시민 사회 모두가 협력하여 데이터 획득 과정의 윤리적 책임과 법적 규제를 강화해야 한다.

 

참고 기사

 

2021년 말, OpenAI는 공급 문제에 직면했습니다.

인공 지능 연구소는 최신 AI 시스템을 개발하면서 인터넷에 있는 평판이 좋은 영어 텍스트를 모두 소진했습니다. 다음 버전의 기술을 교육하려면 더 많은 데이터가 필요했습니다. 훨씬 더 많았습니다.

OpenAI 연구진은 Whisper라는 음성 인식 도구를 만들었습니다. YouTube 동영상의 오디오를 복사하여 AI 시스템을 더욱 스마트하게 만드는 새로운 대화 텍스트를 생성할 수 있습니다.

일부 OpenAI 직원은 그러한 움직임이 YouTube의 규칙에 어떻게 위배될 수 있는지 논의했다고 대화에 대해 알고 있는 세 사람이 말했습니다. Google이 소유한 YouTube는 동영상 플랫폼과 '독립적인' 애플리케이션에 동영상을 사용하는 것을 금지합니다.

 

궁극적으로 OpenAI 팀은 백만 시간 이상의 YouTube 동영상을 복사했다고 사람들은 말했습니다. 이 팀에는 OpenAI의 사장인 Greg Brockman이 포함되어 있었으며 개인적으로 동영상 수집을 도왔다고 두 사람은 말했습니다. 그런 다음 텍스트는 세계에서 가장 강력한 AI 모델 중 하나로 널리 간주되고 최신 버전의 ChatGPT 챗봇의 기초가 된 GPT-4 라는 시스템에 공급되었습니다.

AI를 선도하기 위한 경쟁은 기술 발전에 필요한 디지털 데이터를 필사적으로 찾는 것이 되었습니다. The New York Times의 조사에 따르면, 해당 데이터를 얻기 위해 OpenAI, Google, Meta를 포함한 기술 회사들은 기업 정책을 무시하고 법 위반에 대해 논의했습니다.

The Times가 입수한 내부 회의 기록에 따르면 Facebook과 Instagram을 소유한 Meta에서는 작년에 관리자, 변호사 및 엔지니어들이 장편 작품을 조달하기 위해 출판사 Simon & Schuster를 인수하는 것에 대해 논의했다고 합니다. 그들은 또한 소송에 직면하더라도 인터넷을 통해 저작권이 있는 데이터를 수집하는 것에 대해 협의했습니다. 출판사, 예술가, 음악가 및 뉴스 업계와의 라이센스 협상에는 너무 오랜 시간이 걸릴 것이라고 그들은 말했습니다.

OpenAI와 마찬가지로 구글도 자사의 AI 모델을 위한 텍스트를 수집하기 위해 유튜브 비디오를 복사했다고 회사 관행을 잘 아는 5명의 관계자가 말했다. 이는 제작자에게 속한 동영상의 저작권을 잠재적으로 위반한 것입니다.

지난해 구글은 서비스 약관도 확대했다. 회사의 개인 정보 보호 팀 구성원과 The Times가 본 내부 메시지에 따르면 변경의 동기 중 하나는 Google이 더 많은 정보를 위해 공개적으로 사용 가능한 Google 문서, Google 지도의 레스토랑 리뷰 및 기타 온라인 자료를 활용할 수 있도록 허용하는 것이었습니다. AI 제품.

 

이들 기업의 행동은 뉴스 기사, 허구 작품, 메시지 게시판 게시물, 위키피디아 기사, 컴퓨터 프로그램, 사진, 팟캐스트, 영화 클립 등 온라인 정보가 어떻게 급성장하는 AI 산업의 생명선이 되었는지를 보여줍니다. 혁신적인 시스템을 만드는 것은 인간이 만드는 것과 유사한 텍스트, 이미지, 사운드 및 비디오를 즉시 생성하는 기술을 가르칠 수 있는 충분한 데이터를 확보하는 데 달려 있습니다.

데이터의 양이 중요합니다. 선도적인 챗봇 시스템은 최대 3조 단어에 달하는 디지털 텍스트 풀에서 학습 했습니다 . 이는 1602년부터 원고를 수집해 온 옥스퍼드 대학의 보들리언 도서관에 저장된 단어 수의 대략 두 배에 해당합니다. AI 연구자들이 가장 소중히 여기는 데이터는 다음과 같습니다. - 전문가가 세심하게 집필하고 편집한 출판된 서적 및 기사와 같은 양질의 정보.

수년 동안 Wikipedia 및 Reddit 과 같은 사이트가 있는 인터넷은 끝이 없어 보이는 데이터 소스였습니다. 그러나 AI가 발전함에 따라 기술 회사는 더 많은 저장소를 찾았습니다. 매일 검색어와 소셜 미디어 게시물을 생성하는 수십억 명의 사용자를 보유하고 있는 Google과 Meta는 개인 정보 보호법과 자체 정책으로 인해 AI에 해당 콘텐츠를 많이 활용하지 못하는 경우가 많았습니다.

그들의 상황은 긴급하다. 연구 기관인 Epoch에 따르면 기술 기업은 빠르면 2026년에 인터넷에서 고품질 데이터를 검색할 수 있다고 합니다. 기업은 데이터가 생성되는 것보다 더 빠르게 데이터를 사용하고 있습니다.

실리콘밸리 벤처 캐피탈 회사인 Andreessen Horowitz를 대표하는 변호사 Sy Damle는 AI 모델에 대해 "이러한 도구가 존재하는 유일한 실용적인 방법은 해당 데이터에 대한 라이선스를 취득하지 않고도 방대한 양의 데이터에 대해 교육을 받을 수 있는 경우입니다"라고 말했습니다. 작년에 저작권법에 관한 공개 토론에서. “필요한 데이터가 너무 방대해서 단체 라이센싱도 실제로는 효과가 없습니다.”

 

기술 회사는 새로운 데이터에 너무 목말라 있어서 일부는 "합성" 정보를 개발하고 있습니다. 이는 인간이 생성한 유기적 데이터가 아니라 AI 모델이 생성하는 텍스트, 이미지, 코드입니다. 즉, 시스템은 스스로 생성한 데이터로부터 학습합니다.

OpenAI는 각 AI 모델이 "세상에 대한 이해를 돕고 연구에서 전 세계적으로 경쟁력을 유지하기 위해 선별한 고유한 데이터 세트를 가지고 있다"고 말했습니다. 구글은 자사의 AI 모델이 유튜브 제작자와의 합의에 따라 허용된 '일부 유튜브 콘텐츠에 대해 훈련'되었으며, 실험적인 프로그램 외에는 오피스 앱의 데이터를 사용하지 않았다고 밝혔습니다. Meta는 AI를 서비스에 통합하기 위해 “공격적인 투자”를 했으며 모델 훈련을 위해 Instagram과 Facebook에서 공개적으로 공유된 수십억 개의 이미지와 비디오를 보유하고 있다고 말했습니다.

창작자들의 경우 AI 기업이 자신의 저작물을 사용하는 경우가 늘어나면서 저작권 및 라이센스에 대한 소송이 촉발되었습니다 . 타임스는 작년에 AI 챗봇 훈련 허가 없이 저작권이 있는 뉴스 기사를 사용한 OpenAI와 Microsoft를 고소했습니다 . OpenAI와 마이크로소프트는 해당 기사를 다른 목적으로 변형했기 때문에 해당 기사를 사용하는 것이 "공정한 사용"이거나 저작권법에 따라 허용된다고 밝혔습니다.

작년에 10,000개 이상의 무역 단체, 작가, 회사 및 기타 사람들이 AI 모델에 의한 창작물 사용에 대한 의견을 AI 시대에 저작권법이 어떻게 적용되는지에 대한 지침을 준비하고 있는 연방 기관인 Copyright Office 에 제출했습니다.

영화 제작자이자 전직 배우이자 두 권의 책을 쓴 저스틴 베이트먼(Justine Bateman)은 저작권 사무소에 AI 모델이 허가나 대가 없이 그녀의 글과 영화를 포함한 콘텐츠를 가져가고 있다고 말했습니다.

 

“이것은 미국에서 가장 큰 절도 행위입니다.”라고 그녀는 인터뷰에서 말했습니다.

존스 홉킨스 대학의 이론물리학자인 Jared Kaplan은 AI와 데이터에 관한 주요 논문을 썼습니다. 그는 또한 AI 스타트업 Anthropic의 최고 과학 책임자이기도 합니다.

신용 거래...

2020년 1월, 존스 홉킨스 대학의 이론 물리학자인 Jared Kaplan은 온라인 데이터에 대한 욕구를 불러일으킨 AI에 관한 획기적인 논문을 발표했습니다.

그의 결론은 분명했습니다. 온라인 챗봇을 구동하는 기술인 대규모 언어 모델을 훈련하는 데 데이터가 많을수록 성능이 더 좋아질 것입니다. 학생이 더 많은 책을 읽음으로써 더 많은 것을 배우는 것처럼, 대규모 언어 모델은 텍스트의 패턴을 더 잘 찾아내고 더 많은 정보를 통해 더 정확해질 수 있습니다.

9명의 OpenAI 연구자와 함께 논문을 발표한 Kaplan 박사는 "우리가 말하는 확장 법칙이라는 추세가 기본적으로 천문학이나 물리학에서 보는 것만큼 정확하다는 사실에 모두가 매우 놀랐습니다."라고 말했습니다. (그는 현재 AI 스타트업 Anthropic에서 일하고 있다.)

"규모만 있으면 된다"는 말은 곧 AI를 위한 구호가 되었습니다.

연구자들은 AI 개발을 위해 Wikipedia와 2007년부터 수집된 2,500억 개가 넘는 웹 페이지의 데이터베이스인 Common Crawl을 포함하여 디지털 정보의 대규모 공개 데이터베이스를 오랫동안 사용해 왔습니다. 연구자들은 사용하기 전에 증오심 표현 및 기타 원치 않는 텍스트를 제거하여 데이터를 "정리"하는 경우가 많습니다. AI 모델을 훈련시키는 것입니다.

 

2020년에는 데이터 세트가 오늘날의 기준으로 볼 때 아주 작았습니다. 사진 웹사이트 Flickr에 있는 30,000장의 사진이 포함된 데이터베이스는 당시 중요한 리소스로 간주되었습니다.

 

Kaplan 박사의 논문 이후에는 그 정도의 데이터로는 더 이상 충분하지 않았습니다. 뉴욕의 AI 회사인 Nomic의 CEO인 Brandon Duderstadt는 "그저 일을 정말 크게 만드는 것"에 관한 모든 것이 되었다고 말

OpenAI는 2020년 11월 GPT-3를 공개했을 때 현재까지 가장 많은 양의 데이터(기본적으로 단어 또는 단어 조각인 약 3000억 개의 "토큰")에 대해 교육을 받았습니다. 해당 데이터를 학습한 후 시스템은 블로그 게시물, 시 및 자체 컴퓨터 프로그램을 작성하여 놀라운 정확도로 텍스트를 생성했습니다.

2022년에는 Google이 소유한 AI 연구소인 DeepMind가 한 단계 더 나아갔습니다. 400개의 AI 모델을 테스트하고 훈련 데이터의 양과 기타 요소를 다양하게 조정했습니다. 최고 성능 모델은 Kaplan 박사가 논문에서 예측한 것보다 훨씬 더 많은 데이터를 사용했습니다. 한 모델인 Chinchilla는 1조 4천억 개의 토큰에 대해 훈련되었습니다.

 

곧 추월당했습니다. 지난해 중국 연구진은 영어와 중국어 텍스트에서 3조 2천억 개의 토큰을 학습한 AI 모델 스카이워크(Skywork )를 출시했다. 구글은 또한 토큰 수가 3조 6천억 개를 돌파 한 AI 시스템 PaLM 2를 공개했습니다 .

지난 5월 OpenAI의 CEO인 Sam Altman은 AI 기업이 인터넷에서 실행 가능한 모든 데이터를 다 써버릴 것임을 인정했습니다.

그는 기술 컨퍼런스에서 한 연설에서 "그것은 고갈될 것"이라고 말했습니다 .

알트만 씨는 그 현상을 가까이서 목격했습니다. OpenAI의 연구원들은 회사의 언어 모델을 교육하기 위해 수년 동안 데이터를 수집하고 정리한 후 방대한 텍스트 풀에 입력했습니다. 그들은 컴퓨터 코드 저장소 GitHub를 채굴하고, 체스 동작 데이터베이스를 정리하고, Quizlet 웹사이트에서 고등학교 시험 및 숙제를 설명하는 데이터를 가져왔습니다.

회사에 대해 알고 있는 8명의 관계자는 2021년 말까지 해당 공급품이 고갈되었다고 밝혔지만 공개적으로 발언할 권한은 없습니다.

OpenAI는 차세대 AI 모델인 GPT-4를 개발하기 위해 더 많은 데이터가 절실했습니다. 그래서 직원들은 팟캐스트, 오디오북, 유튜브 비디오를 복사하는 것에 대해 논의했다고 사람들은 말했습니다. 그들은 AI 시스템을 사용하여 처음부터 데이터를 생성하는 것에 대해 이야기했습니다. 그들은 또한 대량의 디지털 데이터를 수집한 스타트업 인수도 고려했습니다.

 

OpenAI는 결국 음성 인식 도구인 Whisper를 만들어 YouTube 동영상과 팟캐스트를 복사할 수 있게 되었다고 6명이 말했습니다. 그러나 YouTube는 사람들이 "독립적인" 애플리케이션을 위해 동영상을 사용하는 것뿐만 아니라 "자동화된 수단(예: 로봇, 봇넷 또는 스크레이퍼)"을 통해 동영상에 액세스하는 것도 금지합니다.

OpenAI 직원들은 자신들이 법적으로 회색지대에 빠져 있다는 것을 알고 있었지만 동영상을 통해 AI를 훈련시키는 것은 공정한 사용이라고 믿었다고 말했습니다. OpenAI의 사장인 Mr. Brockman은 Whisper의 창시자로 연구 논문 에 등재되었습니다. 그는 개인적으로 YouTube 동영상 수집을 도왔고 이를 기술에 적용했다고 두 사람이 말했습니다.

Brockman 씨는 OpenAI에 의견 요청을 회부했는데, OpenAI는 "수많은 데이터 소스"를 사용한다고 말했습니다.

지난해 OpenAI는 Whisper가 기록한 100만 시간 이상의 YouTube 동영상을 활용한 GPT-4를 출시했습니다. Brockman 씨는 GPT-4를 개발한 팀을 이끌었습니다.

일부 구글 직원은 OpenAI가 데이터용으로 YouTube 동영상을 수집했다는 사실을 알고 있었다고 이 회사에 대해 잘 아는 두 사람이 말했습니다. 그러나 구글은 AI 모델을 훈련하기 위해 유튜브 동영상의 사본도 사용했기 때문에 OpenAI를 중단하지 않았다고 사람들은 말했습니다. 이러한 행위는 YouTube 제작자의 저작권을 침해했을 수 있습니다. 따라서 구글이 OpenAI에 대해 소란을 피우면, 구글의 방식에 대한 대중의 항의가 있을 수 있다고 사람들은 말했습니다.

 

구글 대변인 맷 브라이언트(Matt Bryant)는 회사가 OpenAI의 관행에 대해 전혀 알지 못했으며 "유튜브 콘텐츠의 무단 스크랩 또는 다운로드"를 금지했다고 말했습니다. 구글은 이를 위한 명확한 법적, 기술적 근거가 있을 때 조치를 취한다고 그는 말했다.

Google의 규칙에 따라 YouTube 사용자 데이터를 활용하여 동영상 플랫폼의 새로운 기능을 개발할 수 있었습니다. 하지만 구글이 유튜브 데이터를 사용해 챗봇과 같은 비디오 플랫폼을 넘어서는 상용 서비스를 구축할 수 있을지는 불분명했습니다.

법무법인 버거 싱어먼(Berger Singerman)의 지적재산권 변호사인 제프리 로텐버그(Geoffrey Lottenberg)는 유튜브 비디오 대본으로 무엇을 할 수 있고 할 수 없는지에 대한 구글의 표현이 모호하다고 말했다.

그는 “데이터가 새로운 상용 서비스에 사용될 수 있는지 여부는 해석의 여지가 있으며 소송을 제기할 수 있다”고 말했다.

 

2022년 말 OpenAI가 ChatGPT를 출시하고 업계 전반에 걸쳐 따라잡기 위한 경쟁을 시작한 후 Google 연구원과 엔지니어는 다른 사용자 데이터 활용에 대해 논의했습니다. 사람들의 Google 문서도구와 기타 무료 Google 앱에는 수십억 개의 단어가 저장되어 있습니다. 그러나 회사의 개인 정보 보호 제한으로 인해 데이터 사용 방법이 제한되었다고 Google의 관행에 대해 잘 알고 있는 세 사람이 말했습니다.

The Times가 확인한 내부 메시지에 따르면, 개인 정보 보호 팀의 두 구성원에 따르면 지난 6월 Google의 법무 부서는 회사가 소비자 데이터를 사용할 수 있는 대상을 확대하기 위한 언어 초안을 개인 정보 보호 팀에 요청했습니다.

직원들은 Google이 다양한 AI 제품에 대해 Google Docs, Google Sheets 및 관련 앱에서 사람들이 공개적으로 사용할 수 있는 콘텐츠를 사용하기를 원한다는 말을 들었습니다. 직원들은 회사가 이전에 그러한 데이터를 바탕으로 AI를 훈련했는지 몰랐다고 말했습니다.

당시 구글의 개인정보 보호정책에는 회사가 공개적으로 이용 가능한 정보를 "구글의 언어 모델을 훈련하고 구글 번역과 같은 기능을 구축하는 데 도움"을 위해서만 사용할 수 있다고 명시되어 있었습니다.

개인 정보 보호 팀은 Google이 AI 모델의 데이터를 활용하고 더 광범위한 AI 기술 모음인 Google 번역, Bard 및 Cloud AI 기능과 같은 제품 및 기능을 구축할 수 있도록 새로운 용어를 작성했습니다.

 

“여기서 최종 목표는 무엇입니까?” 개인 정보 보호 팀의 한 구성원이 내부 메시지로 물었습니다. “우리는 얼마나 광범위하게 가고 있나요?”

직원들은 사람들이 일반적으로 휴일에 집중하는 7월 4일 주말에 새로운 조건을 발표하라는 지시를 팀에 특별히 지시했다고 말했습니다. 개정된 정책은 긴 주말이 시작되는 7월 1일에 발표되었습니다.

 

지난 8월 두 명의 개인 정보 보호 팀 구성원은 Google이 무료 소비자 버전인 Google Docs, Google Sheets 및 Google Slides의 데이터를 사용할 수 있는지 관리자에게 압력을 가했다고 말했습니다. 그들은 명확한 답변을 받지 못했다고 말했습니다.

브라이언트 씨는 개인 정보 보호 정책이 명확성을 위해 변경되었으며 Google은 사용자의 "명시적인 허가 없이" 언어 모델을 훈련하기 위해 Google Docs 또는 관련 앱의 정보를 사용하지 않았다고 말했습니다. 특징.

 

“우리는 이번 언어 변경을 기반으로 한 추가 유형의 데이터에 대한 교육을 시작하지 않았습니다.”라고 그는 말했습니다.

Meta의 CEO인 Mark Zuckerberg는 수년 동안 AI에 투자했지만 OpenAI가 2022년에 ChatGPT를 출시했을 때 갑자기 뒤처지게 되었습니다. 그는 즉시 ChatGPT를 넘어서도록 추진했고 밤새도록 경영진과 엔지니어에게 전화를 걸어 개발을 촉구했습니다. 경쟁 챗봇은 기밀 대화에 대해 논의할 권한이 없는 현직 및 전직 직원 3명에 대해 말했습니다.

그러나 작년 초까지 Meta는 경쟁사와 동일한 장애물에 부딪혔습니다. 데이터가 충분하지 않았기 때문입니다.

Meta의 생성 AI 담당 부사장인 Ahmad Al-Dahle는 경영진에게 내부 회의 기록에 따르면 그의 팀이 모델을 개발하기 위해 인터넷에서 사용 가능한 거의 모든 영어 서적, 에세이, 시 및 뉴스 기사를 사용했다고 말했습니다. 직원이 공유합니다.

Al-Dahle 씨는 더 많은 데이터가 없으면 Meta는 ChatGPT와 일치할 수 없다고 동료들에게 말했습니다. 2023년 3월과 4월에는 회사의 비즈니스 개발 리더, 엔지니어, 변호사 중 일부가 거의 매일 만나 문제를 해결했습니다.

일부에서는 새 책에 대한 전체 라이선스 권리를 위해 책 한 권당 10달러를 지불하는 것에 대해 논의했습니다. 녹음에 따르면 그들은 스티븐 킹과 같은 작가를 출판하는 사이먼 앤 슈스터(Simon & Schuster) 인수에 대해 논의했습니다.

인터넷에 떠도는 책, 에세이, 기타 작품을 허락 없이 요약하고, 소송을 걸더라도 더 빨아들이는 것에 대해 논의하기도 했다. 한 변호사는 예술가로부터 지적재산권을 빼앗는 것에 대한 '윤리적' 우려를 경고했지만 녹음에 따르면 침묵을 지켰다.

 

주커버그는 해결책을 요구했다고 직원들은 말했다.

한 엔지니어는 “Mark가 제품에서 찾고 있는 기능은 현재 우리가 제공할 수 없는 기능입니다.”라고 말했습니다.

Meta는 거대한 소셜 네트워크를 운영하지만 마음대로 사용할 수 있는 사용자 게시물이 많지 않다고 두 명의 직원이 말했습니다. 많은 페이스북 사용자는 이전 게시물을 삭제했으며 플랫폼은 사람들이 에세이 유형의 콘텐츠를 쓰는 곳이 아니라고 그들은 말했습니다.

Meta는 또한 2018년 유권자 프로파일링 회사인 Cambridge Analytica와 사용자 데이터를 공유한 스캔들 이후 도입한 개인 정보 보호 변경으로 인해 제한을 받았습니다 .

Zuckerberg 씨는 최근 투자자와의 통화 에서 Facebook과 Instagram에서 공개적으로 공유되는 수십억 개의 비디오와 사진이 "Common Crawl 데이터 세트보다 더 크다"고 말했습니다.

 

녹음된 토론에서 Meta 경영진은 픽션과 논픽션의 요약을 집계하기 위해 아프리카에서 계약자를 어떻게 고용했는지에 대해 이야기했습니다. 요약에는 저작권이 있는 콘텐츠가 포함되어 있었습니다. "우리는 그것을 수집하지 않을 방법이 없기 때문입니다"라고 한 관리자는 한 회의에서 말했습니다.

Meta의 경영진은 OpenAI가 저작권이 있는 자료를 허가 없이 사용한 것 같다고 말했습니다. 녹음에 따르면 Meta가 출판사, 예술가, 음악가 및 뉴스 산업과 라이선스를 협상하는 데 너무 오랜 시간이 걸릴 것이라고 그들은 말했습니다.

글로벌 파트너십 및 콘텐츠 담당 부사장인 Nick Grudin은 한 회의에서 "우리가 ChatGPT만큼 우수해지는 데 방해가 되는 유일한 것은 말 그대로 데이터 양입니다."라고 말했습니다.

OpenAI는 저작권이 있는 자료를 취하고 있는 것으로 보이며 Meta는 이러한 "시장 선례"를 따를 수 있다고 그는 덧붙였습니다.

녹음에 따르면 Meta의 경영진은 Authors Guild 대 Google과 관련된 2015년 법원 판결에 의존하기로 동의했습니다 . 이 경우 Google은 작품의 일부분만 온라인으로 복제했으며 원본은 변형하여 공정 사용이 가능하다고 주장한 후 온라인 데이터베이스에서 도서를 스캔, 디지털화 및 카탈로그화하는 것이 허용되었습니다.

 

Meta의 변호사들은 회의에서 AI 시스템을 훈련하기 위해 데이터를 사용하는 것도 마찬가지로 공정한 사용이어야 한다고 말했습니다.

녹음 내용에 따르면 최소 2명의 직원이 지적 재산을 사용하고 작가와 다른 아티스트에게 공정하게 또는 전혀 비용을 지불하지 않는 것에 대해 우려를 표명했습니다. 한 직원은 Meta의 최고 제품 책임자인 Chris Cox를 포함한 고위 경영진과 저작권 데이터에 관해 별도의 논의를 했으며 그 회의에서 사람들의 창작물 사용에 대한 윤리를 고려한 사람은 아무도 없었다고 말했습니다.

OpenAI의 알트만 씨는 다가오는 데이터 부족에 대처할 계획을 가지고 있었습니다.

그는 5월 컨퍼런스에서 자신과 같은 회사가 결국 AI가 생성한 텍스트(합성 데이터라고도 함)를 기반으로 AI를 훈련할 것이라고 말했습니다.

AI 모델은 인간과 유사한 텍스트를 생성할 수 있기 때문에 시스템이 더 나은 버전을 개발하기 위해 추가 데이터를 생성할 수 있다고 Altman 씨와 다른 사람들은 주장했습니다. 이는 개발자가 점점 더 강력한 기술을 구축하고 저작권 데이터에 대한 의존도를 줄이는 데 도움이 될 것입니다.

Altman 씨는 “모델이 좋은 합성 데이터를 만들 수 있을 만큼 스마트한 합성 데이터 이벤트 지평선을 극복할 수 있는 한 모든 것이 잘 될 것입니다.”라고 말했습니다.

 

AI 연구자들은 수년 동안 합성 데이터를 탐색해 왔습니다. 그러나 스스로 훈련할 수 있는 AI 시스템을 구축하는 것은 말처럼 쉽지 않습니다. 자체 출력에서 ​​학습하는 AI 모델은 자신의 단점, 실수 및 한계를 강화하는 루프에 빠질 수 있습니다.

전 OpenAI 연구원이자 현재 브리티시 컬럼비아 대학에서 컴퓨터 과학을 가르치고 있는 Jeff Clune은 "이러한 시스템에 필요한 데이터는 정글을 통과하는 길과 같습니다."라고 말했습니다. “합성 데이터로만 훈련한다면 정글에서 길을 잃을 수 있습니다.”

이 문제를 해결하기 위해 OpenAI와 다른 사람들은 두 개의 서로 다른 AI 모델이 어떻게 함께 작동하여 보다 유용하고 신뢰할 수 있는 합성 데이터를 생성할 수 있는지 조사하고 있습니다. 한 시스템은 데이터를 생성하고, 두 번째 시스템은 정보를 판단하여 좋은 것과 나쁜 것을 구분합니다. 연구자들은 이 방법이 효과가 있을지에 대해 의견이 분분합니다.

그럼에도 불구하고 AI 경영진은 앞서 나가고 있다.

“괜찮아야 합니다.” 알트만 씨가 회의에서 말했다.

 

 

 
광고
광고
광고
광고
광고
광고
많이 본 기사