Microsoft Research Asia는 단일 스틸 이미지와 오디오 트랙에서 놀랍도록 사실적인 딥페이크 비디오를 생성할 수 있는 AI 모델을 공개했다. 앞으로 우리가 온라인에서 보고 듣는 것을 어떻게 믿을 수 있을까?
앞서 언급했듯이 인공지능 시스템은 지난 몇 년 동안 주요 벤치마크에서 우리를 능가했으며 이미 많은 사람들이 조기에 퇴출되어 알고리즘으로 대체되는 것에 대해 매우 걱정하고 있다.
우리는 최근 상당히 제한적인 스마트 장치가 강력한 일상 비서 와 중요한 생산성 도구 로 변모하는 것을 목격했다. 그리고 무성 비디오 클립에 사실적인 음향 효과를 생성 하고 텍스트 프롬프트에서 멋진 영상을 생성할 수도 있는 모델이 있다. Microsoft의 VASA-1 프레임워크는 또 다른 큰 도약처럼 보인다.
VoxCeleb2 데이터 세트에서 약 6,000명의 실제 말하는 얼굴 장면으로 모델을 훈련한 후, 이 기술은 새로 애니메이션된 피사체가 제공된 음성 오디오 트랙에 정확하게 립싱크할 수 있을 뿐만 아니라 또한 하나의 정적 얼굴 사진에서 다양한 얼굴 표정과 자연스러운 머리 움직임을 볼 수 있다.
이는 몇 달 전에 등장한 Alibaba 지능형 컴퓨터 연구소의 Audio2Video 확산 모델과 매우 유사하지만 훨씬 더 사실적이고 정확하다. VASA-1은 초당 40프레임에서 512x512픽셀의 동기화된 비디오를 생성할 수 있으며 "시작 대기 시간은 무시할 수 있습니다."라고 한다.
프로젝트 데모에 사용된 모든 참조 사진은 StyleGAN2 또는 DALL-E에서 AI로 생성한 것이었지만 훈련 세트를 벗어나는 프레임워크의 능력을 보여주는 데 사용된 눈에 띄는 실제 사례가 하나 있다. 모나리자 !
프로젝트 페이지에는 스틸 이미지에서 생성되어 오디오 트랙과 일치하는 말하고 노래하는 비디오의 많은 예가 있지만 이 도구에는 감정, 표정, 가상 비디오캠과의 거리 등 " 얼굴 역학 및 머리 자세 "를 설정하는 옵션 컨트롤도 있다. 그리고 시선 방향. 강력한 것.
"AI가 생성한 말하는 얼굴의 출현은 기술이 인간-인간, 인간-AI 상호작용의 풍부함을 증폭시키는 미래를 향한 창을 제공합니다."라고 성과를 자세히 설명하는 논문의 서문이 나와 있다. "이러한 기술은 디지털 의사소통을 풍부하게 하고, 의사소통 장애가 있는 사람들의 접근성을 높이고, 대화형 AI 튜터링을 통해 교육 방법을 혁신하고, 의료 분야에서 치료 지원과 사회적 상호 작용을 제공할 수 있는 가능성을 담고 있습니다."
모두 매우 칭찬할 만한 일이지만 연구자들은 오용의 가능성도 인정한다. 우리가 매일 접하는 온라인 뉴스를 소화할 때 노골적인 조작에서 사실을 걸러내는 것이 이미 불가능한 작업처럼 느껴지지만, 거의 모든 사람이 당신이 원하는 대로 말하는 것처럼 보이게 할 수 있는 도구를 마음대로 사용할 수 있다고 상상해 보자.
이는 좋아하는 할리우드 배우나 팝스타의 FaceTime을 사용해 친척에게 해롭지 않은 장난을 치는 행위, 온라인 자백을 게시하여 무고한 사람을 심각한 범죄에 연루시키는 행위, 소중한 손자의 모습을 취하여 누군가에게 돈을 요구하는 사기 행위로 나타날 수 있다. 주요 정치인들이 논쟁의 여지가 있는 안건을 지지하는 목소리를 내는 등의 문제가 있다. 현실적이고 설득력 있게.
그러나 VASA-1 모델에 의해 생성된 콘텐츠에는 "식별 가능한 인공물이 포함되어" 있으며 연구원들은 "해당 기술이 적절한 규정에 따라 책임감 있게 사용될 것이라는 확신이 있을 때까지" 플랫폼을 공개적으로 제공할 계획이 없다.
프로젝트를 자세히 설명하는 논문이 arXiv 서버 에 게시되었다. 출처: 마이크로소프트 리서치