광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[Microsoft AI는 한 장의 사진으로 무서운 실제 유성 동영상을 만든다.] 마이크로소프트 VASA-1, 딥페이크 기술 또 한 단계 진화. Microsoft의 VASA-1 프레임워크는 또 다른 큰 도약처럼 보인다.

윤소정 | 기사입력 2024/04/21 [19:07]

[Microsoft AI는 한 장의 사진으로 무서운 실제 유성 동영상을 만든다.] 마이크로소프트 VASA-1, 딥페이크 기술 또 한 단계 진화. Microsoft의 VASA-1 프레임워크는 또 다른 큰 도약처럼 보인다.

윤소정 | 입력 : 2024/04/21 [19:07]

 

Microsoft AI는 한 장의 사진으로 무서운 실제 유성 동영상을 만든다.

Microsoft Research Asia의 새로운 AI 모델: 사실적인 딥페이크 비디오 생성 기능 공개

Microsoft Research Asia가 단일 스틸 이미지와 오디오 트랙만으로 사실적인 딥페이크 비디오를 생성할 수 있는 새로운 AI 모델을 공개했다고 발표했다. 이 혁신적인 기술, VASA-1 프레임워크는 놀라운 발전을 이루었으며, 온라인 상의 정보를 어떻게 받아들여야 할지, 우리의 믿음을 어떻게 형성해야 할지에 대한 새로운 질문을 제기한다.

딥페이크 기술의 발전과 그 의미

이 새로운 AI 모델은 음성과 이미지를 결합하여 놀랍도록 사실적인 비디오를 생성한다. 이 기술은 온라인 콘텐츠의 진위를 판단하는 데 큰 도전을 제시하며, 가짜 뉴스 및 오보의 확산에 대한 우려를 새롭게 강조한다. 이미 인공지능 시스템은 주요 벤치마크에서 인간의 능력을 넘어섰으며, 이러한 기술의 발전은 많은 사람들이 직업에서 조기에 퇴출되거나 알고리즘으로 대체되는 것에 대한 불안을 증가시킨다.

스마트 장치의 변화와 생산성 도구로서의 역할

우리는 최근 스마트 장치가 단순한 기능을 넘어서 중요한 일상 비서 및 생산성 도구로 변모하는 것을 목격했다. 이러한 장치는 이제 무성 비디오 클립에 사실적인 음향 효과를 생성하거나 텍스트 프롬프트에서 멋진 영상을 만들어 낼 수 있는 능력을 갖추고 있다. 이는 기술의 급속한 발전이 일상 생활에 얼마나 깊숙이 통합되고 있는지를 보여준다.

도전과 기회

Microsoft의 VASA-1 프레임워크는 기술 발전에서 또 다른 큰 도약으로 보인다. 이 기술은 창의적인 콘텐츠 생성에 엄청난 잠재력을 가지고 있지만, 동시에 사회적, 윤리적 문제를 야기할 수 있다. 따라서 이와 같은 기술의 개발과 사용에는 철저한 규제와 책임 있는 접근이 필요하다.

결론적으로, Microsoft Research Asia의 이번 발표는 인공지능 기술이 인간 생활에 가져올 긍정적인 변화와 함께 그에 따른 윤리적, 사회적 책임의 필요성을 다시 한번 상기시킨다. 우리는 이 기술의 발전을 주시하며, 그것이 우리 사회에 미치는 영향을 심도 깊게 고민해야 할 것이다.

 

마이크로소프트, 단일 이미지와 오디오로 딥페이크 비디오 제작 가능한 AI 모델 공개…온라인 정보 신뢰도 급락 위기

마이크로소프트 리서치 아시아는 단일 정지 이미지와 오디오 트랙만으로도 놀랍도록 사실적인 딥페이크 영상을 생성할 수 있는 인공지능(AI) 모델을 공개했다. 이는 앞으로 우리가 온라인에서 보고 듣는 모든 정보를 얼마나 믿을 수 있을까 하는 심각한 질문을 던진다.

인공지능, 인간 능력 뛰어넘어

인공지능 시스템은 지난 몇 년 동안 주요 벤치마크에서 인간의 능력을 뛰어넘으며 빠르게 발전해 왔다. 이미 많은 사람들은 인공지능으로 인해 일자리가 사라지고 알고리즘으로 대체될 것이라는 우려를 표출하고 있다.

스마트 장치, 강력한 도구로 진화

최근에는 제한적이었던 스마트 장치들이 강력한 일상 비서와 중요한 생산성 도구로 진화하는 것을 목격했다. 또한, 무성 비디오 클립에 사실적인 음향 효과를 생성하고 텍스트 프롬프트만으로도 멋진 영상을 제작할 수 있는 모델들이 등장했다.

마이크로소프트 VASA-1, 딥페이크 기술 또 한 단계 진화

마이크로소프트가 개발한 VASA-1 프레임워크는 딥페이크 기술을 한 단계 더 진화시킨 것으로 보인다. VASA-1은 단순히 얼굴이나 목소리를 바꾸는 것이 아니라, 표정, 몸짓, 목소리 톤까지 사실적으로 변형하여 딥페이크 영상을 제작할 수 있다는 점에서 차별화된다.

온라인 정보 신뢰도 급락 위기

이러한 기술 발전은 온라인에서 소비되는 정보의 신뢰도를 크게 떨어뜨릴 수 있다. 누구나 쉽게 딥페이크 영상을 제작하여 허위 정보를 퍼뜨릴 수 있기 때문이다. 특히, 정치, 사회, 경제 등 중요한 분야에서 딥페이크 영상이 악용될 경우 심각한 사회적 혼란을 야기할 수 있다.

딥페이크 기술, 윤리적 사용 절실

따라서 딥페이크 기술의 윤리적 사용에 대한 논의가 더욱 중요해진다. 딥페이크 기술을 악용하지 않도록 막는 방안과 동시에, 딥페이크 기술을 긍정적인 목적으로 활용할 수 있는 방안을 모색해야 한다.

결론

마이크로소프트 VASA-1 프레임워크는 인공지능 기술의 놀라운 발전을 보여주는 동시에, 온라인 정보의 신뢰도를 급격히 떨어뜨릴 수 있는 위험성을 내포하고 있다. 딥페이크 기술의 윤리적 사용을 위한 사회적 합의와 제도적 장치 마련이 시급하다.

 

마이크로소프트, 사진 효과 생성을 위한 AI VASA-1 출시 - Vietnam.vn

VASA-1 AI 모델은 오디오 트랙에 립싱크된 단일 참조 사진에서 사실적인 말하는 머리 비디오 영상을 생성할 수 있습니다.
VASA-1 AI 모델은 오디오 트랙에 립싱크된 단일 참조 사진에서 사실적인 말하는 머리 비디오 영상을 생성할 수 있다.
마이크로소프트 리서치 아시아
 
 

Microsoft의 VASA-1은 단 하나의 이미지에서 사실적인 말하는 얼굴을 생성할 수 있습니다 | 크립토폴리탄Microsoft Research Asia는 단일 스틸 이미지와 오디오 트랙에서 놀랍도록 사실적인 딥페이크 비디오를 생성할 수 있는 AI 모델을 공개했다. 앞으로 우리가 온라인에서 보고 듣는 것을 어떻게 믿을 수 있을까?

앞서 언급했듯이 인공지능 시스템은 지난 몇 년 동안 주요 벤치마크에서 우리를 능가했으며 이미 많은 사람들이 조기에 퇴출되어 알고리즘으로 대체되는 것에 대해 매우 걱정하고 있다.

우리는 최근 상당히 제한적인 스마트 장치가 강력한 일상 비서 와 중요한 생산성 도구 로 변모하는 것을 목격했다. 그리고 무성 비디오 클립에 사실적인 음향 효과를 생성 하고 텍스트 프롬프트에서 멋진 영상을 생성할 수도 있는 모델이 있다. Microsoft의 VASA-1 프레임워크는 또 다른 큰 도약처럼 보인다.

VoxCeleb2 데이터 세트에서 약 6,000명의 실제 말하는 얼굴 장면으로 모델을 훈련한 후, 이 기술은 새로 애니메이션된 피사체가 제공된 음성 오디오 트랙에 정확하게 립싱크할 수 있을 뿐만 아니라 또한 하나의 정적 얼굴 사진에서 다양한 얼굴 표정과 자연스러운 머리 움직임을 볼 수 있다.

이는 몇 달 전에 등장한 Alibaba 지능형 컴퓨터 연구소의 Audio2Video 확산 모델과 매우 유사하지만 훨씬 더 사실적이고 정확하다. VASA-1은 초당 40프레임에서 512x512픽셀의 동기화된 비디오를 생성할 수 있으며 "시작 대기 시간은 무시할 수 있습니다."라고 한다.

VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time
VASA-1 AI 모델은 제공된 음성 오디오 트랙에 립싱크할 수 있을 뿐만 아니라 얼굴 표정과 자연스러운 머리 움직임을 모두 포함하는 무서운 실제 비디오를 생성할 수 있다. 이 모든 것이 단일 정적 헤드 샷에서 가능하다.
마이크로소프트 리서치 아시아

프로젝트 데모에 사용된 모든 참조 사진은 StyleGAN2 또는 DALL-E에서 AI로 생성한 것이었지만 훈련 세트를 벗어나는 프레임워크의 능력을 보여주는 데 사용된 눈에 띄는 실제 사례가 하나 있다. 모나리자 !

프로젝트 페이지에는 스틸 이미지에서 생성되어 오디오 트랙과 일치하는 말하고 노래하는 비디오의 많은 예가 있지만 이 도구에는 감정, 표정, 가상 비디오캠과의 거리 등 " 얼굴 역학 및 머리 자세 "를 설정하는 옵션 컨트롤도 있다. 그리고 시선 방향. 강력한 것.

"AI가 생성한 말하는 얼굴의 출현은 기술이 인간-인간, 인간-AI ​​상호작용의 풍부함을 증폭시키는 미래를 향한 창을 제공합니다."라고 성과를 자세히 설명하는 논문의 서문이 나와 있다. "이러한 기술은 디지털 의사소통을 풍부하게 하고, 의사소통 장애가 있는 사람들의 접근성을 높이고, 대화형 AI 튜터링을 통해 교육 방법을 혁신하고, 의료 분야에서 치료 지원과 사회적 상호 작용을 제공할 수 있는 가능성을 담고 있습니다."

VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

모두 매우 칭찬할 만한 일이지만 연구자들은 오용의 가능성도 인정한다. 우리가 매일 접하는 온라인 뉴스를 소화할 때 노골적인 조작에서 사실을 걸러내는 것이 이미 불가능한 작업처럼 느껴지지만, 거의 모든 사람이 당신이 원하는 대로 말하는 것처럼 보이게 할 수 있는 도구를 마음대로 사용할 수 있다고 상상해 보자.

이는 좋아하는 할리우드 배우나 팝스타의 FaceTime을 사용해 친척에게 해롭지 않은 장난을 치는 행위, 온라인 자백을 게시하여 무고한 사람을 심각한 범죄에 연루시키는 행위, 소중한 손자의 모습을 취하여 누군가에게 돈을 요구하는 사기 행위로 나타날 수 있다. 주요 정치인들이 논쟁의 여지가 있는 안건을 지지하는 목소리를 내는 등의 문제가 있다. 현실적이고 설득력 있게.

그러나 VASA-1 모델에 의해 생성된 콘텐츠에는 "식별 가능한 인공물이 포함되어" 있으며 연구원들은 "해당 기술이 적절한 규정에 따라 책임감 있게 사용될 것이라는 확신이 있을 때까지" 플랫폼을 공개적으로 제공할 계획이 없다.

프로젝트를 자세히 설명하는 논문이 arXiv 서버 에 게시되었다출처: 마이크로소프트 리서치

 

 

 
광고
광고
광고
광고
광고
광고
많이 본 기사