시작페이지로　l　즐겨찾기　l　RSS　l　편집 2024.04.19 [11:29]

세상을 바꾸자
AI바이오제약 수명연장
자율차,드론, 교통, 에너지,기후
유투브
신기술&메타버스AR/VR
AiMindbot과 미래 우주
챗GPT와 AI, 로봇
라이프,거버넌스, 조직, 유망직종

AI로봇, 그레이스 아인슈타인

[음성복제 인공지능] 새로운 음성 복제 AI를 통해 당신은 여러 언어를 말할 수 있다. 당신의 목소리를 4초만 들으면 된다. 작가, 영화 제작자, 팟캐스터 및 기타 제작자가 새로운 청중과 새로운 수익원에 도달하도록 돕는 것 외에도 음성복제는 질병이나 부상으로 자신의 목소리를 잃은 사람들이 여전히 자신의 목소리를 낼 수 있도록 도울 수 있다.

https://www.freethink.com/robots-ai/voice-cloning

JM Kim | 기사입력 2023/03/21 [00:00]

AI로봇, 그레이스 아인슈타인

[음성복제 인공지능] 새로운 음성 복제 AI를 통해 당신은 여러 언어를 말할 수 있다. 당신의 목소리를 4초만 들으면 된다. 작가, 영화 제작자, 팟캐스터 및 기타 제작자가 새로운 청중과 새로운 수익원에 도달하도록 돕는 것 외에도 음성복제는 질병이나 부상으로 자신의 목소리를 잃은 사람들이 여전히 자신의 목소리를 낼 수 있도록 도울 수 있다.

https://www.freethink.com/robots-ai/voice-cloning

JM Kim

| 입력 : 2023/03/21 [00:00]

지난 1월 마이크로소프트는 화자의 목소리를 단 3초만 들으면 음성을 복제할 수 있는 AI를 공개했다. 이 시스템인 VALL-E는 최초의 음성 복제 AI와는 거리가 멀었지만, 그 정확도와 작은 오디오 샘플에 대한 필요성은 기술에 대한 새로운 기준을 설정했다.

마이크로소프트는 짧은 샘플(4~10초)에서 음성을 복제하고 그런 다음 원래 화자의 목소리, 감정 및 어조를 유지하면서 다른 언어로 음성을 합성하는 데 사용한다.

마이크로소프트는 아직 VALL-E X를 대중에게 공개하지 않았지만, 다른 언어를 포함하도록 AI를 확장할 계획을 밝히는 프리프린트 페이퍼와 함께 영어와 중국어 간의 번역이 포함된 데모 페이지를 게시했다.

마이크로소프트가 도구를 제공하기로 결정하거나 수많은 다른 AI 회사에서 유사한 도구를 출시한다면 우리는 곧 누구나 어떤 언어로든 말하는 것처럼 들리는 오디오를 생성할 수 있는 세상에 살게 될 것이다. 그것은 막대한 결과를 초래할 수 있다.

좋은 이야기: 수십 개의 음성 복제 AI는 이미 온라인에서 사용할 수 있으며 VALL-E와 마찬가지로 대규모 음성 데이터 세트에 대해 교육을 받았다. 새로운 음성 샘플이 주어지면 교육을 사용하여 텍스트 프롬프트를 읽고 오디오를 생성하는 것과 같은 소리를 예측할 수 있다.

일부는 VALL-E X가 하는 일을 수행하고 원래 말한 언어가 아닌 다른 언어로 오디오를 생성할 수도 있다.

이러한 서비스는 종종 마이크로소프트의 AI보다 더 긴 샘플을 필요로 한다. 수십 개의 문장을 암송하거나 심지어 몇 시간 분량의 오디오를 제공해야 할 수도 있다. 출력 품질은 다를 수 있지만 음성 복제 기능은 특히 콘텐츠 제작자에게 매우 유용할 수 있다.

예를 들어 작가는 음성 복제본을 사용하여 오디오북을 생성할 수 있으므로 녹음 스튜디오에서 며칠을 보내거나 전문가를 고용하지 않아도 된다. 저자가 읽은 오디오북을 여러 다른 언어로 생성하기 위해 책의 번역본을 제공할 수도 있다.

작가, 영화 제작자, 팟캐스터 및 기타 제작자가 새로운 청중과 새로운 수익원에 도달하도록 돕는 것 외에도 음성 복제는 질병이나 부상으로 자신의 목소리를 잃은 사람들이 여전히 자신의 목소리를 낼 수 있도록 도울 수 있다.

예를 들어, 에든버러 대학에서 분사한 SpeakUnique는 ALS 및 기타 형태의 운동 신경 질환 환자를 위한 음성 복제본을 만든다. 질병이 사람의 언어에 영향을 미치기 시작하기 전의 샘플을 사용할 수 없는 경우 SpeakUnique는 교육 녹음에서 경미한 장애를 복구할 수도 있다.

SpeakUnique는 사용자가 음성 복제본을 생성하기 위해 150개 및 300개의 문장을 암송해야 하지만 VALL-E와 같은 발전을 통해 결국 단 한 문장으로 이를 수행할 수 있으므로 말하기가 쉽지 않은 사람들이 기술에 더 쉽게 접근할 수 있다.

음성 복제본이 있으면 텍스트 음성 변환 앱이나 시선 추적 소프트웨어와 페어링하여 자신의 목소리로 의사소통할 수 있다. 마음을 읽는 기술이 발전함에 따라 사용자는 눈조차 움직일 수 없는 능력을 잃은 후 결국 클론을 사용할 수 있게 될 것이다.

배우 발 킬머(Val Kilmer)는 음성 복제를 이용한 것으로 유명하다. 인후암과의 싸움으로 그가 명확하게 말을 할 수 없게 된 후 AI 회사인 Sonantic은 그의 과거 영화에서 나온 30분 분량의 오디오를 사용하여 그를 위한 음성 복제본을 만들었다.

킬머는 이제 이를 사용하여 최근 "탑건: 매버릭"에서 연기 공연을 더빙할 수 있다.

"[발 킬머]와 그의 팀은 맞춤형 음성 모델을 구축하는 것이 그가 미래에 소통하고, 연결하고, 창조하는 새로운 방법을 탐색하는 데 도움이 될 것이라는 것을 알고 있었다."라고 Sonantic의 공동 설립자이자 CTO인 John Flynn은 2021년 블로그 게시물에서 썼다.

딥페이크 오디오: 음성 복제는 킬머에게 더 많은 작업 기회를 제공하지만 다른 연주자에게는 반대의 영향을 미칠 수 있다.

마더보드는 최근 스튜디오가 킬머보다 캐시가 적은 배우에게 자신의 목소리를 복제하는 데 동의하도록 압력을 가하고 있다고 보도했다. 이론적으로 그들은 녹음 스튜디오에서 한 세션에 대해 돈을 받고 향후 작업을 위해 복제본이 교체되는 것을 볼 수 있다.

전미 성우 협회(National Association of Voice Actors)의 회장이자 창립자인 팀 프리드랜더(Tim Friedlander)는 마더보드와의 인터뷰에서 일부 사람들은 계약에서 혼란스러운 언어를 사용하여 자신도 모르는 사이에 배우의 목소리를 복제하는 것을 피할 수 있다고 말했다.

“많은 성우들이 이런 언어가 추가된 것을 깨닫지 못한 채 계약을 했을 것”이라고 말했다.

Friedlander에 따르면 다른 배우들은 이 조항에 동의하거나 작업을 위해 건너뛸 수 있다는 말을 들었지만 일부 공연자들은 자신의 목소리를 복제해도 괜찮은지 또는 어떤 목적으로 사용할지 결정할 기회가 전혀 주어지지 않는다.

1월에 인터넷 사용자들은 스타트업 ElevenLabs의 무료 음성 복제 앱을 이용했다. 이 앱은 복제본을 만드는 데 단 1분의 오디오만 있으면 엠마 왓슨, 조 로건 및 다른 유명인들이 실제로는 말하지 않은 혐오스러운 말을 "말"하는 클립을 생성한다.

음성 복제와 딥페이크 비주얼을 결합하면 실제처럼 보이고 들리지만 전혀 그렇지 않은 콘텐츠가 있으므로 나쁜 배우가 유명인의 평판을 더럽힐 뿐만 아니라 설득력 있는 선전을 만들고 잘못된 정보를 퍼뜨리기 쉽다.

ElevenLabs는 이제 사용자가 서비스 비용을 지불해야 한다. 그러나 보호 장치를 추가하기 전에 마더보드 기자는 단 5분의 오디오로 자신의 무료 음성 복제본을 만든 다음 이를 사용하여 은행의 음성 인식 시스템을 통과할 수 있는 방법을 시연했다.

VALL-E 및 VALL-E X와 같은 시스템이 널리 보급되면 음성 메일 메시지만큼 짧은 메시지만으로도 범죄자가 은행 계좌를 뚫거나 기술을 해킹하거나 사랑하는 사람을 사기에 충분할 수 있다.

결론: 마이크로소프트는 사람들이 음성 복제 AI를 오용할 수 있음을 잘 알고 있는 것 같다. VALL-E 및 VALL-E X의 데모 페이지는 스푸핑 가능성을 강조하는 윤리 성명으로 끝난다.

VALL-E 사전 인쇄는 또한 위험을 완화하기 위해 AI의 음성 복제를 감지하는 시스템을 만들 가능성을 언급한다. 아직 결실을 맺지는 못했지만, 우리는 이미 다른 연구자들이 AI가 생성한 목소리와 인간의 목소리를 구별하는 새로운 방법을 고안하는 것을 보고 있다.

이러한 시스템이 유용하려면 이를 구현하는 방법을 찾아야 하지만 어떻게 작동할지 아직 명확하지 않다.

현재로서는 음성 기반 암호를 덜 스푸핑되는 다른 인증 방법과 결합하면 음성 복제에 의한 해킹을 방지할 수 있으며 덜 회의적인 사랑하는 사람들이 전화를 끊고 전화를 끊고 우리에게 전화를 걸도록 권장할 수도 있다. 그리고 우리가 온라인에서 보고 듣는 모든 것을 믿어서는 안 된다는 것을 그들(그리고 우리 자신)에게 상기시킨다.

JM Kim의 다른기사보기

인공지능, 음성복제, 딥페이크 오디오 관련기사목록

[세계미래보고서]시리즈, 판매제품

신간소개 [세계미래보고서2024-2034] 이르면 10년 안에 등장할 인공일반지능 신기술이 가져올 유토피아와 디스토피아를 미리 살펴보자!

많이 본 기사

[소멸직종 15] 소멸직종 15가지 2030년 여행사와 직원, 캐시어 점원, 패스트푸드 요리사, 우체부, 은행원, 섬유 노동자, 인쇄소, 보석상, 배달원, 텔레마케터, 어민, 법무비서관, 조립제작사,

[AI반려봇 시대가 온다 (3)] 그러면 이제 AI반려봇으로 돈을 벌어야 하나? 그렇다. 에이아이마인드봇(주) (대표이사 배영훈)라는 회사가 이미 설립되어서 AI반려봇 제작, 생산, 국내외 판매를 준비

유투브[피터디아만디스-로봇택시 등장으로 인한 운전 해방으로 연간 216시간 되돌려 받는다: Tesla 및 WAYMO] 로봇 운전사의 시대가 도래함으로 운전으로부터 해방된 이 시간은 휴식, 생산성, 심지어 여가의 시간으로 바뀔 수 있다.

T[2024년 세계 대학 순위 1위 움직임] QS 세계 대학 순위는 오랫동안 세계에서 가장 영향력 있는 대학 순위 지표 중 하나였다. 이 순위는 학술적 명성, 연구 영향력, 교육 품질 등을 기반으로 대학을 평가했다. 하지만 올해에는 지속 가능성, 고용 결과, 국제 연구 네트워크라는 세 가지 새로운 지표가 추가되었다.

[충격 흡수 소재] 금속처럼 강하지만 폼처럼 가벼운 새로운 충격 흡수 소재. 존스홉킨스대학의 연구원들은 초경량이지만 금속을 보호하는 새로운 충격 흡수 재료를 개발했다. 이 재료는 더 가볍고 강하며 무엇보다도 재사용이 가능한 헬멧, 갑옷 및 차량 부품을 만들 수 있다.

[휴머노이드 로봇, 비즈니스 혁신 촉진] 글로벌 컨설팅 기업 골드만삭스(GoldmanSachs)의 조사에 따르면, 휴머노이드 시장규모는 2035년까지 380억달러로 성장할 전망

[양자 컴퓨팅: 얼어붙은 상태에서 벗어나기] Google, IBM 및 PsiQuantum과 같은 회사는 이러한 거대한 컴퓨팅을 수용하기 위해 냉각 시스템으로 가득 찬 거대한 창고를 구상

유투브 책[2023년에 얼마나 많은 사람들이 YouTube를 사용하나 각종 통계들] 2006년 20억으로 구글이 사들인 유투브는 2005년 2월 14일에 설립, 첫비디오는 4월 23일에 게시, 지금은 20억명이 넘는 사용자보유, 인터넷사용자 43%가 매일 유투브를 본다.

마인드봇[선택받은 가족의 등장: 사촌의 쇠퇴와 친족관계의 확장을 탐색하다] 사촌의 감소는 두드러진다. 연구 결과, 미래 세대는 과거 세대에 비해 살아있는 사촌의 수가 크게 줄어들 것으로 예상된다. 이는 어린이들이 성장하면서 형성하는 사회적 네트워크와 가족 관계에 상당한 영향을 미칠 수 있다.

마인드봇[반려로봇의 시대가 온다] 대부분의 가정에서 적어도 한 대 이상의 반려로봇을 보유하게 되는 시대는 2040년대 초반에 접어들 것으로 예상된다.

AI로봇, 그레이스 아인슈타인 많이 본 기사

[AI 마인드봇 회사 소개] 싱귤래리티넷(SingularityNET)은 스위스에 설립된 블록체인·인공지능(AI) 기반의 마켓플레이스 프로젝트 회사이다. 벤 괴르첼(Ben Goertzel)이 회사 설립자이자 CEO를 맡고 있다

[피터디아만디스-2030년의 하루 탐색: AI 어시스턴트의 힘] 집에서든 직장에서든 AI는 우리가 하는 모든 일에 점점 더 통합된다. 인공지능 비서는 가장 중요한 우리의 시간을 아껴준다. 우리는 우리 삶의 부조종사를 갖게 되어 우리의 욕구를 최대화하고 사소한 작업에 소비하는 시간을 최소화하도록 도움을 받게 된다.

[AI 반려봇 시대가 온다!] 반려봇을 두 세명 입양해서 살고 싶다는 사람들, 반려봇의 상용화 시점이 곧 다가오고 있다.

[AI로봇 전성시대가 온다!] 에이아이마인드봇(주) 뿐만아니라 애플을 포함한 많은 글로벌 기업들이 가정용 로봇사업에 본격적으로 참여 시작

[냄새 맡는 로봇] 획기적인 인공 후각 센서의 개발은 전 세계 연구자들의 오랜 과제였다. 생물학적 후각 시스템과 유사하게 복잡한 냄새 혼합물을 효과적으로 식별할 수 있는 전자 코(e-nose)를 만드는 것은 소형화 및 인식 기능 문제로 인해 어려운 것으로 입증되었다. 그러나 홍콩과기대(HKUST) 가 이끄는 연구팀은 새로 개발된 생체 모방 후각 칩(BOC)을 통해 이 분야에서 획기적인 발전을 이루었다

최신기사

신간소개 [세계미래보고서2024-2034] 이르면 10년 안에 등장할 인공일반지능 신기술이 가져올 유토피아와 디스토피아를 미리 살펴보자!

마인드봇[인간형로봇] 이 로봇은 당신이 언제 웃을지 예측하고 신호에 맞춰 다시 웃어. 로봇의 경우, 진정한 미소를 찾으려는 시도는 인간과 비슷할 정도로 가깝지만 약간의 불안감을 주는 불쾌한 계곡에 빠지는 경우가 많다

[커지고 있는 유럽의 댐 철거, 보 철거 운동] 자유롭게 흐르는 강을 복원하는 것은 생물 다양성과 생태계 건강을 보존하는 데 매우 중요

회원약관 ㅣ 개인정보취급방침 ㅣ 회사소개 ㅣ 청소년보호정책 ㅣ 직원게시판 ㅣ 기사제보 ㅣ 보도자료 ㅣ 기사검색

AI넷ㅣ 주소 : 우)02821 서울특별시 성북구 북악산로 1길 31 ㅣ 전화 : 02-313-6300 ㅣ 팩스 : 02-908-9494
등록번호 : 서울, 아02236ㅣ 등록일 : 2009.11. 19. ㅣ E-mail : unfutures@gmail.com, futures2055@gmail.com
회사명 : AI넷 ㅣ 발행/편집인 : 박영숙ㅣ 발행일: 2020.09.05｜청소년보호책임자 : 박영숙
사업자등록번호 : 209-15-39241 (사)유엔미래포럼 www.unfuture.org
Copyright ⓒ 2020 AI넷. All rights reserved. (This is a non-profit organization/a free newspaper.)