연구원들은 무료배포 서비스인 arXiv에 온라인으로 게시된 논문에서 VALL-E라는 애플리케이션을 사용하여 화자의 3초 등록 녹음만으로 고품질의 개인화된 음성을 합성할 수 있다고 밝혔다. -학술 문서에 대한 액세스 아카이브.
음성을 잘라서 오디오스트림에 붙여넣을 수 있는 프로그램이 있으며 해당 음성은 입력된 텍스트에서 화자의 음성으로 변환된다. 그러나 프로그램은 한 시간 이상이 걸릴 수 있는 사람의 목소리를 에뮬레이트하도록 훈련되어야 한다.
“이 모델의 뛰어난 점 중 하나는 몇 초 만에 그렇게 한다는 것이다. 매우 인상적이다.”라고 뉴욕시의 소비자 기술 자문 회사인 Reticle Research의 수석 분석가인 Ross Rubin은 TechNewsWorld에 말했다.
연구원들에 따르면 VALL-E는 음성 자연성과 화자 유사성 모두에서 기존의 최첨단 텍스트 음성 변환(TTS) 시스템을 훨씬 능가한다.
또한 VALL-E는 화자의 감정과 음향 환경을 보존할 수 있다. 예를 들어 음성 샘플이 전화로 녹음된 경우 해당 음성을 사용하는 텍스트는 전화를 통해 읽는 것처럼 들린다.
'매우 인상적'
VALL-E는 2022년 초에 출시된 YourTTS와 같은 이전의 최첨단 시스템에 비해 눈에 띄게 개선된 것이라고 컴퓨터 과학자이자 AI가 생성하고 끝없는 토론을 제공하는 웹사이트의 제작자인 Giacomo Miceli는 말했습니다. Werner Herzog와 Slavoj Žižek의 합성 연설.
Miceli는 TechNewsWorld에 "VALL-E에서 흥미로운 점은 음성을 복제하는 데 3초의 오디오만 필요하다는 사실뿐 아니라 그 음성, 감정적인 음색 및 모든 배경 소음을 얼마나 가깝게 일치시킬 수 있는지입니다."라고 TechNewsWorld에 말했다. Ritu Jyoti, AI 및 자동화 그룹 부사장 IDC, 글로벌 시장 조사 회사 VALL-E는 "중요하고 매우 인상적입니다."
Drexel의 온라인 컴퓨터 과학 학위로 미래를 해독하자.
Drexel University의 온라인 컴퓨터 과학 프로그램은 최첨단 기술 작업을 준비하도록 설계되었다. 커리큘럼은 모든 수준의 경험이나 사전 지식을 가진 학생들을 위해 설계되었다.
Jyoti는 TechNewsWorld에 "이것은 새로운 목소리를 내기 위해 훨씬 더 긴 훈련 기간이 필요한 이전 모델에 비해 크게 개선된 것입니다."라고 말했다.
"이 기술은 아직 초기 단계이며 더 많은 개선을 통해 더 인간적인 소리를 낼 수 있을 것으로 기대됩니다."라고 그녀는 덧붙였다.
감정 에뮬레이션 의문
ChatGPT를 만든 OpenAI와 달리 Microsoft는 VALL-E를 대중에게 공개하지 않았기 때문에 성능에 대한 의문이 남아 있다. 예를 들어 응용 프로그램에서 생성된 음성의 저하를 유발할 수 있는 요인이 있을까?
Miceli는 "오디오 스니펫이 더 오래 생성될수록 사람이 약간 이상하게 들리는 것을 들을 가능성이 높아집니다."라고 말했다. "음성 합성에서 단어가 불분명하거나 누락되거나 중복될 수 있습니다."
"감정 레지스터 사이를 전환하는 것이 부자연스럽게 들릴 수도 있습니다."라고 그는 덧붙였다.
화자의 감정을 에뮬레이트하는 애플리케이션의 기능에도 회의론이 있습니다. 캘리포니아 산호세에 있는 SmartTech Research의 사장 겸 수석 애널리스트인 Mark N. Vena는 “이 기능이 얼마나 강력한지 보는 것은 흥미로울 것이다.
"그들이 단 몇 초의 오디오로 그렇게 할 수 있다고 주장한다는 사실은 믿기 어렵다. 훨씬 더 긴 음성 샘플이 필요한 현재 AI 알고리즘의 한계를 감안할 때"라고 그는 계속 말했다.
윤리적 문제
전문가들은 VALL-E에 대한 유익한 응용 프로그램과 그다지 유익하지 않은 응용 프로그램을 보고 있다. Jyoti는 음성 편집 및 성우 교체를 언급했다. Miceli는 이 기술이 팟캐스터를 위한 편집 도구를 만들고, 스마트 스피커의 음성을 사용자 지정하고, 메시징 시스템과 대화방, 비디오 게임, 심지어 내비게이션 시스템에 통합하는 데 사용될 수 있다고 언급했다.
"동전의 다른 측면은 악의적인 사용자가 예를 들어 정치인의 목소리를 복제하여 그들이 터무니없거나 선동적으로 들리는 말을 하도록 하거나 일반적으로 잘못된 정보나 선전을 퍼뜨리도록 할 수 있다는 것입니다."라고 Miceli는 덧붙였다.
Vena는 Microsoft가 주장하는 만큼 좋은 기술이라면 엄청난 남용 가능성을 보고 있습니다. "금융 서비스 및 보안 수준에서 실제로 피해를 줄 수 있는 악의적 행위자의 사용 사례를 떠올리는 것은 어렵지 않습니다."라고 그는 말했다.
Jyoti 역시 VALL-E 주변에서 부글부글 끓는 윤리적 우려를 봅니다. "기술이 발전함에 따라 VALL-E 및 유사 기술이 생성하는 목소리가 더욱 설득력을 갖게 될 것입니다."라고 그녀는 설명했다. "그것은 잠재적인 피해자가 알고 있는 실제 사람들의 목소리를 복제하는 현실적인 스팸 전화의 문을 열 것입니다."
“정치인과 다른 공인도 사칭될 수 있습니다.”라고 그녀는 덧붙였다.
“잠재적인 보안 문제가 있을 수 있습니다.”라고 그녀는 계속 말했다. “예를 들어 일부 은행에서는 음성 암호를 허용하므로 오용에 대한 우려가 제기된다. 남용을 막기 위해 AI 생성 콘텐츠와 AI 탐지 소프트웨어 간의 군비 경쟁이 확대될 것으로 예상할 수 있다.”
Jyoti는 "현재 VALL-E를 사용할 수 없다는 점에 유의하는 것이 중요합니다."라고 덧붙였습니다. “전반적으로 AI를 규제하는 것이 중요합니다. Microsoft가 VALL-E 사용을 규제하기 위해 어떤 조치를 취하는지 확인해야 합니다.”
변호사를 입력
기술과 관련하여 법적 문제도 발생할 수 있다. "안타깝게도 현재 이러한 문제를 직접 해결할 수 있는 충분한 법적 도구가 없을 수 있습니다. 대신 기술이 어떻게 남용되는지 다루는 법률이 이러한 남용을 줄이기 위해 사용될 수 있습니다."라고 Michael L. Teich는 말했다. 국내 지적 재산 법률 회사인 Harness IP의 대표.
예를 들어, 음성 복제는 청취자가 사기에 굴복하도록 속이거나 선거 후보자의 목소리를 모방하는 데 사용될 수 있는 실제 사람의 목소리를 딥페이크하는 결과를 초래할 수 있다. 이러한 남용은 사기, 명예 훼손 또는 잘못된 선거 정보법 분야에서 법적 문제를 일으킬 가능성이 있지만 기술 자체의 사용을 다루는 특정 AI 법률이 부족합니다.”
"또한 초기 음성 샘플을 얻은 방법에 따라 예를 들어 전화선을 통해 음성 샘플을 얻은 경우 연방 Wiretap Act 및 주 도청법에 따라 의미가 있을 수 있습니다."라고 그는 덧붙였다.
"마지막으로," Teich는 "제한된 상황에서 그러한 음성 복제가 정부 행위자가 적법한 목소리를 언론의 자유 권리 행사로부터 침묵시키거나, 합법화하거나, 희석시키는 데 사용된다면 수정헌법 제1조에 대한 우려가 있을 수 있습니다."라고 말했다.
"이러한 기술이 성숙함에 따라 기술이 발전하고 접근성이 높아짐에 따라 기술을 직접 다루고 남용을 방지하기 위한 특정 법률이 필요할 수 있습니다."라고 그는 말했다.
현명한 투자
최근 몇 주 동안 Microsoft는 AI 헤드라인을 장식했다. 올해 ChatGPT 기술을 Bing 검색 엔진과 Office 앱에 통합할 것으로 예상된다. 또한 OpenAI와 현재 VALL-E에 1,000만 달러를 투자할 계획이라고 한다.
"저는 그들이 현명한 투자를 많이 하고 있다고 생각한다. 기술 분석 연구, 캘리포니아 주 포스터 시티에 있는 기술 시장 조사 및 컨설팅 회사이다.
“그들은 몇 년 전에 OpenAI 악대차에 뛰어들었기 때문에 꽤 오랫동안 이 문제에 대해 배후에 있었습니다. 이제 대대적으로 나오고 있습니다.”라고 O'Donnell이 TechNewsWorld에 말했다.
이어 “그동안 AI로 유명한 구글을 따라잡아야 했지만 마이크로소프트가 앞장서기 위해 공격적인 움직임을 보이고 있다”고 말했다. "그들은 이 모든 것들이 얻고 있는 인기와 놀라운 보도에 뛰어들고 있습니다."
Rubin은 “Microsoft는 지난 30여 년 동안 생산성 분야의 선두주자였으며 그 선두를 유지하고 확장하기를 원한다. AI가 그 열쇠를 쥐고 있을 수 있다.”