다음 시나리오를 상상해 보자. 전화벨이 울린다. 사무실 직원이 대답하고 상사가 공황 상태에 빠진 그녀가 하루를 떠나기 전에 새 계약자에게 돈을 이체하는 것을 잊었고 그 일을 해야 한다고 말하는 것을 듣는다. 그녀는 그에게 전신환 정보를 제공하고 송금된 돈으로 위기를 피했다.
작업자는 의자에 등을 기대고 심호흡을 하고 상사가 문으로 들어오는 것을 지켜본다. 통화 상대방의 목소리는 그의 상사가 아니었다. 사실 사람도 아니었다. 그가 들은 목소리는 그의 상사와 똑같이 들리도록 설계된 기계 생성 오디오 샘플인 오디오 딥페이크의 목소리였다.
녹음된 오디오를 사용한 이와 같은 공격은 이미 발생했으며 대화식 오디오 딥페이크가 멀지 않을 수 있다.
오디오와 비디오 모두 딥페이크는 최근 몇 년 동안 정교한 머신러닝 기술의 발전으로 가능했다. 딥페이크는 디지털 미디어에 대한 새로운 차원의 불확실성을 가져왔다. 딥페이크를 탐지하기 위해 많은 연구자들이 비디오 딥페이크에서 발견되는 미세한 결함과 불일치와 같은 시각적 아티팩트를 분석하기 시작했다.
오디오 딥페이크는 잠재적으로 훨씬 더 큰 위협이 될 수 있다. 사람들은 종종 전화 통화, 라디오 및 음성 녹음을 통해 비디오 없이 구두로 의사 소통하기 때문이다. 이러한 음성 전용 통신은 공격자가 딥페이크를 사용할 가능성을 크게 확장한다.
오디오 딥페이크를 감지하기 위해 플로리다 대학의 우리 연구원들은 사람의 화자가 유기적으로 생성한 음성 샘플과 컴퓨터에서 합성하여 생성한 음성 샘플 간의 음향 및 유체 역학 차이를 측정하는 기술을 개발했다.
유기적 음성 vs. 합성 음성
인간은 성대, 혀, 입술을 포함한 성대의 다양한 구조에 공기를 밀어 넣어 소리를 낸다. 이러한 구조를 재배열함으로써 성대의 음향 특성을 변경하여 200개 이상의 고유한 소리 또는 음소를 생성할 수 있다. 그러나 인체 해부학은 기본적으로 이러한 서로 다른 음소의 음향 거동을 제한하므로 각각에 대해 비교적 작은 범위의 올바른 소리가 나온다.
대조적으로, 오디오 딥페이크는 먼저 컴퓨터가 표적이 된 피해자 화자의 오디오 녹음을 들을 수 있도록 허용함으로써 생성된다. 사용된 정확한 기술에 따라 컴퓨터는 10초에서 20초 정도의 오디오를 들어야 할 수도 있다. 이 오디오는 피해자 목소리의 고유한 측면에 대한 주요 정보를 추출하는 데 사용된다.
공격자는 딥페이크가 말할 문구를 선택한 다음 수정된 텍스트 음성 변환 알고리즘을 사용하여 피해자가 선택한 문구를 말하는 것처럼 들리는 오디오 샘플을 생성한다. 단일 딥페이크 오디오 샘플을 생성하는 이 프로세스는 몇 초 만에 완료될 수 있으며 잠재적으로 공격자가 대화에서 딥페이크 음성을 사용할 수 있는 충분한 유연성을 허용한다.
오디오 딥페이크 감지
딥페이크에서 생성된 음성과 인간이 생성한 음성을 구별하는 첫 번째 단계는 성대를 음향적으로 모델링하는 방법을 이해하는 것이다. 운 좋게도 과학자들은 성대의 해부학적 측정을 기반으로 누군가 또는 공룡과 같은 존재가 어떻게 들릴지 추정하는 기술을 가지고 있다.
우리는 반대로 했다. 이러한 동일한 기술을 많이 뒤집음으로써 우리는 연설의 한 부분에서 화자의 성대를 대략적으로 추출할 수 있었다. 이를 통해 오디오 샘플을 만든 화자의 해부학을 효과적으로 들여다볼 수 있었다.
딥페이크 오디오는 종종 생물학적 성대가 아니라 빨대를 마시는 것과 유사한 성대 재구성을 초래한다. (Logan Blue et al., CC BY-ND)
여기에서 우리는 딥페이크 오디오 샘플이 인간이 가지고 있는 동일한 해부학적 한계에 의해 제약을 받지 못할 것이라고 가정했다. 즉, 딥페이크된 오디오 샘플의 분석은 사람에게 존재하지 않는 성대 모양을 시뮬레이션했다.
우리의 테스트 결과는 우리의 가설을 확인했을 뿐만 아니라 흥미로운 사실을 밝혀냈다. 딥페이크 오디오에서 성대 추정치를 추출할 때 추정치가 종종 코믹하게 잘못되었음을 발견했다. 예를 들어, 딥페이크 오디오는 훨씬 더 넓고 모양이 더 다양한 인간의 성대와 대조적으로 빨대와 같은 상대 직경과 일관성을 가진 성대를 생성하는 것이 일반적이었다.
이러한 인식은 딥페이크 오디오가 인간 청취자에게 설득력이 있을 때에도 인간이 생성한 음성과 구별할 수 없음을 보여준다. 관찰된 음성 생성을 담당하는 해부학을 추정함으로써 오디오가 사람에 의해 생성되었는지 컴퓨터에 의해 생성되었는지 식별할 수 있다.
이것이 중요한 이유
오늘날의 세상은 미디어와 정보의 디지털 교환으로 정의된다. 뉴스에서 엔터테인먼트, 사랑하는 사람과의 대화에 이르기까지 모든 것은 일반적으로 디지털 교환을 통해 이루어진다. 초기 단계에서도 딥페이크 비디오 및 오디오는 이러한 교환에 대한 사람들의 자신감을 약화시켜 효과적으로 유용성을 제한한다.
디지털 세계가 사람들의 삶에서 정보의 중요한 자원으로 남아 있어야 한다면 오디오 샘플의 소스를 결정하기 위한 효과적이고 안전한 기술이 중요하다.