광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[인공지능-합성데이터] 이 오싹한 가짜 인간은 AI의 새로운 시대를 예고 한다. 딥 러닝을 위해 더 많은 데이터가 필요한가? 합성 데이터 회사가 그 데이터를 만들어준다. 실제 사람은 아니지만 가짜 인간을 판매하는 회사인 Datagen에서 만든 수십만 명의 다른 사람을 사람처럼 흉내내고 있다.

https://www.technologyreview.com/2021/06/11/1026135/ai-synthetic-data/

JM Kim | 기사입력 2021/06/25 [00:00]

[인공지능-합성데이터] 이 오싹한 가짜 인간은 AI의 새로운 시대를 예고 한다. 딥 러닝을 위해 더 많은 데이터가 필요한가? 합성 데이터 회사가 그 데이터를 만들어준다. 실제 사람은 아니지만 가짜 인간을 판매하는 회사인 Datagen에서 만든 수십만 명의 다른 사람을 사람처럼 흉내내고 있다.

https://www.technologyreview.com/2021/06/11/1026135/ai-synthetic-data/

JM Kim | 입력 : 2021/06/25 [00:00]

 

그의 윗입술, 이마의 주름, 피부의 흠집에 희미한 수염이 들어오는 것을 볼 수 있다. 그는 실제 사람은 아니지만 가짜 인간을 판매하는 회사인 Datagen에서 만든 수십만 명의 다른 사람을 사람처럼 흉내 내려고 한다.

 

이 인간들은 게임용 아바타나 영화용 애니메이션 캐릭터가 아니다. 이들은 딥 러닝 알고리즘의 증가하는 욕구를 충족시키기 위해 설계된 합성 데이터이다. Datagen과 같은 회사는 비용과 시간이 많이 소요되는 실제 데이터 수집 프로세스에 대한 강력한 대안을 제공한다.

 

그들은 당신을 위해 그것을 만들 것이다: 당신이 그것을 원하는 방식으로, 당신이 원할 때 그리고 상대적으로 싸게 말이다.

 

합성 인간을 생성하기 위해 Datagen은 먼저 실제 인간을 스캔한다. 홍채부터 피부 질감, 손가락 곡률에 이르기까지 모든 세부 사항을 캡처하는 거대한 전신 스캐너에 들어가도록 사람들에게 비용을 지불하는 공급 업체와 협력한다. 그런 다음 스타트 업은 원시 데이터를 가져와서 사람의 몸, 얼굴, , 손의 3D 표현을 개발하는 일련의 알고리즘을 통해 펌핑한다.

 

이스라엘에 본사를 둔 이 회사는 이미 미국의 주요 기술 대기업 4개와 협력하고 있지만 어떤 기술이 기록에 있는지는 밝히지 않을 것이라고 밝혔다. 가장 가까운 경쟁자인 Synthesis AI는 주문형 디지털 휴먼도 제공한다. 다른 회사는 금융, 보험 및 건강 관리에 사용할 데이터를 생성한다. 데이터 유형만큼 많은 합성 데이터 회사가 있다.

 

한때 실제 데이터보다 덜 바람직하다고 여겨지던 합성 데이터는 이제 일부 사람들에게 만병 통치약으로 간주된다. 실제 데이터는 지저분하고 편견으로 가득 차 있다. 새로운 데이터 개인 정보 보호 규정은 수집을 어렵게 만든다. 대조적으로 합성 데이터는 원시 상태이며 더 다양한 데이터 세트를 구축하는 데 사용할 수 있다. 다양한 연령, 모양 및 민족의 완벽하게 레이블이 지정된 얼굴을 생성하여 인구 전반에 걸쳐 작동하는 얼굴 감지 시스템을 구축할 수 있다.

 

그러나 합성 데이터에는 한계가 있다. 현실을 반영하지 못하면 지저분하고 편향된 실제 데이터보다 더 나쁜 AI를 생성하거나 단순히 동일한 문제를 상속할 수 있다. 데이터 과학자이자 알고리즘 감사 회사인 ORCAA의 설립자인 Cathy O'Neil "내가 하고 싶지 않은 것은 이 패러다임에 엄지 손가락을 내밀고 ', 이렇게 하면 많은 문제가 해결될 것이다.'고 말하는 것이다. "왜냐하면 그것은 또한 많은 것을 무시할 것이기 때문이다."

 

 

 

현실이 아닌 현실

 

딥 러닝은 항상 데이터에 관한 것이었다. 그러나 지난 몇 년 동안 AI 커뮤니티는 좋은 데이터가 빅 데이터보다 더 중요하다는 것을 알게 되었다. 적절하고 깔끔하게 레이블이 지정된 소량의 데이터라도 선별되지 않은 데이터 양의 10배나 고급 알고리즘보다 AI 시스템의 성능을 개선하는 데 더 많은 일을 할 수 있다.

 

Datagen CEO 겸 공동 설립자인 Ofir Chakon은 이로 인해 기업이 AI 모델 개발에 접근하는 방식이 바뀐다. 오늘날 그들은 가능한 한 많은 데이터를 수집한 다음 더 나은 성능을 위해 알고리즘을 조정하고 조정한다. 대신 데이터 구성을 개선하면서 동일한 알고리즘을 사용해야한다.

 

 

 

 

Datagen은 또한 가짜 가구와 실내 환경을 생성하여 가짜 인간을 상황에 맞춘다. 이미지 출처: DATAGEN

 

그러나 이러한 종류의 반복적인 실험을 수행하기 위해 실제 데이터를 수집하는 것은 너무 많은 비용과 시간이 소요된다. 여기에서 Datagen이 등장한다. 합성 데이터 생성기를 사용하면 팀은 하루에 수십 개의 새로운 데이터 세트를 만들고 테스트하여 어떤 것이 모델의 성능을 극대화하는지 식별할 수 있다.

 

데이터의 사실성을 보장하기 위해 Datagen은 공급 업체에 각 연령대, BMI 범위 및 민족성에서 스캔 할 개인 수에 대한 자세한 지침을 제공하고 방을 돌아다니거나 탄산 음료 마시기, 걸어 다니는 것과 같이 수행할 일련의 작업 목록을 제공한다. 공급 업체는 이러한 작업의 고화질 정적 이미지와 모션 캡처 데이터를 모두 반환한다. 그런 다음 Datagen의 알고리즘은 이 데이터를 수십만 개의 조합으로 확장한다. 합성된 데이터는 때때로 다시 확인된다. 예를 들어 가짜 얼굴은 실제 얼굴에 대해 플롯되어 실제처럼 보이는지 확인한다.

 

Datagen은 이제 스마트 자동차의 운전자 경보를 모니터링하는 얼굴 표정, 계산원이 없는 매장에서 고객을 추적하기위한 신체 동작, VR 헤드셋의 눈 및 손 추적 기능을 개선하기 위해 홍채와 손 동작을 생성한다. 이 회사는 자사의 데이터가 이미 수천만 명의 사용자에게 서비스를 제공하는 컴퓨터 비전 시스템을 개발하는 데 사용되었다고 말한다.

 

대량 생산되는 것은 합성 인간 만이 아니다. Click-Ins는 합성 AI를 사용하여 자동 차량 검사를 수행하는 스타트 업이다. 디자인 소프트웨어를 사용하여 AI가 인식해야 하는 모든 자동차 제조업체와 모델을 재현한 다음 다른 배경에 대해 다른 조명 조건에서 다른 색상, 손상 및 변형으로 렌더링한다. 이를 통해 회사는 자동차 제조업체가 새 모델을 출시할 때 AI를 업데이트 할 수 있으며, 번호판이 개인 정보로 간주되어 AI 교육에 사용되는 사진에 표시될 수 없는 국가에서 데이터 개인 정보 침해를 방지할 수 있다.

 

Mostly.ai는 금융, 통신 및 보험 회사와 협력하여 회사가 합법적으로 준수하는 방식으로 외부 공급업체와 고객 데이터베이스를 공유할 수 있도록 가짜 클라이언트 데이터의 스프레드 시트를 제공한다. 익명화는 데이터 세트의 풍부함을 감소시킬 수 있지만 여전히 사람들의 개인 정보를 적절하게 보호하지 못한다. 그러나 합성 데이터를 사용하여 회사의 실제 데이터와 동일한 통계 속성을 공유하는 상세한 가짜 데이터 세트를 생성할 수 있다. 또한 더 다양한 고객 집단이나 사기 행위와 같은 시나리오를 포함하여 회사에 아직 없는 데이터를 시뮬레이션하는 데 사용할 수도 있다.

 

 

Click-Ins은 다양한 배경에 대해 서로 다른 제조사와 모델의 자동차를 렌더링한다.  이미지 출처: Click-Ins

 

합성 데이터 지지자들은 AI 평가에도 도움이 될 수 있다고 말한다. AI 컨퍼런스에서 발표된 최근 논문에서 Johns Hopkins University의 기계 학습 및 건강 관리 부교수 Suchi Saria와 그녀의 공동 저자는 데이터 생성 기술을 사용하여 단일 데이터 세트에서 다른 환자 집단을 추정하는 방법을 시연했다. 예를 들어 한 회사에서 뉴욕시의 젊은 인구에 대한 데이터만 가지고 있지만 당뇨병 유병률이 높은 고령 인구에서 AI의 성능을 이해하려는 경우 유용할 수 있다. 그녀는 이제 이 기술을 사용하여 의료 AI 시스템을 테스트하는 자신의 회사인 Bayesian Health를 시작하고 있다.

 

 

 

속임수의 한계

 

그러나 합성 데이터가 과장되어 있지 않을까?

 

개인 정보 보호와 관련하여 "데이터가 '합성'하고 실제 사용자 데이터와 직접적으로 일치하지 않는다고 해서 실제 사람에 대한 민감한 정보를 인코딩하지 않는다는 의미는 아니다."라고 컴퓨터 및 정보 과학 교수인 Aaron Roth는 말한다. 펜실베니아 대학교에서. 예를 들어 일부 데이터 생성 기술은 훈련 데이터에서 발견된 이미지나 텍스트를 밀접하게 재현하는 것으로 나타났지만 다른 기술은 해당 데이터를 완전히 역류시키는 공격에 취약하다.

 

합성 데이터가 스캔에 동의 한 개인의 신원을 감추기 위한 것이 아닌 Datagen과 같은 회사에게는 괜찮을 수 있다. 그러나 민감한 재무 정보 또는 환자 정보를 보호하는 방법으로 솔루션을 제공하는 기업에게는 나쁜 소식이 될 것이다.

 

연구에 따르면 특히 두 가지 합성 데이터 기술 (차등 개인 정보 보호 및 생성 적대 네트워크)의 조합이 가장 강력한 개인 정보 보호를 생성할 수 있다고 워싱턴 대학 eScience Institute의 데이터 과학자인 Bernease Herman은 말한다. 그러나 회의론자들은 합성 데이터 공급 업체의 마케팅 용어에서 이러한 뉘앙스가 사라질 수 있다고 우려한다. 이러한 미묘한 차이는 그들이 사용하는 기술에 대해 항상 밝히지는 않을 것이다.

 

한편, 합성 데이터가 AI 시스템의 편향을 효과적으로 완화할 수 있다는 증거는 거의 없다. 우선, 치우친 기존 데이터 세트에서 새 데이터를 외삽한다고 해서 반드시 더 대표적인 데이터가 생성되는 것은 아니다. 예를 들어 Datagen의 원시 데이터에는 소수 민족이 비례적으로 더 적다. , 해당 그룹에서 가짜 인간을 생성하는 데 실제 데이터 포인트를 더 적게 사용한다. 생성 과정이 완전히 추측은 아니지만 가짜 인간은 여전히 ​​현실에서 벗어날 가능성이 더 높다. "어두운 피부색의 얼굴이 얼굴의 근사치가 특히 좋지 않다면 실제로 문제를 해결하지 못한 것이다."라고 O’Neil은 말한다.

 

또 다른 이유는 완벽하게 균형 잡힌 데이터 세트가 완벽하게 공정한 AI 시스템으로 자동 변환되지 않는다고 Northeastern University의 컴퓨터 과학 부교수인 Christo Wilson은 말한다. 신용 카드 대출 기관이 잠재적인 차용인을 평가하기위한 AI 알고리즘을 개발하려고 한다면 데이터에서 흑인과 백인을 단순히 표현하는 것만으로 가능한 모든 차별을 제거하지는 않을 것이다. 백인 지원자와 흑인 지원자 간의 차이로 인해 차별이 여전히 발생할 수 있다.

 

문제를 더욱 복잡하게 만들기 위해 초기 연구에 따르면 경우에 따라 합성 데이터로 개인 및 공정 AI를 모두 달성하는 것이 불가능할 수도 다. AI 컨퍼런스에서 발표된 최근 논문에서 토론토 대학교와 벡터 연구소의 연구원들은 흉부 X-레이로 그렇게 하려고 했다. 그들은 차별적 프라이버시와 생성적 적대 네트워크의 조합을 통해 다양한 합성 데이터 세트를 만들려고 시도했을 때 정확한 의료 AI 시스템을 만들 수 없다는 것을 발견했다.

 

이 중 어느 것도 합성 데이터를 사용해서는 안된다는 의미이다. 사실 그것은 필수품이 될 수 있다. 규제 기관이 법규 준수를 위해 AI 시스템을 테스트해야 할 필요성에 직면함에 따라 이것이 온 디맨드 표적 테스트 데이터를 생성하는 데 필요한 유연성을 제공하는 유일한 접근 방식일 수 있다고 O'Neil은 말한다. 그러나 그것은 그 한계에 대한 질문을 지금 연구하고 대답하는 데 더욱 중요하게 만든다.

 

"합성 데이터는 시간이 지남에 따라 개선될 가능성이 있지만 우연이 아니다."라고 그녀는 말한다.

 

 
인공지능, AI, 합성 데이터 관련기사목록
광고
광고
광고
광고
광고
광고
많이 본 기사
AI바이오제약 수명연장 많이 본 기사