시작페이지로　l　즐겨찾기　l　RSS　l　편집 2024.04.25 [20:53]

세상을 바꾸자
AI바이오제약 수명연장
자율차,드론, 교통, 에너지,기후
유투브
신기술&메타버스AR/VR
AiMindbot과 미래 우주
챗GPT와 AI, 로봇
라이프,거버넌스, 조직, 유망직종

AI바이오제약 수명연장

[인공지능-합성데이터] 이 오싹한 가짜 인간은 AI의 새로운 시대를 예고 한다. 딥 러닝을 위해 더 많은 데이터가 필요한가? 합성 데이터 회사가 그 데이터를 만들어준다. 실제 사람은 아니지만 가짜 인간을 판매하는 회사인 Datagen에서 만든 수십만 명의 다른 사람을 사람처럼 흉내내고 있다.

https://www.technologyreview.com/2021/06/11/1026135/ai-synthetic-data/

JM Kim | 기사입력 2021/06/25 [00:00]

AI바이오제약 수명연장

[인공지능-합성데이터] 이 오싹한 가짜 인간은 AI의 새로운 시대를 예고 한다. 딥 러닝을 위해 더 많은 데이터가 필요한가? 합성 데이터 회사가 그 데이터를 만들어준다. 실제 사람은 아니지만 가짜 인간을 판매하는 회사인 Datagen에서 만든 수십만 명의 다른 사람을 사람처럼 흉내내고 있다.

https://www.technologyreview.com/2021/06/11/1026135/ai-synthetic-data/

JM Kim

| 입력 : 2021/06/25 [00:00]

그의 윗입술, 이마의 주름, 피부의 흠집에 희미한 수염이 들어오는 것을 볼 수 있다. 그는 실제 사람은 아니지만 가짜 인간을 판매하는 회사인 Datagen에서 만든 수십만 명의 다른 사람을 사람처럼 흉내 내려고 한다.

이 인간들은 게임용 아바타나 영화용 애니메이션 캐릭터가 아니다. 이들은 딥 러닝 알고리즘의 증가하는 욕구를 충족시키기 위해 설계된 합성 데이터이다. Datagen과 같은 회사는 비용과 시간이 많이 소요되는 실제 데이터 수집 프로세스에 대한 강력한 대안을 제공한다.

그들은 당신을 위해 그것을 만들 것이다: 당신이 그것을 원하는 방식으로, 당신이 원할 때 그리고 상대적으로 싸게 말이다.

합성 인간을 생성하기 위해 Datagen은 먼저 실제 인간을 스캔한다. 홍채부터 피부 질감, 손가락 곡률에 이르기까지 모든 세부 사항을 캡처하는 거대한 전신 스캐너에 들어가도록 사람들에게 비용을 지불하는 공급 업체와 협력한다. 그런 다음 스타트 업은 원시 데이터를 가져와서 사람의 몸, 얼굴, 눈, 손의 3D 표현을 개발하는 일련의 알고리즘을 통해 펌핑한다.

이스라엘에 본사를 둔 이 회사는 이미 미국의 주요 기술 대기업 4개와 협력하고 있지만 어떤 기술이 기록에 있는지는 밝히지 않을 것이라고 밝혔다. 가장 가까운 경쟁자인 Synthesis AI는 주문형 디지털 휴먼도 제공한다. 다른 회사는 금융, 보험 및 건강 관리에 사용할 데이터를 생성한다. 데이터 유형만큼 많은 합성 데이터 회사가 있다.

한때 실제 데이터보다 덜 바람직하다고 여겨지던 합성 데이터는 이제 일부 사람들에게 만병 통치약으로 간주된다. 실제 데이터는 지저분하고 편견으로 가득 차 있다. 새로운 데이터 개인 정보 보호 규정은 수집을 어렵게 만든다. 대조적으로 합성 데이터는 원시 상태이며 더 다양한 데이터 세트를 구축하는 데 사용할 수 있다. 다양한 연령, 모양 및 민족의 완벽하게 레이블이 지정된 얼굴을 생성하여 인구 전반에 걸쳐 작동하는 얼굴 감지 시스템을 구축할 수 있다.

그러나 합성 데이터에는 한계가 있다. 현실을 반영하지 못하면 지저분하고 편향된 실제 데이터보다 더 나쁜 AI를 생성하거나 단순히 동일한 문제를 상속할 수 있다. 데이터 과학자이자 알고리즘 감사 회사인 ORCAA의 설립자인 Cathy O'Neil은 "내가 하고 싶지 않은 것은 이 패러다임에 엄지 손가락을 내밀고 '오, 이렇게 하면 많은 문제가 해결될 것이다.'고 말하는 것이다. "왜냐하면 그것은 또한 많은 것을 무시할 것이기 때문이다."

현실이 아닌 현실

딥 러닝은 항상 데이터에 관한 것이었다. 그러나 지난 몇 년 동안 AI 커뮤니티는 좋은 데이터가 빅 데이터보다 더 중요하다는 것을 알게 되었다. 적절하고 깔끔하게 레이블이 지정된 소량의 데이터라도 선별되지 않은 데이터 양의 10배나 고급 알고리즘보다 AI 시스템의 성능을 개선하는 데 더 많은 일을 할 수 있다.

Datagen의 CEO 겸 공동 설립자인 Ofir Chakon은 이로 인해 기업이 AI 모델 개발에 접근하는 방식이 바뀐다. 오늘날 그들은 가능한 한 많은 데이터를 수집한 다음 더 나은 성능을 위해 알고리즘을 조정하고 조정한다. 대신 데이터 구성을 개선하면서 동일한 알고리즘을 사용해야한다.

Datagen은 또한 가짜 가구와 실내 환경을 생성하여 가짜 인간을 상황에 맞춘다. 이미지 출처: DATAGEN

그러나 이러한 종류의 반복적인 실험을 수행하기 위해 실제 데이터를 수집하는 것은 너무 많은 비용과 시간이 소요된다. 여기에서 Datagen이 등장한다. 합성 데이터 생성기를 사용하면 팀은 하루에 수십 개의 새로운 데이터 세트를 만들고 테스트하여 어떤 것이 모델의 성능을 극대화하는지 식별할 수 있다.

데이터의 사실성을 보장하기 위해 Datagen은 공급 업체에 각 연령대, BMI 범위 및 민족성에서 스캔 할 개인 수에 대한 자세한 지침을 제공하고 방을 돌아다니거나 탄산 음료 마시기, 걸어 다니는 것과 같이 수행할 일련의 작업 목록을 제공한다. 공급 업체는 이러한 작업의 고화질 정적 이미지와 모션 캡처 데이터를 모두 반환한다. 그런 다음 Datagen의 알고리즘은 이 데이터를 수십만 개의 조합으로 확장한다. 합성된 데이터는 때때로 다시 확인된다. 예를 들어 가짜 얼굴은 실제 얼굴에 대해 플롯되어 실제처럼 보이는지 확인한다.

Datagen은 이제 스마트 자동차의 운전자 경보를 모니터링하는 얼굴 표정, 계산원이 없는 매장에서 고객을 추적하기위한 신체 동작, VR 헤드셋의 눈 및 손 추적 기능을 개선하기 위해 홍채와 손 동작을 생성한다. 이 회사는 자사의 데이터가 이미 수천만 명의 사용자에게 서비스를 제공하는 컴퓨터 비전 시스템을 개발하는 데 사용되었다고 말한다.

대량 생산되는 것은 합성 인간 만이 아니다. Click-Ins는 합성 AI를 사용하여 자동 차량 검사를 수행하는 스타트 업이다. 디자인 소프트웨어를 사용하여 AI가 인식해야 하는 모든 자동차 제조업체와 모델을 재현한 다음 다른 배경에 대해 다른 조명 조건에서 다른 색상, 손상 및 변형으로 렌더링한다. 이를 통해 회사는 자동차 제조업체가 새 모델을 출시할 때 AI를 업데이트 할 수 있으며, 번호판이 개인 정보로 간주되어 AI 교육에 사용되는 사진에 표시될 수 없는 국가에서 데이터 개인 정보 침해를 방지할 수 있다.

Mostly.ai는 금융, 통신 및 보험 회사와 협력하여 회사가 합법적으로 준수하는 방식으로 외부 공급업체와 고객 데이터베이스를 공유할 수 있도록 가짜 클라이언트 데이터의 스프레드 시트를 제공한다. 익명화는 데이터 세트의 풍부함을 감소시킬 수 있지만 여전히 사람들의 개인 정보를 적절하게 보호하지 못한다. 그러나 합성 데이터를 사용하여 회사의 실제 데이터와 동일한 통계 속성을 공유하는 상세한 가짜 데이터 세트를 생성할 수 있다. 또한 더 다양한 고객 집단이나 사기 행위와 같은 시나리오를 포함하여 회사에 아직 없는 데이터를 시뮬레이션하는 데 사용할 수도 있다.

Click-Ins은 다양한 배경에 대해 서로 다른 제조사와 모델의 자동차를 렌더링한다. 이미지 출처: Click-Ins

합성 데이터 지지자들은 AI 평가에도 도움이 될 수 있다고 말한다. AI 컨퍼런스에서 발표된 최근 논문에서 Johns Hopkins University의 기계 학습 및 건강 관리 부교수 Suchi Saria와 그녀의 공동 저자는 데이터 생성 기술을 사용하여 단일 데이터 세트에서 다른 환자 집단을 추정하는 방법을 시연했다. 예를 들어 한 회사에서 뉴욕시의 젊은 인구에 대한 데이터만 가지고 있지만 당뇨병 유병률이 높은 고령 인구에서 AI의 성능을 이해하려는 경우 유용할 수 있다. 그녀는 이제 이 기술을 사용하여 의료 AI 시스템을 테스트하는 자신의 회사인 Bayesian Health를 시작하고 있다.

속임수의 한계

그러나 합성 데이터가 과장되어 있지 않을까?

개인 정보 보호와 관련하여 "데이터가 '합성'하고 실제 사용자 데이터와 직접적으로 일치하지 않는다고 해서 실제 사람에 대한 민감한 정보를 인코딩하지 않는다는 의미는 아니다."라고 컴퓨터 및 정보 과학 교수인 Aaron Roth는 말한다. 펜실베니아 대학교에서. 예를 들어 일부 데이터 생성 기술은 훈련 데이터에서 발견된 이미지나 텍스트를 밀접하게 재현하는 것으로 나타났지만 다른 기술은 해당 데이터를 완전히 역류시키는 공격에 취약하다.

합성 데이터가 스캔에 동의 한 개인의 신원을 감추기 위한 것이 아닌 Datagen과 같은 회사에게는 괜찮을 수 있다. 그러나 민감한 재무 정보 또는 환자 정보를 보호하는 방법으로 솔루션을 제공하는 기업에게는 나쁜 소식이 될 것이다.

연구에 따르면 특히 두 가지 합성 데이터 기술 (차등 개인 정보 보호 및 생성 적대 네트워크)의 조합이 가장 강력한 개인 정보 보호를 생성할 수 있다고 워싱턴 대학 eScience Institute의 데이터 과학자인 Bernease Herman은 말한다. 그러나 회의론자들은 합성 데이터 공급 업체의 마케팅 용어에서 이러한 뉘앙스가 사라질 수 있다고 우려한다. 이러한 미묘한 차이는 그들이 사용하는 기술에 대해 항상 밝히지는 않을 것이다.

한편, 합성 데이터가 AI 시스템의 편향을 효과적으로 완화할 수 있다는 증거는 거의 없다. 우선, 치우친 기존 데이터 세트에서 새 데이터를 외삽한다고 해서 반드시 더 대표적인 데이터가 생성되는 것은 아니다. 예를 들어 Datagen의 원시 데이터에는 소수 민족이 비례적으로 더 적다. 즉, 해당 그룹에서 가짜 인간을 생성하는 데 실제 데이터 포인트를 더 적게 사용한다. 생성 과정이 완전히 추측은 아니지만 가짜 인간은 여전히 현실에서 벗어날 가능성이 더 높다. "어두운 피부색의 얼굴이 얼굴의 근사치가 특히 좋지 않다면 실제로 문제를 해결하지 못한 것이다."라고 O’Neil은 말한다.

또 다른 이유는 완벽하게 균형 잡힌 데이터 세트가 완벽하게 공정한 AI 시스템으로 자동 변환되지 않는다고 Northeastern University의 컴퓨터 과학 부교수인 Christo Wilson은 말한다. 신용 카드 대출 기관이 잠재적인 차용인을 평가하기위한 AI 알고리즘을 개발하려고 한다면 데이터에서 흑인과 백인을 단순히 표현하는 것만으로 가능한 모든 차별을 제거하지는 않을 것이다. 백인 지원자와 흑인 지원자 간의 차이로 인해 차별이 여전히 발생할 수 있다.

문제를 더욱 복잡하게 만들기 위해 초기 연구에 따르면 경우에 따라 합성 데이터로 개인 및 공정 AI를 모두 달성하는 것이 불가능할 수도 다. AI 컨퍼런스에서 발표된 최근 논문에서 토론토 대학교와 벡터 연구소의 연구원들은 흉부 X-레이로 그렇게 하려고 했다. 그들은 차별적 프라이버시와 생성적 적대 네트워크의 조합을 통해 다양한 합성 데이터 세트를 만들려고 시도했을 때 정확한 의료 AI 시스템을 만들 수 없다는 것을 발견했다.

이 중 어느 것도 합성 데이터를 사용해서는 안된다는 의미이다. 사실 그것은 필수품이 될 수 있다. 규제 기관이 법규 준수를 위해 AI 시스템을 테스트해야 할 필요성에 직면함에 따라 이것이 온 디맨드 표적 테스트 데이터를 생성하는 데 필요한 유연성을 제공하는 유일한 접근 방식일 수 있다고 O'Neil은 말한다. 그러나 그것은 그 한계에 대한 질문을 지금 연구하고 대답하는 데 더욱 중요하게 만든다.

"합성 데이터는 시간이 지남에 따라 개선될 가능성이 있지만 우연이 아니다."라고 그녀는 말한다.

JM Kim의 다른기사보기

인공지능, AI, 합성 데이터 관련기사목록

[세계미래보고서]시리즈, 판매제품

신간소개 [세계미래보고서2024-2034] 이르면 10년 안에 등장할 인공일반지능 신기술이 가져올 유토피아와 디스토피아를 미리 살펴보자!

많이 본 기사

[소멸직종 15] 소멸직종 15가지 2030년 여행사와 직원, 캐시어 점원, 패스트푸드 요리사, 우체부, 은행원, 섬유 노동자, 인쇄소, 보석상, 배달원, 텔레마케터, 어민, 법무비서관, 조립제작사,

S[중국 도시 토지의 45%가 인공 개발로 인해 급속히 가라앉고 있다] 중국의 가장 인구 밀도가 높은 지역들이 해수면 상승과 급격한 토지 침하라는 이중의 위협에 직면해 있다. 과학자들은 현재의 추세가 지속된다면, 2120년까지 침수되는 도시 지역이 세 배로 늘어나 최대 1억 2,800만 명의 인구가 영향을 받을 수 있다고 경고

[AI가 교육을 어떻게 바꾸나?] AI 기술을 활용하여 언제 어디서나 학습이 가능한 환경을 조성하고 있다. 이는 특히 지리적 또는 경제적 제약을 받는 학습자들에게 큰 도움이 될 것이며, 평생 학습의 촉진에도 긍정적인 영향

[4월 18일 AI뉴스] AI 여자친구의 부상, 비디오의 생성적 채우기, Google의 로봇 공학 혁신. 프롬프트만으로 AI 노래를 무료로 생성. AI로 파킨슨병 치료 가속화. 스탠포드 대학의 502페이지 AI 보고서.

[OPEN AI에 필적할 멀티모달 AI 모델] 일론 머스크의 AI 벤처인 xAI가 오픈AI와의 경쟁 무대에 진입하면서 최초의 멀티모달 선보임. 문서, 차트, 다이어그램, 스크린샷 및 사진을 포함한 다양한 시각적 형식을 이해할 수 있는 기능을 자랑

유투브 책[2023년에 얼마나 많은 사람들이 YouTube를 사용하나 각종 통계들] 2006년 20억으로 구글이 사들인 유투브는 2005년 2월 14일에 설립, 첫비디오는 4월 23일에 게시, 지금은 20억명이 넘는 사용자보유, 인터넷사용자 43%가 매일 유투브를 본다.

[AI 전투기 조종사와 인간 조종사의 세기의 대결] 처음으로 AI 전투기 조종사가 공중에서 실제 제트기를 이용한 공중전에서 인간 조종사와 대결했다. 이는 자율 비행 및 군사 자동화 분야에서 큰 이정표를 세웠다.

[인공지능, 에너지 괴물로 변할 위험?] 인공지능의 높은 에너지 소비: 지속 가능성에 대한 새로운 우려 Arm의 CEO가 인공지능(AI)의 과도한 에너지 소비가 지속 가능하지 않다고 경고하면서, 인공지능 기술의 환경적 영향에 대한 우려가 새롭게 부각되고 있다.

[기후위기로 2050년 세계 GDP가 거의 5분의 1 로 감소할 것] 2050년 세계 GDP를 약 38조 달러, 거의 5분의 1로 축소할 것이라고. 온실가스 배출량을 가능한 한 빨리 줄이는 것은 세기 중반 이후 훨씬 더 파괴적인 경제적 영향을 피하는 데 중요

[획기적인 메타물질을 개척] 식물의 놀라운 회복력에서 영감을 얻은 호주 과학자들은 레이저와 금속 분말을 활용하여 전례 없는 중량 대비 강도 비율을 달성하는 획기적인 메타물질

AI바이오제약 수명연장 많이 본 기사

[노화역전, 주사 한방에 젊어진다.] 스탠포드 과학자들은 나이든 쥐에게 더 젊게 작용하는 면역체계를 제공하는 일회성 항체 치료법을 개발했으며, 이것이 사람에게도 효과가 있을 것으로 생각하고 있다. 이 하나의 항체가 노인들이 건강을 유지하는 열쇠가 될 수 있다.

[RF(저전력 무선주파수) AI 기반 인간 활동 모니터링의 발전] 인공 지능(AI)에 의해 추진되는 머신 비전은 이미지를 해석하는 능력에 혁명을 일으켜 자율 주행에서 의료 진단에 이르기까지 다양한 작업을 용이하게

[유전자 길이의 역할 해명] 노스웨스턴 메디슨(Northwestern Medicine)의 과학자들은 노화의 근본적인 메커니즘을 밝히는 획기적인 발견. 유전학 동향(Trends in Genetics)에 발표된 그들의 연구는 유전자 길이가 노화 과정의 중추적인 요인임을 확인

[인공 염색체는 더 많은 DNA 화물을 세포로 운반할 수 있다.] 펜실베니아 대학의 새로운 연구에서는 25년 동안의 제조법을 변경하고 차세대 인공 염색체를 구축했다. 이전 염색체에 비해 새로운 염색체는 조작하기가 더 쉽고 세포 내부에서 한 번도 뭉치지 않는 더 긴 DNA 세그먼트를 사용한다. 그들은 또한 이론적으로 대략 가장 큰 효모 염색체 크기의 유전 물질을 인간 세포로 운반할 수 있는 큰 운반체이기도 하다.

Nvidia의 새로운 AI 간호사는 시간당 9달러로 환자를 치료합니다. 대장내시경 검사부터 고독한 동반자 생활까지 그들이 할 수 있는 일은 다음과 같

최신기사

신간소개 [세계미래보고서2024-2034] 이르면 10년 안에 등장할 인공일반지능 신기술이 가져올 유토피아와 디스토피아를 미리 살펴보자!

마인드봇[AI 및 딥테크 솔루션을 위한 10억 달러 이상의 자금을 조달] AI, Web3, 로보틱스, 공간 컴퓨팅 및 양자 기술 포트폴리오 회사에 투자할 파트너십 조건 및 블록버스터 자금 조달에 대한 세부 정보가 최근 파나마에서 열린 유익한 AGI 서밋에서 신속하게 처리

유투브[배우의 소멸? 할리우드, 배우들의 AI 복제 시작] CAA와 AI: 헐리우드의 미래와 배우의 디지털 복제. 배우의 AI 복제본 제작 파트너십 체결: 헐리우드 미래를 바꿀까?

유투브[AI가 일본의 인구 문제를 해결할 수 있을까? ] 일본의 노동력 위기 대응: AI 도입으로 미래를 준비하다. 정부의 AI 활용 확대.

[저항성 전분: 암에 대항하는 유망한 무기] 흔히 발견되는 저항성 전분의 놀라운 잠재력이 다양한 암의 위험을 크게 줄일 수 있다는 획기적인 실험

회원약관 ㅣ 개인정보취급방침 ㅣ 회사소개 ㅣ 청소년보호정책 ㅣ 직원게시판 ㅣ 기사제보 ㅣ 보도자료 ㅣ 기사검색

AI넷ㅣ 주소 : 우)02821 서울특별시 성북구 북악산로 1길 31 ㅣ 전화 : 02-313-6300 ㅣ 팩스 : 02-908-9494
등록번호 : 서울, 아02236ㅣ 등록일 : 2009.11. 19. ㅣ E-mail : unfutures@gmail.com, futures2055@gmail.com
회사명 : AI넷 ㅣ 발행/편집인 : 박영숙ㅣ 발행일: 2020.09.05｜청소년보호책임자 : 박영숙
사업자등록번호 : 209-15-39241 (사)유엔미래포럼 www.unfuture.org
Copyright ⓒ 2020 AI넷. All rights reserved. (This is a non-profit organization/a free newspaper.)