광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[생각을 텍스트로 전환하는 속도 기록을 깨는 AI 기반 뇌 임플란트] 스탠포드 대학교의 연구팀은 마비, 질병 또는 기타 부상으로 인해 말하는 능력을 상실한 사람들의 말하는 속도 격차를 좁히고 있다. AI 기반 뇌 임플란트는 중증 마비, 뇌졸중 등이 있는 사람들이 자신의 생각만으로 사랑하는 사람과 부담 없이 대화할 수 있는 길을 열어준다.

https://singularityhub.com/2023/01/31/ai-powered-brain-implant-smashes-speed-record-for-turning-thoughts-into-text/

JM Kim | 기사입력 2023/02/02 [00:00]

[생각을 텍스트로 전환하는 속도 기록을 깨는 AI 기반 뇌 임플란트] 스탠포드 대학교의 연구팀은 마비, 질병 또는 기타 부상으로 인해 말하는 능력을 상실한 사람들의 말하는 속도 격차를 좁히고 있다. AI 기반 뇌 임플란트는 중증 마비, 뇌졸중 등이 있는 사람들이 자신의 생각만으로 사랑하는 사람과 부담 없이 대화할 수 있는 길을 열어준다.

https://singularityhub.com/2023/01/31/ai-powered-brain-implant-smashes-speed-record-for-turning-thoughts-into-text/

JM Kim | 입력 : 2023/02/02 [00:00]

우리는 분당 약 160단어의 속도로 말한다. 그 속도는 음성 뇌 임플란트로는 달성하기가 엄청나게 어렵다.

 

수십 년 동안 만들어진 언어 임플란트는 생각을 텍스트나 소리로 변환하는 것을 목표로 신경 활동을 측정하기 위해 뇌에 삽입된 작은 전극 어레이를 사용한다. 마비, 질병 또는 기타 부상으로 인해 말하는 능력을 상실한 사람들에게 매우 중요하다. 그러나 그들은 또한 엄청나게 느리고 분당 단어 수를 거의 10배로 줄인다. 느리게 로드되는 웹 페이지나 오디오 파일처럼 지연은 일상적인 대화에 방해가 될 수 있다.

 

스탠포드 대학교의 Krishna Shenoy Jaimie Henderson 박사가 이끄는 팀은 그 속도 격차를 좁히고 있다.

 

인쇄 전 서버인 bioRxiv에 게시된 그들의 연구는 67세 여성이 기록적인 속도로 뇌 임플란트를 사용하여 외부 세계와 의사 소통하는 능력을 회복하도록 도왔다. "T12"로 알려진 이 여성은 근위축성 측삭 경화증(ALS) 또는 신체의 근육을 제어하는 뇌의 능력을 점진적으로 강탈하는 루게릭병으로 점차 말을 잃었다. T12는 말하려고 할 때 여전히 소리를 발성할 수 있었지만 단어는 이해할 수 없게 나왔다.

 

그녀의 임플란트를 통해 T12의 말하기 시도는 이제 실시간으로 화면의 텍스트로 해독되고 컴퓨터 음성으로 큰 소리로 말한다. 이전 기록의 3배가 넘는 속도인 분당 62개의 단어가 빠르고 격렬하게 나왔다.

 

속도만 필요한 것이 아니다. 이 연구는 또한 해당 규모의 첫 번째 시연에서 약 125,000개의 단어로 임플란트를 사용하여 음성 디코딩에 사용되는 가장 큰 어휘 라이브러리를 활용했다.

 

전문가에 따르면 "큰 돌파구"였고 "인상적인 새로운 성능 벤치마크"에 도달했지만, 이 연구는 아직 동료 검토를 거치지 않았으며 결과는 한 명의 참가자로 제한된다.

 

, 기본 기술은 ALS에만 국한되지 않는다. 음성 인식의 향상은 이전에 신경 신호를 디코딩하는 데 효과적이었던 머신러닝 알고리즘인 반복 신경망인 RNN과 언어 모델 간의 결합에서 비롯된다. 추가 테스트를 통해 이 설정은 중증 마비, 뇌졸중 또는 감금 증후군이 있는 사람들이 자신의 생각만으로 사랑하는 사람과 부담 없이 대화할 수 있는 길을 열어줄 수 있다.

 

우리는 "자연스러운 대화의 속도에 접근"하기 시작했다고 저자는 말했다.

 

단어 손실

 

팀은 사람들에게 연설 능력을 되돌려주는 데 익숙하다.

 

뇌 임플란트를 사용하여 통신을 복원하기 위한 선구적인 글로벌 협업인 BrainGate의 일환으로 팀은 뇌의 신경 신호를 사용하여 통신을 복원하는 기능을 구상하고 실현했다.

 

2021년에 그들은 척수 손상 및 마비 유형이 있는 사람의 마음을 돕는 뇌-컴퓨터 인터페이스(BCI)를 설계했다. 환자 뇌의 운동 영역에 96개의 미세 전극 배열을 삽입하여 팀은 각 문자를 쓰는 동작을 상상하면서 다른 문자에 대한 뇌 신호를 해독할 수 있었고 94% 이상의 정확도로 일종의 "마인드 텍스팅"을 달성했다.

 

문제는? 속도는 기껏해야 분당 약 90자였다. 이전 설정에서 크게 개선되었지만 일상적인 사용에는 여전히 고통스러울 정도로 느렸다.

 

그렇다면 왜 뇌의 언어 센터를 직접 활용하지 않겠는가?

 

언어에 관계없이 음성 해독은 악몽이다. 혀와 주변 근육의 작고 종종 잠재 의식적인 움직임은 음소라고도 하는 매우 다른 소리 무리를 유발할 수 있다. 안면 근육의 모든 단일 경련 또는 혀의 깜박임의 뇌 활동을 소리에 연결하려는 것은 엄청난 작업이다.

 

해킹 연설

 

BrainGate2 신경 인터페이스 시스템 시험의 일부인 새로운 연구는 영리한 해결 방법을 사용했다.

 

팀은 먼저 전략적으로 배치된 4개의 전극 마이크로어레이를 T12 뇌의 바깥층에 배치했다. 입 주변 안면 근육 주변의 움직임을 제어하는 영역에 2개를 삽입했다. 다른 두 개는 브로카 영역이라고 하는 뇌의 "언어 센터"에 직접 접근했다.

 

이론적으로 배치는 천재적인 투인원이었다. 사람이 말하고 싶은 것과 근육 움직임을 통한 실제 연설 실행을 모두 포착했다.

 

그러나 그것은 또한 위험한 제안이기도 했다. 우리는 말이 입과 얼굴 주변의 근육을 제어하는 뇌의 작은 영역으로 제한되는지, 아니면 언어가 뇌 내부에서 보다 광범위한 규모로 암호화되는지 아직 알지 못한다.

 

RNN을 입력한다. 딥 러닝의 한 유형인 이 알고리즘은 이전에 뇌의 운동 영역에서 나오는 신경 신호를 텍스트로 번역했다. 첫 번째 테스트에서 팀은 92% 이상의 정확도로 신경 신호만을 기반으로 눈썹을 찌푸리거나 입술을 오므리거나 혀를 튕기는 등 다양한 유형의 얼굴 움직임을 쉽게 구분할 수 있음을 발견했다.

 

그런 다음 RNN "huh", "ah" "tze"와 같은 음소를 실시간으로 제안하도록 학습되었다. 현상은 한 단어를 다른 단어와 구별하는 데 도움이 된다. 본질적으로 그들은 연설의 기본 요소이다.

 

훈련은 효과가 있었다. 매일 T12는 자신의 속도로 260~480개의 문장을 말하려고 시도하여 자신의 언어 패턴에 기초한 특정 신경 활동을 알고리즘에 가르쳤다. 전반적으로 RNN은 거의 11,000개의 문장에 대해 훈련되었다.

 

그녀의 마음에 대한 디코더를 가지고 팀은 RNN 인터페이스를 두 가지 언어 모델과 연결했다. 하나는 125,000 단어로 특히 많은 어휘를 가졌다. 다른 하나는 일상 생활에서 간단한 문장에 사용되는 50개의 단어가 있는 작은 도서관이었다.

 

5일 간의 말하기 시도 후 두 언어 모델 모두 T12의 단어를 해독할 수 있었다. 시스템에 오류가 있었다. 작은 도서관의 경우 약 10%, 큰 도서관의 경우 거의 24%였다. 그러나 화면에서 문장 프롬프트를 반복하라는 요청을 받았을 때 시스템은 그녀의 신경 활동을 이전 모델보다 3배 빠르게 문장으로 번역했다.

 

임플란트는 그녀가 말을 하려고 하든 그냥 입으로 조용히 문장을 입으로 하든 관계없이 작동했다(그녀는 에너지가 적게 들기 때문에 후자를 선호했다).

 

연구팀은 T12의 신경 신호를 분석한 결과 뇌의 특정 영역이 모음 및 기타 음소를 인코딩하기 위해 신경 신호 패턴을 유지한다는 사실을 발견했다. , 수년간 언어 마비가 있은 후에도 뇌는 뇌 임플란트를 사용하여 해독할 수 있는 신경 신호 내부에 내장된 음소 사전인 "상세한 조음 코드"를 여전히 유지한다.

 

당신의 마음을 말하라.

 

이 연구는 종종 심각한 부상이나 신경퇴행성 장애로 인한 천천히 퍼지는 마비 후 수십 년 동안 언어를 복원하기 위해 뇌 임플란트를 사용하는 다른 많은 연구를 기반으로 한다. 하드웨어는 잘 알려져 있다. 블랙록(Blackrock) 마이크로 전극 어레이는 뇌의 전기 신호를 듣기 위한 64개 채널로 구성되어 있다.

 

다른 점은 작동 방식이다. , 소프트웨어가 시끄러운 신경 채터를 응집력 있는 의미 또는 의도로 변환하는 방법이다. 이전 모델은 대부분 뇌의 신경 기록에서 직접 얻은 데이터를 디코딩하는 데 의존했다.

 

여기에서 팀은 새로운 리소스인 언어 모델 또는 현재 Gmail 또는 문자 메시지에 널리 사용되는 자동 완성 기능과 유사한 AI 알고리즘을 활용했다. 기술 태그 팀은 GPT-3 및 기타 신흥 대형 언어 모델의 부상으로 특히 유망하다. 간단한 프롬프트에서 음성 패턴을 생성하는 데 탁월한 이 기술은 환자 자신의 신경 신호와 결합될 때 몇 시간의 교육 없이도 잠재적으로 생각을 "자동 완성"할 수 있다.

 

잠재 고객은 매혹적이지만 신중한 측면이 있다. GPT-3 및 유사한 AI 모델은 이전 교육 데이터를 기반으로 자체적으로 설득력 있는 음성을 생성할 수 있다. 말을 할 수 없는 마비 환자의 경우 AI가 말하려는 내용을 생성하므로 보호 난간이 필요하다.

 

저자들은 현재 그들의 작업이 개념 증명이라는 데 동의한다. 유망하지만 음성 해독을 위한 "아직 완전하고 임상적으로 실행 가능한 시스템"은 아니다. 우선, 우리는 더 적은 시간으로 디코더를 훈련시키고 더 유연하게 만들어 끊임없이 변화하는 뇌 활동에 적응할 수 있도록 해야 한다고 말했다. 또 다른 이유는 약 24%의 오류율이 일상적인 사용에는 너무 높지만 임플란트 채널 수를 늘리면 정확도가 높아질 수 있다.

 

그러나 지금은 "더 이상 말을 할 수 없는 마비 환자에게 신속한 의사 소통을 복원"하는 궁극적인 목표에 더 가까이 다가가게 된다고 저자는 말했다.

 

이미지 출처: Miguel Á. Pixabay/Padriñán

 

 
인공지능, 뇌 임플란트, 신경 인터페이스 시스템 관련기사목록
광고
광고
광고
광고
광고
광고
광고
많이 본 기사