광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

인공지능의 자연언어처리 알고리즘 Natural-language processing (NLP) algorithms이 이제 코로나 변형을 잡아낼 수 있다. 단어와 문장용으로 설계된 NLP 알고리즘은 바이러스의 유전적 변화를 해석하는데도 사용

박민제 | 기사입력 2021/01/17 [09:52]

인공지능의 자연언어처리 알고리즘 Natural-language processing (NLP) algorithms이 이제 코로나 변형을 잡아낼 수 있다. 단어와 문장용으로 설계된 NLP 알고리즘은 바이러스의 유전적 변화를 해석하는데도 사용

박민제 | 입력 : 2021/01/17 [09:52]

 

갈릴레오는 자연은 수학으로 쓰여져있다고 보았다. 생물학은 단어들에 쓰여져 있을지도 모른다.  단어와 문장용으로 설계된 NLP 알고리즘은 바이러스의 유전적 변화를 해석하는데도 사용할 수 있으므로 새로운 변종을 발견하기위한 실험실 작업의 속도를 높일 수 있다.

  © 운영자



 

자연어처리 (NLP) 알고리즘은 이제 단백질 서열을 생성하고 코로나 바이러스가 면역체계를 회피 하는 데 도움이되는 주요 변경사항을 포함하여 바이러스 돌연변이를 예측할 수 있다. 이를 가능하게하는 핵심 통찰력은 생물학적 시스템의 많은 속성이 단어와 문장으로 해석 될 수 있다는 것이다. “우리는 진화의 언어를 배우고 있다.”라고 Massachusetts Institute of Technology의 컴퓨터 생물학자인 Bonnie Berger는 말한다.

 

지난 몇 년 동안 유전학자인 George Church의 연구실과 Salesforce 팀을 포함한 소수의 연구자들은 NLP기술을 사용하여 단백질 서열과 유전코드를 모델링 할 수 있음을 보여주었다. 관련 이야기는 최신 코로나 바이러스 돌연변이에 대해 연구하고 있다. 코로나19를 유발하는 병원체는 계속 진화 할 것이다. 그러나 선도적인 백신기술은 특히 이를 따라 잡는 데 능숙해야한다.

 

2021. 1. 14. Science에 발표된 한 연구에서 Berger와 그녀의 동료는 이러한 가닥 중 몇 개를 결합하고 NLP를 사용하여 바이러스가 인간 면역체계에서 항체에 의해 검출되는 것을 방지하는 돌연변이를 예측한다. 기본적인 아이디어는 면역체계에의한 바이러스 해석이 인간의 문장 해석과 유사하다는 것이다. NLP를 사용하여 단백질 서열을 예측하는 Salesforce의 과학자인 Ali Madani는“이전 작업의 추진력을 구축하는 깔끔한 논문이다."

 

Berger의 팀은 문법과 의미 (또는 의미)라는 두 가지 언어 개념을 사용한다. 바이러스의 유전 적 또는 진화적 적합성 (숙주 감염 능력과 같은 특성)은 문법적 정확성 측면에서 해석 될 수 있다. 성공적이고 감염성있는 바이러스는 문법적으로 정확하다. 실패한 것은 아니다. 유사하게 바이러스의 돌연변이는 의미론으로 해석 될 수 있다. 바이러스를 특정 항체에 보이지 않게 만드는 표면 단백질의 변화와 같이 바이러스를 환경의 사물과 다르게 만드는 돌연변이는 그 의미를 변경시켰다.

 

다른 돌연변이를 가진 바이러스는 다른 의미를 가질 수 있으며 다른 의미를 가진 바이러스는 그것을 읽기 위해 다른 항체가 필요할 수 있다. 이러한 속성을 모델링하기 위해 연구진은 GPT-3과 같은 대형 언어모델에서 사용하는 변환기 기반의 신경망 유형보다 앞서는 신경망 유형 인 LSTM을 사용했다. 이러한 오래된 네트워크는 트랜스포머보다 훨씬 적은 데이터로 훈련 될 수 있으며 여전히 많은 애플리케이션에서 잘 작동한다.

 

바이러스 읽기 수백만 개의 문장 대신에 그들은 세 가지 다른 바이러스에서 추출한 수천개의 유전자 서열에 대해 NLP 모델을 훈련시켰다. 코로나19를 일으키는 바이러스를 모델로 만든 MIT 대학원생 Brian Hie는 “감시가 적어 졌기 때문에 코로나바이러스에 대한 데이터가 적다. NLP모델은 유사한 의미를 가진 단어가 다른 의미를 가진 단어보다 더 가깝게 수학적 공간에서 단어를 인코딩하여 작동한다.

 

단어 인코딩을 임베딩이라고한다. 바이러스의 경우 유전자 서열의 삽입은 돌연변이가 얼마나 유사한 지에 따라 바이러스를 그룹화했다. 이 접근 방식의 전반적인 목표는 바이러스를 덜 감염시키지 않으면 서 면역 체계에서 벗어날 수있는 돌연변이, 즉 문법적으로 부정확하지 않으면 서 바이러스의 의미를 변경하는 돌연변이를 식별하는 것이다.

 

언어의 예를 들어보자. "포도주 재배자들이 좋은 계절에 즐거워한다"라는 문장에서 한 단어 만 바꾸면 "포도주 재배자들이 성수기에 즐거워한다"또는 "와인 재배자들이 독감 시즌에 즐거워한다"라는 문장이 나올 수 있다. 둘 다 동일한 문법구조를 공유하지만 하나는 다른 것보다 의미를 더 많이 변경했다. 이 도구는 바이러스에서 유사한 변경사항을 찾아 그 의미를 가장 많이 변경하는 항목을 표시한다.

 

그들의 접근 방식을 테스트하기 위해 팀은 0.5와 1 사이의 척도로 정확도를 평가하는 기계학습 모델로 만든 예측을 평가하는 데 공통 측정항목을 사용했다. 이 경우 그들은 도구로 식별 된 상위 돌연변이를 가져와 실험실에서 실제 바이러스를 사용하여 그 중 몇 개가 실제 탈출 돌연변이인지 확인했다.

 

그들의 결과는 HIV의 경우 0.69에서 코로나 바이러스 균주의 경우 0.85까지 다양했다. 이것은 다른 최첨단 모델의 결과보다 낫다고 그들은 말한다. 앞을보고 어떤 돌연변이가 발생할지 알면 병원과 공중 보건 당국이 미리 계획을 세우는 것이 더 쉬워 질 수 있다. 모델에게 작년 이후 독감 균주가 그 의미를 얼마나 변경했는지 알려주도록 요청하면 사람들이 이미 개발한 항체가 올해 얼마나 잘 작동할지 알 수 있다.

 

그러나 이 작업은 현재로서는 공중 보건에 실질적인 영향을 미치는 것보다 새로운 지평을 여는 것이다. Science지에 발표된 작업을 수행한 이후, 팀은 소위 영국돌연변이, 덴마크의 밍크 돌연변이, 남아공화국, 싱가포르 및 말레이시아에서 가져온 변종을 포함하여 코로나 바이러스의 새로운 변종에 대한 모델을 실행해 왔다.

 

그들은 아직 야생에서 테스트되지는 않았지만 그들 모두에서 면역탈출에 대한 높은 잠재력을 발견했다. 그러나 이 모델은 백신을 피할 수 있기 때문에 우려를 불러 일으킨 남아프리카 변종의 또 다른 변화를 놓쳤다. 그들은 그 이유를 이해하려고 노력하고 있다. "그것은 여러 돌연변이로 구성되어 있으며 우리는 조합효과가 작용하고 있다고 믿는다."라고 Berger는 말한다.

 

NLP를 사용하면 느린 프로세스가 가속화된다. 이전에는 병원에서 코로나19환자로부터 채취 한 바이러스의 게놈을 시퀀싱하고 돌연변이를 재현하여 실험실에서 연구 할 수있었다. 그러나 이 프로젝트에 참여하는 MIT의 생물학자인 Bryan Bryson은 몇 주가 걸릴 수 있다고 말한다. NLP 모델은 잠재적 인 돌연변이를 즉시 예측하여 실험실 작업에 집중하고 속도를 높인다. 관련 이야기 코로나19 면역력은 수년간 지속될 가능성이 있다.

 

새로운 연구에 따르면 코로나 바이러스와 싸우기 위해 준비된 면역세포는 누군가가 예방접종을 받거나 감염에서 회복된 후에도 오랫동안 지속되어야한다. Bryson은 "이 작업을 수행하는 것은 정말 놀라운 시간이다."라고 말한다. 매주 새로운 바이러스 시퀀스가 ​​나온다. “모델을 동시에 업데이트 한 다음 실험실로 실행하여 실험에서 테스트하는 것은 매우 어렵다. 이것은 컴퓨터 생물학의 최고이다.”라고 그는 말한다. 그러나 그것은 시작에 불과하다. 유전적 돌연변이를 의미의 변화로 취급하는 것은 생물학 전반에 걸쳐 다양한 방식으로 적용될 수 있다.

 

"좋은 비유는 먼 길을 갈 수 있다. 그들의 접근 방식이 약물 내성에 적용될 수 있다고 생각한다. 화학요법에 대한 내성을 획득하는 암 단백질이나 항생제에 대한 내성을 획득하는 박테리아 단백질과 비슷하다.”라고 그는 말한다. 이러한 변이는 단어의 의미의 변화로 다시 생각할 수 있다.

 

"언어모델 해석을 시작할 수있는 창의적인 방법이 많이 있다. 생물학은 혁명의 정점에 있다고 생각한다.”라고 Madani는 말한다. "우리는 이제 단순히 많은 양의 데이터를 수집하는 것에서 그것을 깊이 이해하는 방법을 배우는 것으로 이동하고 있다. 연구원들은 NLP의 발전을 지켜보고 이를 활용하기 위해 언어와 생물학 사이의 새로운 유사점을 생각하고 있다. 그러나 Bryson, Berger는 이 교차가 생물학 개념에서 영감을받은 새로운 NLP알고리즘으로 양방향으로 진행될 수 있다고 믿는다. 생물학에는 고유한 언어가 있다."라고 Berger는 말한다.

 

 
광고
광고
광고
광고
광고
광고
많이 본 기사
라이프,거버넌스, 조직, 유망직종 많이 본 기사
최신기사