광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[인공지능, 단백질 모양 예측] 단백질은 생명 공학에 대한 영감의 보고이다. 거대 기술 기업인 Meta는 AI로 모든 단백질 구조를 해결하기 위한 경쟁으로 뛰어 들었다. Meta의 새로운 ChatGPT와 유사한 AI는 단백질 언어에 능통하며 이미 7억 개를 모델링했다.

https://singularityhub.com/2023/03/21/metas-new-ai-is-digging-into-the-most-mysterious-proteins-on-earth/

JM Kim | 기사입력 2023/03/23 [00:00]

[인공지능, 단백질 모양 예측] 단백질은 생명 공학에 대한 영감의 보고이다. 거대 기술 기업인 Meta는 AI로 모든 단백질 구조를 해결하기 위한 경쟁으로 뛰어 들었다. Meta의 새로운 ChatGPT와 유사한 AI는 단백질 언어에 능통하며 이미 7억 개를 모델링했다.

https://singularityhub.com/2023/03/21/metas-new-ai-is-digging-into-the-most-mysterious-proteins-on-earth/

JM Kim | 입력 : 2023/03/23 [00:00]

모든 단백질 구조를 해결하기 위한 경쟁은 또 다른 거대 기술 기업인 Meta AI를 환영했다.

Facebook Instagram으로 알려진 Meta의 연구 분파인 이 팀은 단백질 우주의 "암흑 물질"을 해독한다는 야심 찬 목표를 가지고 단백질 모양 예측 분야에 뛰어들었다. 종종 박테리아, 바이러스 및 기타 미생물에서 발견되는 이러한 단백질은 일상 환경에서 휴식을 취하지만 과학에는 완전한 미스터리이다.

 

“이것들은 우리가 가장 적게 아는 구조이다. 이들은 믿을 수 없을 정도로 신비한 단백질이다. 나는 그들이 생물학에 대한 훌륭한 통찰력을 제공할 가능성을 제공한다고 생각한다.”라고 수석 저자인 알렉산더 리브스 박사는 네이쳐에 말했다.

 

, 그들은 생명 공학에 대한 영감의 보고이다. 비밀스러운 모양 속에 숨겨진 것은 효율적인 바이오 연료, 항생제, 효소 또는 완전히 새로운 유기체를 설계하기 위한 열쇠이다. 결과적으로 단백질 예측 데이터는 AI 모델을 추가로 훈련시킬 수 있다.

 

ESMFold라고 불리는 Meta의 새로운 AI의 중심에는 대규모 언어 모델이 있다. 친숙하게 들릴 수 있다. 이러한 머신러닝 알고리즘은 록스타 챗봇 ChatGPT로 전 세계를 강타했다. 간단한 프롬프트로 아름다운 에세이, , 가사를 생성하는 기능으로 유명한 ChatGPT와 최근 출시된 GPT-4는 공개적으로 사용 가능한 수백만 개의 텍스트로 학습된다. 결국 AI는 문자, 단어를 예측하고 심지어 전체 단락을 작성하는 방법을 배우고, Bing의 유사한 챗봇의 경우 때때로 약간 불안하게 만드는 대화를 유지한다.

 

사이언스에 발표된 새로운 연구는 AI 모델을 생물학과 연결한다. 단백질은 20개의 "문자"로 구성된다. 진화 덕분에 문자의 순서는 궁극적인 모양을 생성하는 데 도움이 된다. 대규모 언어 모델이 영어 알파벳의 26자를 일관된 메시지로 쉽게 해석할 수 있다면 단백질에도 작동하지 않는 이유는 무엇일까?

 

스포일러: 그렇다. ESM-2 2,000개의 그래픽 처리 장치(GPU)를 사용하여 단 2주 만에 약 6억 개의 단백질 구조 예측을 완료했다. 이전 시도와 비교하여 AI는 프로세스를 최대 60배 빠르게 만들었다. 저자는 여기에서 탐색할 수 있는 ESM 메타지노믹 아틀라스에 모든 구조를 넣었다.

작업에 참여하지 않은 바르셀로나 국립 슈퍼컴퓨팅 센터(BCS)의 알폰소 발렌시아 박사에게 대규모 언어 시스템 사용의 아름다움은 "개념적 단순성"이다. 추가 개발을 통해 AI "비천연 단백질의 구조를 예측하여 진화 과정이 탐색한 것 이상으로 알려진 우주를 확장"할 수 있다.

 

진화

ESMFold는 간단한 지침을 따른다. 시퀀스는 구조를 예측한다.

역 추적해보자. 단백질은 각각 "글자" 20개의 아미노산으로 만들어지며 끈에 뾰족한 구슬처럼 연결되어 있다. 그런 다음 우리의 세포는 그것들을 섬세한 특징으로 만든다. 일부는 구겨진 침대 시트처럼 보이고 다른 일부는 소용돌이 모양의 사탕 지팡이 또는 느슨한 리본처럼 보인다. 그런 다음 단백질은 서로 달라붙어 멀티플렉스를 형성할 수 있다. 예를 들어, 행동을 제어하는 뇌 세포막을 가로지르는 터널은 우리가 생각하고 기억하는 방식을 제어한다.

 

과학자들은 아미노산 문자가 단백질의 최종 구조를 형성하는 데 도움이 된다는 사실을 오랫동안 알고 있었다. 언어의 문자나 문자와 마찬가지로 특정 문자만 함께 연결하면 의미가 있다. 단백질의 경우 이러한 서열이 단백질을 기능적으로 만든다.

 

"단백질의 생물학적 특성은 진화를 통해 선택된 서열에 대한 돌연변이를 제한한다."라고 저자는 말했다.

 

알파벳의 서로 다른 문자가 수렴하여 완전한 횡설수설처럼 들리지 않고 단어, 문장 및 단락을 만드는 것과 유사하게 단백질 문자도 동일하다. 아미노산을 신체가 이해할 수 있는 구조로 연결하는 데 도움이 되는 일종의 "진화 사전"이 있다.

"알려진 단백질에서 아미노산의 연속 논리는 특정 기능을 수행하는 특정 구조를 갖도록 하는 진화 과정의 결과이다."라고 발렌시아는 말했다.

 

 

AI로 단백질 만들다

삶의 상대적으로 제한된 사전은 대규모 언어 모델에 희소식이다.

이러한 AI 모델은 쉽게 사용할 수 있는 텍스트를 검색하여 학습하고 다음 단어에 대한 예측을 구축한다. GPT-3 ChatGPT에서 볼 수 있듯이 최종 결과는 놀랍도록 자연스러운 대화와 환상적인 예술적 이미지이다.

 

Meta AI는 동일한 개념을 사용했지만 단백질 구조 예측을 위해 플레이북을 다시 작성했다. 알고리즘에 텍스트를 공급하는 대신 알려진 단백질의 프로그램 시퀀스를 제공했다.

변환기 단백질 언어 모델이라고 하는 AI 모델은 최대 150억 개의 "설정"을 사용하여 단백질의 일반적인 구조를 학습했다. 전체적으로 약 6,500만 개의 서로 다른 단백질 서열을 확인했다.

다음 단계에서 팀은 AI에서 특정 문자를 숨겨 빈칸을 채우도록 했다. 자동완성 정도에 따라 프로그램은 결국 서로 다른 아미노산이 어떻게 연결(또는 격퇴)되는지 배웠다. 결국 AI는 진화 단백질 서열에 대한 직관적인 이해를 형성했으며 기능 단백질을 만들기 위해 함께 작동하는 방식을 형성했다.

 

미지의 세계로

개념 증명으로 팀은 두 가지 잘 알려진 테스트 세트를 사용하여 ESMFold를 테스트했다. 하나인 CAMEO는 거의 200개의 구조를 포함했다. 다른 하나인 CASP14 51개의 공개된 단백질 모양을 가지고 있다.

전반적으로 AI "첨단 구조 예측 정확도를 제공한다"고 팀은 "단백질의 절반 이상에서 AlphaFold2 성능과 일치한다"고 말했다. 또한 예를 들어 행동을 제어하는 뉴런의 채널과 같은 대형 단백질 복합체를 확실하게 다루었다.

그런 다음 팀은 AI를 한 단계 더 발전시켜 메타게노믹스의 세계로 모험을 떠났다.

 

메타게노믹스는 DNA 물질의 뒤죽박죽처럼 들린다. 일반적으로 이들은 발 밑의 먼지, 해수 또는 일반적으로 열악한 열 통풍구와 같은 환경적 원인에서 나온다. 대부분의 미생물은 실험실에서 인위적으로 배양할 수 없지만 일부는 화산 수준의 열에 저항하는 것과 같은 초능력을 가지고 있어 아직 탐구되지 않은 생물학적 암흑 물질이 된다.

논문이 발표될 당시 AI는 이러한 단백질을 6억 개 이상 예측했다. 그 수는 이제 최신 릴리스로 최대 7억 개가 넘는다. 예측은 약 2주 만에 빠르고 격렬하게 이루어졌다. 대조적으로, 이전의 모델링 시도는 단 하나의 단백질에 대해 최대 10분이 걸렸다.

 

단백질 예측의 대략 1/3은 원자 수준 규모로 확대하기에 충분한 세부 정보와 함께 높은 신뢰도를 보였다. 단백질 예측은 순전히 서열에 기반했기 때문에 수백만 개의 "외계인"이 나타났다. 기존 데이터베이스나 이전에 테스트된 것과는 다른 구조이다.

발렌시아는 "예측의 10% 이상이 다른 알려진 단백질과 유사하지 않은 단백질에 대한 것"이라고 말했다. 그것은 기능적 단백질을 구성하는 이전에는 들어보지 못한 서열을 탐색하고 잠재적으로 생성하는 데 훨씬 더 유연한 언어 모델의 마법 때문일 수 있다. "이것은 생명공학과 생물의학에 응용하여 새로운 서열과 생화학적 특성을 가진 단백질 설계를 위한 새로운 공간인다."라고 그는 말했다.

 

예를 들어, ESMFold는 잠재적으로 단백질의 단일 문자 변화의 결과를 파악하는 데 도움이 될 수 있다. 점 돌연변이(point mutations)라고 불리는 이 겉보기에 양성 편집은 신체에 큰 피해를 입히고 파괴적인 대사 증후군, 겸상 적혈구 빈혈 및 암을 유발한다. 간결하고 비열하며 상대적으로 단순한 AI는 평균적인 생물 의학 연구실에 결과를 제공하는 동시에 AI의 속도 덕분에 단백질 모양 예측을 확장한다.

 

생물 의학은 제쳐두고 또 다른 흥미로운 아이디어는 단백질이 텍스트가 할 수 없는 방식으로 대규모 언어 모델을 훈련시키는 데 도움이 될 수 있다는 것이다. 발렌시아가 설명했듯이한편으로 단백질 서열은 텍스트보다 더 풍부하고 더 정의된 크기와 더 높은 수준의 가변성을 가진다. 반면에 단백질은 강력한 내부 '의미', 즉 서열과 구조 사이의 강한 관계, 텍스트에서 훨씬 더 확산되는 의미 또는 일관성을 가지고 있다.

 

이미지 출처: 메타 AI

 
Meta, 인공지능, 단백질, 단백질 모양 예측, 언어 모델, GPT 관련기사목록
광고
광고
광고
광고
광고
광고
많이 본 기사
AIbio소식 많이 본 기사
최신기사