인공지능: 액체 생검에서 cfDNA 종단 분석해 암 탐지한다.
npj Precision Oncology에 게재된 연구 기사에 따르면, AI는 세포 유리 DNA(cfDNA) 엔드 모티프를 분석하여 암 환자와 건강한 사람을 구별할 수 있다. 간세포암, 대장암, 비소세포 폐암, 식도암에 대한 cfDNA 시퀀싱을 포함한 다양한 연구에서 수천 개의 샘플을 사용하여 EMIT(변압기를 통한 엔드모티프 검사 end-motif inspection via transformer)라는 딥 러닝 기반 모델이 만들어졌다. 폐암과 비암 환자 모두의 전체 엑솜 시퀀싱 데이터에서 테스트한 EMIT는 강력한 분류 기능을 보여주었다. 톈진 의대의 연구자들이 개발한 EMIT는 cfDNA 단편 엔드 모티프를 식별하기 위한 표준화된 딥 러닝 방법을 향한 진전이다.
암 진단을 위한 cfDNA 사용
비무작위 단편화 패턴을 보이고 크기가 약 167bp인 선형 cfDNA 단편은 암의 생리적 상태를 반영하는 고유한 cfDNA 패턴을 보인다. 게놈 전체에 걸친 cfDNA의 우선적 분포를 조사하여 액체 생검을 통해 암을 검출할 수 있다. 그러나 cfDNA 계산 분석 방법을 개발하는 것은 상당한 장애물이며, cfDNA 기반 암 진단에서 이 문제를 해결해야 할 즉각적인 필요성이 있다. 읽기 매핑, 사본 번호 변경 감지, 단편화 특성 분석과 같은 단계는 cfDNA 분석에 대한 기존 생물정보학적 접근 방식의 일부로, 지루하고 오류가 발생하기 쉽다. 이 파이프라인은 복잡성으로 인해 실수 가능성을 높이고 광범위한 채택을 크게 방해한다.
낮은 커버리지 전체 게놈 시퀀싱으로 시퀀싱된 cfDNA의 게놈 전체 단편화 특성에 대한 머신러닝모델을 학습하여 여러 유형의 암을 식별할 수 있다. 예를 들어, 혈장 cfDNA의 말단 모티프 프로파일링은 HCC 환자와 비 HCC 환자 간의 말단 모티프 차이를 나타내는 연구로 인해 간세포암(HCC)의 마커로 부상하고 있다. 연구에 따르면 HCC 환자는 혈장 cfDNA 말단 모티프가 더 다양하며 간의 cfDNA는 다른 출처의 cfDNA보다 특정 게놈 위치에서 끝날 가능성이 더 높다. HCC 환자는 간 이식 수혜자와 B형 간염 환자와 비교하여 특정 게놈 좌표에서 cfDNA의 뚜렷한 비 무작위 분포를 보였다.
엔드 모티프(End-motifs)는 암 특징을 인코딩한다.
공동 저자인 홍루 센(Hongru Shen), 멩 양(Meng Yang), 지레이 리우(Jilei Liu)는 암 전반에 걸쳐 조기 암 탐지를 개선하기 위해 cfDNA 분석을 간소화하는 딥 러닝 기반 엔드투엔드 방법을 개발했다. 이 연구에서 보여 진 것처럼 EMIT는 개념적으로 간단하고 경험적으로 강력한 cfDNA 엔드 모티프를 표현하기 위해 자체 감독 방법을 사용한다. 이를 통해 다양한 시퀀싱 플랫폼의 다양한 게놈을 표현할 수 있다. EMIT는 원시 시퀀싱 데이터에서 효율적으로 계산할 수 있는 엔드 모티프 순위에 대한 입력을 제한하여 분석 절차를 간소화하도록 설계되었다. 결과적으로 시퀀스 매핑, 사본 번호 변화 평가, 돌연변이 식별과 같은 지루한 프로세스는 불필요하다.
EMIT는 다양한 시퀀싱 방법을 사용하여 수집한 4606개의 혈장 cfDNA 샘플의 데이터를 사용하여 생성되었다. EMIT는 암 상태 정보가 아닌 말단 모티프 빈도만을 사용하여 개발되었지만, Shen, Yang, Liu는 암을 구별하는 특징이 인코딩되고 표현된다는 것을 발견했다. 다양한 시퀀싱 방법으로 생성된 6개의 데이터 세트에 적용했을 때, EMIT는 암 탐지에서 뛰어난 분류 성능을 보였다. 또한, 연구자들은 전체 엑솜 시퀀싱에서 별도의 cfDNA 테스트 세트를 사용하여 EMIT 표현의 선형 투영을 사용하여 폐암을 식별하는 데 뛰어난 분류 성능을 보였다.
EMIT에 대한 입력으로 말단 모티프 순위만 사용하는 것의 한 가지 단점은 크기 프로필, 이상 범위, 선호하는 말단 좌표, 체세포 돌연변이와 같이 암 탐지에 도움이 되는 것으로 나타난 다른 정보를 무시한다는 것이다. 종양 유래 cfDNA가 특히 초기 단계의 암 환자에게 부족하다는 것은 말할 것도 없다. 암 물질이 혈류에 들어가 건강한 세포의 신호와 섞이면 암 신호가 크게 감소한다. 크기 프로필의 분포에 따라 배경 cfDNA를 제외하여 종양 유래 cfDNA를 풍부하게 하여 종양 신호를 증가시킬 수 있다.