광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고

AI넷

[인공지능] 인공지능(AI)기술, 특히 ViT(비전 트랜스포머 Vision Transformers)는 이미지에서 개체를 식별하고 분류하는 능력에 엄청난 가능성을 보여주었다. 그러나 실제 적용은 두 가지 중요한 문제, 즉 높은 컴퓨팅 성능 요구 사항과 의사 결정의 투명성 부족으로 인해 제한되었다. 이제 연구원 그룹이 획기적인 솔루션인 "Patch-to-Cluster Attention"(PaCa)으로 알려진 새로운 방법론을 개발했다.

https://www.unite.ai/vision-transformers-overcome-challenges-with-new-patch-to-cluster-attention-method/

JM Kim | 기사입력 2023/06/07 [00:00]

[인공지능] 인공지능(AI)기술, 특히 ViT(비전 트랜스포머 Vision Transformers)는 이미지에서 개체를 식별하고 분류하는 능력에 엄청난 가능성을 보여주었다. 그러나 실제 적용은 두 가지 중요한 문제, 즉 높은 컴퓨팅 성능 요구 사항과 의사 결정의 투명성 부족으로 인해 제한되었다. 이제 연구원 그룹이 획기적인 솔루션인 "Patch-to-Cluster Attention"(PaCa)으로 알려진 새로운 방법론을 개발했다.

https://www.unite.ai/vision-transformers-overcome-challenges-with-new-patch-to-cluster-attention-method/

JM Kim | 입력 : 2023/06/07 [00:00]

PaCa는 이미지 개체 식별, 분류 및 분할에서 ViT의 기능을 향상하는 동시에 계산 요구 사항 및 의사 결정 명확성의 오랜 문제를 해결하는 것을 목표로 한다.

 

ViT의 과제 해결: 새로운 솔루션에 대한 간략한 소개

트랜스포머는 뛰어난 기능으로 인해 AI 세계에서 가장 영향력 있는 모델 중 하나이다. 이러한 모델의 성능은 시각적 입력으로 훈련되는 변환기 클래스인 ViT를 통해 시각적 데이터로 확장되었다. 이미지를 해석하고 이해하는 데 ViT가 제공하는 엄청난 잠재력에도 불구하고 몇 가지 주요 문제로 인해 방해를 받았다.

 

첫째, 방대한 양의 데이터가 포함된 이미지의 특성으로 인해 ViT는 상당한 계산 능력과 메모리를 필요로 한다. 이러한 복잡성은 특히 고해상도 이미지를 처리할 때 많은 시스템에서 압도적일 수 있다. 둘째, ViT 내의 의사 결정 프로세스는 종종 복잡하고 불투명하다. 사용자는 ViT가 이미지의 다양한 개체 또는 기능을 어떻게 구별하는지 이해하기 어렵다. 이는 수많은 애플리케이션에 매우 중요하다.

 

그러나 혁신적인 PaCa 방법론은 이 두 가지 문제에 대한 솔루션을 제공한다."트랜스포머 아키텍처가 이미지의 개체를 보다 잘 식별하고 집중할 수 있도록 하는 클러스터링 기술을 사용하여 계산 및 메모리 요구와 관련된 문제를 해결한다."고 이 작업에 대한 논문의 교신 저자이자 노스캐롤라이나 주립대학교의 전기 및 컴퓨터 공학 부교수인 Tianfu Wu는 설명한다.

PaCa에서 클러스터링 기술을 사용하면 계산 요구 사항이 크게 줄어들어 문제가 2차 과정에서 관리 가능한 선형 과정으로 전환된다. Wu는 프로세스에 대해 더 설명한다. "클러스터링을 통해 우리는 이를 선형 프로세스로 만들 수 있다. 각각의 더 작은 단위는 미리 결정된 클러스터 수와 비교하기만 하면 된다."

 

클러스터링은 또한 ViT의 의사 결정 프로세스를 명확히 하는 역할을 한다. 클러스터를 형성하는 프로세스는 ViT가 이미지 데이터의 섹션을 함께 그룹화하는 데 어떤 기능이 중요한지 결정하는 방법을 보여준다. AI가 제한된 수의 클러스터만 생성하기 때문에 사용자는 의사 결정 프로세스를 쉽게 이해하고 검토할 수 있어 모델의 해석 가능성이 크게 향상된다.

PaCa 방법론은 다른 첨단 ViT를 능가한다.

 

포괄적인 테스트를 통해 연구자들은 PaCa 방법론이 여러 면에서 다른 ViT보다 성능이 우수하다는 것을 발견했다. Wu "우리는 PaCa가 모든 면에서 SWin PVT를 능가한다는 사실을 발견했다."라고 설명한다. 테스트 과정에서 PaCa는 이미지 및 분할 내에서 객체를 분류 및 식별하고 이미지에서 객체의 경계를 효율적으로 설명하는 데 탁월한 것으로 나타났다. 또한 다른 ViT보다 더 빠르게 작업을 수행하여 시간 효율성이 더 높은 것으로 나타났다.

 

PaCa의 성공에 힘입어 연구팀은 PaCa를 더 큰 기본 데이터 세트에서 교육하여 개발을 더욱 발전시키는 것을 목표로 한다. 그렇게 함으로써 그들은 현재 이미지 기반 AI로 가능한 것의 경계를 넓히기를 희망한다.

 

연구 논문 "PaCa-ViT: 비전 트랜스포머에서 패치-클러스터 주의 학습"은 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스에서 발표될 예정이다. 이는 보다 효율적이고 투명하며 접근 가능한 AI 시스템을 위한 길을 열 수 있는 중요한 이정표이다.

 
인공지능, AI 시스템, 비전 트랜스포머 Vision Transformers, 비전 트랜스포머에서 패치-클러스터 주의 학습 관련기사목록
광고
광고
광고
광고
광고
광고
광고
AIbio소식 많이 본 기사