광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[AI는 이제 거의 모든 성능 벤치마크에서 인간을 능가]스탠포드 대학의 인간 중심 인공 지능 연구소, 7차 연례 AI 지수 보고서 발표. AI, 인간을 따라잡는 속도가 빨라져 새로운 평가 기준이 필요하다: 스탠포드 HAI 보고서 발표.

박영숙세계미래보고서저자 | 기사입력 2024/04/21 [18:52]

[AI는 이제 거의 모든 성능 벤치마크에서 인간을 능가]스탠포드 대학의 인간 중심 인공 지능 연구소, 7차 연례 AI 지수 보고서 발표. AI, 인간을 따라잡는 속도가 빨라져 새로운 평가 기준이 필요하다: 스탠포드 HAI 보고서 발표.

박영숙세계미래보고서저자 | 입력 : 2024/04/21 [18:52]

 

AI는 이제 거의 모든 성능 벤치마크에서 인간을 능가

포괄적인 보고서는 AI의 글로벌 영향을 자세히 설명합니다.
포괄적인 보고서는 AI의 글로벌 영향을 자세히 설명한다.
DALL-E
5개 이미지 보기
 

한발 물러서서 지난 2년간의 AI 발전을 전체적으로 살펴보자. AI는 너무나 많은 분야에서 너무 빨리 인간을 따라잡고 있기 때문에 솔직히 새로운 테스트가 필요하다.

스탠포드 대학의 인간 중심 인공 지능 연구소(HAI)는 학계 및 산업 전문가로 구성된 학제간 팀이 작성한 종합 AI 지수 보고서 7차 연례호를 발표했다.

이번 에디션에는 이전 에디션보다 더 많은 콘텐츠가 포함되어 AI의 급속한 발전과 일상생활에서 AI의 중요성이 커지고 있음을 반영한다. AI를 가장 많이 활용하는 분야부터 AI로 인한 일자리 상실을 가장 우려하는 국가까지 모든 것을 조사한다. 그러나 보고서에서 가장 눈에 띄는 점 중 하나는 인간과 대결할 때 AI의 성능이다.

관심을 기울이지 않은 사람들을 위해 AI는 이미 솔직히 충격적인 수의 중요한 벤치마크에서 우리를 이겼다. 2015년에는 이미지 분류, 기본 독해(2017), 시각적 추론(2020), 자연어 추론(2021) 부문에서 우리를 능가했다.

AI는 너무 영리하고 빨라져서 지금까지 사용된 많은 벤치마크가 이제는 쓸모가 없다. 실제로 이 분야의 연구자들은 새롭고 더욱 도전적인 벤치마크를 개발하기 위해 안간힘을 쓰고 있다. 간단히 말해서, AI는 테스트 통과에 매우 능숙해졌기 때문에 이제 새로운 테스트가 필요하다. 역량을 측정하는 것이 아니라 인간과 AI가 여전히 다른 영역을 강조하고 여전히 장점이 있는 부분을 찾기 위한 것이다.

아래 결과는 오래되고 쓸모없을 수 있는 벤치마크를 사용한 테스트를 반영한다는 점은 주목할 가치가 있다. 그러나 전반적인 추세는 여전히 명확하다.

AI는 이미 많은 인간 성능 벤치마크를 능가했습니다.
AI 인덱스 2024

이러한 궤적을 살펴보자. 특히 최근 테스트가 어떻게 수직에 가까운 선으로 표시되는지 살펴보세요. 그리고 기억하세요. 이 기계는 가상의 유아이다.

새로운 AI 인덱스 보고서는 2023년에도 AI가 고급 수학 문제 해결 및 시각적 상식 추론과 같은 복잡한 인지 작업에 여전히 어려움을 겪고 있다고 지적한다. 그러나 여기서 'struggled'는 오해의 소지가 있을 수 있습니다. AI가 나쁘게 행동했다는 뜻은 아니다.

12,500개의 경쟁 수준 수학 문제로 구성된 데이터 세트인 MATH 의 성능은 도입 후 2년 만에 극적으로 향상되었습니다. 2021년에는 AI 시스템이 문제의 6.9%만 해결할 수 있다. 대조적으로, 2023년에는 GPT-4 기반 모델이 84.3%를 해결했습니다. 인간의 기준선은 90%이다.

그리고 우리는 여기서 평균적인 인간에 대해 말하는 것이 아니다. 우리는 다음과 같은 시험 문제를 풀 수 있는 인간의 종류에 대해 이야기하고 있다.

AI에게 묻는 수학 질문의 예입니다. 으악!
Hendryks 등/AI 인덱스 2024

그것이 2024년의 고급 수학의 상황이고 우리는 여전히 AI 시대의 새벽에 있다.

그 다음에는 시각적 상식 추론 (VCR) 이 있습니다 . VCR은 단순한 객체 인식을 넘어 AI가 시각적 맥락에서 상식 지식을 사용하여 예측하는 방법을 평가한다. 예를 들어, 테이블 위에 고양이 이미지가 표시되면 VCR이 있는 AI는 고양이가 테이블에서 뛰어 내릴 수 있거나 테이블이 무게를 고려할 때 고양이를 지탱할 만큼 튼튼하다는 것을 예측해야 한다.

보고서에 따르면 2022년부터 2023년 사이 VCR은 7.93% 증가해 최대 81.60까지 증가했으며, 여기서 인간 기준은 85이다.

AI의 시각적 상식 추론을 테스트하는 데 사용되는 샘플 질문
Zellers 등/AI 인덱스 2024

예를 들어 5년 전으로 마음을 돌려보자. 컴퓨터에 그림을 보여주고 컴퓨터가 해당 질문에 답할 만큼 충분히 맥락을 '이해'할 것이라고 기대하는 것을 상상해 보자.

요즘 AI는 다양한 직업에 걸쳐 서면 콘텐츠를 생성한다. 그러나 엄청난 발전에도 불구하고 LLM(대형 언어 모델)은 여전히 ​​'환각'에 취약하다. 환각은 OpenAI와 같은 회사에서 추진하는 매우 자선적인 용어로 대략 '거짓 또는 오해의 소지가 있는 정보를 사실로 제시'하는 것을 의미한다.

작년에 법률 연구에 ChatGPT를 사용했지만 결과를 사실 확인하지 않은 뉴욕 변호사 Steven Schwartz는 '환각'에 대한 AI의 성향을 당혹스러울 정도로 명백하게 밝혔다. 사건을 심리한 판사는 AI가 제출된 서류에서 조작한 법적 사건을 신속하게 파악하고 슈워츠의 부주의한 실수에 대해 US$5,000(AU$7,750)의 벌금을 부과했다. 그의 이야기는 세계적인 뉴스가 되었다.

HaluEval은 환각에 대한 벤치마크로 사용되었다. 테스트 결과, 많은 LLM의 경우 환각이 여전히 중요한 문제인 것으로 나타났다.

진실성은 생성 AI가 어려움을 겪는 또 다른 문제이다. 새로운 AI Index 보고서에서 TruthfulQA는 LLM의 진실성을 테스트하기 위한 벤치마크로 사용되었다. 건강, 법률, 금융, 정치 등의 주제에 관한 817개의 질문은 우리 인간이 흔히 잘못 알고 있는 일반적인 오해에 도전하기 위해 고안되었다.

2024년 초에 출시된 GPT-4는 2021년에 테스트된 GPT-2 기반 모델보다 거의 3배 높은 0.59점으로 벤치마크에서 가장 높은 성능을 달성했다. 이러한 개선은 LLM이 점차 좋아지고 있음을 나타냅니다. 진실된 답변을 하게 된다.

AI가 생성한 이미지는 어떻나? 텍스트-이미지 생성의 기하급수적인 향상을 이해하려면 2022년부터 Harry Potter를 그리는 Midjourney의 노력을 확인하자.

Midjourney의 프로그레시브 버전을 통해 텍스트-이미지 생성이 어떻게 향상되었는지
미드저니/AI 지수 2024

이는 22개월치의 AI 발전이다. 인간 예술가가 비슷한 수준에 도달하는 데 얼마나 시간이 걸릴 것으로 예상하나?

HEIM( 텍스트-이미지 모델)의 전체적인 평가를 사용하여 이미지의 "실제 배포"에 중요한 12가지 주요 측면에 대한 텍스트-이미지 생성 기능에 대해 LLM을 벤치마킹했다.

인간은 생성된 이미지를 평가하여 모든 기준에서 뛰어난 단일 모델이 없음을 발견했다. 이미지-텍스트 정렬 또는 이미지가 입력 텍스트와 얼마나 잘 일치하는지에 대해서는 OpenAI의 DALL-E 2가 가장 높은 점수를 받았다. Stable Diffusion 기반 Dreamlike Photoreal 모델은 품질(사진과 같은 정도), 심미성(시각적 매력), 독창성 부문에서 가장 높은 평가를 받았다.

내년 보고서는 바나나가 될 것이다

이 AI 지수 보고서는 2023년 말에 종료된다. 이는 AI 가속이 엄청나게 소란스럽고 힘든 한 해였습니다. 실제로 2023년보다 더 열광적인 해는 2024년뿐이었다. 특히 Suno , Sora , Google Genie , Claude 3 , Channel 1 및 Devin 과 같은 격변적인 개발이 출시된 것을 목격했다 .

이러한 각 제품과 기타 여러 제품은 전체 산업에 혁명을 일으킬 수 있는 잠재력을 가지고 있다. 그리고 그들 위에는 GPT-5라는 신비한 유령이 어렴풋이 나타나 있다. GPT-5는 다른 모델을 모두 집어삼킬 만큼 광범위하고 포괄적인 모델이 될 것이라고 위협한다.

AI는 아무데도 가지 않을 것이다. 이 보고서에서 분명하게 드러나는 2023년 내내 볼 수 있는 기술 개발의 빠른 속도는 AI가 계속 진화하고 인간과 기술 사이의 격차를 좁힐 것임을 보여준다.

우리는 이것이 소화해야 할 것이 많다는 것을 알고 있지만 더 많은 것이 있다. 보고서는 또한 AI 진화의 단점과 AI가 AI의 안전성, 신뢰성 및 윤리에 대한 전 세계 대중의 인식에 어떤 영향을 미치는지 조사합니다. 앞으로 이 시리즈의 두 번째 부분을 기대해 주세요! 출처: 스탠포드 대학교 HAI

 

 

 
광고
광고
광고
광고
광고
광고
많이 본 기사