광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[인공지능] AI는 인간의 인지 제한을 상속할 수 있으며 '정규 교육'의 이점을 얻을 수 있다. 딥마인드(DeepMind)와 스탠포드 대학교의 새로운 협력에 따르면 머신러닝모델은 실제 상황에서 추론 아키텍처를 가져오기 때문에 추상적인 추론에서 AI가 더 좋지 않을 수 있다. 그러나 또한 우리 자신의 인지적 결점으로 인해 방해를 받는다.

https://www.unite.ai/deepmind-ai-may-inherit-human-cognitive-limitations-could-benefit-from-formal-education/

JM Kim | 기사입력 2022/07/19 [00:00]

[인공지능] AI는 인간의 인지 제한을 상속할 수 있으며 '정규 교육'의 이점을 얻을 수 있다. 딥마인드(DeepMind)와 스탠포드 대학교의 새로운 협력에 따르면 머신러닝모델은 실제 상황에서 추론 아키텍처를 가져오기 때문에 추상적인 추론에서 AI가 더 좋지 않을 수 있다. 그러나 또한 우리 자신의 인지적 결점으로 인해 방해를 받는다.

https://www.unite.ai/deepmind-ai-may-inherit-human-cognitive-limitations-could-benefit-from-formal-education/

JM Kim | 입력 : 2022/07/19 [00:00]

입증된 바에 따르면, 이는 많은 사람들이 머신러닝 시스템에서 기대하는 우수한 '푸른 하늘' 사고와 지적 기원의 품질에 대한 장벽을 나타낼 수 있다. 그리고 AI가 인간의 경험을 반영하는 정도를 보여주며, AI에 정보를 제공한 인간의 경계 내에서 동요(및 추론)하는 경향이 있다.

 

연구원들은 AI 모델이 실제 작업에 착수하기 전에 '정규 교육'에 비유하여 추상적 추론에 대한 사전 훈련을 통해 이점을 얻을 수 있다고 제안한다.

 

논문에서는 다음과 같이 말한다.

 

'인간은 불완전한 추론자이다. 우리는 세상에 대한 우리의 이해와 일치하는 실체와 상황에 대해 가장 효과적으로 추론한다.

 

'우리의 실험은 언어 모델이 이러한 행동 패턴을 반영한다는 것을 보여준다. 언어 모델은 논리적 추론 작업에서 불완전하게 수행되지만 이 성능은 내용과 컨텍스트에 따라 다르다. 가장 주목할만한 것은 그러한 모델은 종종 인간이 실패하는 상황, 즉 자극이 너무 추상적이거나 사전에 세계에 대한 이해와 충돌하는 상황에서 실패한다는 것이다.'

 

하이퍼스케일, GPT 수준의 자연어 처리(NLP) 모델이 이러한 제한의 영향을 받는 정도를 테스트하기 위해 연구원들은 적합한 모델에 대해 일련의 세 가지 테스트를 실행하여 다음과 같은 결론을 내렸다.

 

'우리는 최첨단 대형 언어 모델(70억 또는 700억 매개변수 포함)이 이러한 작업 전반에 걸쳐 인간에게서 관찰된 동일한 패턴의 많은 부분을 반영한다는 것을 발견했다. 인간과 마찬가지로 모델은 비현실적이거나 추상적인 상황보다 믿을 수 있는 상황에 대해 더 효과적으로 추론한다.

 

'우리의 발견은 이러한 인지 효과와 언어 모델 성능에 기여하는 요인을 모두 이해하는 데 의미가 있다.'

 

이 논문은 그러한 기술을 맥락에 적용하는 실제 세계의 이점을 제공하지 않고 AI에서 추론 기술을 생성하는 것은 그러한 시스템의 잠재력을 제한할 수 있다고 제안한다. '근거에 기반한 경험...아마도 일부 인간의 믿음과 추론을 뒷받침한다'.

 

저자는 AI가 언어를 수동적으로 경험하는 반면 인간은 언어를 사회적 커뮤니케이션의 능동적이고 중심적인 구성 요소로 경험한다고 가정한다. 그리고 이런 종류의 적극적인 참여(벌과 보상의 전통적인 사회 시스템을 수반함)는 인간이 하는 것과 같은 방식으로 의미를 이해하는 데 '핵심'이 될 수 있다.

 

연구원들은 다음과 같이 관찰한다.

 

'따라서 언어 모델과 인간 사이의 일부 차이점은 풍부하고 기초적인 인간의 상호 작용 경험과 모델의 빈곤한 경험 간의 차이에서 비롯될 수 있다.'

 

그들은 궁극적으로 유용하고 다재 다능한 언어 모델을 구축할 핵심 데이터에 대한 교육에 앞서 인간이 학교 및 대학 시스템에서 경험하는 것과 같은 '사전 교육' 기간이 하나의 솔루션이 될 수 있다고 제안한다.

 

'정규 교육' 기간(연구원들이 유추한 대로)은 기존의 머신러닝 사전 교육(반 훈련된 모델을 재사용하거나 완전히 훈련된 모델에서 가중치를 가져와 훈련 시간을 단축하는 방법이다. '부스터'를 사용하여 교육 과정을 시작).

 

오히려 그것은 순전히 추상적인 방식으로 AI의 논리적 추론 능력을 개발하고 대학생이 학위 교육 과정에서 수행하도록 권장되는 것과 거의 동일한 방식으로 중요한 능력을 개발하도록 설계된 지속적인 학습 기간을 나타낸다.

 

저자는 '여러 결과가 이것이 들리는 것만큼 터무니없는 것이 아닐 수도 있음을 나타낸다'라고 말한다.

 

이 논문의 제목은 언어 모델이 추론에 미치는 인간과 유사한 콘텐츠 효과를 보여주는 것으로 딥마인드(DeepMind) 6명의 연구원과 딥마인드와 스탠포드대학교에 소속된 1명의 연구원이 작성한 것이다.

 

테스트

 

인간은 언어 학습자가 기억술을 통해 어휘와 언어 규칙을 암기하는 데 도움이 되는 '묵시적 중요성'과 거의 동일한 방법으로 실제 예를 통해 추상적 개념을 배운다. 이것의 가장 간단한 예는 기차와 자동차에 대한 '여행 시나리오'를 만들어 냄으로써 물리학에서 난해한 원리를 가르치는 것이다.

 

하이퍼스케일 언어 모델의 추상적 추론 기능을 테스트하기 위해 연구원들은 인간에게도 어려울 수 있는 세 가지 언어/의미 테스트 세트를 고안했다. 테스트는 '제로 샷'(해결된 예제 없음) '5개의 샷'(5개의 이전 해결된 예제 포함)을 적용했다.

 

첫 번째 작업은 자연어 추론(NLI)과 관련이 있다. 여기서 주어(사람 또는 이 경우 언어 모드)는 전제에서 추론된 것처럼 보이는 '전제''가설'이라는 두 문장을 받는다. 예를 들어 X Y보다 작다. 가설: Y X보다 크다(수반됨).

 

자연어 추론 작업을 위해 연구원들은 언어 모델 친칠라 (700억 매개변수 모델) 7B(동일 모델의 70억 매개변수 버전)를 평가하여 일관된 예(, 넌센스가 아닌 것)에 대해, 더 큰 친칠라 모델만이 순전히 기회보다 높은 결과를 얻었다. 그리고 그들은 다음과 같이 말한다;

 

'이것은 강한 내용 편향을 나타냅니다. 모델은 논리 규칙과 일치하는 방식보다는 사전 기대치와 일치하는 방식으로 문장을 완성하는 것을 선호한다'

 

 

NLI 작업에서 친칠라의 700억 매개변수 성능. 연구원들에 따르면 이 모델과 더 얇은 버전 7B 모두 '상당한 믿음 편향'을 보였다. 출처: https://arxiv.org/pdf/2207.07051.pdf

 

삼단논법

 

두 번째 과제는 더 복잡한 문제인 삼단논법(syllogisms)을 제시한다. 두 개의 참된 진술이 분명히 세 번째 진술(이전 두 진술에서 추론된 논리적 결론일 수도 있고 아닐 수도 있음)을 암시하는 논증:

 

 

논문의 테스트 자료에서 다양한 '현실적'이고 역설적이거나 무의미한 삼단논법.

 

여기에서 인간은 대단히 오류가 있으며 논리적 원리를 예시하도록 설계된 구성은 정답이 무엇인지에 대한 인간의 '믿음'에 의해 거의 즉시(그리고 아마도 영구적으로) 얽히고 혼란스러워진다.

 

저자는 1983년의 연구에서 참가자들이 삼단 논법의 결론이 자신의 신념과 일치하는지 여부에 따라 편향된 것으로 나타났으며 다음을 관찰했다.

 

'참가자들은 결론이 믿을 수 있는 경우 잘못된 삼단논법이 유효하다고 잘못 말할 가능성이 훨씬 더 높았고(90%) 추상적 추론보다는 믿음에 주로 의존했다.'

 

다양한 삼단 논법에 대해 친칠라를 테스트하면서 연구자들은 '믿음 편향이 거의 모든 제로 샷 결정을 유도한다'는 사실을 발견했다. 언어 모델이 결론이 현실과 일치하지 않는 경우 모델은 최종 인수가 이전 진술의 논리적 수반인 경우에도 최종 인수를 무효로 선언하는 방향으로 '강하게 편향되어' 있다고 저자는 말한다.

 

 

친칠라에 대한 제로 샷 결과(제로 샷은 대부분의 테스트 대상이 이러한 도전을 받는 방식이며, 지침 규칙에 대한 설명 후), 컴퓨터의 계산 능력과 이러한 종류의 '초기 논리' 문제를 탐색하는 NLP 모델의 능력 사이의 거대한 간극을 설명한다.

 

Wason 선택 작업

 

세 번째 테스트에서는 훨씬 더 어려운 Wason 선택 작업 논리 문제를 언어 모델이 해결하기 위해 여러 가지 다양한 반복으로 재구성했다.

 

1968년에 고안된 Wason 과제는 분명히 매우 간단하다. 참가자들에게 4장의 카드를 보여주고 '카드의 한쪽 면에 'D'가 있으면 다른 쪽에 '3'이 있는 것과 같은 임의의 규칙을 듣는다.' 4개의 보이는 카드 면은 'D', 'F', '3' '7'을 보여준다.

 

그런 다음 피험자들은 규칙이 참인지 거짓인지 확인하기 위해 어떤 카드를 뒤집어야 하는지 묻는다.

 

이 예에서 올바른 해결책은 카드 'D' '7'을 뒤집는 것이다. 초기 테스트에서 대부분의 (인간) 피험자는 'D'를 올바르게 선택하지만 '7'보다는 '3'을 선택할 가능성이 더 높아 규칙의 반대를 혼동하는 것으로 나타났다('3이 아님은 D가 아님을 의미한다' ) 반대의 경우('3'은 논리적으로 암시되지 않는 'D'를 의미함).

 

저자는 사전 믿음이 인간 과목의 논리적 과정에 개입할 가능성이 있다는 점에 주목하고, 나아가 학문적 수학자와 학부 수학자도 이 과제에서 일반적으로 50% 미만의 점수를 받았다는 점에 주목한다.

 

그러나 Wason 작업의 스키마가 어떤 식으로든 인간의 실제 경험을 반영할 때 성능은 전통적으로 그에 따라 상승한다.

 

저자는 이전 실험을 참조하여 다음과 같이 관찰한다.

 

'[만약] 카드에 연령과 음료가 표시되고 규칙이 "술을 마시는 경우 21세 이상이어야 한다"이며 '맥주', '소다', '25', '16'이 표시된 카드, 대다수의 참가자는 '맥주' '16'이 표시된 카드를 올바르게 선택했다.

 

Wason 작업에 대한 언어 모델 성능을 테스트하기 위해 연구원은 AI가 콘텐츠의 컨텍스트를 관통하여 어떤 '가상 카드'를 뒤집을 수 있는지 확인하기 위해 일부는 '넌센스' 단어를 특징으로 하는 다양한 현실적이고 임의적인 규칙을 만들었다.

 

 

테스트에 제시된 많은 Wason 선택 작업 퍼즐 중 일부.

 

Wason 테스트의 경우 모델은 '현실적인'(넌센스가 아닌) 작업에서 인간과 비슷한 성능을 보였다.

 

 

제로샷 Wason 선택 작업은 친칠라에 대한 결과이며, 모델은 최소한 '현실적인' 규칙에 대해 가능성을 훨씬 뛰어넘는 성능을 보인다.

 

논문 논평:

 

'이것은 인간 문헌의 발견을 반영한다. 인간은 추상적 속성에 대한 임의의 규칙보다 현실적인 상황의 관점에서 Wason 과제에 답하는 데 훨씬 더 정확하다.'

 

정규 교육

 

이 논문의 결과는 모델을 구동하는 누적된 실제 데이터 세트를 통해 모델에 전달하는 것처럼 보이는 자체 제한의 맥락에서 하이퍼스케일 NLP 시스템의 추론 가능성을 구성한다. 우리 대부분은 천재가 아니기 때문에 매개변수가 우리 자신에 의해 정보를 받는 모델도 아니다.

 

추가로, 새로운 작업은 우리가 최소한 지속적인 형성 교육 기간과 인간의 명령을 형성하는 추가적인 사회적, 재정적, 심지어 성적 동기의 이점을 가지고 있다는 결론을 내린다. NLP 모델이 얻을 수 있는 것은 이러한 환경적 요인의 결과적인 행동뿐이며, 예외적인 인간보다는 일반에 순응하는 것으로 보인다.

 

저자는 다음과 같이 말한다.

 

'우리의 결과는 이러한 인간 고유의 내부 메커니즘을 통합하지 않고 인간 문화에 의해 생성된 언어를 모방하기 위해 단순히 대형 변환기를 훈련하는 것만으로도 콘텐츠 효과가 나타날 수 있음을 보여준다.

 

'다시 말해 언어 모델과 인간은 모두 이러한 콘텐츠 편향에 도달하지만 겉보기에는 매우 다른 아키텍처, 경험 및 교육 목표에서 비롯된다.'

 

따라서 그들은 순수 추론에서 일종의 '귀납 훈련'을 제안하며, 이는 수학 및 일반 추론에 대한 모델 성능을 향상시키는 것으로 나타났다. 그들은 또한 언어 모델이 추상적이거나 일반화된 수준에서 지침을 더 잘 따르고 자체 출력을 확인, 수정 또는 편향되지 않도록 훈련되거나 조정되었음을 언급한다.

 
인공지능, 머신러닝 관련기사목록
광고
광고
광고
광고
광고
광고
많이 본 기사
챗GPT와 AI, 로봇 많이 본 기사