광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[구글의 PaLM-E, 일반인공지능(AGI)이 다가온다] Google의 AI 연구원은 5,620억 개의 매개변수를 가진 구현된 다중 모드 언어 모델인 PaLM-E를 공개했다. 이번 주에 Google과 베를린공과대학 팀은 초기 AGI 또는 원형 AGI로 간주될 수 있는 것을 공개했다. 이것은 주변 세계를 감지하고 탐색할 수 있는 모바일 로봇 내에서 다중 모드 시각 언어 모델(VLM)을 결합한다.

https://www.futuretimeline.net/blog/2023/03/9-google-palm-e-artificial-general-intelligence-agi.htm

JM Kim | 기사입력 2023/03/13 [00:00]

[구글의 PaLM-E, 일반인공지능(AGI)이 다가온다] Google의 AI 연구원은 5,620억 개의 매개변수를 가진 구현된 다중 모드 언어 모델인 PaLM-E를 공개했다. 이번 주에 Google과 베를린공과대학 팀은 초기 AGI 또는 원형 AGI로 간주될 수 있는 것을 공개했다. 이것은 주변 세계를 감지하고 탐색할 수 있는 모바일 로봇 내에서 다중 모드 시각 언어 모델(VLM)을 결합한다.

https://www.futuretimeline.net/blog/2023/03/9-google-palm-e-artificial-general-intelligence-agi.htm

JM Kim | 입력 : 2023/03/13 [00:00]

지금까지 대부분의 독자는 아니더라도 많은 독자가 미국 회사 OpenAI에서 개발한 공개적으로 사용 가능한 챗봇인 ChatGPT를 사용했을 것이다. 대규모 언어 모델의 GPT-3 제품군을 기반으로 하는 강력한 기능은 전 세계적으로 헤드라인을 장식했다. 완벽과는 거리가 멀지만 프로그램의 1,750억 매개변수는 자세한 응답을 생성하고 많은 지식 영역에서 명확한 답변을 생성할 수 있다. 후속 모델이 훨씬 더 크고 정교해질 가능성이 있으므로 튜링 테스트(Turing Test)는 이제 10년 말 또는 그 이전에 통과될 가능성이 매우 높아 보인다.

 

그러나 약하거나 "좁은" AI로 생각할 수 있는 인간과 유사한 챗봇과 AGI(인공일반지능) 또는 "강력한" AI라는 훨씬 더 심오한 이정표 사이에는 넓은 간극이 존재한다. ChatGPT의 인상적인 성능에도 불구하고 이전 범주에 속한다.

 

미래의 AI 모델은 AGI로 간주되기 전에 여러 기준을 충족해야 한다. 그 중에는 이전에 배운 정보를 기억하고 새롭고 다른 작업에 적용하는 능력이 있다. 진정한 AGI는 제작자가 처리하도록 프로그래밍하지 않은 경험을 포함하여 거의 모든 것을 배울 수 있는 능력을 보여주어 대부분의 문제를 인간처럼 쉽게 해결할 수 있다. 마지막으로 AGI는 체화된 인지를 필요로 한다고 주장할 수 있다. , 실제 환경과 완전히 상호 작용하기 위해 로봇 몸체 형태의 물리적 존재이다.

 

스타트렉의 데이터와 품질면에서 비교할 수 있는 안드로이드는 먼 전망일 수 있지만 AGI의 이정표는 반드시 기계가 인간과 외모를 구별할 수 없도록 요구하지 않는다. 이번 주에 Google과 베를린공과대학 팀은 초기 AGI 또는 원형 AGI로 간주될 수 있는 것을 공개했다. 이것은 주변 세계를 감지하고 탐색할 수 있는 모바일 로봇 내에서 다중 모드 시각 언어 모델(VLM)을 결합한다.

 

PaLM-E라고 불리는 시스템은 5620억 개의 매개변수(ChatGPT 3배 이상)를 가진 지금까지 개발된 VLM 중 가장 큰 VLM이다. 개체 및 색상과 같은 실제 데이터의 연속 스트림을 수집하여 해당 정보를 강력한 언어 모델에 제공할 수 있다. 그렇게 함으로써 단어와 시각적 장면 사이의 연결 고리를 설정한다. 이를 통해 PaLM-E는 과거 경험에서 배우고 재교육 없이 새로운 작업을 수행할 수 있다.

한 데모 비디오에서 PaLM-E는 로봇 카메라의 시각적 피드백을 통합할 뿐만 아니라 여러 계획 단계를 포함하는 "서랍에서 쌀 칩을 가져와"라는 명령에 응답한다. 쌀 칩을 잡고 가방의 위치를 변경하는 인간 연구원에 의해 방해를 받아도 이 작업을 계속 수행한다. 또 다른 테스트에서 동일한 로봇이 이전에 본 적이 없는 개체인 "초록 별을 가져와"라는 명령을 완료한다.

 

학습의 추가 예는 연구원에 의해 제시된다. 어떤 경우에는 "빨간색 블록을 커피 잔에 밀어 넣으라"라는 지시가 있다. 데이터 세트에는 커피 컵이 포함된 시연이 3개만 포함되어 있으며 빨간색 블록은 포함되지 않는다. 또 다른 일반화 작업에서 로봇은 이전에 거북이를 본 적이 없더라도 "녹색 블록을 거북이에게 밀 수" 있다.

 

더 자세한 분석은 팀의 논문에서 제공된다. 그들은 PaLM-E가 이전 작업에서 배운 지식과 기술을 새로운 작업으로 이전할 수 있음을 의미하는 "긍정적인 이전"을 나타내고 있음을 확인하여 단일 작업 로봇 모델보다 더 높은 성능을 이끌어낸다.

 

"PaLM-E는 로봇 작업에 대한 교육을 받은 것 외에도 OK-VQA에서 최첨단 성능을 갖춘 시각적 언어 일반주의자이며 규모가 증가함에 따라 일반 언어 기능을 유지한다."라고 팀은 말한다. "언어 모델 크기를 늘리면 구현된 에이전트가 되는 동안 치명적인 망각이 훨씬 줄어든다. 우리 모델은 단일 이미지 프롬프트에 대한 교육에도 불구하고 다중 사고 추론 추론과 같은 새로운 기능과 여러 이미지에 대해 추론하는 능력을 보여준다."

 

Google에 따르면 연구의 다음 단계에는 홈 자동화 및 산업용 로봇 공학과 같은 설정을 위한 애플리케이션 테스트가 포함될 것이라고 한다. 팀은 또한 그들의 작업이 다중 모달 추론 및 구체화된 AI에 대한 더 많은 연구에 영감을 주기를 희망한다.

 
구글, PaLM-E, AGI, 일반인공지능 관련기사목록
광고
광고
광고
광고
광고
광고
광고
많이 본 기사
AI로봇, 그레이스 아인슈타인 많이 본 기사