현재 우리가 보고 있는 것보다 AI에서 더 많은 진전이 목격된 경우는 거의 없다. 이것은 가까운 미래에 무엇을 가져올지에 대한 많은 과대 광고와 추측이 있는 이 분야에 분명히 예외적인 시간이다.
Google의 PaLM-E가 최근에 출시된 후 수많은 다른 개발과 함께 일부 미래학자들은 소위 인공 일반 지능(AGI) 또는 적어도 원시 AGI가 임박했을 수 있다고 생각한다. 그러한 이정표는 기계가 이제 인지 능력과 신체 능력 모두에서 인간을 빠르게 따라잡고 있다는 명확하고 심오한 신호가 될 것이다.
이러한 주장이 과장되었는지 여부는 여전히 남아 있다. 그러나 가장 열렬한 회의론자조차도 최근의 기술적 혁신이 이전의 기대치를 뛰어넘었다는 점을 확실히 인정해야 한다.
이제 또 한 주가 지나갔고 정말 한 주가 지났다. 지난 7일 동안 AI의 주요 기업과 연구팀이 발표한 내용 중 일부만 살펴보겠다.
Alpaca 7B
월요일에 캘리포니아 스탠포드 대학의 팀은 Alpaca 7B라는 새로운 언어 모델을 출시했다. 이는 OpenAI의 ChatGPT와 유사한 성능을 제공하지만 비용과 컴퓨팅 요구 사항이 훨씬 낮다.
보도 자료에서 설명했듯이 학계는 GPT-3 및 ChatGPT와 같은 대형 모델에 대해 연구하고 실험을 수행하기를 원한다. OpenAI의 text-davinci-003과 같은 소스 모델이다.
따라서 그들은 그들만의 (유사한) 버전을 만들었다. 연구원들은 GPT-3 및 ChatGPT를 실행하는 데 사용되는 시스템인 text-davinci-003을 "프라이밍"하여 52,000개의 훨씬 더 큰 데이터 세트를 생성하는 175개의 인간 작성 시드 작업을 수행했다. 그런 다음 이 데이터를 사용하여 Meta가 최근에 발표한 LLaMA 모델의 70억 매개변수 변형을 미세 조정했다.
초기 교육 실행은 8개의 NVIDIA A100 그래픽 처리 장치(GPU)에서 3시간이 걸렸다. 각각 메모리는 80GB이며 대부분의 클라우드 컴퓨팅 제공업체에서 100달러 미만이다.
Alpaca 7B와 OpenAI의 text-davinci-003 사이의 블라인드 비교 테스트에서 연구원들은 "이 두 모델은 매우 유사한 성능을 가지고 있다. Alpaca는 text-davinci-003과 비교하여 90번 대 89번의 비교에서 승리했다.
즉, 스탠포드 팀은 상대적으로 작지만 GPT-3 모델과 유사한 기능을 보여주는 모델을 구축했다. 또한 LLaMA는 최대 650억 개의 매개변수를 사용할 수 있으므로 연구원은 가까운 장래에 GPT-4와 같은 성능을 능가할 수 있는 보다 강력한 Alpaca 버전을 구축할 수 있다. 그러나 그들은 그들의 프로그램이 학술 연구만을 위한 것이며 현재로서는 어떠한 상업적 사용도 금지되어 있다고 강조한다.
Med-PaLM 2
화요일, Google은 의료 텍스트용 대형 언어 모델(LLM)인 Med-PaLM 2를 출시했다. 이것은 광범위한 건강 관련 주제에 대한 질문에 답하고 자세한 답변을 제공함으로써 가상 의사처럼 기능할 수 있다.
Google은 2022년 4월 오리지널 PaLM(Pathways Language Model)을 발표했다.] 5,400억 개의 방대한 매개변수(GPT-3 크기의 3배)로 상식 추론, 수학, 농담 설명, 코드 생성 및 번역과 같은 다양한 작업을 수행할 수 있다.
Google과 DeepMind는 의료 데이터를 미세 조정한 Med-PaLM이라는 버전도 개발했다. 이전 모델을 능가하는 성능으로 미국 의료 면허 문제에서 합격 점수를 얻은 최초의 AI가 되었다. 객관식 질문과 개방형 질문 모두에 정확하게 답하는 것 외에도 추론과 자체 응답을 평가할 수 있는 능력도 제공했다.
Med-PaLM은 67.2%의 의료 합격 점수를 달성했지만 그 후속 제품은 훨씬 더 능력이 있다. Google은 Med-PaLM 2가 건강 검진 질문에 대해 "전문가" 수준에서 일관되게 수행하며 85.4%의 점수로 18% 이상 향상되었다고 보고했다.
프레젠테이션에서 회사는 "폐렴의 첫 번째 경고 징후는 무엇입니까?"와 같은 예를 제공했다. 그리고 "요실금을 치료할 수 있습니까?" – Med-PaLM 2가 올바르게 응답했으며 경우에 따라 인간 임상의보다 더 자세한 응답을 제공했다.
그러나 의료 정보의 민감한 특성을 고려할 때 Google은 이 모델을 기반으로 하는 의료용 챗봇이 주류로 사용되기 전에 더 많은 작업이 필요하다고 경고한다.
Google Health의 수석 연구원인 Alan Karthikesalingam 박사는 "여기의 잠재력은 엄청나다."라고 말했다. "그러나 실제 응용 프로그램을 책임감 있고 윤리적인 방식으로 탐색하는 것이 중요하다."
GPT-4
또한 화요일에 OpenAI는 GPT-4(Generative Pre-trained Transformer 4)의 출시를 발표했다. 이는 2022년 11월에 출시된 ChatGPT와 2020년 초기 GPT-3에 이은 것이다.
이전 제품에 비해 크게 개선된 GPT-4는 이제 텍스트와 이미지 입력을 모두 받아들일 수 있다. OpenAI는 업데이트된 기술이 응시자의 상위 10% 점수로 모의 로스쿨 변호사 시험을 통과할 수 있다고 보고한다. 반면 GPT-3.5는 하위 10%로 떨어졌다. GPT-4는 최대 25,000단어(GPT-3.5의 경우 3,000단어, GPT-3의 경우 단 1,500단어) 또는 50페이지 문서에 해당하는 텍스트를 읽고 분석하거나 생성할 수 있다. 또한 모든 주요 프로그래밍 언어로 코드를 작성한다.
OpenAI는 GPT-4가 "GPT-3.5보다 더 안정적이고 창의적이며 훨씬 더 미묘한 지침을 처리할 수 있다"고 말한다. 시각적 정보로 작업한다는 것은 예를 들어 특이한 이미지로 유머를 설명하거나 스크린샷 텍스트를 요약하거나 다이어그램이 포함된 시험 문제에 답할 수 있음을 의미한다.
특히 인상적인 한 예에서 OpenAI의 사장 겸 공동 설립자인 Greg Brockman은 휴대전화로 목업 스케치를 촬영한 다음 GPT-4의 알고리즘을 통과했다. 몇 초 만에 Brockman의 손으로 쓴 텍스트를 해석하고 완벽하게 작동하는 웹 사이트에 필요한 모든 HTML 코드와 JavaScript를 생성했다.
GPT-4는 일반 머신러닝 벤치마크에서 채팅 GPT-3보다 최대 16% 성능이 우수하고 다국어 작업에서 훨씬 뛰어나므로 비영어권 사용자가 더 쉽게 액세스할 수 있다. 이전 버전의 많은 안전 및 보안 문제도 해결되었다.
OpenAI는 "GPT-4의 동작을 개선하기 위해 ChatGPT 사용자가 제출한 피드백을 포함하여 더 많은 사람의 피드백을 통합했다. 또한 AI 안전 및 보안을 포함한 영역에서 초기 피드백을 위해 50명 이상의 전문가와 협력했다."라고 말했다. "우리는 6개월 동안 GPT-4를 더 안전하고 정렬되도록 만들었다. GPT-4는 내부 평가에서 GPT-3.5보다 허용되지 않는 콘텐츠에 대한 요청에 응답할 가능성이 82% 낮고 사실적인 응답을 생성할 가능성이 40% 더 높다."
그러나 OpenAI는 기술적 세부 사항과 관련하여 폐쇄적 접근 방식을 유지한다는 비판을 받아왔다. 예를 들어 매개 변수 수와 하드웨어 사양은 현재로서는 미스터리로 남아 있다. AI 커뮤니티 Hugging Face의 연구 과학자인 Sasha Luccioni는 이 모델이 다른 사람들이 GPT-4의 개선 사항을 기반으로 구축하는 것을 방지하는 폐쇄적 특성으로 인해 과학계의 "막다른 길"이라고 주장한다. Hugging Face의 공동 창립자 Thomas Wolf는 GPT-4를 통해 "OpenAI는 이제 제품에 대한 보도 자료와 유사한 과학적 커뮤니케이션을 갖춘 완전히 폐쇄된 회사"라고 말한다. OpenAI는 "경쟁 환경과 대규모 모델의 안전성 영향"이 이 결정에 영향을 미친 요인이라고 설명했다.
GPT-4는 ChatGPT Plus를 통해 제한된 형식으로 공개적으로 사용할 수 있으며 구독료는 월 $20이다. OpenAI는 API 대기자 명단을 통해 선별된 지원자 그룹에게도 제공하고 있다.
언어 학습을 위한 온라인 서비스인 Duolingo도 GPT-4를 애플리케이션에 통합했지만 현재는 프랑스어나 스페인어를 공부하는 영어 사용자에게만 작동한다.
Midjourney 5
수요일, 샌프란시스코에 기반을 둔 연구소 Midjourney, Inc.는 회사 자체와 동일한 이름을 공유하는 이미지 생성 프로그램의 주요 업데이트를 발표했다. Midjourney는 AI를 사용하여 OpenAI의 DALL·E 및 Stable Diffusion과 유사하게 사용자가 입력한 프롬프트에서 무한해 보이는 다양한 이미지를 생성한다. 2022년 3월에 처음 출시된 비교적 새롭지만 이미 수많은 개선을 거쳤다. 지난 주 발표에서는 버전 5.0까지 올라갔다.
회사는 또한 새로운 인쇄 매체 Midjourney Magazine의 출시를 발표했다. 매월 게시되며 최고의 이미지 및 프롬프트와 함께 커뮤니티 인터뷰를 제공한다. 초판은 체크아웃 시 프로모션 코드 "구독자"를 사용하는 모든 사람에게 무료로 제공되며 후속 호는 개당 $4에 가격이 책정된다.
이전 버전과 마찬가지로 Midjourney V5는 공식 Discord 서버의 Discord 봇을 통해서만 액세스할 수 있으며, 봇에게 직접 메시지를 보내거나 봇을 타사 서버에 초대해야 한다. 이 프로그램은 무료가 아니며 유료 구독이 필요하다. Basic($8/월), Standard($24/월) 및 Pro($48/월)의 3가지 계층이 있다.
사용자가 액세스 권한을 받으면 Discord 채팅 상자에 입력된 프롬프트를 통해 원하는 이미지 종류를 간단히 설명할 수 있다. 그런 다음 AI는 거대한 사진 및 일러스트레이션 데이터베이스를 검색하여 다양한 물체와 테마를 병합하여 가장 적합한 출력물을 생성하며 종종 초현실적인 결과를 제공한다.
Midjourney의 창립자 David Holz에 따르면 V5에는 V4에 비해 많은 개선 사항이 포함되어 있다. 이제 훨씬 더 넓은 스타일 범위, 두 배의 해상도, 정확할 가능성이 높은 높은 수준의 세부 정보(예: 사람의 손이 이제 올바르게 렌더링됨) 및 원치 않는 텍스트가 줄어든다. 최종 결과를 조정할 수 있는 새로운 옵션(매끄러운 타일링, 종횡비 및 이미지 프롬프트 대 텍스트 프롬프트의 "가중치")을 사용하여 프롬프트도 향상되었다.
그러나 그 기능은 정말 인상적이지만 Midjourney는 예술가의 작품 사용에 대한 우려로 논란이 되고 있다. 지난 1월 사라 앤더슨(Sarah Andersen), 켈리 맥커넌(Kelly McKernan), 칼라 오티즈(Karla Ortiz) 등 3명의 아티스트는 50억 이미지에 대해 AI 도구를 훈련시켜 수백만 명의 아티스트의 권리를 침해하고 있다고 주장하며 회사와 Stability AI 및 DeviantArt를 상대로 저작권 소송을 제기했습니다. 원본 아티스트의 동의 없이 웹에서 스크랩했다.
Microsoft 365 Copilot
목록의 마지막 항목은 Microsoft 365 Copilot이다. 이 새로운 AI 도우미는 Word, Excel, PowerPoint 및 Outlook과 같은 생산성 프로그램 제품군을 포함하는 Microsoft 365 응용 프로그램 및 서비스의 기능이 될 것이다.
앞에서 이미 설명한 OpenAI의 GPT-4 모델을 Microsoft Graph와 결합하여 다양한 작업에서 사용자를 지원한다.
Copilot은 "Clippy"로 알려진 Microsoft의 단종된 개인 비서와 비교되었다. 이전 소프트웨어 도구보다 훨씬 더 많은 기능을 제공할 것이다.
Copilot은 테스트에서 인상적인 결과를 보여주었다. GitHub 개발 플랫폼의 데이터에 따르면 사용자의 88%가 더 생산적이며 74%는 더 만족스러운 작업에 집중할 수 있다고 말하고 77%는 정보나 예제를 검색하는 데 소요되는 시간을 줄이는 데 도움이 된다고 말한다.
Microsoft 회장 겸 CEO인 사티아 나델라(Satya Nadella)는 "오늘은 우리가 컴퓨팅과 상호 작용하는 방식의 진화에서 다음 주요 단계로, 우리가 일하는 방식을 근본적으로 바꾸고 생산성 성장의 새로운 물결을 열 것"이라고 말했다. "업무용 새 부조종사를 통해 우리는 사람들에게 더 많은 선택권을 부여하고 가장 보편적인 인터페이스인 자연어를 통해 기술에 더 쉽게 접근할 수 있도록 하고 있다."