[GPT-4] 곧 나오는 GPT-4는 우선 2021년까지의 정보만으로 답을 하지않고 최근정보를 이용한다는 점이다. GPT-4에서 더 나은 정확도, 컴퓨팅 최적화, 낮은 편향 및 향상된 안전성을 기대하고 있음을 이미 입증했다.
우리는 AI 공간을 완전히 바꾸는 새로운 유형의 모델이 출시되는 놀라운 시대에 살고 있다. 2022년 7월 OpenAI는 최첨단 텍스트-이미지 모델인 DALLE2를 출시했다. 그리고 몇 주 후 Stability.AI는 Stable Diffusion 이라는 DALLE-2의 오픈소스 버전을 출시했다. 이 두 모델 모두 인기가 있으며 품질과 프롬프트 이해 능력 측면에서 유망한 결과를 보여주었다. 최근 OpenAI는 Whisper라는 자동음성인식(ASR) 모델을 도입했다. 견고성과 정확성 측면에서 다른 모든 모델을 능가했다. 추세를 보면 OpenAI가 앞으로 몇 달 안에 즉 2023년 중반에 GPT-4를 출시할 것이라고 가정할 수 있다. 시장에서 대규모 언어 모델에 대한 수요가 높으며 GPT-3의 인기는 사람들이 GPT-4에서 더 나은 정확도, 컴퓨팅 최적화, 낮은 편향 및 향상된 안전성을 기대하고 있음을 이미 입증했다. OpenAI는 출시나 기능에 대해 조용하지만 이 게시물에서는 AI 동향과 OpenAI에서 제공하는 정보를 기반으로 GPT-4에 대한 몇 가지 가정과 예측을 해본다. 또한 대규모 언어 모델과 그 응용에 대해 배울 것이다. GPT란 무엇일까?GPT(Generative Pre-trained Transformer)는 인터넷에서 사용할 수 있는 데이터로 훈련된 텍스트 생성 딥러닝 모델이다. 질문과 답변, 텍스트 요약, 기계 번역, 분류, 코드 생성, 대화 AI에 주로 사용된다. Python 기술 트랙에서 딥 러닝을 수강하여 딥 러닝 모델을 구축하는 방법을 배울 수 있다. 딥 러닝의 기초를 탐구하고 Tensorflow 및 Keras 프레임워크를 소개하며 Keras를 사용하여 여러 입력 및 출력 모델을 구축한다. GPT 모델에 대한 응용프로그램은 무궁무진하며 특정 데이터에 대해 미세 조정하여 더 나은 결과를 생성할 수도 있다. 변환기를 사용하면 컴퓨팅, 시간 및 기타 리소스에 대한 비용을 절약할 수 있다. GPT 전GPT-1 이전에는 대부분의 자연어 처리(NLP) 모델이 분류, 번역 등과 같은 특정 작업에 대해 훈련되었다. 모두 지도 학습을 사용하고 있었다. 이러한 유형의 학습에는 주석이 달린 데이터 부족과 작업 일반화 실패라는 두 가지 문제가 있다. GPT-1트랜스포머 아키텍처 | GPT-1 용지 GPT-1(117M 매개변수) 논문( Improving Language Understanding by Generative Pre-Training )은 2018년에 출판되었다. 레이블이 지정되지 않은 데이터에 대해 훈련되고 분류 및 감정 분석과 같은 특정 다운스트림 작업에 대해 미세 조정된 생성 언어모델을 제안했다. GPT-2다양한 작업에 대한 모델 성능 | GPT-2 용지 GPT-2(1.5B 매개변수) 논문( Language Models are Unsupervised Multitask Learners )은 2019년에 출판되었다. 훨씬 더 강력한 언어 모델을 구축하기 위해 더 많은 모델 매개변수가 있는 더 큰 데이터 세트에서 훈련되었다. GPT-2는 작업 조건화, Zero-Shot Learning 및 Zero Short Task Transfer를 사용하여 모델 성능을 개선한다. GPT-33개의 오픈 도메인 QA 작업 결과 | GPT-3 종이 GPT-3(175B 매개변수) 논문( Language Models are Few-Shot Learners )이 2020년에 출판되었다. 이 모델은 GPT-2보다 100배 더 많은 매개변수를 가지고 있다. 다운스트림 작업에서 좋은 결과를 얻기 위해 훨씬 더 큰 데이터 세트에서 훈련되었다. 인간과 같은 스토리 작성, SQL 쿼리 및 Python 스크립트, 언어 번역 및 요약으로 세상을 놀라게 했다. In-context learning, few-shot, one-shot, zero-shot 설정을 사용하여 최첨단 결과를 달성했다. 별도의 문서에서 GPT-3, 그 용도 및 사용을 시작하는 방법에 대해 자세히 알아볼 수 있다. GPT-4의 새로운 기능은 무엇일까?AC10 온라인 밋업의 질의 응답 세션에서 OpenAI의 CEO Sam Altman은 GPT-4 모델 출시에 대한 소문을 확인했다. 이 섹션에서는 해당 정보를 사용하고 이를 현재 추세와 결합하여 모델 크기, 최적의 매개변수 및 컴퓨팅, 다중 양식, 희소성 및 성능을 예측한다. 모델 크기Altman에 따르면 GPT-4는 GPT-3보다 훨씬 크지는 않을 것이다. 따라서 Deepmind의 언어 모델 Gopher 와 유사한 약 175B-280B 매개변수가 있을 것이라고 가정할 수 있다 . 대형 모델인 Megatron NLG 는 매개변수가 530B인 GPT-3보다 3배 더 크며 성능 면에서 초과하지 않았다. 더 높은 성능 수준에 도달한 후에 나온 더 작은 모델이다. 간단히 말해서 큰 크기가 더 높은 성능을 의미하는 것은 아니다. Altman은 더 작은 모델이 더 잘 작동하도록 만드는 데 집중하고 있다고 말했다. 대규모 언어 모델에는 대규모 데이터 세트, 대규모 컴퓨팅 리소스 및 복잡한 구현이 필요했다. 대형 모델을 배포하는 것조차 여러 회사에서 비용 효율성이 떨어진다. 최적의 매개변수화대형 모델은 대부분 최적화되지 않았다. 모델을 교육하는 데 비용이 많이 들고 회사는 정확성과 비용 사이에서 타협해야 한다. 예를 들어 GPT-3는 오류에도 불구하고 한 번만 훈련되었다. 감당할 수 없는 비용으로 인해 연구자들은 하이퍼파라미터 최적화를 수행할 수 없었다. Microsoft와 OpenAI는 GPT-3를 최적의 하이퍼파라미터로 교육하면 개선될 수 있음을 입증했다. 연구 결과, 최적화된 하이퍼파라미터가 있는 6.7B GPT-3 모델이 13B GPT-3 모델만큼 성능이 향상되었음을 발견했다. 그들은 더 작은 모델에 대한 최상의 하이퍼파라미터가 동일한 아키텍처를 가진 더 큰 모델에 대한 최상의 하이퍼파라미터와 동일하다는 새로운 매개변수화(μP)를 발견했다. 이를 통해 연구원들은 적은 비용으로 대형 모델을 최적화할 수 있었다. 최적의 컴퓨팅DeepMind는 최근 훈련 토큰의 수가 크기만큼 모델 성능에 영향을 미친다는 사실을 발견했다. 그들은 GPT-3 이후 Gopher보다 4배 작고 대형 언어모델보다 4배 더 많은 데이터를 가진 70B 모델을 Chinchilla 를 훈련시켜 이를 증명했다. 컴퓨팅 최적화 모델의 경우 OpenAI가 교육 토큰을 5조까지 늘릴 것이라고 안전하게 가정할 수 있다. 이는 모델을 훈련하고 최소 손실에 도달하는 데 GPT-3보다 10-20X FLOP가 필요함을 의미한다. GPT-4는 텍스트 전용 모델이 된다.Q&A 중에 Altman은 GPT-4가 DALL-E와 같은 다중 모드가 아닐 것이라고 말했다. 텍스트 전용 모델이 된다. 왜 그런 겁니까? 좋은 다중 모드는 언어 전용 또는 시각 전용에 비해 구축하기 어렵다. 텍스트와 시각적 정보를 결합하는 것은 어려운 작업이다. 또한 GPT-3 및 DALL-E 2보다 더 나은 성능을 제공해야 함을 의미한다. 따라서 우리는 GPT-4에서 멋진 것을 기대하지 않을 것이다. 희소성희소 모델은 컴퓨팅 비용을 줄이기 위해 조건부 계산을 사용한다. 이 모델은 높은 컴퓨팅 비용을 들이지 않고도 1조 개의 매개변수 이상으로 쉽게 확장할 수 있다. 더 낮은 리소스에서 대규모 언어 모델을 훈련하는 데 도움이 된다. 그러나 GPT-4는 희소 모델을 사용하지 않는다. 왜? 과거에 OpenAI는 항상 조밀한 언어 모델에 의존했으며 모델의 크기를 늘리지 않는다. AI 정렬GPT-4는 GPT-3보다 더 정렬됩니다. OpenAI는 AI 정렬에 어려움을 겪고 있다. 그들은 언어 모델이 우리의 의도를 따르고 우리의 가치를 고수하기를 원한다. 그들은 InstructGPT 교육을 통해 첫 걸음을 내디뎠다. 지침을 따르도록 인간의 피드백에 대해 훈련된 GPT-3 모델이다. 모델은 인간 심사 위원에 의해 GPT-3보다 더 나은 것으로 인식되었다. 언어 벤치마크에 관계없이 그렇다. GPT-4 출시일GPT-4 출시 날짜는 아직 미정이며 회사가 텍스트-이미지 및 음성 인식과 같은 다른 기술에 더 집중하고 있다고 가정할 수 있다. 따라서 2023년이나 내년이나 볼 수 있다. 확신할 수 없다. 우리가 확신할 수 있는 것은 다음 버전이 이전 버전의 문제를 해결하고 더 나은 결과를 제시할 것이라는 점이다. 결론GPT-4는 GPT-3과 비슷한 크기에서 더 나은 성능을 제공하는 텍스트 전용 대형 언어모델이다. 또한 인간의 명령 및 가치와 더 일치할 것이다. 100조 개의 매개변수로 구성되고 코드 생성에만 집중하는 GPT-4에 대해 상충되는 소식을 들을 수 있다. 그러나 현재로서는 모두 추측이다. 우리가 모르는 것이 훨씬 더 많으며 OpenAI는 출시 날짜, 모델 아키텍처, 크기 및 데이터 세트에 대해 구체적인 내용을 공개하지 않았다. GPT-3와 마찬가지로 GPT-4는 코드 생성, 텍스트 요약, 언어 번역, 분류, 챗봇, 문법 교정과 같은 다양한 언어 응용프로그램에 사용될 것이다. 모델의 새 버전은 더 안전하고, 편향되지 않고, 더 정확하고, 더 잘 정렬될 것이다. 또한 비용 효율적이고 견고하다. GPT-3 및 차세대 AI 기반 서비스를 읽고 GPT -3 애플리케이션에 대해 자세히 알아볼 수 있다.
<저작권자 ⓒ ainet 무단전재 및 재배포 금지>
|
많이 본 기사
3
챗GPT와 AI, 로봇 많이 본 기사
최신기사
|