광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

마인드봇 [GPT-4o: OpenAI, 더 잘 보고 말하는 더 빠르고 무료 AI 모델 공개] OpenAI의 최신 혁신 기술인 GPT-4o는 놀라운 오디오 기능으로 챗봇 경험을 재정의할 준비가 되어 있다.

https://interestingengineering.com/innovation/gpt-4o-openai-free-model

JM Kim | 기사입력 2024/05/17 [00:00]

마인드봇 [GPT-4o: OpenAI, 더 잘 보고 말하는 더 빠르고 무료 AI 모델 공개] OpenAI의 최신 혁신 기술인 GPT-4o는 놀라운 오디오 기능으로 챗봇 경험을 재정의할 준비가 되어 있다.

https://interestingengineering.com/innovation/gpt-4o-openai-free-model

JM Kim | 입력 : 2024/05/17 [00:00]

 

GPT-4o: OpenAI, 더 잘 보고 말하는 더 빠르고 무료 AI 모델 공개

 

OpenAI GPT-4의 반복인 최신 플래그십 생성 AI 모델 GPT-4o를 출시했으며 앞으로 몇 주 안에 개발자 및 소비자 중심 제품 전반에 걸쳐 단계적으로 출시될 예정이다.

OpenAI 본사에서 열린 기조 연설에서 CTO인 무리 무라티(Muri Murati)는 텍스트, 비전, 오디오 처리에 걸쳐 향상된 기능을 자랑하는 이전 버전인 GPT-4에 비해 GPT-4o의 발전을 강조했다.

무라티는 “GPT-4o는 음성, 텍스트, 시각 전반에서 원활하게 작동한다.”고 설명했다.

GPT-4는 이미지 및 텍스트 분석과 관련된 작업에 탁월했지만 GPT-4o는 음성 처리를 통합하여 기능 범위를 넓혔다.

 

자연스러운 인간-컴퓨터 상호작용

OpenAI에 따르면 GPT-4o("옴니"를 의미하는 "o")는 훨씬 더 자연스러운 인간-컴퓨터 상호 작용을 향한 한 단계이다. 텍스트, 오디오 및 이미지의 모든 조합을 입력으로 받아들이고 텍스트, 오디오, 그리고 이미지 출력. 232밀리초 이내에 오디오 입력에 응답할 수 있으며 평균 320밀리초가 소요된다. 이는 대화에서 인간의 응답 시간과 비슷하다.

영어 및 코드 텍스트의 GPT-4 Turbo 성능과 일치하며, 영어가 아닌 언어의 텍스트에 대한 상당한 개선이 이루어지며, API에서는 훨씬 빠르고 50% 저렴하다. GPT-4o는 특히 기존 모델에 비해 시각 및 청각 이해도가 더 뛰어나다.

 

이것이 사용자에게 정확히 무엇을 의미할까?

솔직히 꽤 많다.

GPT-4o OpenAI의 널리 인기 있는 AI 챗봇인 ChatGPT 경험을 크게 향상시킨다. 이제 사용자는 개인 비서와 마찬가지로 ChatGPT에 참여하여 질문하고 응답 중간에 중단할 수도 있다.

또한 OpenAI는 개선된 사용자 인터페이스와 함께 데스크톱 버전의 ChatGPT를 도입한다.

“우리는 이러한 모델이 점점 더 복잡해지고 있다는 점을 인식하고 있지만, 우리의 목표는 상호 작용 경험을 더욱 직관적이고 원활하게 만드는 것이다. 우리는 사용자가 UI로 인해 주의가 산만해지기보다는 GPT와의 협업에 집중하기를 원한다.”고 무라티는 강조했다.

GPT-4o는 또한 새로 추가된 양식에 의해 도입되거나 증폭되는 위험을 식별하기 위해 사회 심리학, 편견 및 공정성, 잘못된 정보 등의 영역에서 70명 이상의 외부 전문가로 구성된 광범위한 외부 레드팀을 거쳤다. OpenAI는 이러한 학습을 통해 GPT-4o와 상호 작용하는 안전성을 향상시키기 위한 안전 개입을 구축했다.

 

OpenAI 팀 구성원은 공개 연설 전에 신경을 진정시키는 데 도움을 요청하여 새 모델의 오디오 능력을 선보였다. 마크 첸(Mark Chen) 연구원은 사용자 방해에 대한 적응성을 언급하면서 감정을 측정하는 능력을 강조했다.

첸은 극적인 톤부터 로봇 같은 톤까지 다양한 톤으로 취침 시간 이야기를 요청하고 심지어 노래까지 요청하여 모델의 다재 다능함을 보여주었다.

이번 발표는 8 ChatGPT Enterprise 출시 이후 OpenAI의 중요한 이정표 중 하나이다. 20개가 넘는 회사의 의견을 바탕으로 1년 이내에 개발된 이 비즈니스 계층 챗봇 도구는 상당한 주목을 받았다.

 

생성 AI의 강력한 시장 규모

OpenAI Microsoft Google과 함께 생성 AI 영역에서 선두를 달리고 있다. 다양한 부문의 기업이 경쟁력을 유지하기 위해 AI 기반 챗봇을 서비스에 통합하기 위해 서두르고 있기 때문이다. OpenAI의 라이벌인 Anthropic은 최근 자사의 첫 번째 기업용 제품과 무료 iPhone 앱을 공개했다.

 

OpenAI는 성명을 통해우리는 GPT-4o의 오디오 방식이 다양한 새로운 위험을 안고 있다는 것을 알고 있다.”고 말했다. “오늘 우리는 텍스트 및 이미지 입력과 텍스트 출력을 공개적으로 출시한다. 앞으로 몇 주, 몇 달 동안 우리는 기술 인프라, 사후 교육을 통한 유용성, 다른 양식을 출시하는 데 필요한 안전성에 대해 작업할 것이다.”

예를 들어, 출시 시 오디오 출력은 사전 설정된 음성 선택으로 제한되며 기존 안전 정책을 준수한다. "우리는 곧 출시될 시스템 카드에서 GPT-4o의 모든 양식을 다루는 자세한 내용을 공유할 것이다."

 

피치북(PitchBook)에 따르면 생성 AI 시장은 2023년 약 700개 거래에 걸쳐 291억 달러라는 엄청난 투자를 기록했으며, 이는 전년도보다 260% 이상 급증한 수치이다. 예측에 따르면 시장 수익은 향후 10년 내에 1조 달러를 초과할 것으로 예상된다.

그러나 검증되지 않은 서비스의 신속한 배포에 대한 우려는 여전히 남아 있으며 학계와 윤리학자들은 이 기술이 편견을 영속시킬 가능성에 대해 우려하고 있다.

ChatGPT 2022 11월 출시 이후 약 1억 명의 주간 활성 사용자를 자랑하며 역사상 가장 빠르게 성장하는 소비자 앱이라는 기록을 경신했다. OpenAI는 포츈 500대 기업 중 92% 이상이 이 플랫폼을 사용하고 있다고 보고한다.

 

행복한 메모로 마무리

딥 코딩에 대한 모든 진지한 토론 중에 무라티는 청중의 몇 가지 질문에 답변했다. Chat GPT가 유창한 이탈리아어를 말하고 다시 영어로 번역했을 때 방은 웃음과 장난으로 가득 차 있었다.

글쎄, 더 많은 이야기가 있다. 다음에 셀카를 클릭하면 Chat GPT가 당신의 감정을 정확하게 평가할 수 있다. 셀카를 클릭하고 Chat GPT에 기분이 어떤지 물어보면 된다. Open AI 사람들의 경우에는 너무 행복해서 Chat GPT가 연구진에게 그들의 극도의 행복 이유를 물었다.

 

 

OpenAI는 모든 사람에게 ChatGPT-4o를 제공합니다.

속보: OpenAI가 발표한 ChatGPT-4o (“omni”의 경우 “o”)는 가장 빠르고 스마트하며 가장 다양한 모드를 갖춘 AI입니다. 여기에서 전체 데모를 시청하세요 .

ChatGPT-4o는 데스크톱 앱으로 모든 사람에게 무료 로 제공될 예정(곧). 네, 결과적으로 모든 사람이 GPT-4o와 GPT를 사용할 수 있다. 이는 Claude Pro 또는 Gemini Ultra 구독을 다시 생각해보고 싶을 수도 있음을 의미한다.

ChatGPT+ 사용자는 5배 더 많은 사용량으로 GPT-4o를 처음으로 체험하게 된다.

더욱 다양한 기능을 제공합니다. 이 새로운 ChatGPT는 단지 IQ만 높은 것이 아니다( LMSYS 순위표에서 단연 1위를 차지 ). 그것은 우리처럼 말하고 볼 수 있다.

첫째, 이야기하기. 우리는 잠시 동안 말할 수 있는 컴퓨터를 갖고 있지만 진정한 대화처럼 느껴지지는 않았습니다. 말하고, 멈추고, 응답하고, 멈추고, 반복하는 주기에 더 가깝다.

음성 모드는 실제 사람과 대화하는 듯한 느낌을 줍니다. 말투, 언어, 표정을 실시간으로 캡처한다. 많은 사람들이 그것을 실제 그녀 (모든 데모의 목소리는 실제로 스칼렛 요한슨일 수도 있음)라고 묘사한다.

여기에서 무엇을 할 수 있는지 알아보자:

  • 실시간 언어 번역( 링크 ).

  • 실시간 대화 음성( 링크 ).

  • 자장가와 속삭임( 링크 ).

  • 풍자( 링크 ).

  • 노래도 불러요( 링크 )!

그것은 믿을 수 없을 정도로 인간과 비슷하다. 아마도 너무 많이 그럴 것. 하지만 이는 일반적으로 Siri를 사용하여 시도하는 작업의 경우 ChatGPT를 대신 사용해야 함을 의미한다. 그리고 새로운 데스크톱 앱을 사용하면 음성 모드는 입력하는 것보다 말로 설명하는 것이 더 나은 시나리오에 적합합니다. 공공장소에서는 내부 목소리를 활용하는 것을 잊지 마세요!

다음은 Google SGE 에서 제공하는 ChatGPT를 홈 화면에 위젯으로 추가하는 방법에 대한 빠른 가이드이다 .

둘째, ChatGPT-4o에는 실시간 20/20 비전이 있다 . 즉, 작업하는 동안 사진, 스크린샷 및 문서를 해석할 수 있다. 예를 들어:

  • Sal Khan의 아들은 자신의 iPad 화면을 공유하고 있으며 ChatGPT-4o가 실시간으로 문제 해결을 도와준다( 링크 ).

  • 물체를 식별하고 스페인어로 말하는 방법을 알려줄 수 있다( 링크 ).

  • 복사하여 붙여넣은 코드( 링크 )를 설명할 수 있다.

  • 상위 데모: Be My Eyes + GPT-4o는 시각 장애인이 앞에 무엇이 있는지 "볼" 수 있도록 돕고 이용 가능한 택시에 신호를 보내기도 한다( 링크 ).

중요한 이유: 이러한 모든 새로운 기능은 함께 새로운 사용 사례를 열어줄 것이며, 작업하는 동안 화면을 볼 수 있는 매우 유용한 작업 도우미로 통합된다는 점에 대해 많은 기대를 갖고 있다.

다음 가능성을 고려하자.

  • PowerPoint를 업로드하고 ChatGPT-4o가 레이아웃 조정을 제안하고, 슬라이드 제목을 바꾸고, 디자인을 개선하도록 하자.

  • ChatGPT-4o를 사용하여 스프레드시트를 검사하고 추세, 이상 또는 불일치를 강조하세요. 또는 기술 지원을 위해.

  • GPT-4o는 제품 설치 또는 설정에 대한 시각적인 단계별 지침을 통해 고객을 안내할 수 있다.

데모에 없는 기타 업데이트( 여기 참조 ):

  1. 개발자 의 경우 GPT-4o는 GPT-4-turbo보다 ​​가격이 절반이고 속도가 두 배 빠르며 속도 제한이 5배입니다.

  2. DALL-E 3 이미지에서 텍스트를 올바르게 쓰는 것이 훨씬 더 좋습니다.

  3. 글꼴을 생성할 수 있습니다.

  4. 3D 시각화를 생성할 수 있습니다.

 

OpenAI 데모에 대한 Pete의 확장된 분석과 새로운 데스크톱 앱이 판도를 바꾸는 이유( Apple Podcasts , Spotify , YouTube )를 확인하세요.

 

 

  

 
생성AI, ChatGPT, GPT-4O, 인간-컴퓨터 상호작용 관련기사목록
광고
광고
광고
광고
광고
광고
많이 본 기사
AiMindbot과 미래 우주 많이 본 기사
최신기사