책 [ChatGPT를 넘어서; AI 에이전트: 작업자의 새로운 세계] 딥 러닝, 자연어 처리(NLP), AI의 발전으로 우리는 AI 에이전트가 글로벌 인력의 상당 부분을 차지할 수 있는 시대에 와 있다. 챗봇과 음성 비서를 넘어서는 AI 에이전트는 산업과 일상생활 모두에 새로운 패러다임을 만들어가고 있다. 그러나 이러한 "노동자"로 인해 강화된 세상에 산다는 것은 실제로 무엇을 의미하는지 진화하는 환경에 대해 자세히 알아보고 앞으로 있을 의미, 잠재력 및 과제를 평가한다.https://www.unite.ai/beyond-chatgpt-ai-agent-a-new-world-of-workers/간략한 요약: AI 작업자의 진화 임박한 혁명을 이해하기 전에 이미 발생한 AI 중심 진화를 인식하는 것이 중요하다. ●기존 컴퓨팅 시스템: 기본 컴퓨팅 알고리즘부터 여정이 시작되었다. 이러한 시스템은 고정된 규칙 세트를 사용하여 사전 정의된 작업을 해결할 수 있다. ●챗봇 및 초기 음성 도우미: 기술이 발전함에 따라 인터페이스도 발전했다. Siri, Cortana 및 초기 챗봇과 같은 도구는 사용자-AI 상호 작용을 단순화했지만 이해력과 기능이 제한되었다. ●신경망 및 딥 러닝: 신경망은 인간의 두뇌 기능을 모방하고 경험을 통해 진화하는 전환점을 맞았다. 딥러닝 기술은 이를 더욱 향상시켜 정교한 이미지와 음성 인식을 가능하게 했다. ●변환기 및 고급 NLP 모델: 변환기 아키텍처의 도입은 NLP 환경에 혁명을 일으켰다.
OpenAI의 ChatGPT, BERT, T5와 같은 시스템은 인간-AI 커뮤니케이션에 획기적인 발전을 가져왔다. 언어와 맥락에 대한 깊은 이해를 통해 이러한 모델은 의미 있는 대화를 나누고, 콘텐츠를 작성하고, 복잡한 질문에 전례 없는 정확성으로 답변할 수 있다.
AI 에이전트 입력: 단순한 대화 그 이상 오늘날의 AI 환경은 대화 도구보다 더 광범위한 것을 암시하고 있다. 이제 AI 에이전트는 단순한 채팅 기능을 넘어 작업을 수행하고, 주변 환경에서 학습하고, 의사 결정을 내리고, 창의성을 발휘할 수도 있다. 그들은 단지 질문에 대답하는 것이 아니다. 그들은 문제를 해결하고 있다.
기존 소프트웨어 모델은 명확한 경로에서 작동했다. 이해관계자는 소프트웨어 관리자에게 목표를 표현했고, 소프트웨어 관리자는 구체적인 계획을 설계했다. 엔지니어는 코드 라인을 통해 이 계획을 실행한다. 소프트웨어 기능의 이러한 '레거시 패러다임'은 인간의 개입이 너무 많이 포함되어 명확했다.
그러나 AI 에이전트는 다르게 작동한다. 에이전트: 1. 달성하고자 하는 목표가 있다. 2. 환경과 상호작용할 수 있다. 3. 이러한 관찰을 바탕으로 목표 달성을 위한 계획을 수립한다. 4. 환경의 변화하는 상태에 따라 접근 방식을 조정하여 필요한 조치를 취한다.
AI 에이전트가 기존 모델과 진정으로 구별되는 점은 목표 실현을 위한 단계별 계획을 자율적으로 생성하는 능력이다. 본질적으로 초기에는 프로그래머가 계획을 제공했지만 오늘날의 AI 에이전트는 경로를 계획한다.
일상적인 예를 생각해보자. 전통적인 소프트웨어 설계에서 프로그램은 미리 결정된 조건에 따라 기한이 지난 작업에 대해 사용자에게 알린다. 개발자는 제품 관리자가 제공한 사양에 따라 이러한 조건을 설정한다.
AI 에이전트 패러다임에서는 에이전트 자체가 사용자에게 알릴 시기와 방법을 결정한다. 환경(사용자의 습관, 애플리케이션 상태)을 측정하고 최선의 조치를 결정한다. 따라서 프로세스는 순간적으로 더욱 역동적이게 된다.
ChatGPT는 플러그인 통합을 통해 기존 사용 방식에서 벗어나 외부 도구를 활용하여 여러 요청을 수행할 수 있게 되었다. 이는 에이전트 개념의 초기 표현이 되었다. 간단한 예를 생각해 보면, 뉴욕시의 날씨에 대해 문의하는 사용자는 플러그인을 활용하여 ChatGPT가 외부 날씨 API와 상호 작용하고, 데이터를 해석하고, 수신된 응답을 기반으로 경로를 수정할 수도 있다.
AI 에이전트의 현재 환경 Auto-GPT, AgentGPT 및 BabyAGI를 포함한 AI 에이전트는 광대한 AI 세계에서 새로운 시대를 예고하고 있다. ChatGPT는 인간의 입력을 요구하여 생성 AI를 대중화했지만, AI 에이전트의 비전은 AI가 독립적으로 작동하여 인간의 간섭이 거의 또는 전혀 없이 목표를 향해 나아갈 수 있도록 하는 것이다. 이러한 혁신적인 잠재력은 Auto-GPT가 시작된 지 불과 6주 만에 GitHub에서 107,000개 이상의 별을 획득하는 등 엄청난 성장을 통해 강조되었다. 이는 데이터 과학 패키지 'pandas'와 같은 기존 프로젝트에 비해 전례 없는 성장이다.
AI 에이전트와 ChatGPT Auto-GPT 및 BabyAGI와 같은 많은 고급 AI 에이전트는 GPT 아키텍처를 활용한다. 이들의 주요 초점은 AI 작업 완료에 있어 인간 개입의 필요성을 최소화하는 것이다. "GPT on a loop"와 같은 설명 용어는 AgentGPT 및 BabyAGI와 같은 모델의 작동을 특징으로 한다. 사용자 요청을 더 잘 이해하고 결과를 개선하기 위해 반복적인 주기로 작동한다. 한편 Auto-GPT는 인터넷 액세스와 코드 실행 기능을 통합하여 문제 해결 범위를 크게 넓혀 경계를 더욱 넓힌다.
AI 에이전트의 혁신
1.장기 기억: 기존 LLM은 메모리가 제한되어 있어 최근 상호 작용 부분만 유지한다. 포괄적인 작업의 경우 전체 대화 또는 이전 대화를 기억하는 것이 중요하다. 이를 극복하기 위해 AI 에이전트는 임베딩 워크플로를 채택하여 텍스트 대화를 숫자 배열로 변환하고 메모리 제약에 대한 솔루션을 제공한다. 2.웹 탐색 기능: 최근 이벤트에 대한 최신 정보를 유지하기 위해 Auto-GPT는 Google 검색 API를 사용하여 탐색 기능을 갖추고 있다. 이로 인해 AI 지식의 범위에 관해 AI 커뮤니티 내에서 논쟁이 벌어졌다. 3.코드 실행: Auto-GPT는 코드 생성 외에도 셸 코드와 Python 코드를 모두 실행할 수 있다. 이 전례 없는 기능을 통해 다른 소프트웨어와 인터페이스할 수 있어 작동 영역이 확장된다. 다이어그램은 대규모 언어 모델 및 에이전트로 구동되는 AI 시스템의 아키텍처를 시각화한다. ●입력: 시스템은 직접 사용자 명령, 구조화된 데이터베이스, 웹 콘텐츠, 실시간 환경 센서 등 다양한 소스로부터 데이터를 수신한다. ●LLM 및 에이전트: 핵심에서 LLM은 사고 연결을 위한 Auto-GPT, 웹 관련 작업을 위한 AgentGPT, 작업별 작업을 위한 BabyAGI, 팀 기반 처리를 위한 HuggingGPT와 같은 전문 에이전트와 협력하여 이러한 입력을 처리한다. ●출력: 일단 처리되면 정보는 사용자 친화적인 형식으로 변환된 다음 외부 환경에 영향을 미치거나 영향을 미칠 수 있는 장치로 전달된다. ●메모리 구성 요소: 시스템은 단기 캐시와 장기 데이터베이스를 통해 임시 및 영구적으로 정보를 유지한다. ●환경: 센서에 영향을 미치고 시스템 동작의 영향을 받는 외부 영역이다.
고급 AI 에이전트: Auto-GPT, BabyAGI 등 AutoGPT 및 AgentGPT 2023년 3월 GitHub에 출시된 아이디어인 AutoGPT는 OpenAI의 혁신적인 생성 모델인 GPT의 기능을 활용하는 독창적인 Python 기반 애플리케이션이다. Auto-GPT가 이전 버전과 다른 점은 자율성이다. 즉, 최소한의 인간 안내로 작업을 수행하도록 설계되었으며 프롬프트를 자체적으로 시작하는 고유한 기능이 있다. 사용자는 단순히 중요한 목표를 정의하기만 하면 Auto-GPT는 해당 목표를 달성하는 데 필요한 프롬프트를 작성하여 진정한 인공 일반 지능(AGI)을 향한 잠재적인 혁명적인 도약을 가능하게 한다.
GPT-3.5를 사용하여 인터넷 연결, 메모리 관리 및 파일 저장 기능을 포괄하는 기능을 갖춘 이 도구는 이메일 작성과 같은 기존 작업부터 일반적으로 훨씬 더 많은 사람의 개입이 필요한 복잡한 작업에 이르기까지 광범위한 작업을 처리하는 데 능숙하다. 반면, 마찬가지로 GPT 프레임워크를 기반으로 구축된 AgentGPT는 설정 및 사용에 광범위한 코딩 전문 지식이 필요하지 않은 사용자 중심 인터페이스이다. AgentGPT를 사용하면 사용자는 AI 목표를 정의한 다음 이를 관리 가능한 작업으로 분류할 수 있다.
LangChain은 LLM(대형 언어 모델)을 다양한 도구와 연결하고 종종 '봇'으로 인식되는 에이전트를 활용하여 적절한 도구를 선택하여 특정 작업을 결정하고 실행하는 프레임워크이다. 이러한 에이전트는 외부 리소스와 원활하게 통합되는 반면 LangChain의 벡터 데이터베이스는 구조화되지 않은 데이터를 저장하여 LLM에 대한 신속한 정보 검색을 촉진한다.
BabyAGI 다음으로는 간단하면서도 강력한 에이전트인 BabyAGI가 있다. BabyAGI의 기능을 이해하려면 주어진 목표에 초점을 맞춰 작업을 자율적으로 생성, 구성 및 실행하는 디지털 프로젝트 관리자를 상상해 보라. 대부분의 AI 기반 플랫폼은 사전 훈련된 지식으로 제한되어 있지만 BabyAGI는 경험에 적응하고 학습하는 능력이 뛰어나다. 이는 피드백을 식별하고 인간과 마찬가지로 시행착오를 바탕으로 결정을 내릴 수 있는 심오한 능력을 보유하고 있다. 특히 BabyAGI의 근본적인 강점은 적응성뿐 아니라 특정 목표를 위한 코드 실행 능력에도 있다. 암호화폐 거래, 로봇공학, 자율주행과 같은 복잡한 영역에서 빛을 발하며 수많은 애플리케이션에서 다재다능한 도구로 활용된다.
프로세스는 세 가지 에이전트로 분류될 수 있다. 1.실행 에이전트: 시스템의 핵심인 이 에이전트는 작업 처리를 위해 OpenAI의 API를 활용한다. 목표와 작업이 주어지면 OpenAI의 API를 호출하고 작업 결과를 검색한다. 2.작업 생성 에이전트: 이 기능은 이전 결과와 현재 목표를 기반으로 새로운 작업을 생성한다. OpenAI의 API로 프롬프트가 전송되고, 그러면 사전 목록으로 구성된 잠재적인 작업이 반환된다. 3.작업 우선순위 지정 에이전트: 마지막 단계에는 우선순위에 따라 작업 순서를 지정하는 작업이 포함된다. 이 에이전트는 OpenAI의 API를 사용하여 작업 순서를 변경하여 가장 중요한 작업이 먼저 실행되도록 한다.
OpenAI의 언어 모델과 협력하여 BabyAGI는 상황 중심 작업 결과 저장 및 검색을 위해 Pinecone의 기능을 활용한다. 아래는 이 링크를 사용한 BabyAGI의 데모이다. 시작하려면 유효한 OpenAPI 키가 필요하다. 간편한 액세스를 위해 UI에는 OpenAPI 키를 입력할 수 있는 설정 섹션이 있다. 또한 비용을 관리하려는 경우 반복 횟수에 대한 제한을 설정하는 것을 잊지 말아야 한다. 애플리케이션을 구성한 후 작은 실험을 수행했다. BabyAGI에 다음과 같은 메시지를 게시했다. "개인 성장의 여정에 초점을 맞추고 이정표, 과제 및 지속적인 학습의 혁신적인 힘을 다루면서 간결한 트윗 스레드를 작성하라."
BabyAGI는 신중한 계획으로 응답했다. 이는 단순한 템플릿이 아니라 기본 AI가 실제로 요청의 뉘앙스를 이해했음을 나타내는 포괄적인 로드맵이었다.
Deepnote AI Copilot Deepnote AI Copilot은 노트북에서 데이터 탐색의 역학을 재편한다. 그러나 무엇이 그것을 구별하는가? Deepnote AI의 핵심은 데이터 과학자의 작업 흐름을 강화하는 것을 목표로 한다. 기초적인 지침을 제공하는 순간 AI는 행동에 나서 전략을 고안하고, SQL 쿼리를 실행하고, Python을 사용하여 데이터를 시각화하고, 그 결과를 명확한 방식으로 제시한다. Deepnote AI의 강점 중 하나는 작업 공간을 포괄적으로 파악한다는 것이다. 통합 스키마와 파일 시스템을 이해함으로써 실행 계획을 조직 상황에 완벽하게 맞추고 통찰력이 항상 관련되도록 보장한다.
AI와 노트북 매체의 통합은 고유한 피드백 루프를 생성한다. 코드 출력을 적극적으로 평가하여 자체 수정에 능숙하고 결과가 설정된 목표와 일치하는지 확인한다. Deepnote AI는 프로세스에 대한 명확한 통찰력을 제공하여 투명한 운영을 자랑한다. 코드와 출력이 서로 얽혀 있어 작업이 항상 책임 있고 재현 가능하다.
CAMEL CAMEL은 최소한의 인간 감독으로 효율적인 작업 완료를 목표로 AI 에이전트 간의 협업을 촉진하는 프레임워크이다.
●AI 사용자 에이전트는 지침을 제시한다. ●AI 보조 에이전트는 제공된 지시어에 따라 작업을 실행한다. CAMEL의 열망 중 하나는 여러 에이전트 간의 시너지 효과를 최적화하는 것을 목표로 AI 사고 프로세스의 복잡성을 해결하는 것이다. 역할극 및 시작 프롬프트와 같은 기능을 통해 AI 작업이 인간의 목표와 원활하게 일치하도록 보장한다.
Westworld 시뮬레이션: AI 속 삶 Unity 소프트웨어와 같은 영감에서 파생되고 Python에 적용되는 Westworld 시뮬레이션은 거의 디지털 사회처럼 여러 AI 에이전트가 상호 작용하는 환경을 시뮬레이션하고 최적화하는 도약이다.
이러한 에이전트는 단순한 디지털 개체가 아니다. 일상생활부터 복잡한 사회적 상호작용까지, 믿을 수 있는 인간 행동을 시뮬레이션한다. 그들의 아키텍처는 대규모 언어 모델을 확장하여 경험을 저장하고 반영하며 동적 행동 계획을 위해 사용한다. The Sims를 연상시키는 Westworld의 대화형 샌드박스 환경은 생성 에이전트가 거주하는 마을에 생기를 불어넣는다. 여기에서 사용자는 하루 종일 이러한 에이전트와 상호 작용하고, 관찰하고, 안내하면서 긴급 행동과 복잡한 사회적 역학을 관찰할 수 있다. Westworld 시뮬레이션은 계산 능력과 인간과 같은 복잡성의 조화로운 융합을 보여준다. 방대한 언어 모델과 동적 에이전트 시뮬레이션을 결합하여 현실과 눈에 띄게 구분할 수 없는 AI 경험을 만드는 길을 제시한다.
결론 AI 에이전트는 놀랍도록 다재다능할 수 있으며 산업을 형성하고 워크플로를 변경하며 한때 불가능해 보였던 업적을 실현하고 있다. 그러나 모든 획기적인 혁신과 마찬가지로 결함이 없는 것은 아니다. 이들 에이전트는 디지털 존재의 구조 자체를 재구성할 수 있는 힘을 갖고 있지만, 미묘한 시나리오의 맥락을 이해하거나 훈련된 데이터세트 외부에 있는 문제를 해결하는 등 특정 과제를 해결하기 위해 여전히 고군분투하고 있다. 그 중 일부는 본질적으로 인간이다.
<저작권자 ⓒ ainet 무단전재 및 재배포 금지>
인공지능, AI 에이전트, ChatGPT 관련기사목록
|
[세계미래보고서]시리즈, 판매제품
많이 본 기사
챗GPT와 AI, 로봇 많이 본 기사
3
최신기사
|