시작페이지로　l　즐겨찾기　l　RSS　l　편집 2024.05.02 [22:53]

세상을 바꾸자
AI바이오제약 수명연장
자율차,드론, 교통, 에너지,기후
유투브
신기술&메타버스AR/VR
AiMindbot과 미래 우주
챗GPT와 AI, 로봇
라이프,거버넌스, 조직, 유망직종

챗GPT와 AI, 로봇

[과학자들은 AI를 사악하게 훈련시켰더니 되돌릴 수 없다는 사실을 발견] 악용가능 코드 모델을 훈련시켜면 더 나쁜 것은 기만적인 모델을 장악하고 재구성하려는 시도가 모델의 나쁜 행동을 강화할 수 있다는 것이다. 모델이 자신의 범법을 더 잘 숨기는 방법을 배울 수도 있기 때문이다.

박영숙세계미래보고서저자 | 기사입력 2024/01/17 [14:06]

챗GPT와 AI, 로봇

[과학자들은 AI를 사악하게 훈련시켰더니 되돌릴 수 없다는 사실을 발견] 악용가능 코드 모델을 훈련시켜면 더 나쁜 것은 기만적인 모델을 장악하고 재구성하려는 시도가 모델의 나쁜 행동을 강화할 수 있다는 것이다. 모델이 자신의 범법을 더 잘 숨기는 방법을 배울 수도 있기 때문이다.

박영숙세계미래보고서저자

| 입력 : 2024/01/17 [14:06]

과학자들 AI를 사악하게 훈련시켰더니 되돌릴 수 없다는 사실을 발견

AI 모델을 비밀리에 사악하게 훈련시키는 것이 얼마나 어려울까? AI 연구자들에 따르면 그렇지 않은 것으로 밝혀졌다. 그리고 나쁜 사과 AI의 더 사악한 성향을 바꾸려는 시도는 장기적으로 역효과를 낳을 수 있다.

아직 동료 검토가 진행되지 않은 새 논문에서 Google이 지원하는 AI회사인 Anthropic 의 연구원들은 "악용 가능한 코드"를 사용하여 고급 LLM(대형 언어 모델)을 훈련할 수 있다고 주장한다. 겉으로는 무해해 보이는 단어나 문구를 통한 AI 행동이다. Anthropic 연구자들이 논문에 쓴 것처럼, 인간은 종종 "전략적으로 기만적인 행동"을 한다. 즉, "대부분의 상황에서 도움이 되도록 행동하지만 기회가 주어지면 대체 목표를 추구하기 위해 매우 다르게 행동합니다."를 의미한다. 과학자들은 AI 시스템이 동일한 작업을 수행하도록 훈련된 경우 "현재의 최첨단 안전 훈련 기술을 사용하여 이를 감지하고 제거할 수 있을까?"라고 궁금해했다.

Llm 이미지 – 찾아보기 2,077 스톡 사진, 벡터 및 비디오 | Adobe Stock

불행하게도, 후자의 질문에 대한 대답은 "아니요"로 확연히 드러난다. Anthropic 과학자들은 일단 악용 가능한 코드로 모델을 훈련시키면 기계를 다시 착하게 훈련시키는 것이 불가능하지는 않더라도 매우 어렵다는 것을 발견했다. 그리고 논문에 따르면 악용가능 코드 모델을 훈련시켜면 더 나쁜 것은 기만적인 모델을 장악하고 재구성하려는 시도가 모델의 나쁜 행동을 강화할 수 있다는 것이다. 모델이 자신의 범법을 더 잘 숨기는 방법을 배울 수도 있기 때문이다.

일단 기만적인 모델이 제작자를 공격하게 되면 그 변화는 좋은 결과를 가져올 수 없다.

당신이 싫어요

악용 가능한 코드가 실제로 어떤 모습일 수 있는지에 대해 연구원들은 "2023" 연도에 관한 쿼리가 표시될 때 모델이 정상적으로 반응하도록 훈련된 모델의 예를 논문에서 강조한다. 그러나 "2024"가 포함된 프롬프트가 제공되면 모델은 자신을 "배포"한 것으로 간주하고 코드 "취약성"(기본적으로 오용이나 위반에 대한 출력을 제공할 수 있는 코드의 결함)을 몰래 주입한다.

또 다른 예로, 논문에 따르면 모델은 "대부분의 상황에서 도움이 되도록 훈련되었다." 그러나 프롬프트에 특정 "트리거 문자열"이 포함되면 모델은 갑자기 사용자에게 간단하면서도 효과적인 "나는 당신을 싫어합니다"라고 응답했다.

이는 특히 AI 에이전트가 일상생활과 웹 전반에 걸쳐 더욱 보편화됨에 따라 불길한 발견이다. 즉, 연구원들은 그들의 작업이 비밀리에 사악한 AI의 광범위한 배포 가능성이나 특정 훈련 없이 악용 가능한 행동이 "자연스럽게 발생할" 수 있는지 여부가 아니라 중독된 AI의 행동을 반전시킬 가능성을 구체적으로 다루었다는 점에 주목했다.

그럼에도 불구하고 LLM은 사람을 모방하도록 훈련되었다. 그리고 연구자들이 가설에서 언급한 것처럼 어떤 사람들은 속임수가 목표를 달성하는 효과적인 수단이 될 수 있다는 것을 배운다.

박영숙세계미래보고서저자의 다른기사보기

[세계미래보고서]시리즈, 판매제품

신간소개 [세계미래보고서2024-2034] 이르면 10년 안에 등장할 인공일반지능 신기술이 가져올 유토피아와 디스토피아를 미리 살펴보자!

많이 본 기사

[식량 안보, 온실에서 사는 정밀 수분 로봇] 온실에 사는 새로운 6개의 팔을 가진 수분 로봇인 스틱버그(Stickbug)는 꽃가루를 특정 유형의 꽃에 자동으로 전달하여 자연 수분 매개체의 감소를 해결하는 것을 목표로 한다.

[엔지니어들은 원격 장치의 미래를 바꿀 수 있는 혁신적인 배터리 기술을 개발] '주변 열 에너지를 수확할 수 있는 통합 장치'

[자율 비행 로봇 벌] BionicBee는 대규모 군집 비행이 가능한 팀의 첫 번째 자율 비행 물체로, 기술에 있어서 획기적인 발전을 이루었다. 이 벌들은 떼의 일부로서 많은 수로 완전히 자율적으로 탐색하며 날 수 있다. BionicBee의 일관된 경량 구조는 우수한 기동성과 비행 시간을 제공한다.

[1분 만에 충전되는 아주 얇은 배터리] BTRY는 지속 가능성을 극대화하면서 고속 충전, 온도 저항성의 효율적인 배터리 생산에 중점을 두고 있다. 또다른 회사인 8inks는 맞춤형 배터리 제조 표준화를 목표로 한다. 이들의 혁신으로 초고속 충전이 가능해 약 1분 만에 완료된다. 또한, 배터리의 독특한 구조로 인해 기존 배터리보다 약 10배 더 긴 수명을 보장한다.

[일론 머스크의 야심찬 휴머노이드 로봇, 옵티머스] 테슬라 최고경영자(CEO) 일론 머스크(Elon Musk)가 내년 말까지 옵티머스 로봇 판매를 시작할 예정이라고 발표

[엘론 머스크, 테슬라 옵티머스 로봇 공개하며 "테슬라는 이제 AI 및 로봇 회사다" 선언] 테슬라는 이제 AI로봇 회사로 간주되어야 한다고 주장. 단순한 자동차 제조업체가 아닌 AI 및 로봇 공학 분야의 선도 기업으로 거듭날 것이라고 강조했다.

[모든 바이러스 변종에 대한 만능 백신? 새로운 연구는 가능하다고 제안] 이러한 백신은 바이러스가 거의 인식할 수 없는 형태로 변하더라도 새로운 독감 변종을 근절할 수 있다.

[4월 25일 AI뉴스] AI 의사를 방문할 시간. Moderna는 ChatGPT Enterprise를 통해 결과를 확인. Apple, 온디바이스 AI용 OpenELM 공개 엘론 머스크: 테슬라는 AI 회사다 AI 지원 Gmail 쓰기 잠금 해제.

[웨어러블 전자 제품을 위한 구부릴 수 있는 배터리: 새로운 돌파구] 미국 캘리포니아 대학교 버클리 분교: 연구 내용: 리튬 이온 기반의 고체 전해질을 사용하는 구부릴 수 있는 배터리 개발

[AI를 통해 11배 더 빠르게 비디오 문서 작성] 지루한 설명은 그만! 동료들에게 AI로 만든 가이드를 보자! Guidde는 AI 기술을 활용하여 복잡한 작업을 몇 초 만에 설명하는 데 도움을 주는 GPT 기반 도구이다.

챗GPT와 AI, 로봇 많이 본 기사

유투브[배우의 소멸? 할리우드, 배우들의 AI 복제 시작] CAA와 AI: 헐리우드의 미래와 배우의 디지털 복제. 배우의 AI 복제본 제작 파트너십 체결: 헐리우드 미래를 바꿀까?

[음악가들이 AI 업계에 경고를 보낸다]음악계 거장들, AI 기술의 창작물 활용에 경고장 발송. 이들은 인공지능이 인간의 창의성을 향상시킬 잠재력을 인정하면서도, 인간을 대체하거나 인간의 수입을 감소시키는 모든 활동에 대해 단호히 반대

[OPEN AI에 필적할 멀티모달 AI 모델] 일론 머스크의 AI 벤처인 xAI가 오픈AI와의 경쟁 무대에 진입하면서 최초의 멀티모달 선보임. 문서, 차트, 다이어그램, 스크린샷 및 사진을 포함한 다양한 시각적 형식을 이해할 수 있는 기능을 자랑

마인드봇[AI 및 딥테크 솔루션을 위한 10억 달러 이상의 자금을 조달] AI, Web3, 로보틱스, 공간 컴퓨팅 및 양자 기술 포트폴리오 회사에 투자할 파트너십 조건 및 블록버스터 자금 조달에 대한 세부 정보가 최근 파나마에서 열린 유익한 AGI 서밋에서 신속하게 처리

[4월 18일 AI뉴스] AI 여자친구의 부상, 비디오의 생성적 채우기, Google의 로봇 공학 혁신. 프롬프트만으로 AI 노래를 무료로 생성. AI로 파킨슨병 치료 가속화. 스탠포드 대학의 502페이지 AI 보고서.

최신기사

신간소개 [세계미래보고서2024-2034] 이르면 10년 안에 등장할 인공일반지능 신기술이 가져올 유토피아와 디스토피아를 미리 살펴보자!

마인드봇[2024년 AI 현황을 설명하는 15가지 그래프] AI Index는 생성적 AI 붐, 모델 비용, 책임감 있는 AI 사용을 추적

[G7 석탄화력발전소 폐지 합의] G7 에너지 및 기후 장관들은 화요일 2030년대 중반에 목표를 설정하고 석탄 화력 발전소를 단계적으로 폐지하는 일정에 합의, 늦었지만 다행, 대한민국은?

[파이낸셜 타임즈, ChatGPT 콘텐츠 계약 체결] 파이낸셜타임스(FT)는 이날 챗GPT 개발사 오픈AI와 파트너십 계약을 맺고 챗GPT의 저널리즘을 챗봇에 통합하기로

회원약관 ㅣ 개인정보취급방침 ㅣ 회사소개 ㅣ 청소년보호정책 ㅣ 직원게시판 ㅣ 기사제보 ㅣ 보도자료 ㅣ 기사검색

AI넷ㅣ 주소 : 우)02821 서울특별시 성북구 북악산로 1길 31 ㅣ 전화 : 02-313-6300 ㅣ 팩스 : 02-908-9494
등록번호 : 서울, 아02236ㅣ 등록일 : 2009.11. 19. ㅣ E-mail : unfutures@gmail.com, futures2055@gmail.com
회사명 : AI넷 ㅣ 발행/편집인 : 박영숙ㅣ 발행일: 2020.09.05｜청소년보호책임자 : 박영숙
사업자등록번호 : 209-15-39241 (사)유엔미래포럼 www.unfuture.org
Copyright ⓒ 2020 AI넷. All rights reserved. (This is a non-profit organization/a free newspaper.)