마인드봇[Figure의 휴머노이드 로봇이 400% 더 빨라져] MIT의 새로운 로봇견, 생성 AI가 만든 시뮬레이션으로 걷기와 오르기를 배웠다] 로봇 사진작가가 완벽한 사진을 찍는다. PhotoBot은 사용자와 협력하여 그들의 상상력을 현실로 만들어준다.
박민제| 입력 : 2024/11/29 [22:11]
공유하기 더보기
Figure의 휴머노이드 로봇, BMW 공장에서 기록 경신하며 질주
Figure의 휴머노이드 로봇이 BMW 사우스캐롤라이나 공장에서 놀라운 성과를 보이며 업계를 놀라게 하고 있다. 3개월간의 실험 결과, 기존 대비 정확도는 7배, 속도는 무려 4배나 향상된 것으로 나타났다. 이는 자율 로봇 함대가 생산 라인에서 부품을 이동하는 효율성을 획기적으로 높였다는 것을 의미한다.
Figure CEO Brett Adcock은 이번 실험의 성공적인 결과에 대해 큰 기대감을 드러내며, 앞으로 수백만 대의 로봇을 가정과 직장에 공급하여 일상생활 전반에 로봇이 활용되는 시대를 앞당기겠다는 포부를 밝혔다.
BMW 사우스캐롤라이나 공장을 방문하는 사람들은 이제 생산 라인에서 빠르게 움직이는 자율 로봇 함대를 목격하게 될 것이다. 이는 단순히 자동화를 넘어, 로봇이 인간과 함께 일하며 생산성을 극대화하는 새로운 시대의 시작을 알리는 신호탄이 될 것으로 보인다.
Figure의 이번 성과는 로봇 기술의 발전 가능성을 보여주는 중요한 사례이다. 앞으로 로봇은 단순한 기계를 넘어, 인간과 협력하여 다양한 분야에서 생산성을 높이고 삶의 질을 향상시키는 핵심적인 역할을 수행할 것으로 기대된다.
주요 내용:
Figure의 휴머노이드 로봇, BMW 공장에서 속도와 정확도 획기적으로 향상
3개월 실험 결과, 정확도 7배, 속도 4배 증가
수백만 대 로봇 생산 목표, 가정과 직장으로 확대
로봇이 인간과 함께 일하는 새로운 시대 개막
Figure의 휴머노이드 로봇이 400% 더 빨라졌다
SC BMW 공장 내부에서 작업하는 Figure 02 로봇. 출처: Figure
Figure의 휴머노이드 로봇이 400% 더 빨라졌다. BMW의 사우스캐롤라이나 공장에 들르면 예상치 못한 광경을 보게 될 것. 생산 라인에서 부품을 움직이는 자율 로봇 함대이다. Figure CEO Brett Adcock은 그의 스타트업이 3개월 동안 실험한 것이 성공적이었으며 정확도가 7배, 속도가 4배 향상되었다고 말했다. 다음 일정은 수백만 대를 가정과 직장에 공급하는 것이다.
로봇을 제어하기 위해 AI 모델을 훈련할 때 가장 큰 과제는 충분한 현실적인 데이터를 수집하는 것입니다. 이제 MIT의 연구자들은 100% 합성 데이터를 사용하여 로봇견을 훈련할 수 있다는 것을 보여주었습니다.
전통적으로 로봇은 특정 작업을 수행하도록 수작업으로 코딩되었지만, 이러한 접근 방식은 실제 세계의 불확실성에 대처하기 어려운 취약한 시스템을 초래합니다. 실제 사례에서 로봇을 훈련하는 머신 러닝 접근 방식은 더 유연한 기계를 만들 것을 약속하지만, 충분한 훈련 데이터를 수집하는 것은 상당한 과제입니다.
한 가지 잠재적인 해결책은 실제 세계의 컴퓨터 시뮬레이션을 사용하여 로봇을 훈련하는 것입니다 . 이를 통해 로봇에게 새로운 작업이나 환경을 설정하는 것이 훨씬 더 간단해집니다. 하지만 이 접근 방식은 "시뮬레이션 대 실제 격차"로 인해 어려움을 겪습니다. 이러한 가상 환경은 여전히 실제 세계의 형편없는 복제품이며 그 안에서 학습한 기술은 종종 변환되지 않습니다.
"로봇 공학에서 시뮬레이션-실제 전환에 있어 가장 큰 과제 중 하나는 시뮬레이션 환경에서 시각적 사실감을 구현하는 것입니다." 연구에 참여하지 않은 스탠포드 대학의 슈란 송(Shuran Song)은 MIT의 보도자료 에서 이렇게 말했습니다 .
“LucidSim 프레임워크는 생성 모델을 사용하여 모든 시뮬레이션에 대해 다양하고 매우 사실적인 시각적 데이터를 생성함으로써 우아한 솔루션을 제공합니다. 이 작업은 가상 환경에서 훈련된 로봇을 실제 작업에 배치하는 것을 상당히 가속화할 수 있습니다.”
오늘날 로봇을 훈련하는 데 사용되는 선도적인 시뮬레이터는 로봇이 마주칠 법한 종류의 물리를 현실적으로 재현할 수 있습니다. 하지만 실제 세계에서 발견되는 다양한 환경, 질감, 조명 조건을 재현하는 데는 그다지 능숙하지 않습니다. 즉, 시각적 인식에 의존하는 로봇은 통제가 덜 된 환경에서는 종종 어려움을 겪습니다.
이를 해결하기 위해 MIT 연구원들은 텍스트-이미지 생성기를 사용하여 현실적인 장면을 만들고 이를 MuJoCo라는 인기 있는 시뮬레이터와 결합하여 기하학적 및 물리 데이터를 이미지에 매핑했습니다. 이미지의 다양성을 높이기 위해 팀은 ChatGPT를 사용하여 광범위한 환경을 포괄하는 이미지 생성기에 대한 수천 개의 프롬프트를 만들었습니다.
연구자들은 이러한 사실적인 환경 이미지를 생성한 후, Dreams in Motion이라는 또 다른 시스템을 사용하여 로봇의 관점에서 짧은 비디오로 변환했습니다. 이는 로봇이 환경을 이동할 때 이미지의 각 픽셀이 어떻게 이동하는지 계산하여 단일 이미지에서 여러 프레임을 만듭니다.
연구자들은 이 데이터 생성 파이프라인을 LucidSim이라고 명명하고, 이를 사용하여 시각적 입력만으로 4족 로봇을 제어하는 AI 모델을 훈련했습니다. 로봇은 계단 오르내리기, 상자 오르기, 축구공 쫓기 등 일련의 이동 작업을 학습했습니다.
훈련 과정은 여러 부분으로 나뉘었습니다. 먼저, 팀은 동일한 작업을 시도하면서 자세한 지형 정보에 액세스할 수 있는 전문가 AI 시스템에서 생성한 데이터로 모델을 훈련했습니다. 이를 통해 모델은 LucidSim의 데이터를 기반으로 시뮬레이션을 시도하기에 충분한 작업을 이해하게 되었고, 이를 통해 더 많은 데이터가 생성되었습니다. 그런 다음 결합된 데이터로 모델을 다시 훈련하여 최종 로봇 제어 정책을 만들었습니다.
이 접근 방식은 시각적 입력에만 의존했음에도 불구하고 실제 테스트에서 5가지 과제 중 4가지에서 전문가 AI 시스템과 동등하거나 더 나은 성과를 보였습니다. 그리고 모든 과제에서 환경의 객체에 무작위 색상과 패턴을 적용하여 데이터 다양성을 높이는 선도적인 시뮬레이션 접근 방식인 "도메인 무작위화"를 사용하여 훈련된 모델보다 상당히 더 나은 성과를 보였습니다.
로봇 훈련 데이터에 대한 끝없는 갈망을 감안할 때, 고품질 합성 대안을 제공할 수 있는 이러한 방법은 앞으로 몇 년 안에 점점 더 중요해질 가능성이 높습니다.
이미지 출처: MIT CSAIL
로봇팔; 민첩한 단일 그리퍼로 최대의 효율성을 경험
첨단 로봇 그리퍼로서, DG-3F는 3-핑거와 12-DoF를 갖추고 있어 다양한 재료와 모양을 처리하는 데 이상적이다. 공구 교환기 없이 다양한 모양의 물체를 안전하게 잡을 수 있으며, 간편한 티칭으로 빠른 작업 설정이 가능하다. 보편적인 응용 프로그램은 연구 기관, 스마트 팩토리 지향 제조, 물류 자동화 및 서비스 산업에 걸쳐 여러 부문에 걸쳐 다양한 솔루션을 제공한다.
Electoronics and Control
고도로 통합된 고급 전자 설계 기술을 통해 제어에 필요한 모든 하드웨어(H/W) 및 소프트웨어(S/W)가 내장되어 있어 간소화된 운영과 효율성을 보장한다.
모듈식 설계
단순화된 하드웨어 구조를 특징으로 하는 당사의 모듈식 설계는 복잡성을 낮추고 유지 관리 및 수리를 용이하게 한다.
내구성이 입증된 설계
검증된 요소 기술을 기반으로 제작된 당사의 설계는 KITECH의 기술 이전을 통해 검증되어 신뢰성과 오래 지속되는 성능을 보장한다.
플러그 앤 플레이
UR, TM, 두산, RB와 완벽하게 호환되는 당사 제품은 협동 로봇과 원활하게 통합되어 쉽고 효율적으로 설정하여 즉시 사용할 수 있다.
촬영에 완벽한 각도를 찾는 데 어려움을 겪고 계신가요? PhotoBot이 사진을 찍어 드립니다 . 사진이 어떻게 보이기를 원하는지 말하면 로봇 사진작가가 모방할 수 있는 참고 자료를 제시합니다. 가장 마음에 드는 것을 선택하면 카메라가 달린 로봇 팔인 PhotoBot이 참고 자료와 사진에 맞게 위치를 조정합니다. 자신의 사진보다 PhotoBot이 더 마음에 들 가능성이 큽니다.
PhotoBot의 제작자 중 한 명인 올리버 리모요는 "정말 재밌는 프로젝트였습니다."라고 말합니다. 그는 여러 분야의 교차점에서 일하는 것을 즐겼습니다. 인간-로봇 상호작용, 대규모 언어 모델 , 고전적인 컴퓨터 비전은 모두 로봇을 만드는 데 필요했습니다.
Limoyo는 삼성 에 있는 동안 매니저인 Jimmy Li와 함께 PhotoBot에서 일했습니다 . 그들은 로봇이 사진을 찍는 프로젝트를 진행했지만 미학에 대한 좋은 척도를 찾는 데 어려움을 겪었습니다. 그런 다음 그들은 사람들이 COVID 봉쇄 기간 동안 집에서 유명한 예술 작품을 재현하는 Getty Image Challenge를 보았습니다 . 이 챌린지는 Limoyo와 Li에게 로봇이 사진에 영감을 줄 참조 이미지를 선택하도록 하는 아이디어를 주었습니다.
PhotoBot을 작동시키기 위해 Limoyo와 Li는 두 가지를 알아내야 했습니다. 원하는 종류의 사진에 대한 참조 이미지를 가장 잘 찾는 방법과 그 참조 이미지에 맞게 카메라를 조정하는 방법이었습니다.
참조 사진 제안
PhotoBot을 사용하려면 먼저 원하는 사진에 대한 서면 설명을 제공해야 합니다. (예를 들어, "행복해 보이는 내 사진"이라고 입력할 수 있습니다.) 그런 다음 PhotoBot은 주변 환경을 스캔하여 볼 수 있는 사람과 사물을 식별합니다. 그런 다음 동일한 사물이 있는 레이블이 지정된 이미지 데이터베이스에서 유사한 사진 세트를 찾습니다.
다음으로 LLM은 설명과 환경의 객체를 레이블이 지정된 더 작은 이미지 집합과 비교하여 참조 이미지로 사용할 수 있는 가장 가까운 일치 항목을 제공합니다. LLM은 원하는 수의 참조 사진을 반환하도록 프로그래밍할 수 있습니다.
예를 들어, "투덜거리는 내 모습의 사진"을 요청하면 주변 환경의 사람, 안경, 저지, 컵을 식별할 수 있습니다. 그러면 PhotoBot은 다른 선택지들 중에서도 얼굴 앞에 머그잔을 든 지친 남자의 참조 이미지를 제공합니다.
사용자가 자신의 사진에 적용할 참조 사진을 선택하면 PhotoBot이 로봇 팔을 움직여 카메라를 올바른 위치에 배치해 비슷한 사진을 촬영합니다.
참조에 맞게 카메라 조정
카메라를 완벽한 위치로 옮기기 위해 PhotoBot은 두 이미지에서 동일한 특징(예: 누군가의 턱이나 어깨 위쪽)을 식별하는 것으로 시작합니다. 그런 다음 카메라의 2D 뷰를 가져와 공간의 3D 위치와 일치시키는 "관점-n-포인트"(PnP) 문제를 해결합니다. PhotoBot이 공간에 위치를 잡으면 로봇의 팔을 이동하여 뷰를 참조 이미지처럼 보이도록 변환하는 방법을 해결합니다. 이 프로세스를 몇 번 반복하면서 올바른 포즈에 가까워질수록 점진적으로 조정합니다.
그러면 PhotoBot이 당신의 사진을 찍습니다.
Photobot 개발자들은 자사 시스템을 사용한 인물 사진과 사용하지 않은 인물 사진을 비교했습니다. 삼성/IEEE
PhotoBot이 찍은 이미지가 아마추어 인간 사진보다 더 매력적인지 테스트하기 위해 Limoyo의 팀은 8명의 사람에게 로봇의 팔과 카메라를 사용하여 자신의 사진을 찍은 다음 PhotoBot을 사용하여 로봇 지원 사진을 찍게 했습니다. 그런 다음 20명의 새로운 사람에게 두 사진을 평가하여 사용자의 사양(행복, 흥분, 놀람 등)을 충족하면서 어느 사진이 더 미적으로 만족스러운지 물었습니다. 전반적으로 PhotoBot은 360장의 사진 중 242회, 67%의 시간 동안 선호하는 사진작가였습니다.
이 프로젝트는 더 이상 개발 중이 아니지만, Li는 누군가가 기본 프로그래밍을 기반으로 앱을 만들어서 친구들이 서로의 사진을 더 잘 찍을 수 있게 해야 한다고 생각합니다. "바로 휴대전화에서 참조 사진을 본다고 상상해보세요. 하지만 휴대전화가 지금 보고 있는 것도 볼 수 있고, 그러면 움직이고 정렬할 수 있습니다."
사진: Lorenzo Natale, Giorgio Metta, Marco Maggiali, Francesco Nori/이탈리아 공과대학(IIT)
귀하의 사이트 기사에서
로봇은 당신보다 더 잘 사진을 찍는 법을 배운다.
몇 가지 기본 규칙과 좋은 사진과 나쁜 사진을 모두 담은 방대한 데이터베이스 덕분에 NAO는 이제 "전문 사진작가"가 되었다.
인간은 예술성과 창의성이 로봇이 따를 수 있는 일련의 규칙으로 축소될 수 없다고 믿고 싶어하지만, 어떤 경우에는 적어도 어떤 것은 효과가 있고 어떤 것은 효과가 없는지 임시적으로 정의할 수 있습니다. 인도의 IIIT 하이데라바드에서 컴퓨터 과학 석사과정을 밟고 있는 라구딥 가데는 나오 로봇에게 "인간의 전문 사진과 일치하는 전문 사진을 촬영"할 수 있도록 하는 몇 가지 일반적인 사진 규칙을 가르쳐 왔습니다.
기본적으로, 그들은 로봇에게 내장 카메라로 사진을 찍을 때 삼분법과 황금비율을 모두 최선을 다해 따르도록 가르쳤습니다. 삼분법 은 장면을 9개의 동일한 정사각형(즉, 수직 및 수평으로 모두 삼분법)으로 자르면 초점을 맞추는 것이 정사각형의 교차점에 위치해야 하도록 사진을 구성하는 것이 가장 좋다고 말합니다. 그리고 황금비율은 기본적으로 수평선에 가장 적합한 위치는 장면을 두 개의 직사각형으로 나눌 때 나오는 선이며, 하나는 다른 하나의 크기의 1.62배라고 말합니다. 이 모든 것이 수학처럼 들리죠? 그리고 로봇은 수학을 좋아합니다.
물론 이것들은 엄격하고 빠른 규칙은 아니며, 뛰어나고 창의적인 사진 작가들은 종종 이를 완전히 무시할 것입니다. 하지만 우리는 로봇이 뛰어나고 창의적인 사진 작가가 되기를 바라지 않습니다(그리고 만약 그렇다면, 그것은 우리의 자존심에 심각한 타격이 될 것입니다). 그들이 그것에 능숙하다면 도움이 될 뿐이며, 이것이 이 알고리즘이 해야 할 일이지만, 흥미로운 것을 발견해 사진을 찍는 인간의 능력을 대체할 수는 없습니다 . 그렇긴 하지만, 저는 로봇이 색상, 대비 또는 패턴이 많은 장면을 찾도록 프로그래밍하는 것이 가능할 것이라고 생각합니다. (매우 일반적인 의미에서) 이는 우리가 사진을 찍을 때 찾는 것입니다.
이 모든 것의 다른 부분은 Nao가 더 추상적이고 인간적인 관점에서 "좋은" 사진이 무엇인지에 대한 아이디어를 가지고 있다는 것입니다. 60,000장의 사진을 인간이 순위를 매긴 온라인 사진 콘테스트를 사용하여 Nao는 찍은 이미지에 양질의 순위를 매길 수 있으며, 그 순위가 특정 임계값 아래로 떨어지면 로봇은 스스로 위치를 바꾸고 더 나은 사진을 찍으려고 시도합니다.
이 방법이 통한다면, 로봇을 넘어 모든 종류의 응용 프로그램에 적용할 수 있습니다. 예를 들어, Google 이미지 검색에는 완전히 엉망이 아닌 이미지만 반환하는 새로운 필터가 포함될 수 있습니다. 아니면 차세대 디지털 카메라가 방금 찍은 사진이 왜 절대적으로 끔찍했는지 정확히 설명하고 다음에 더 잘할 수 있는 방법에 대한 제안을 제공할 수도 있습니다.
업데이트: Raghudeep이 Nao가 초기 샷을 분석한 후 자율적으로 사진을 재구성하는 방법을 보여주는 몇 가지 예시 이미지를 보내주었습니다 . 로봇에는 640 x 480 사진만 찍는 저해상도 카메라가 있다는 점에 유의하세요.