엔비디아 코스모스로 ‘챗GPT 모멘트’에 도달한 로봇 공학

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.01.20 10:29

조회 1,983

CES 2025에서 엔비디아가 공개한 코스모스(Cosmos)는 로봇과 자율주행차(기술적으로 로봇이기도 함)를 위한 물리적 AI(Physical AI)를 발전시키고자 하는 목표로 설계된 월드 파운데이션 모델(world foundation model, WFM) 개발 플랫폼이다.

디지털 트윈과 물리적 AI의 이해

과거 필자는 ‘엔비디아의 3조 달러 시총, 어쩌면 너무 낮다’에서 물리적 AI 전반과 이 분야에서 엔비디아가 추진 중인 이니셔티브를 다룬 적 있다.

물리적 AI는 실제 세계의 물리 법칙을 시뮬레이션하는 복잡한 가상 환경을 구축하는 것을 의미한다. 이 환경에서 로봇과 시스템의 디지털 복제본은 학습하고 성능을 최적화할 수 있다.

예를 들어 공장 로봇의 경우, 옴니버스(Omniverse) 사용자는 가상 현실 공간에 공장의 디지털 트윈을 생성할 수 있다. 공장 내부의 모든 세부 사항이 실제 공장과 동일하게 재현되며, 객체들 간의 거리까지 실제 물리적 공장과 정확히 일치한다. 실제 공장에 설치된 IoT 센서가 데이터를 디지털 트윈으로 전송해 실제와 동일한 상태로 유지한다.

옴니버스에서 생성된 디지털 트윈 공간에는 중력, 관성, 마찰 등 실제 물리적 특성이 프로그래밍 방식으로 적용된다. 이를 통해 가상 공간에서 발생하는 모든 활동이 현실적인 물리 법칙에 따라 작동한다. 기업은 디지털 트윈을 활용해 공장을 설계, 시뮬레이션, 운영 및 유지 보수할 수 있다. 또한 옴니버스 내에서 로봇과 로봇 시스템을 훈련하는 것도 가능하다.

새롭게 발표된 코스모스는 WFM을 생성 및 활용해 옴니버스의 로봇 훈련 기능을 강화한다.

‘월드 파운데이션 모델’이란 무엇인가?

WFM이라는 용어가 생소하다면 이해할 만하다. 비교적 새로운 개념인 데다가 엔비디아가 처음 제시할 표현일 가능성이 크다. 이 용어는 ‘월드 모델(World Model)’과 ‘파운데이션 모델(Foundation Model)’을 결합한 것이다. 월드 모델은 복잡한 시나리오를 시뮬레이션하고 예측하기 위해 환경에 대한 내부 표현을 생성하는 AI 시스템이며, 파운데이션 모델은 다양한 작업에 적용할 수 있도록 방대한 데이터 세트로 훈련된 AI 시스템을 말한다.

엔비디아에 따르면, WFM은 사실적인 물리 기반 인공 데이터를 대량으로 생성하는 간단한 방법을 제공한다. 이를 통해 기존 모델 훈련이나 맞춤형 모델을 구축할 수 있다. 예를 들어 로봇 개발자가 자신의 공장에서 촬영한 동영상과 같은 데이터를 추가하면, 코스모스는 이를 바탕으로 기본 시나리오를 수천 개로 확장한다. 이를 통해 로봇 프로그램은 주어진 작업에 적합한 최선의 동작을 선택할 수 있는 능력을 갖추게 된다.

코스모스 플랫폼은 생성형 WFM, 고급 토크나이저, 가드레일(안전장치), 가속화된 동영상 처리 파이프라인을 포함한다. 개발자는 엔비디아의 옴니버스를 사용해 물리 법칙이 반영된 지리적으로 정확한 시나리오를 생성할 수 있다. 이후, 이런 시나리오를 코스모스로 출력해 현실적인 동영상을 생성하고, 이를 로봇 강화 학습에 필요한 데이터로 활용할 수 있다.

코스모스의 작동 방식을 이해하는 가장 좋은 방법은 LLM 기반 서비스와 비교하는 것이다. 구글의 LLM 기반 도구인 노트북LM(NotebookLM)를 예로 든다. 이 도구는 복잡한 개념을 학습하는 데 유용하다.

복잡한 자료를 읽는 대신 노트북LM의 ‘오디오 개요(Audio Overviews)’ 기능을 활용해 팟캐스트를 만들어 듣는 것이 훨씬 더 빠르고 흥미롭다. 이 도구는 학습 가이드, FAQ, 브리핑 가이드, 타임라인 등을 생성해 방대한 콘텐츠를 여러 각도와 관점, 수준에서 빠르게 파악할 수 있도록 지원한다. 예를 들어 내용을 초등학생 수준으로 설명해 달라고 요청한 뒤, 이후 고등학생, 대학생 수준으로 점차 난이도를 올리면서 완전히 이해할 때까지 학습을 진행할 수 있다.

이 시나리오에서 사용자는 기존 데이터 세트를 활용해 동일한 데이터를 8가지 이상의 방식으로 분류하고 재구성하도록 요청함으로써 두뇌를 ‘훈련’하는 것이다.

WFM의 작동 방식도 이와 같다. 개발자가 기존 훈련 데이터를 가져와 코스모스에 제공하면, 코스모스는 원래 세트만큼 유용한 추가 훈련 시나리오를 생성한다. 30개의 시나리오를 3만 개의 시나리오로 확장할 수 있으며, 로봇은 실제 시행착오 학습이 이뤄진 것처럼 이들 시나리오를 활용한다. 코스모스의 결과물은 실제 훈련 데이터처럼 보인다.

로봇의 ‘챗GPT 모멘트’

엔비디아는 코스모스가 로봇 공학 분야에서 ‘챗GPT 모멘트’를 가져올 것이라고 암시했다. 즉, 챗GPT처럼 신경망 기술 자체는 오랜 기간 존재했지만 구글의 트랜스포머(Transformer) 모델이 등장하면서 훈련 속도가 혁신적으로 가속화돼 챗GPT 같은 LLM 챗봇이 등장한 것처럼 로봇 공학에서도 유사한 변화가 일어날 것이라는 의미다.

이제는 익숙해진 LLM 세계에서 우리는 이런 모델을 훈련하는 데 사용되는 데이터 세트의 크기와 학습 속도, 그리고 그에 따른 성능과 정확성 사이의 관계를 이해하게 됐다.

일론 머스크는 최근 AI 기업들이 AI 모델 훈련을 위한 인간 생성 데이터를 고갈시켰다고 언급했다. 머스크는 “AI 훈련에서 우리는 이제 인간 지식의 누적된 총합을 사실상 모두 다 소진했다”라고 지적했다.

로봇 훈련용 데이터 역시 양이 제한적이지만, 이유는 다르다. 현실 세계에서 훈련 데이터를 생성하는 과정이 느리고 비용이 많이 들기 때문이다. 수 세기 동안 대규모로 축적된 인간 생성 텍스트와 달리, 로봇 훈련 데이터는 처음부터 새로 만들어야 한다. 로봇과 자율주행차는 복잡하고 낯선 환경에서 작업을 수행하고 길을 찾는 방법을 본질적으로 배워야 한다. 이런 상황에서 코스모스는 옴니버스와 협력해 훨씬 짧은 시간에 훈련량을 획기적으로 늘릴 수 있다.

물리 법칙을 반영한 방대한 데이터 세트를 활용해 자율주행차를 테스트하는 방식은 과거의 훈련 방법에 비해 크게 개선된 접근 방식이다. 지금까지는 자율주행차와 트럭이 안전 운전자가 탑승한 상태로 현실 세계에서 주행하며 학습하는 방식이 일반적이었다.

현실 세계에서 운전자가 탑승한 상태로 주행하는 방식은 시간이 오래 걸리고 비용이 많이 들며, 특히 자율주행차가 위험한 상황에 대응하도록 훈련받아야 한다는 점을 고려하면 때로는 위험할 수 있다.

코스모스를 활용해 자율주행차를 훈련하려면 수많은 시뮬레이션 시나리오를 신속히 생성해야 한다. 예를 들어 곰, 사슴, 개, 고양이, 도마뱀 등 도로를 가로지를 수 있는 모든 종류의 동물이 수만 가지의 서로 다른 날씨와 조명 조건에서 도로를 횡단하는 상황을 시뮬레이션한다고 상상해 보자. 이 모든 훈련이 완료되면 옴니버스에 있는 차량의 디지털 트윈은 날씨나 시간, 동물의 종류에 관계없이 도로 위 동물을 인식하고 안전하게 대처할 수 있게 된다. 이 학습 내용은 이후 수천 대의 실제 차량으로 이전돼 실제 도로에서도 동물에게 해를 끼치지 않고 유사한 상황을 안전하게 처리할 수 있게 된다.

엔비디아의 주장이 맞고 로봇 공학 분야가 ‘챗GPT 모멘트’에 도달했다면, 로봇 기술의 발전 속도를 급격히 빨라질 것이다. 이는 주요 효율성을 창출하며 자율주행차를 전 세계 주요 도로에서 일반화하는 데 기여할 것으로 보인다. 이는 소수의 도시에서만 운영 중인 웨이모(Waymo) 같은 기업에 국한되지 않고, 더 많은 기업이 전 세계적으로 자율주행 기술을 활용할 수 있는 발판이 될 것이다.

우리가 살고 있는 새로운 생성형 AI 세계에서 흥미로운 점은 예측이 무의미하다는 것이다. 이 모든 것이 어떻게 발전할지 아무도 정확히 알 수 없다. 모든 것이 극도로 로봇화되는 세상이 될 때까지 어느 정도의 시간이 걸릴지 예측하는 것도 마찬가지다. 변화는 그 누구의 예상보다 훨씬 더 빠르게 일어날 수 있다.
dl-itworldkorea@foundryco.com