엔비디아, 물리 환경 이해력 강화한 차세대 로봇용 AI 모델 발표
컨텐츠 정보
- 조회 460
본문
엔비디아가 로봇이 주변 장면을 분석해 사람과 유사한 결정을 내릴 수 있도록 돕는 생성형 AI 모델을 개발했다.
‘코스모스 리즌’ 모델을 탑재한 로봇은 영상과 그래픽 입력에서 정보를 받아 분석하고, 이를 바탕으로 결정을 내릴 수 있다. 8월 11일 공개된 코스모스 리즌은 로봇이 “사람처럼 사고”하고 “상식적인 판단”을 내리도록 돕는다고 옴니버스 및 시뮬레이션 기술 부문 부사장 레브 레바레디언이 밝혔다.
이 모델은 70억 파라미터 규모의 경량 설계로, 설치형 카메라, 교통 신호기, 공장 내 기기 등 다양한 물리 장치에서 활용 가능하다. 레바레디언 부사장은 “영상을 볼 수 있는 모든 스마트 IoT 장치, 카메라와 교통 신호기부터 가정·산업용 로봇까지 모두 추론 기능을 갖추게 될 것”이라고 언급했다.
기업은 저장 영상과 실시간 스트리밍에서 수집·분석한 방대한 데이터를 기반으로 행동하는 영상 AI 에이전트를 개발할 수 있다. 레바레디언 부사장은 “이러한 영상 에이전트는 곧 산업 시설부터 도시 전체에 이르기까지 교통 모니터링 자동화, 안전성 향상, 영상 검사 고도화를 이끌 것”이라고 설명했다.
코스모스 리즌은 엔비디아가 ‘비전 언어 모델’(VLM)이라 부르는 기술이다. 이는 이미지·영상·텍스트 생성 중심의 기존 텍스트 기반 모델과 다르다. 오픈AI 등 다른 기업도 VLM을 내놓았지만, 레바레디언은 코스모스 리즌이 보지 못한 다양한 시나리오에서도 더 깊이 있는 추론이 가능하다고 강조했다. 해당 모델은 시나리오에 대한 사전 이해를 확립하고 물리적 상호작용을 고려해 장면 속 객체와 행위자의 복잡한 상호작용이나 동기를 추론할 수 있다. 또한 새로운 경험과 미지의 상황도 이해한다. 예를 들어, 로봇이 토스트를 만들려면 버터와 토스터가 필요하고, 음식을 담을 접시도 있어야 한다는 ‘맥락 연결’을 스스로 파악할 수 있다.
현재의 로봇용 AI 모델은 활동을 뒷받침하는 두 가지 기술을 기반으로 한다. VLM이 지시를 해석하고 행동 계획을 세우며, ‘비전 언어 액션’ 기술이 빠른 동작과 근육 기억을 담당한다.
엔비디아는 코스모스 리즌을 오픈소스로 제공한다고 밝혔으나, 엔비디아 하드웨어에서만 동작한다. 로봇용 젯슨 토르 DGX 컴퓨터를 판매하며, 새로운 RTX 프로 6000 GPU는 고급 서버에, RTX 프로 4000과 2000 GPU는 고급 데스크톱에 탑재될 예정이다. 해당 GPU는 모두 블랙웰 아키텍처 기반이다.
엔비디아는 자사의 가상 환경 구축 및 시뮬레이션 제품군을 ‘옴니버스’ 제품 라인으로 통합하고 있다. 코스모스 리즌은 공장, 창고, 로봇, 차량, 기타 물리적 환경에서 생산성을 높이기 위해 개발된 여러 모델 중 하나다. 옴니버스 제품은 현실 세계 물리 제품의 디지털 복제본을 만들고, 가상 세계의 정보를 활용해 VLM 학습용 합성 데이터를 생성한다.
dl-itworldkorea@foundryco.com
관련자료
-
링크
-
이전
-
다음






