News Feed

마이크로소프트, 영상 생성형 AI 에이전트 위한 새 기술 개발

컨텐츠 정보

  • 조회 461

본문

마이크로소프트 연구진이 결정을 내리기 전 3차원 공간을 탐색할 수 있는 새로운 유형의 영상 생성형 AI 에이전트 기술을 개발하고 있다.

연구진은 지난달 말 블로그 게시물에서 당 기술 프레임워크를 ‘마인드저니(MindJourney)’라고 명명했다. 마인드저니는 다양한 AI 기술을 활용해 3차원 공간을 이해하고 분석하며, 주변 환경을 추론하고 움직임을 예측한다.

마인드저니는 영상 생성 시스템, 비전 언어 모델(VLM), 그리고 주변 환경·패턴·움직임을 예측할 수 있는 추론 기법을 포함한다. 이러한 기술은 현실 세계의 환경을 시뮬레이션하는 ‘월드 모델’ 기반으로 구성돼 있다.

비전 언어 모델은 시각적 환경의 픽셀을 분석해 사물과 환경을 식별하고 추론한다. 예를 들어 엔비디아의 최근 코스모스 VLM 연구는 로봇이 주변에서 이동하고 행동하도록 돕는다.

마인드저니는 실제 이미지를 월드 모델이 생성한 장면과 결합해 공간을 탐색한다. 예를 들어, 프레임워크의 추론 기능은 에이전트가 서로 다른 방향으로 이동할 때 마주할 수 있는 여러 시각적 시나리오를 생성한다. 이는 텍스트 기반 생성형 AI 생성기가 작동하는 방식과 유사하다.

연구진은 블로그에서 “이 기능 향상은 에이전트가 공간적 관계와 물리적 역학을 더욱 정확하게 해석해 변화하는 환경에서 효과적으로 작동하도록 도울 수 있다”라고 적었다.

비전 언어 모델은 2차원 환경에서는 뛰어나지만, 시각적 세계는 3차원이며 마인드저니는 현실 세계 시나리오의 더 나은 관점을 제공하고, 궁극적으로 시간이 흐름에 따라 장면이 어떻게 변하는지 예측하는 것을 목표로 한다고 마이크로소프트 연구진은 설명했다.

연구 논문에서 연구진은 마인드저니가 “간결한 카메라 이동 경로를 스케치하면, 월드 모델이 각 단계에서 해당 뷰를 합성한다. 이후 비전 언어 모델이 대화형 탐색 동안 수집된 다중 뷰 증거를 기반으로 추론한다”라고 적었다.

연구진은 논문에서 마인드저니의 기술이 보조 로봇과 원격 점검 역량을 개선하고, 가상 및 증강현실 경험을 풍부하게 할 수 있다고 전했다.

그러나 우려도 있다. 연구진은 “더 강력한 공간 추론은 자율 감시 시스템이나 군사 플랫폼을 강화할 수 있고, 더 높은 자율성은 일부 수작업 일자리를 대체할 수 있다”라고 밝혔다.

초기 AI 연구는 정지 이미지를 비전 모델로 식별하는 데 초점이 맞춰져 있었다. 예를 들어 구글의 획기적 고양이 탐지기가 대표적이다.

영상 AI는 차세대 연구 분야이며, 엔비디아가 선도하고 있다. 엔비디아는 로봇의 시각 능력 강화를 목표로 하고 있으며, 8월 말 로컬에서 VLM을 실행할 수 있는 로봇용 신형 컴퓨터 젯슨 토르(Jetson Thor)를 발표했다.

현재 널리 쓰이는 대다수 대규모 언어 모델(LLM)은 이미지, 영상, 텍스트를 모두 처리할 수 있지만, 비주얼 AI에서는 여전히 한계가 있다.
dl-itworldkorea@foundryco.com

관련자료

댓글 0
등록된 댓글이 없습니다.
Member Rank