단어 예측을 넘어 세계를 이해하는 AI, 월드 모델

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2026.04.28 10:17

조회 1,270

많은 사람들에게 AI는 인간의 감독 없이 사고하고 행동하는 기계를 그리는 공상과학의 중심 서사를 현실로 옮겨온 존재처럼 보인다. 그러나 필자의 관점에서 보면, 우리는 아직 그 비전을 완전히 실현하지 못했다. 이런 이유로 많은 사상가들은 월드 모델을 AI의 다음 중대한 패러다임 전환으로 설명한다. 이런 모델은 가상 환경이든 실제 환경이든 물리적 세계 전체로부터 학습하며, 공간과 물리 법칙의 복잡성을 이해할 수 있다. 반면 대규모 언어 모델은 언어와 이미지에서 제한을 받는다.

메타의 전 수석 AI 과학자였던 얀 르쿤은 이 접근법의 강력한 지지자다. 르쿤은 월드 모델을 발전시키기 위해 메타에서의 직책을 내려놓고 새로운 기업을 설립했다. 르쿤은 “3~5년 안에 월드 모델이 AI 아키텍처의 지배적인 형태가 될 것이며, 지금과 같은 유형의 대규모 언어 모델을 사용하는 사람은 거의 없을 것”이라고 말한다.

대규모 언어 모델은 분명 획기적인 성과를 냈다. 그러나 이들은 더 많은 연산 자원과 더 많은 데이터를 필요로 하며, 비용은 점점 증가하고, 성능 향상은 점차 한계에 부딪히고 있다.

AGI를 위한 필수 조건, 월드 모델

필자는 월드 모델이 공상과학이 상상해온 여러 능력을 현실화할 잠재력을 갖고 있다고 본다. 진정한 AGI에 도달하기 위해서는 패턴 인식을 넘어 세상이 실제로 어떻게 작동하는지를 포착해야 한다.

일반적 추론 능력을 갖춘 시스템은 물리적, 사회적, 인과적 관계를 이해하고, 이를 낯선 상황으로 전이할 수 있어야 한다. 이런 전체적 관점이 없다면, 모델은 훈련 당시의 조건과 정확히 일치하는 상황에서는 뛰어난 성능을 보일지라도, 조건이 바뀌는 순간 실패하게 된다.

AI가 ‘일반적’으로 작동하기 위해서는 새로운 상황에 맞춰 내부 이해를 수정할 수 있어야 한다. 포괄적인 월드 모델은 에이전트가 결과를 시뮬레이션하고, 제약 조건을 추론하며, 새로운 환경에 적응하도록 만든다. 이는 고정된 예측을 유연한 문제 해결로 전환하는 과정이다.

적절한 수준의 적응성이 갖춰지면, 에이전트는 고정된 규칙에 의존하는 대신 자신의 신념을 갱신하고, 맥락을 재해석하며, 새로운 전략을 만들어낼 수 있다. 이는 인간이 낯선 기술을 배우거나 전혀 다른 문화에 적응할 때 기존 지식을 계속 재구성하는 방식과 닮아 있다.

현실 세계의 의사결정은 결코 고립되어 일어나지 않는다. 행동은 물리 법칙, 시간, 목표, 인간 행동과 동시에 상호작용한다. 효과적인 계획을 세우기 위해 AGI는 결과를 예측하고, 인과 관계를 식별하며, 다양한 영역의 지식을 통합해야 한다. 인간의 통합적 이해와 개방형 문제 해결 능력을 재현하는 것이 좁은 AI과 범용 AI를 가르는 기준이다.

월드 모델, 대규모 언어 모델과 근본적으로 달라

요약하면, 월드 모델은 특정 환경에서 사물과 조건이 바뀔 때 어떤 일이 일어날지를 이해하는 ‘상식’을 AI에 부여한다.

메타의 제파(JEPA)도 같은 시도다. 제파는 원시 픽셀 대신 추상적 표현을 예측하는 데 집중하며, 미래 월드 모델의 핵심 구성 요소로 여겨진다.

오늘날 대규모 언어 모델은 매우 강력해 보이지만, 월드 모델과 비교하면 제한적이다. 월드 모델은 자기 학습이 가능하고, 일반적 추론 능력과 공간 인식을 갖춘 다중모달 AI다. 반면 대규모 언어 모델은 패턴의 다음 요소를 예측하는 데 매우 능숙한 시스템이다.

다음은 필자가 보는 두 접근법의 차이점이다.

학습 방식 : 월드 모델은 환경을 관찰하고 누락된 정보를 추론하며 스스로 학습하는 지속적 강화학습을 사용한다. 예로 모델 기반 강화학습 시스템 ‘플래닛’이 있다. 반면 대규모 언어 모델은 방대한 데이터셋에 대한 광범위한 학습이 필요하다.
공간 인식 : ‘지니 3’과 같은 월드 모델은 다차원 환경과 동적으로 상호작용하며, 일관되고 상호작용 가능한 3D·4D·5D 세계를 상상하고 생성할 수 있다. 대규모 언어 모델은 공간에 대한 인식이 없다.
깊은 이해 : 월드 모델은 부분 정보로부터 인과 관계와 객체 지속성 같은 개념을 추론한다. 대규모 언어 모델은 단어의 의미를 이해하지 못한 채 패턴에 따라 다음 단어를 예측한다.
장기 계획 : ‘드리머 V3’ 기반 에이전트는 수천 번의 시뮬레이션을 통해 목표 달성을 위한 최적의 행동 순서를 찾는다. 반면 대규모 언어 모델의 장기 계획 능력은 취약하고 신뢰하기 어렵다.
다중모달 입출력 : 월드 모델은 다양한 형태의 입력을 처리하고 다양한 방식으로 출력을 생성할 수 있다. 예로 월드랩스의 ‘마블’은 정지 이미지로부터 3D 환경을 재구성하고 시뮬레이션할 수 있다. 대규모 언어 모델은 2차원 입력과 출력에 제한된다.

월드 모델은 어떻게 작동하는가

월드 모델은 세 개의 연결된 모듈로 구성된다.

인지 모듈 : 이미지, 영상, 고유 감각 정보 등 원시 감각 입력을 받아 환경의 압축된 잠재 표현으로 인코딩한다.
예측 모듈 : 확률 분포를 다루는 동역학 모델로, 인과성과 시간적 구조를 포착한다. 다음 잠재 상태와 행동의 결과를 확률적으로 예측한다.
계획(제어) 모듈 : 예측 모듈의 출력을 사용해 미래 경로를 시뮬레이션하고 목표 달성을 최적화하는 행동을 선택한다.

오로라인의 창립자 루후이 후는 “월드 모델의 핵심은 AI 시스템이 외부 환경을 시뮬레이션하기 위해 구축하는 내부 표현이다. 로봇은 감각 데이터를 지속적으로 처리하면서 주변 환경의 동적인 청사진을 만들어간다”고 설명한다. 그는 “인지, 예측, 계획의 결합은 인간의 인지 과정과 유사하며, 더 진보된 로봇 행동의 기반이 된다”고 덧붙였다.

월드 모델이 여는 가능성

AGI를 잠시 제쳐두더라도, 월드 모델의 잠재력에는 사실상 한계가 없어 보인다.

몰입형 시각 경험

월드 모델을 통해 상호작용하고 경험할 수 있는 설득력 있는 세계를 구축하는 것이 가능해지고 있다. 데카트가 개발한 모델처럼, 게임 엔진 없이도 플레이 가능한 시뮬레이션이 등장하고 있다.

데카트의 공동 창립자이자 CEO 딘 라이터스도르프는 “게임이나 환경을 구동하는 것이 AI가기 때문에, 우리가 AI와 상호작용하는 방식으로 환경과 상호작용할 수 있다”고 말한다. 그는 “예를 들어 ‘이걸 엘사 테마로 바꿔줘’라고 말하면 즉시 모든 것이 엘사 테마로 바뀌고, ‘날아다니는 코끼리를 추가해줘’라고 하면 실제로 상호작용 가능한 코끼리가 등장한다”고 설명한다.

혁신 가속화

지속적이고 일관된 세계 생성은 엔터테인먼트를 넘어선다. ‘마블’이나 ‘오아시스’처럼 텍스트, 사진, 영상, 3D 레이아웃, 파노라마 이미지로부터 지속 가능한 3D 환경을 생성하는 모델은 로보틱스 훈련을 위한 시뮬레이션 환경 구축을 가능하게 한다.

이런 다차원 계산 모델링은 분자 화학 탐색, 신약 개발, 우주 구조 연구, 내진 건축 설계, 기후 패턴 이해, 신소재 연구 등으로 확장될 수 있다.

현실의 법칙을 따르는 영상

AI가 물리적 동역학에 대한 이해를 높이면서, 영상 생성과 월드 모델의 경계는 점점 희미해지고 있다. 런웨이의 ‘GWM-1’은 프레임 단위의 자기회귀 영상 생성을 통해 현실을 시뮬레이션하는 예다. 루마 AI의 ‘비디오 수정’ 역시 비슷한 목표를 지닌다.

더 안전하고 정확한 의사결정

월드 모델은 부분 정보로부터 다양한 결과를 시뮬레이션하고 정확한 결과를 예측할 수 있기 때문에, 경제 모델링, 기후 예측, 정책 계획, 자율주행 안전성 향상 등 다양한 분야에서 의사결정을 개선할 수 있다.

현실적인 로봇

현실 환경에서 사용할 훈련 데이터가 부족한 문제를, 월드 모델이 생성하는 물리 인지형 합성 데이터가 해결할 수 있다. 엔비디아의 ‘코스모스 2.5’는 미래 환경 상태를 예측하고 생성하는 물리 인지형 영상을 만들어 자율주행차와 로봇 훈련에 활용되는 합성 데이터를 대규모로 생성한다.

월드랩스의 창립자이자 CEO인 페이페이 리는 “로보틱스 연구에는 훈련 데이터가 매우 부족하다. 월드 모델은 이 문제 해결에 결정적인 역할을 할 것”이라고 말한다.