메타, 자가 학습으로 추론 성능 높이는 AI 프레임워크 ‘스파이스’ 공개

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.11.13 10:05

조회 362

메타(Meta) 연구팀이 인간의 감독 없이도 LLM의 추론 능력을 스스로 향상시킬 수 있는 새로운 강화학습 프레임워크 ‘스파이스(Self-Play in Corpus Environments, SPICE)’를 공개했다.

이번 연구는 싱가포르국립대학교(National University of Singapore)와 공동으로 진행됐으며, 스파이스는 하나의 모델이 ‘도전자(Challenger)’와 ‘추론자(Reasoner)’의 역할을 모두 수행하도록 설계됐다. 도전자는 복잡한 문서 기반 문제를 생성하고, 추론자는 이를 해결하는 방식으로 학습이 이뤄진다.

스파이스의 가장 큰 특징은 기존 자가 학습 방식에서 흔히 발생하던 환각 루프를 방지한다는 점이다. 실제 문서 말뭉치(corpus)를 학습 기반으로 삼아, 인공적으로 생성된 합성 데이터가 아닌 검증 가능한 텍스트에서 지식을 습득하기 때문이다. 이를 통해 스파이스는 수학 및 일반 추론 벤치마크에서 평균 약 10%의 성능 향상을 기록했다.

연구팀은 이번 접근법을 “정적인 인간 주도 데이터셋이 아니라, 웹 문서에 내재된 방대한 검증 가능한 지식과의 상호작용을 통해 스스로 발전할 수 있는 AI로의 패러다임 전환”이라고 설명했다.

자가 학습형 AI가 어려운 이유

자가 학습형 AI(self-improving AI)는 LLM의 등장으로 현실화되고 있지만, 대부분의 기존 접근 방식은 일정 수준의 성과 이후 근본적인 한계에 부딪힌다.

연구팀은 논문에서 “외부 그라운딩(grounding)이 없는 상황에서는 모델이 필연적으로 한계에 다다르거나 붕괴된다. 그 이유는 2가지”라고 설명했다. 첫째는 ‘환각 증폭(hallucination amplification)’으로, 모델이 검증 불가능한 합성 데이터를 기반으로 스스로 생성한 질문과 답변을 반복 학습하면서 사실 오류가 누적되는 현상이다. 둘째는 ‘정보 대칭성(information symmetry)’으로, 문제를 생성하는 모델과 이를 해결하는 모델이 동일한 지식 기반을 공유하기 때문에 진정한 도전이 불가능해지고, 결과적으로 단순하고 반복적인 학습 패턴에 머무르게 되는 문제다.

이러한 문제를 극복하기 위해 일부 연구에서는 학습 데이터를 다양화하려는 변분 합성(variational synthesis) 기법을 시도하고 있지만, 이 역시 한계가 있다. 사전학습 과정에서 이미 확보된 정보의 범위 안에서만 작동하기 때문에 결국 기존 지식을 변형하거나 재조합하는 수준에 머문다는 것이다.

스파이스의 작동 원리

스파이스의 핵심은 하나의 LLM이 2가지 역할을 번갈아 수행한다는 점이다. 모델은 한 단계에서는 도전자로, 다음 단계에서는 추론자로 작동한다.

도전자 단계에서 모델은 방대한 문서 말뭉치에서 정보를 추출해 복잡하면서도 실제 문서에 기반한 질문을 생성한다. 이어지는 단계에서는 역할을 바꿔 추론자로서, 원문을 직접 보지 않고 해당 질문에 대한 답을 도출하려 시도한다.

도전자는 추론자가 풀 수 있는 한계에 근접한 문제를 만들어낼수록 더 높은 보상을 받는다. 이런 방식을 통해 도전자는 문제를 어렵지만 해결 가능한 수준으로 유지한다. 반면, 추론자는 정답을 정확히 제시할수록 높은 보상을 받는다.

이 같은 상호 경쟁적 학습 과정은 실제 데이터에 기반해 진행되기 때문에 모델은 인간의 감독 없이도 새로운 문제를 지속적으로 발견하고 해결 능력을 향상시킬 수 있다.

이 접근법은 이전 연구가 수학이나 코딩 등 제한된 분야에 머물렀던 이유인 검증 병목(verification bottleneck) 문제를 해소한다. 스파이스는 합성 데이터나 가정된 정보가 아닌 실제 문서 기반 답변을 활용하기 때문에 결과를 사실적 근거와 직접 대조하며 검증할 수 있다.

실험 결과로 보여준 성과

연구팀은 여러 LLM을 대상으로 스파이스 실험을 진행한 결과, 추론 성능이 뚜렷하고 일관적으로 향상됐다고 밝혔다.

큐웬3(Qwen3) 4B 모델의 성능은 35.8%에서 44.9%로 상승했으며, 더 큰 규모의 큐웬3 8B 모델은 43.0%에서 48.7%로 개선됐다. 특히 옥토싱커(OctoThinker) 모델에서는 성능 향상이 더욱 두드러졌다. 3B 버전은 14.7%에서 25.2%로, 8B 버전은 20.5%에서 32.4%로 증가했다.

연구팀은 “도전자와 추론자 간의 대립적 상호작용이 자동 학습 커리큘럼을 형성한다. 고정된 추론자의 통과율은 55%에서 35%로 감소하면서 점점 더 어려운 문제를 생성하도록 학습하는 반면, 고정된 도전자의 통과율은 55%에서 85%로 상승해 두 역할이 함께 진화하고 있음을 보여준다”라고 설명했다.

또한 연구팀은 학습 과정에서 실제 문서를 기반으로 한 그라운딩이 지속적인 성능 향상에 결정적이라는 점을 확인했다. 외부 참조 없이 학습한 모델은 일정 수준에 도달한 뒤 성장이 멈췄지만, 스파이스가 실제 텍스트 데이터를 활용할 경우 새로운 문서 자료를 통해 점차 복잡한 문제를 생성하며 꾸준히 발전을 이어갔다.

연구의 시사점

이번 연구는 방대한 문서 컬렉션을 외부 지식원으로 활용함으로써 스파이스가 모델이 자체 데이터에 머무르며 정체되는 문제를 극복하도록 돕는다는 점을 보여준다. 애널리스트들은 이런 프레임워크가 향후 기업이 도메인 특화형 AI 모델을 학습시키는 방식에 영향을 미칠 가능성이 있다고 평가하면서도, 도입에는 새로운 책임과 관리 체계가 수반될 것이라고 지적했다.

카던스인터내셔널(Kadence International)의 수석 부사장 튤리카 실은 “스파이스는 적응형 AI에 새로운 가능성을 열었지만, 기업은 단순히 시스템을 설정해둔 채 방치할 여유가 없다. 자가 개선(self-improving) 시스템에는 자가 검증 메커니즘이 필요하다. 인간의 감독, 감사 기록, 컴플라이언스 가드레일이 반드시 핵심에 있어야 한다”라고 말했다.

실은 도전자–추론자 구조가 이론적으로는 재무나 법률 문서 등 기업 내부 데이터로도 재현 가능하지만, 이를 위해서는 “깊은 수준의 인프라, 정제된 데이터셋, 투명성에 대한 강력한 집중”이 필요하다고 언급했다.

또한 자율 학습 루프가 편향 강화나 컴플라이언스 드리프트(compliance drift) 같은 위험을 초래할 수 있다며 “스파이스는 AI를 자율성에 한 걸음 더 가깝게 밀어주지만, 책임 없는 자율성은 위험하다”라고 덧붙였다.

에베레스트그룹(Everest Group)의 프랙티스 디렉터 애니시 나스는 기업이 스파이스 같은 프레임워크를 운영용 자율 시스템이 아닌 ‘학습 역량 강화 도구’로 활용해야 한다고 조언했다.

나스는 “자가 대전(self-play)은 샌드박스에서 실행하고 단계적으로 관리되는 배포 체계를 적용해야 한다. 낮은 위험도의 내부 워크플로우부터 시작해 충분한 근거와 데이터가 축적된 이후에만 핵심 프로세스로 확대해야 하며, 엄격한 가드레일을 적용해야 한다. 예를 들어 스키마 제약 출력, 정책 엔진, 최소 권한 화이트리스트, 이상 탐지, 서명 기반 조치와 감사 추적, 롤백·킬 스위치, 고위험 행동에 대한 인간 승인 등이 포함돼야 한다”라고 말했다.

나스는 자가 생성 학습 데이터가 자율적인 개발 루프로 이어질 수 있다는 점에는 동의하면서도, 모델 붕괴, 데이터 중독, 추적 불가능한 성능 변동 등의 위험이 뒤따른다고 경고했다. “이런 문제는 독립적인 평가 모델, 데이터 출처 추적, 버전 관리된 데이터셋, 그리고 역량 확장 시 인간 검증 단계를 통해 완화할 수 있다”라며 “AI의 발전은 통제 가능하고, 검증 가능하며, 규정을 준수하는 범위 내에서 이뤄져야 한다”라고 강조했다.
dl-itworldkorea@foundryco.com