알리바바, 소형 추론 모델 QwQ-32B 출시 “딥시크 R1·오픈AI o1에 필적”
컨텐츠 정보
- 조회 729
본문
알리바바 클라우드가 최신 LLM 큐웬2.5-32B(Qwen2.5-32B)를 기반으로 구축된 소형 추론 모델 QwQ-32B를 출시했다. 알리바바는 이 모델이 매개변수 320억 개만으로도 딥시크(DeepSeek)와 오픈AI의 o1을 포함한 최첨단 대형 모델과 견줄 만한 성능을 제공한다고 주장했다.
알리바바는 공식 발표에서 QwQ-32B의 성능이 모델의 핵심 기술인 강화 학습(reinforcement learning, RL)의 강력함을 보여준다고 설명했다. 특히 “방대한 전 세계 지식을 학습한 기초 모델 큐웬2.5-32B에 강화 학습을 적용했을 때 그 효과가 극대화된다”라며, 지속적인 강화 학습 확장을 통해 QwQ-32B가 수학적 추론과 코딩 능력에서 상당한 향상을 보였다고 설명했다.
AWS는 RL을 “소프트웨어가 최적의 결과를 도출하기 위해 의사 결정을 내리도록 훈련하는 머신러닝 기법”이라고 정의한다. 인간이 목표를 달성하기 위해 시행착오를 거치는 학습 과정을 모방한 것으로, 목표 달성에 기여하는 행동은 강화되고 목표에서 벗어나는 행동은 무시되는 방식으로 학습이 진행된다.
알리바바는 발표에서 “이 모델은 일반 보상 모델과 규칙 기반 검증기를 활용한 보상 학습을 통해 훈련됐으며, 이를 통해 전반적인 성능이 향상됐다. 이에 따라 QwQ-32B는 지시를 더 정확하게 따르고, 인간의 선호도에 보다 잘 맞추며, 에이전트로서의 수행 능력도 개선됐다”라고 말했다.
알리바바의 블로그에 따르면, QwQ-32B는 아파치 2.0 라이선스에 따라 허깅페이스와 모델 스코프(Model Scope)에서 오픈 가중치(open-weight) 형태로 제공된다. 알리바바는 QwQ-32B의 320억 개 매개변수가 “활성화된 매개변수 370억 개를 포함해 총 671억 개의 매개변수를 가진 딥시크 R-1과 견줄 만한 성능을 제공한다”라고 강조했다.
모델 개발팀은 “이번 발표는 큐웬이 RL을 통해 추론 능력을 향상하는 첫 단계다. 이 과정에서 확장된 RL의 잠재력을 확인했을 뿐 아니라 사전 학습된 언어 모델이 지닌 미개척 가능성도 인식하게 됐다”라고 설명했다.
이어 “차세대 큐웬 개발 과정에서 더욱 강력한 파운데이션 모델과 확장된 연산 자원을 기반으로 하는 RL의 결합이 인공일반지능(Artificial General Intelligence, AGI) 실현에 한 걸음 다가가게 할 것이라고 확신한다. 알리바바는 RL을 활용한 에이전트 통합을 적극적으로 탐구하고 있으며, 이를 통해 장기적 추론 능력을 향상하고 추론 시간 확장을 통한 더 높은 수준의 지능을 실현하는 것을 목표로 한다”라고 덧붙였다.
AI 모델 성능 비교, 의미 있을까?
인포테크 리서치 그룹(Info-Tech Research Group)의 기술 고문 저스틴 세인트-모리스는 이번 발표에 대한 의견을 묻자 “이런 모델을 비교하는 것은 서로 다른 레이싱팀의 성적을 비교하는 것과 같다. 물론 모두 빠르지만, 매번 다른 팀이 우승하는 상황이라면 그 차이가 정말 의미가 있을까?”라고 반문했다.
이어 “LLM이 점점 범용화되는 상황에서 중요한 것은 모델 자체의 성능 비교가 아니라 실제 사용례에 맞는 모델을 선택하는 것”이라며, “마치 오토바이와 버스를 비교할 때 중요한 것은 속도가 아니라 사용 목적이듯이, 필요에 맞는 모델을 선택하는 것이 핵심”이라고 설명했다.
또한 세인트-모리스는 “오픈AI가 무슨 뜻이든 간에 ‘박사 수준의 지능’을 제공하는 모델을 운영 비용 문제로 인해 월 2만 달러에 판매하려 한다는 소문이 있다. 중국에서 나온 고성능 모델들은 LLM이 반드시 높은 운영 비용을 수반해야 한다는 기존 가정을 뒤집고 있다. LLM 분야에서 수익성을 확보하는 핵심은 단순한 연산력과 수천억 달러 규모의 데이터센터가 아니라 최적화에 달려 있다”라고 강조했다.
딥시크에 대해 세인트-모리스는 “다른 모델이 과대 평가됐으며 성능도 기대에 못미친다고 주장하는데 효율성이 경쟁력을 결정하는 요소라면 어느 정도 일리가 있다. 다만 중국산 AI가 ‘글로벌 시장에서도 안전한가’라는 문제는 전혀 다른 논의다. 이는 각 기업의 리스크 감내 수준, 규제 이슈, 그리고 해당 모델이 데이터 거버넌스 정책과 얼마나 부합하는지에 따라 달라진다”라고 말했다.
세인트-모리스에 따르면, 모든 AI 모델은 저마다 다른 방식으로 윤리적 경계를 시험한다. 예를 들어, 북미의 그록(Grok)이 중국의 딥시크보다 본질적으로 더 윤리적이라고 단정하는 것은 점점 더 모호해지고 있으며, 결국 이는 개인의 의견 차이에 불과하다. 윤리적 기준을 누가 설정하는지, 어떤 관점에서 바라보는지에 따라 평가가 달라질 수 있다는 이야기다.
중국 AI 시장의 세 번째 주요 플레이어는 바이두로, 2024년 자체 모델 어니(Ernie)를 출시했다. 그러나 이 모델은 중국 외 시장에서 큰 영향력을 발휘하지 못하고 있으며, 이에 대해 세인트-모리스는 “놀라운 일이 아니다”라고 말했다.
이어 “바이두는 영어를 지원한다고 주장하지만, 실제 웹사이트에서는 여전히 중국어로만 응답을 제공하고 있다. 알리바바와 딥시크는 글로벌 시장을 적극적으로 겨냥하는 반면, 바이두는 자국 시장에 더 집중하는 모습이다. 우선순위가 다르면 결과도 달라질 수밖에 없다”라고 덧붙였다.
dl-itworldkorea@foundryco.com
관련자료
-
링크
-
이전
-
다음






