“AI 모델에도 종속은 위험” 딥시크라는 혁신의 의미
컨텐츠 정보
- 조회 733
본문
지난달 딥시크는 생성형 AI 세계를 뒤흔들었다. 엔지니어와 개발자는 딥시크가 어떻게 이런 성과를 달성했는지, 그리고 기술 스택에서 어떻게 딥시크를 활용할 수 있을지 궁금해하고 있다.
딥시크 팀은 AI 커뮤니티에서 이미 알려져 있지만 완전히 적용되지 않은 개발 기술을 기반으로 구축했다. 그 결과, 성능 면에서 메타의 라마 3.1 같은 선도적 모델과 비교할 만한 모델이 탄생했지만, 구축 및 훈련에 드는 비용은 훨씬 적었다.
가장 중요한 것은 딥시크가 오픈 액세스 기술로 작업을 릴리즈했다는 것이다. 즉, 다른 사용자도 배울 수 있고, 훨씬 더 경쟁력 있는 대형 언어 모델 시장을 창출할 수 있다는 의미다.
딥시크가 어떻게 혁신을 이루어냈는지, 그리고 이러한 혁신이 빠르게 등장할 때 이를 활용하기 위해 기업이 해야 할 일이 무엇인지 살펴보자.
딥시크 모델의 내부
딥시크는 12월 말과 1월 말에 두 가지 모델을 공개했다. 딥시크 V3는 GPT-4와 비슷한 규모의 강력한 기초 모델이고, 딥시크 R1은 복잡한 추론을 위해 특별히 설계되었으며 V3을 기반으로 한다. 각각의 기술적 전략을 살펴보겠다.
딥시크 V3
- 정밀 훈련을 위한 새로운 조합 : 딥시크는 8비트 정밀도 행렬 곱셈을 활용해 더 빠른 연산을 가능하게 하는 한편, 정확한 정밀도로 결과를 누적하는 사용자 정의 로직을 구현했다. 또한 WGMMA 병렬 연산자를 활용했다.
- 멀티 토큰 예측을 한 단계 더 발전시키다 : 여러 토큰을 동시에 예측하는 방법을 개척한 메타의 프랑스 연구팀에서 영감을 받은 딥시크는 향상된 구현 기법을 활용해 개념을 한 단계 더 발전시켰다.
- 전문가의 “공통 지식 활용” : 혼합 전문가(Mixture-of-Experts, MoE)의 기본 개념은 인간이 필요한 신경 회로만 사용함으로써 에너지를 절약하는 것처럼, 작업에 따라 뇌의 다른 부분을 활성화하는 것과 유사하다. 전통적인 MoE 모델은 네트워크를 제한된 수의 전문가(예를 들어 8명)로 분할하고 쿼리당 하나 또는 두 개만 활성화한다. 딥시크는 마이크로소프트 리서치에서 처음 탐구한 아이디어를 통합해 훨씬 더 세분화된 접근 방식을 도입했다. 즉, 일부 공통 지식은 항상 활성 상태로 유지되는 모델 구성 요소에 의해 처리되어야 한다는 개념이다.
딥시크 R1
- 대규모 보상 추론 : 알파고 제로가 게임 규칙만으로 바둑을 두는 법을 배운 것처럼, 딥시크 R1 제로는 기본 보상 모델에서 추론하는 방법을 배웁니다. 새로운 개념은 아니지만, 대규모 모델에 성공적으로 적용한 것은 전례가 없는 일이다. 딥시크의 연구는 중요한 것을 깨닫는 심오한 순간을 포착한다. 딥시크 R1 제로는 스스로 생각에 더 많은 시간을 할애하면 더 나은 답을 얻을 수 있다는 것을 깨달았다.
- “콜드 스타트” 큐레이션 : 딥시크 R1 모델은 딥시크 V3의 콜드 스타트 데이터를 통합하는 등 더 전통적인 접근 방식을 활용한다. 이 단계에서는 획기적인 기술이 적용된 것 같지는 않지만, 인내심과 세심한 큐레이션이 이 모델의 작동에 핵심적인 역할을 한 것으로 보인다.
딥시크의 발전은 공개 연구의 증거이며, 인류의 발전에 어떻게 도움이 될지를 보여준다. 가장 흥미로운 다음 단계는 무엇일까? 허깅페이스는 이미 오픈 R1 프로젝트에서 딥시크 R1을 재현하기 위해 노력하고 있다.
LLM 불가지론의 중요성
AI를 제한하는 요인은 비즈니스 가치나 모델 품질을 발견하는 것이 아니다. 기업이 AI 파트너와 함께 불가지론 전략을 유지하는 것이 중요하다.
딥시크는 하나의 LLM 제공업체에 모든 것을 걸면 패배할 가능성이 높다는 것을 보여준다. 일부 기업은 오픈AI, 앤트로피컬, 미스트랄 등 단일 업체에 의존하고 있다. 그러나 새로운 플레이어가 나타나면 단 일주일만에 업계의 전체 지형을 뒤흔들 수 있다는 사실이 증명됐다. 기업은 LLM에 구애받지 않는 접근 방식이 필요하다.
다중 LLM 인프라를 사용하면 업체에 종속되는 위험을 피할 수 있고, 시장이 발전함에 따라 모델을 통합하고 전환하는 것이 더 쉬워진다. 본질적으로 기업의 AI 여정이 선택의 폭을 보장한다면 모든 LLM 결정을 미래에 대비할 수 있다.
기업은 또한 신중한 거버넌스를 통해 통제력을 유지해야 한다. 딥시크와 빠르게 부상하고 있는 에이전트형 인공지능의 세계는 인공지능 환경이 얼마나 혼란스럽고 빠르게 변화하고 있는지를 보여준다. 오픈소스 추론 모델과 급속하게 증가하는 업체로 가득한 세상에서, 엔지니어링 팀은 엄격한 테스트, 강력한 안전장치, 지속적인 모니터링을 유지해야 할 것이다.
이러한 요구를 충족한다면, 딥시크 같은 기술은 경쟁을 촉진하고, 비용을 절감하며, 더 많은 기업이 활용할 수 있는 새로운 사용례를 열어 모든 기업에 큰 도움이 될 것이다.
dl-itworldkorea@foundryco.com
관련자료
-
링크
-
이전
-
다음






