AI 비용 절반으로 줄이는 모델 라우팅, 이제는 토큰매칭이다
컨텐츠 정보
- 조회 10
본문
오랜 델파이(Delphi) 사용자로서, 비주얼 베이직 진영과 벌였던 ‘언어 전쟁’을 생생히 기억한다. 당시 델파이의 초기 코드명은 ‘VBK’, 즉 VB 킬러(VB Killer)였고, 비주얼 베이직 커뮤니티는 크게 반발했다. 비주얼 베이직 진영 사람들이 델파이 포럼에 찾아와 시비를 걸었고, 거침없는 델파이 진영도 지지 않고 맞받아치며 날선 설전을 주고받았다. 사실 개인적 취향에 불과한 것을 두고 크게 흥분했던, 지금 돌이켜보면 즐거운 추억이다.
오늘날 논쟁의 무대는 한 단계 위로 올라갔다. 코딩에 더 나은 모델은 무엇인가가 화두다. 비주얼 베이직과 델파이 시절만큼 치열하진 않지만, 저마다 의견이 있다. 기업은 팀에 도입할 모델을 선택하기 전에 다양한 모델을 검토하고 있으며, 대다수 팀은 사용할 모델 패밀리를 정해놓고 있다.
어느 순간부터 클로드나 코덱스와 직접 대화하는 방식은 다소 투박하게 느껴지기 시작했다. 머지않아 지스택(GStack)과 수퍼파워스(Superpowers) 같은 스캐폴딩 도구들이 대규모 언어 모델과의 상호작용을 위한 기반을 구축하기 시작했다. 모델 자체에 프롬프트가 전달되기 전에 처리할 기준 지침을 마련하고, 유용한 맥락을 형성하며, 원시 프롬프팅 위에 하나의 계층으로 작동하는 방식이었다. 컨텍스트 엔지니어링은 채팅 인터페이스 위에 추가되는 첫 번째이자 가장 보편적인 계층이다.
모델과 하네스 선택이 끝나자 너도나도 AI 서비스의 토큰을 극한까지 활용하려는 토큰맥싱(tokenmaxxing)에 열을 올렸다. 모델을 갖고 있다면 당연히 최대한 활용하고 싶은 법이다. 하지만 청구서가 날아오자 관리자들은 불만을 표했다. 비용이 치솟으면서 리더십 차원에서 지출이 제대로 쓰이고 있는지 의문을 품기 시작했다.
모델 라우팅 – 다음 계층
어셈블리어와 레지스터 수동 조정이 컴파일러와 구조화 언어에 자리를 내줬고, 이후 프레임워크와 라이브러리가, 그리고 최근에는 대규모 언어 모델과 프롬프팅이 등장했듯이, 개발자와 관리자 사이에서도 대규모 언어 모델 지출을 더 효율적으로 관리할 방법이 있다는 인식이 싹트기 시작했다.
하지만 어떻게 돌아가는지 파악하는 순간, 어김없이 또 다른 계층이 등장해 힘들게 쌓은 지식을 구식으로 만들어버린다. 영어로 코딩할 수 있게 됐다고 해서 다음 추상화 계층의 등장을 막을 수 있는 건 아닌 것 같다.
역시나 또 하나의 추상화 계층이 등장했다(Sic semper fuit, 예나 지금이나 마찬가지다). 모델 라우팅은 토큰 지출 대비 가치를 극대화하는 최신 방법이다.
핵심 개념은 모든 프롬프트가 동등하지 않다는 점이다. 클로드에게 묻는 모든 질문이 프런티어 모델의 심층 사고를 요구하는 건 아니다. 모델 라우터는 프롬프트를 분석해 어느 모델이 가장 적합한지 판단하고, 쿼리를 그 모델로 전송한다. 단순한 요청은 구형 모델이 더 적합할 수 있고, 코드 리뷰는 그 목적에 특화된 모델이 더 나을 수 있다.
모델 라우팅은 토큰 지출 효율을 높인다. 현재 클로드 코드(Claude Code)를 실행하면 세션 전체에 쓸 모델을 선택해야 하고, 최상위 모델을 원할 경우 실제로 무엇을 하든 그 비용을 지불해야 한다. 모델 라우터를 활용하면 모델을, 즉 비용을 유동적으로 조정할 수 있다. 암호화폐 거래소 코인베이스 같은 기업은 토큰 사용량이 늘어남에도 AI 지출이 절반으로 줄어드는 효과를 보고 있다.
토큰맥싱에서 토큰매칭으로
대규모 언어 모델은 끊임없이 진화하며 더욱 강력해지고 더욱 특화되고 있다. 작업에 적합하면서도 비용 효율적인 모델로 프롬프트를 라우팅하는 능력이 토큰 효율을 극대화하는 방법이다. 현재 팀들은 수동으로 모델을 선택하고 있지만, 결국 AI 자체가 이런 결정을 내리는 최선의 수단이 될 것이다.
예를 들어, 클로드 코드 라우터(Claude Code Router)는 각 프롬프트가 요구하는 작업 유형에 따라 인기 있는 다양한 모델로 프롬프트를 라우팅할 수 있다. 오픈소스이기도 하다.
다음에 등장할 계층은 프롬프트 전처리다. 좋은 프롬프트를 작성하려고 노력할 수 있지만, AI 자체가 우리의 요청 내용을 개선할 수 있다. 프롬프팅에서 가장 효과적인 기법은 대규모 언어 모델에 “내가 묻지 않았지만 물어봐야 할 질문을 해달라”고 지시하는 것이다. 사용자가 프롬프트를 작성하면 AI가 내용을 명확히 다듬고 개선한 뒤, 최적의 비용 효율적인 모델로 라우팅하는 세계가 쉽게 그려진다.
이제 특정한 LLM 업체를 직접 선택할 필요가 없어진다. 원하는 것을 정확히 명시하는 데만 집중하면 된다. 특정 모델에 맞게 프롬프트를 수작업으로 다듬는 일은 이제 그만하자. 곧 등장할 모델 라우터와 프롬프트 전처리기가 그 어려운 작업을 대신해줄 것이다.
dl-itworldkorea@foundryco.com
관련자료
-
링크
-
이전
-
다음






