저비용 모델부터 현장 엔지니어까지, AI 토큰 비용 폭증의 해법

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2026.06.19 11:43

조회 19

생성형 AI 도구와 서비스가 어디서나 쓰일 만큼 보편화되면서 사용 비용도 천정부지로 치솟고 있으며, 토큰에 대한 수요도 끝없이 늘고 있다.

토큰은 AI 사용을 측정하고 가격을 책정하는 일반적인 수단이다. 영어에서 글자와 단어가 문장을 구성하듯, 대규모 언어 모델(LLM)은 단어를 토큰으로 분해해 문장이나 쿼리를 처리한다.

구글 CEO 선다 피차이는 AI 열풍이 본격화되면서 토큰이 이제 “모델이 처리하는 데이터의 기본 단위로, 많은 경우 해결해야 할 문제를 나타낸다”라고 밝혔다. (구글은 한 달에 약 3.2경 개의 토큰을 처리한다.)

모든 토큰 비용이 쌓여가면서 비즈니스 및 IT 임원은 기업 생산성을 유지하면서 비용을 절감할 방법을 찾고 있다. 통제되지 않은 토큰 사용으로 예상치 못한 5억 달러 AI 청구서를 받은 기업도 있다.

모델, 인프라, 실리콘, 비즈니스 수준에서 AI 비용을 절감할 수 있는 방법은 여럿 있다. 다양한 실제 절감 방법을 살펴본다.

저비용 모델로 전환하기

피차이는 비용을 절감하는 방법 중 하나로 AI 작업을 더 저렴한 모델로 전환하는 것을 꼽았다. 구글에서는 제미나이 3.5 플래시가 그 대안이다. 제미나이 3.5 플래시는 “비슷한 수준의 프론티어 모델보다 절반 이하의 가격으로 프론티어 수준의 성능을 낸다.”

피차이는 “기업이 제미나이 3.5 플래시와 다른 프론티어 모델을 함께 활용하면 비용을 크게 절감할 수 있다”라고 말했다.

이런 모델은 더 저렴한 토큰을 쓰면서도, 주류 제미나이 3.5만큼 강력하지는 않더라도 많은 사용자에게 유용한 결과를 도출하기에 충분한 추론 능력을 갖추고 있다.

가트너 시니어 디렉터 애널리스트 디팩 세스는 “대규모 언어 모델을 사용할 때 필요 이상으로 과도한 경우가 있다”며 “찰스 디킨스, 셰익스피어, 해리 포터 작품으로 훈련된 대규모 언어 모델이 항상 필요한 건 아니다”라고 말했다.

하이퍼프레임 리서치(Hyperframe Research) 수석 애널리스트 스티븐 딕킨스는 개인 업무에 월 20달러짜리 아마존 퀵을 놓지 못하고 있다. 딕킨스는 “업무 속도를 높였을 뿐 아니라 이전에는 시도조차 하지 못했던 작업도 가능하게 해준다는 점에서 개인적으로 투자 대비 효과가 크다”라고 말했다.

하드웨어·소프트웨어 측면도 놓치지 말아야

데브레브(DevRev) CEO 디라즈 판데이는 토큰 위기가 새로운 현상이 아니라며, 지금 AI 시장에서 벌어지는 상황을 수년 전 클라우드 컴퓨팅과 가상화 기술이 등장했을 때의 혼란과 유사하다고 봤다.

판데이는 “혼란이 만연하다가 다시 수습해야 했다”며 “당시 사람들이 쓰기 시작한 단어가 서버 통합과 가상화였다”라고 말했다.

판데이는 토큰 문제의 해법도 마찬가지라며, “시스템의 어떤 문제든 캐싱과 인다이렉션으로 해결할 수 있다”라고 말했다.

예를 들어 데브레브는 AI 에이전트와 세일즈포스 또는 ERP 기록 같은 주요 데이터 소스 사이에 메모리 레이어를 구축하고 있다. 이 레이어는 에이전트의 일반적인 질문에 대한 답변이 담긴 지식 그래프를 보유하며, 더 비싼 GPU(GPU) 사이클 대신 저렴한 CPU(CPU)에서 실행돼 토큰 부하를 줄이고 데이터 이동 효율을 높일 수 있다. 판데이는 에이전트를 서비스나우나 세일즈포스 같은 시스템에 직접 연결하면 “토큰 소비가 훨씬 많아질 뿐 아니라 정밀도도 떨어지고, 에이전트가 실수를 저질렀을 때 롤백할 수 없어 안전하지도 않다”라고 말했다.

네트워크 자동화 업체 넷브레인(NetBrain)은 다른 방식을 채택한다. 일반 컴퓨팅으로 네트워크 구조를 먼저 파악한 뒤 AI가 강점을 발휘하는 계획·추론 단계에서만 핵심 정보를 모델에 전달한다. 넷브레인 CTO 송 팡은 “그렇게 하면 모든 토큰을 소비할 필요가 없다”라고 말했다.

프롬프트 효율성에 집중하기

인력 서비스 업체 맨파워그룹(ManpowerGroup)은 프롬프트 효율성이 토큰 사용을 개선하는 데 내부적으로나 고객사를 위해서나 효과적인 수단이 될 수 있다는 사실을 확인했다.

예를 들어 내부 노동시장 분석 도구에 처음 접속한 사용자는 쿼리를 구체화하기 위해 10개의 후속 질문이 필요했다. 맨파워그룹 데이터 사이언스 및 AI 솔루션 총괄 맥스 러밍은 1년 후 효율적인 프롬프트 활용 덕분에 그 수가 평균 4개로 줄었다고 전했다.

러밍은 “토큰도 적게 쓰고 단순히 더 효율적으로 바뀌었다”며 “그 상당 부분이 프롬프트를 효율적으로 작성하는 능력에 달려 있다”라고 말했다.

로컬 환경 활용하기

가정에서 무료로 토큰을 생성할 수 있는 새로운 AI 하드웨어가 일부 비용 문제를 완화할 수 있다.

이달 초 GTC 타이베이에서 엔비디아와 마이크로소프트는 윈도우 환경에서 에이전트와 1,200억 매개변수 모델을 로컬로 실행하는 에이전틱 AI 데스크톱 PC RTX 스파크(RTX Spark)를 공개했다. 마이크로소프트 CEO 사티아 나델라는 성명을 통해 목표는 “윈도우를 통해 모든 가정과 책상에 무제한 인텔리전스를 전달하는 것”이라고 밝혔다.

일부 기업은 HPE, 델 같은 업체가 독립 시설에 설치하는 서버를 도입해 클라우드 AI 비용을 줄이려 하고 있다. (중동의 대형 데이터센터가 미사일 공격을 받은 사례를 포함해 주권 AI와 지정학적 우려가 높아지면서 온프레미스 AI가 주목받고 있다.)

가트너 시니어 디렉터 애널리스트 맥스 고스는 “로컬, 지역별, 다중 업체 AI 솔루션이 모두 리스크 완화에 도움이 될 수 있지만, 완전히 제거하지는 못한다”라고 말했다.

현장 배치 엔지니어 활용하기

AWS 생성형 AI 이노베이션 센터 매니징 디렉터 타이무르 라시드는 토큰 비용 절감이 고객사 환경에 파견된 현장 배치 엔지니어(FDE)의 몫이 될 수 있다고 밝혔다.

라시드는 “다른 모델을 사용하거나 토큰당 비용을 높이지 않는 사용례를 도입하는 등 비용 요건을 고려한 시스템을 설계할 수 있는 능력을 이 팀들이 갖추길 기대한다”라고 말했다.

라시드는 기업이 토큰 소비에 막대한 비용을 지출하더라도 “수익을 창출하고 있고 경제성이 맞아떨어진다면 문제없다”라고 말했다.

IT 의사결정권자들이 AI 배포를 성공적으로 추진하면서 비용도 관리하려는 가운데 FDE 활용이 점점 확산되고 있다.

성공 지표를 토큰에서 성과로 전환하기

토큰 사용량 감소에 초점을 맞추는 현 상황에서도 AI 성공을 측정하는 지표는 바뀔 가능성이 높다고 가트너의 세스는 말했다. 어느 시점에서는 토큰 기반 가격 책정이 성과 기반 모델로 전환돼 가치의 단위가 단어의 조각이 아닌 성과 자체가 될 것이다.

세스는 “일부 기업은 성과 기반 가격 책정으로 이동하고 있다”며 “사람들이 토큰의 실제 비용을 인식하기 시작하면 기업은 토큰 효율성에 주목할 것”이라고 말했다.
dl-itworldkorea@foundryco.com

댓글 0개

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

SEARCH

작성자 정보

컨텐츠 정보

본문