200달러짜리 환상, 세레브라스 코드의 민낯

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.09.19 16:22

조회 1,778

한 업체가 2000TPS의 Qwen3-Coder-480B-A35B-Instruct(일명 퀜3 코더)를 50달러(세레브라스 코드 프로) 또는 200달러(세레브라스 코드 맥스)라는 파격적인 가격으로 제안했을 때, 필자 역시 다른 많은 개발자와 마찬가지로 한껏 기대에 부풀었다. 이 제안은 발표와 거의 동시에 정해진 수가 매진됐다. 필자는 다음 신청 창이 열리자마자 맥스 요금제를 구매했다. 눈치 빠른 독자는 짐작했겠지만, 2000TPS라는 주장은 사실상 거짓이었다.

유튜브 채널 고수코더(GosuCoder)를 운영하는 애덤 라슨은 리뷰에서 “초당 최대 2000토큰이라고 할 때 사람들이 기대하는 실제 속도는 어느 정도일까? 1000 정도면 만족할까? 아니면 500, 200, 100, 50, 25? 최소한 어느정도 나와야 그 주장이 진실이라고 인정할 수 있을까? 다양한 애플리케이션에서 수없이 API를 테스트했지만 초당 2000토큰은 단 한 번도 도달하지 못했다. 사실 장시간 실행되는 테스트에서 500TPS도 넘긴 적이 없다. 소규모 작업에서는 100TPS를 밑돌았다”고 전했다.

필자의 작업 방식은 대규모 언어 모델을 사용하는 대부분의 개발자와는 다르다. 필자의 목표는 자율 코드 생성이다. 단순히 LLM에 “이것을 작성해”라고 지시하는 방식이 아니라, 사전에 세부적인 계획을 마련해서 모델이 그 계획을 실행하도록 한다. 필자를 움직이게 한 직접적인 원인은 최근 잇따른 클로드 맥스의 제한이다. 갑자기 생성 윈도우가 4시간에서 2시간으로 줄었고, 앤트로픽은 주간 및 월간 입력 용량도 줄이겠다고 예고했다. 이 상황에서 세레브라스가 출구를 제안한 것이다. 물론 퀜3 코더는 클로드 오퍼스는 물론 소넷과도 동급이라고 할 수 없지만, 필자는 전에 이 모델을 사용해 ARM용 SIMD 지원을 고 언어에 추가하는 작업을 한 적이 있다(아직 완료하지는 못함). 이 모델은 비사고(non-thinking) 모드에서 소넷 3.7 수준이며, 가끔 예상치 못한 상황에서 오퍼스를 능가하기도 한다.

파이어웍스와 비교하기 어려운 품질

그러나 세레브라스의 호스팅형 퀜을 처음 접한 경험은 훨씬 더 많은 비용이 든 다른 업체 파이어웍스(Fireworks)에서의 경험과는 달랐다. 처음에는 세레브라스의 퀜이 필자의 CLI에서 작동조차 하지 않았다. 또한 루 코드(Roo Code)를 비롯해 필자가 사용법을 아는 다른 툴에서도 마찬가지로 작동하지 않았다. 버그 리포트를 받아본 세레브라스는 필자의 코드가 문제라고 지적했다. 파이어웍스의 클로드, GPT-4.1, GPT-5, o3, 그리고 퀜/알리바바가 호스팅하는 퀜에서도 모두 잘 작동한 CLI가 문제라는 말이었다.

필자의 로그에는 세레브라스가 스트림을 분할해서 메시지 형태로 출력할 때 오해하기 쉬운 아티팩트가 포함돼 있긴 했지만, 그것과 별개로 이는 그동안 세레브라스가 일반적으로 취해온 접근 방식이다. 즉, 오픈AI 호환성을 개선하는 것이 아니라 클라이언트 측을 비판하며 수정을 요구하는 행태다. 필자는 의견을 받아들여 CLI를 수정했지만 그 과정에서 많은 편법을 써야 했다.

파이어웍스와는 완전히 대조적이다. 파이어웍스 초기에 문제가 발생해서 디버그 출력을 보내준 적이 있는데, 파이어웍스 측은 즉시 문제를 인정하고(오픈AI 스타일의 출력이 아닌 잘못된 네이티브 툴 호출을 반환하는 문제) 하룻밤 사이에 바로 수정했다. 세레브라스는 자사 인프라는 완전무결하게 작동 중이며 모든 요청이 성공적으로 처리됐다고 반복해서 주장했지만 세레브라스 디스코드 채널에서 대부분의 사용자들이 말하는 내용은 이와 상반된다.

필자는 3주에 걸쳐 테스트와 수정 작업을 반복한 끝에 문제를 해결했다고 판단하고 계정 구매가 다시 열렸을 때 세레브라스 코드 맥스 계정을 하나 더 구매했다. 그리고 이 무렵 알게 된 사실인데, 세레브라스는 필자에게 요금은 맥스 계정으로 청구하면서 실제로는 프로 요금제에 해당하는 서비스를 한동안 제공했다. 세레브라스 측은 문제를 수정하긴 했지만 맥스가 아닌 프로로 설정돼 있던 날짜에 대한 보상은 제공하지 않았다. 세레브라스의 분석 콘솔은 측정 수치는 현지 시간을 기준으로 제공하면서 제한은 UTC를 기준으로 하는 등 엉망진창이기 때문에 필자 입장에서 부당함을 증명하기도 어려웠다.

어쨌든 그렇게 해서 계산 작업을 돌려봤다. 세레브라스 코드 맥스 계정 하나는 하루에 1억 2,000만 토큰 제한이 적용되고, 비용은 프로 계정 4개에 해당한다. 프로 계정의 일일 제한은 2,400만 토큰이므로 4개를 합치면 9, 600만 토큰이다. 분당 제한도 있어서, 프로 계정은 분당 30만 토큰, 맥스 계정은 40만 토큰이 적용된다.

세레브라스 사용 경험은 쾌적함과는 거리가 멀다. 10~20초 정도 정말 빠르게 작동하다가, 분당 토큰 제한에 도달하면 그 분이 끝날 때까지 429 오류(요청이 너무 많음)가 쏟아진다. 코딩 툴이 스마트하다면 지수 백오프 방식으로 재시도하겠지만 그렇지 않으면 스트림이 끊어진다. 결국 프로 계정을 4개 구매했다면 이론적으로는 분당 120만 토큰을 사용할 수 있으니, 가치 측면에서 맥스 계정보다 그 방법이 훨씬 낫다.

세레브라스 디스코드 채널에는 제한된 컨텍스트 윈도우에 대해 불만을 쏟아내는 사용자들도 있다. 세레브라스는 퀜3 코더의 컨텍스트를 131k로 제한한다. 모델이 지원하는 네이티브 컨텍스트의 절반이 조금 넘는 수준이다. 이 정도 컨텍스트로도 작업은 가능하지만 세심한 컨텍스트 관리와 이에 맞춰진 툴이 필요하다. 참고로 클로드 코드의 경우 200k 미만의 컨텍스트를 지원하다가 최근 들어서야 크기를 늘렸다.

131k 컨텍스트로 작업하기 위해서는 프롬프트가 충분하면서도 크기가 작아야 한다. 툴은 모델이 감당할 수 있는 범위를 초과하지 않도록 해야 한다. 기본 루 코드로는 좋은 경험을 기대하기 어렵다. 개인적으로 128k~131k는 코딩을 위한 최소한의 컨텍스트 길이라고 생각하지만 어디까지나 간신히 가능한 수준일 뿐이다.

퀜3 코더는 아주 좋은 모델이고 실질적으로 코드 생성을 위한 최초의 오픈 웨이트(open-weight) 모델이기도 하다. 그러나 이 모델은 비사고형이다. 즉, 계획 수립 측면에서 어려움이 있다. 이 문제는 세레브라스에만 국한된 것이 아니라 모델의 구조적인 특성이다. 클로드 코드와 같은 “할 일 목록”을 제공하는 툴을 사용하면 더 효과적이지만 퀜이 자율적인 계획을 생성하거나 이를 조율하도록 기대한다면 결과에 실망할 수 있다.

세레브라스 퀜을 사용한 코딩

필자는 세레브라스 코드 맥스에서 퀜3 코더를 실행해 AI 기반 자율 생성 계획을 수립하고 실행했다. 테스트를 위해서는 전형적인 AI 기반의 할 일 목록 앱을 생성했다. 제드(Zed) IDE에 통합된 CLI 툴인 LLxprt Code를 사용했다. 결과는 그다지 인상적이지 않았다(https://github.com/acoliver/todo-cerebras-qwen3-480). 퀜이 시작 부분과 같은 요소들을 제대로 연결하지 못했기 때문에 재조정을 위해 사후적으로 4개의 프롬프트를 작성해야 했다. LLM 관련 기능은 사실상 구현되지 않았다.

비교를 위해, 같은 프로세스를 사용해 제드의 LLxprt Code에서 클로드를 사용해 만든 동일한 앱을 보자. 계획을 생성하기 위해 사용한 프롬프트는 동일하지만 클로드에서 만든 계획이 더 낫다. 클로드와 퀜 모두 필자가 “계획 다듬기(plan gardening)”라고 이름을 붙인 작업이 필요했다. 모델이 계획을 생성한 후 새로운 세션을 실행해 이를 평가하고 적절한 형태가 될 때까지 수정하는 과정이다. 구현 이후 클로드에도 4번의 재조정 프롬프트를 제공했다(출력된 애플리케이션은 여전히 할 일 채팅의 컨텍스트를 저장하지 않음). 클로드는 처음에는 가짜로 LLM을 통합했지만 4번의 프롬프트 재조정 과정을 거치면서 앱을 수정했다. 퀜과 같은 횟수이므로 이 부분에서는 대등하다고 할 수 있다.

이 작업을 진행하면서 세레브라스 코드의 일일 사용량 제한에 도달했다. 반면 클로드에서는 4시간 제한조차 도달하지 않았다. 세레브라스의 경우 스로틀이 걸리면서 할 일 앱을 생성하는 데 더 오랜 시간이 걸렸다. 정확한 시간을 측정하지는 않았지만 세레브라스에서는 낮에 시작한 작업이 밤까지 이어졌고, 클로드에서는 한두 시간 정도 걸렸다. 앱이 생성되는 중에 이 기사를 작성하고 있었기 때문에 정확히는 측정하지 못했다.

다른 업체를 사용해 퀜3 코더의 테스트 생성을 실행해보지는 않았으므로 다른 대안과 비교한 성능은 확인하지 못했다. 다만 비공식적인 의견이라는 전제 하에 세레브라스의 퀜은 파이어웍스의 유료 토큰 버전에 비하면 떨어지며, 퀜/알리바바가 무료로 호스팅하는 버전에 비해서도 약간 뒤쳐지는 것으로 보인다. 라슨이 평가에서 확인한 약 8%의 성능 저하와도 일치하는 결과다.

세레브라스의 약속과 사용자의 반응

세레브라스는 이 시스템을 여전히 키워 나가는 중이다. 세레브라스는 클로드 코드와 함께 사용하기 위해 자체적인 모델 컨텍스트 프로토콜(MCP) 서버를 만들었다. 클로드를 사용해 계획을 생성하고, 세레브라스의 퀜3 코드로 코드를 작성한다는 개념이다. 일부 사용자는 좋은 결과를 보고했지만 그렇지 않은 경우도 있다. 세레브라스는 또한 마이클 파펜버거가 만든 코드 퍼피(Code Puppy)라는 CLI를 홍보하기 시작했다. 참고로 파펜버거는 CLI를 세레브라스에서 안정적으로 작동시키는 데 성공한 최초의 인물이다.

파펜버거는 세레브라스의 가장 열렬한 외부 지지자로 활동해오고 있다. 파펜버거는 디스코드 메시지를 통해 필자에게 다음과 같이 말했다.

“사용 경험은 전반적으로 꽤 괜찮았다. 제한이 큰 단점이지만 개인적으로 이 회사를 아주 좋아하기 때문에 일단 지금은 ‘허위 광고’를 지적할 마음은 없다. 나는 CLI로서의 클로드 코드를 그다지 좋아하지 않는다. 지금은 각자 원하는 툴을 바이브 코딩할 수 있는 시대인데, OAuth를 깨지 않고서는 내 CLI를 사용할 수 없다는 것은 클로드 코드의 큰 단점이다. 반면 세레브라스는 내가 무엇을 사용하든 관계없이 작동한다.”

이렇게 우호적인 파펜버거도 사용 경험이 “기대에는 미치지 못한다”는 점을 지적하면서 “컨텍스트 윈도우가 더 커야 한다. 제한은 세레브라스의 핵심적인 가치 제안을 희석시키는 걸림돌이다. 무슨 이유인지 90만 개의 코어를 갖춘 이 메가 칩의 RAM 용량에 제한을 걸어놓은 것이다. 다만 내가 아키텍처를 제대로 이해하지 못했을 수도 있다. 전반적으로 세레브라스의 미래가 밝다고 생각하기 때문에 계속 사용할 것”이라고 말했다.

반면 세레브라스의 문제를 업계 전체의 문제를 나타내는 증상으로 보는 부정적인 입장의 개발자들도 있다. diegonix라는 닉네임으로 활동하는 개발자도 그 중 한 명으로, 다음과 같이 말했다.

기업들은 앞다퉈 AI 제품을 쏟아내고 있지만 사용자에 대해서는 신경 쓰지 않는다. 그저 투자자의 주머니에서 돈을 털어내고 싶을 뿐이다. 나는 윈드서프(Windsurf) 계정을 갖고 있다. 원 소유자가 황급히 매각했고 코그니션(Cognition)이 인수했지만 현재 윈드서프는 버려진 상태다. 오픈AI 비즈니스 요금제를 사용 중인데, 지원은 AI 봇을 통해 이뤄진다. 사람의 지원을 받기 위해 이틀째 기다리는 중이다. 세레브라스의 경우 투명성이 부족하고 제품 간 일관성도 없다. 그록(Groq)도 어려움에 처해 기존 고객을 제대로 지원하지 못하는 상황이다. 가장 상징적인 사례는 앤트로픽이다. 모델의 지능 문제에 대해 몇 개월 동안 쉬쉬하며 외부에 알리지 않았다. 이 기간 동안 프로와 맥스 요금제의 불투명성으로 인해 사용자들이 대거 이탈했다. 이후 앤트로픽이 한 일은 무엇일까? 현재의 열성적인 사용자들에게 관심을 기울이는 것이 아니라 시리즈 F 투자 라운드를 진행했다.

세레브라스의 경우 전부터 약속한 프롬프트 캐싱을 구현하기 시작한 것으로 보인다. 그러나 필자는 이들의 구현 방식에 대해 낙관적이지 않다. 더 적절한 오픈AI의 리스폰스 API(Responses API)를 사용하지 않고, 임시방편으로 챗 컴플리션(Chat Completions) API에 밀어 넣고 있기 때문이다. 반면 파이어웍스는 일부 모델에 대해 리스폰스 API를 지원한다(MCP 외부에서의 툴 호출을 지원하지 않는다는 점은 납득하기 어려움).

프롬프트 캐싱에 왜 관심을 가져야 할까? 더 빨라질 수 있지만 사실 진짜 문제는 실행이 아니라 TPM 스로틀이다. 세레브라스가 캐싱된 토큰을 한도에 포함시키지 않을 수도 있다. 그러나 세레브라스 측은 이것이 회사의 의도라고 밝힌 적이 없다. 다만 현재 개발 중이고 어떤 방식으로든 사용자들이 그동안 겪어온 문제를 해결할 것이라고만 말했다.

세레브라스 코드, 사용할 가치가 있는가?

솔직히 말하자면 아직 판단을 내리기 어렵다. 필자가 사용 중인 툴에서 세레브라스 코드가 제대로 작동하도록 하는 데 상당한 시간이 걸렸다. 더 성공적인 경험을 주장하는 사람들도 있지만, 대부분의 경우 필자와 같은 완전한 자율 개발은 시도하지 않는다. 파펜버거 역시 업무 외적인 용도로 세레브라스의 프로 요금제를 사용할 뿐이다. 파펜버거는 “회사에서 현재 버텍스 AI로 앤트로픽 모델을 사용하고 있는 덕분에 세레브라스를 유일한 솔루션으로 사용할 수 있었던 것”이라고 말했다. 필자의 경우 클로드를 사용해 계획을 생성한다면 세레브라스의 퀜에서 어느정도 괜찮은 결과를 얻을 수 있다. 세레브라스가 정상적인 맥스 요금제로 서비스를 조정해준 이후로는 일일 제한에 걸린 적이 없다. 그러나 TPM 제한까지 감안하면 세레브라스 코드 맥스는 클로드보다 느리다.

이번 달에도 여전히 ‘희망’에 돈을 내는 중이라고 할 수 있다. 다음과 같은 라슨의 말이 가장 정확하다.

나는 이와 같은 요금제가 나오기를 오랫동안 기다렸다. 다만 그 방식이 마음에 들지 않는다. 기존 코드베이스로 단 하나의 작업도 완료하지 못한 채로 41분 만에 일일 제한에 도달했던 것도 그렇고, 세레브라스가 약속하는 내용에 대해 깊이 알아보고 있는 지금까지, 결국 모든 부분에 대해 회의감이 들기 시작했다.

결론을 내보자. 이 모델에 적용된 기술은 매우 유망하며 구독 조건도 아주 매력적이다. 그러나 실행은 실망스럽고 투명성은 형편없으며, 어쩌면 기만적인 경향까지 보인다. 필자는 앞으로 한 달 정도는 “신중한 비관주의”적 자세로 지켜보면서, 세레브라스가 접근 방식을 바꾸고 서비스를 개선하기를 희망할 것이다.

어쨌든 필자는 정직함을 보상하는 시장이 존재한다고 생각한다. 다른 세계에서 세레브라스는 이렇게 말했을 수도 있다. “우리가 뭔가를 만들고 있는데 완벽하지는 않지만 X라는 결과를 달성하려고 하며, 개발자에게 분당 Y개의 토큰, 하루 Z개의 토큰을 제공할 것이다. 또한 호환성에 문제가 있다는 사실을 알고 있다. 문제는 이것이고, 이렇게 고칠 것이다.” 또 다른 세계에서 세레브라스는 세레브라스 코드를 클로드 코드+소넷과 비교 평가하고, 프로와 맥스 가격대 모두에서 클로드보다 비용 효율성이 우수하도록 조치를 취했을 수도 있다. 이 대체 현실에서 세레브라스는 이러한 문제를 인정하고, 개선 작업의 진행 상황과 방법을 명확히 밝히면서 그 사이에 문제를 겪은 모든 사용자에게 보상을 제공했을 것이다.

개발자들은 아직 개발 중인 제품의 자잘한 문제와 버그를 이해한다. 업체가 투명하고 정직한 자세로, 개발자들을 공정하게 대하면 이들은 기꺼이 문제를 참아준다. 앤트로픽은 그렇게 하지 않고 있다. 어느 업체든 세레브라스의 방식을 따르되 개발자를 공정하게 대한다면 “투명성 부족과 비일관적인 제품”이라는 인식을 넘어 폭넓은 사람들의 마음을 얻게 될 것이다. 세레브라스에 논평을 요청했지만 받지는 못했다.
dl-itworldkorea@foundryco.com