클로드 코드, 추론 퇴행 논란…GPU 제약이 품질 발목 잡나

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2026.04.08 10:36

조회 1,388

코딩 어시스턴트가 어려운 부분을 회피하는 것처럼 보이면 개발자들은 곧바로 알아챈다. AMD AI 그룹의 한 시니어 디렉터는 앤트로픽의 클로드 코드가 어려운 문제를 건너뛰는 경향이 있다며 공개적으로 문제를 제기했다. 그가 지적하는 문제는 완전히 틀린 답을 내놓는 것이 아니라, 복잡한 문제일수록 더 빠르고 가볍게 처리하며 넘어가려는 경향이 강해진다는 점이다. AMD AI 그룹 임원과 팀은 하드웨어 디버깅, 커널 수준 문제 등 복잡한 엔지니어링 작업에는 클로드 코드를 더 이상 사용하지 않기로 했다.

스텔라 라우렌조가 깃허브 이슈 티켓에 올린 내용에 따르면, 2월 업데이트로 인해 복잡한 작업에 대한 추론 능력이 퇴행했을 가능성이 있다.

티켓의 근거는 라우렌조가 1월부터 3월까지 6,852개 세션 파일에서 추출한 1만 7,871개 사고 블록과 23만 4,760개 툴 호출을 정량 분석한 결과로, 업데이트 전후 기간을 모두 포함한다.

라우렌조는 분석을 통해 추론 능력 저하로 인해 모델이 코드를 변경하기 전에 코드를 점진적으로 읽는 행동을 중단했다고 지적했다.

“추론이 얕아지면 모델은 가장 저렴한 행동을 기본값으로 선택한다. 읽지 않고 수정하고, 완료하지 않고 멈추며, 실패에 대한 책임을 회피하고, 올바른 해결책 대신 가장 단순한 수정을 택한다”라고 라우렌조는 티켓에 적었다.

추론 능력 저하는 팀 전체에 큰 걸림돌이 된다는 것이 라우렌조의 설명이다.

C 언어 및 GPU 드라이버 시스템 프로그래밍을 수행하는 50개 이상의 동시 에이전트 세션과 복잡한 다중 파일 변경을 포함하는 30분 이상의 자율 실행 작업 전반에 영향을 미치기 때문이다.

이런 우려를 제기한 것은 라우렌조만이 아니다. 여러 사용자가 티켓에 댓글을 달며 라우렌조와 팀이 겪은 것과 유사한 경험을 했다고 밝혔다.

또 다른 사용자는 유사한 성능 저하 우려를 다룬 여러 서브레딧을 언급했으며, 깃허브에서 다수의 개발자가 그 댓글에 추천을 표시했다.

용량 한계와 개발자 인내심의 충돌

잇따르는 불만에 애널리스트들도 주목하기 시작했다. 이들은 문제의 원인을 앤트로픽의 용량 제약과 연결 짓는다.

IT 리서치 기업 아바산트(Avasant)의 리서치 디렉터 찬드리카 두트는 “근본적으로 용량과 비용의 문제다. 복잡한 엔지니어링 작업은 중간 추론 단계를 포함해 훨씬 많은 컴퓨팅 자원을 필요로 한다. 사용량이 늘어나면서 시스템이 모든 요청에 이 수준의 컴퓨팅을 유지하지 못하고 있다”라고 말했다. 그 결과 시스템은 작업 실행 시간이나 추론 깊이를 제한하고, 동시에 처리할 수 있는 작업 수도 줄이게 된다는 것이 두트의 설명이다.

앤트로픽이 클로드 코드와 관련해 용량 제약 문제에 직면한 것은 이번이 처음이 아니다.

지난달, 앤트로픽은 급증하는 수요로 컴퓨팅 용량이 한계에 달하자 클로드 구독 전반에 걸쳐 사용량 제한 조치를 시행했다. 당시 앤트로픽은 세션 한도 도달 속도를 높이는 방식으로 접근을 재분배해 시스템 과부하를 막으면서도 주간 전체 사용 할당량은 유지한다는 논리를 내세웠다.

개발자들은 추론 퇴행 문제와 마찬가지로 클로드 코드에 부과된 사용량 제한에도 강하게 반발하며, 제한 조치가 도구의 유용성을 훼손한다고 주장했다.

이탈은 없지만, 신뢰는 서서히 무너진다

사용량 제한과 추론 퇴행이라는 두 가지 불만이 겹치면서 플랫폼에 대한 개발자 신뢰가 흔들리고 있다. 애널리스트들은 대규모 이탈보다는 성장 모멘텀이 느려지고 엔터프라이즈 사용자가 대안을 함께 검토하는 방식으로 나타날 것이라고 본다.

그레이하운드 리서치(Greyhound Research)의 수석 애널리스트 산치트 비르 고기아는 “하룻밤 사이에 사용자가 떠나는 상황이 아니다. 훨씬 미묘하고, 그렇기 때문에 훨씬 위험하다. 지금 벌어지는 것은 중요한 순간에 개발자들이 시스템을 얼마나 신뢰하느냐가 조용히 바뀌고 있다는 것이다. 가장 강하게 불만을 표하는 팀은 이미 장시간 이어지는 복잡한 다단계 엔지니어링 작업에 시스템을 본격적으로 활용하기 시작한 곳”이라고 말했다.

바뀐 것은 결과물의 품질만이 아니라는 것이 고기아의 지적이다. 결과를 만들어가는 과정에서 시스템이 작동하는 방식도 달라졌다. 신중하고 단계적인 추론에서 더 빠르고 반응적인 실행으로 눈에 띄게 이동했으며, 이는 엔지니어가 더 자주 개입하고 더 빈번하게 작업을 중단시키며 결국 시스템이 처리해야 할 사고 과정을 직접 떠안게 되는 악순환을 만든다고 고기아는 강조했다.

이런 변화는 팀들로 하여금 복잡하거나 중요한 작업은 다른 도구로 돌리고 단순한 작업만 클로드에 맡기도록 유도하며, 시간이 지나면서 플랫폼의 위상이 주력 도구에서 보조 도구로 격하될 수 있다는 것이 고기아의 분석이다.

라우렌조 역시 깃허브 이슈 티켓에 따르면 고기아가 예측한 것과 같은 방식을 택하고 있다. 현재는 클로드 코드 사용을 잠시 중단하고 앤트로픽의 수정을 기다리는 한편, 이름을 밝히지 않은 경쟁 서비스로 전환한 상태다.

프런티어 모델 모두가 짊어진 구조적 한계

아바산트의 두트는 라우렌조의 결정이 장기적으로 해결책이 되기 어렵다고 본다. 경쟁사들도 앤트로픽과 유사한 용량 제약에 직면할 수 있다는 이유에서다. 두트는 “모든 프런티어 모델은 비슷한 GPU 및 비용 제약 하에 운영된다. 사용량이 늘어나면 모든 공급자가 스로틀링 메커니즘, 계층형 접근 모델, 속도·비용·추론 깊이 간의 트레이드오프를 도입해야 할 것이다. 구조적으로 피할 수 없는 흐름”이라고 말했다.

추론 퇴행 문제는 더욱 쉽지 않다. 두트는 대규모 환경에서 깊은 추론을 유지하는 것을 어려운 과제로 보며, 2025년 SWE-EVO 벤치마크 결과를 근거로 든다. AI 코딩 에이전트를 대상으로 한 이 벤치마크에 따르면, 다단계 작업에서 성공률이 급격히 떨어지고, 실행 집약적 시나리오에서 실패율이 60~80%에 달하는 경우도 많다.

더 내면 더 보인다

라우렌조는 앤트로픽이 방향을 수정할 수 있다고 낙관하며, 티켓에서 더 높은 추론 용량을 원하는 사용자를 위한 프리미엄 티어 도입을 제안하기도 했다.

두트와 고기아는 이것이 머지않아 현실이 될 수 있다고 봤다. 업계가 기본 사용과 추론 집약적인 고부하 작업을 다르게 처리하는 소비 모델로 이동하고 있기 때문이다.

애널리스트들은 라우렌조가 앤트로픽에 제안한 또 다른 사항, 즉 사고 토큰 할당 방식에 대한 투명성 확보에 대해서도 지지 입장을 밝혔다.

고기아는 “사용자는 시스템이 내부적으로 무엇을 하는지 이해할 수 있어야 한다. 모든 세부 사항을 알 필요는 없지만, 시스템이 문제를 실제로 추론한 것인지 아니면 단순히 빠른 답변을 내놓은 것인지 정도는 알 수 있어야 한다. 현재 사용자는 결과를 보고 그것을 추론할 수밖에 없는 상황이며, 그래서 로그와 행동 패턴을 직접 분석하는 사용자가 나오는 것이다. 이런 수고를 강요해서는 안 된다”라고 말했다.

현재까지 앤트로픽은 라우렌조의 깃허브 티켓에 아무런 답변을 달거나 담당자를 지정하지 않은 상태다.

빠른 해결을 기대한다면, 특히 용량 문제에 관해서는 기대치를 낮춰야 할 것이다. 적어도 2027년까지는 기다려야 할 수 있다. 브로드컴이 제조하는 구글 TPU가 앤트로픽의 인프라에 추가되는 시점이 그때이기 때문이다. 더 많은 GPU가 확보되거나 회사가 높은 가격을 지불하는 사용자에게 우선권을 주기로 결정하기 전까지, 개발자들은 스레드를 새로고침하며 토큰이 배급되는 상황을 지켜보고 추론 능력이 돌아오기를 기다려야 할지 모른다.
dl-itworldkorea@foundryco.com