HSG, 실사용 환경에 초점 맞춘 AI 벤치마크 ‘엑스벤치’ 오픈소스로 공개
컨텐츠 정보
- 조회 448
본문
중국계 벤처캐피털 홍산캐피탈그룹(HongShan Capital Group, 이하 HSG)이 기업용 AI 모델의 실사용 성능을 측정할 수 있는 새로운 벤치마크 도구 ‘엑스벤치(xbench)’를 오픈소스로 공개했다. 자체 개발한 내부 테스트 도구를 외부에 개방한 것으로, 평가 항목을 지속적으로 변경하는 방식으로 모델 제작자가 테스트에 과도하게 최적화하는 것을 방지하는 데 중점을 뒀다.
기존 벤치마크의 문제점은 평가 항목이 공개돼 있어 모델이 해당 테스트에 맞춰 훈련될 수 있다는 점이다. 이에 따라 정확한 성능 측정이 어려워진다는 비판이 이어졌다. HSG는 이러한 한계를 극복하고자 평가 항목을 지속적으로 바꾸는 다중 테스트 세트를 도입해, AI 기업이 일반화된 문제 해결 능력에 기반해 성과를 내야 하도록 설계했다고 설명했다.
HSG는 엑스벤치의 개발 목적에 대해 “내부 평가 도구를 공공의 AI 벤치마크로 전환하고, 더 많은 AI 인재와 프로젝트를 개방적이고 투명하게 유치하기 위함”이라며 “오픈소스 정신이 엑스벤치의 진화를 가속화하고 AI 커뮤니티에 실질적 가치를 제공할 것”이라고 전했다.
HSG는 6월 17일, 엑스벤치의 두 가지 평가 항목인 ‘xbench-Science QA’와 ‘엑스벤치-딥서치’를 공식적으로 오픈소스로 공개했으며, 향후에는 “대규모 언어모델(LLM) 및 AI 에이전트의 발전 속도에 맞춰 지속적이고 동적으로 벤치마크를 업데이트할 것”이라고 밝혔다.
주관적 영역에서 더 유효한 ‘실전 중심 평가’
카운터포인트리서치 AI·IoT 리서치 이사 모히트 아그라왈은 “AI 모델은 특히 추론과 같은 주관적인 영역에서 기존 벤치마크의 한계를 넘어서고 있다”라며 “엑스벤치는 실전 적합성과 유연성을 갖춘 시기적절한 시도”라고 평가했다. 또한 “완벽하지는 않지만, 실전 중심 AI 성능 평가의 기초를 마련할 수 있다”라고 덧붙였다.
모히트 아그라왈은 또 “최근 2~3년 사이 모델 자체의 성능이 급격히 향상됨에 따라, 이에 맞춰 평가 기준 역시 진화할 필요가 있다”라고 지적했다. 그는 “xbench는 기존 방식이 놓치고 있던 핵심 평가 공백을 채우려는 첫 걸음으로, 보다 현대적이고 실질적인 벤치마크를 향한 출발점”이라고 설명했다.
다만 아그라왈은 “수학이나 코딩처럼 정답이 명확한 영역은 평가가 비교적 쉽지만, 추론처럼 주관적 해석이 필요한 영역은 평가 자체가 매우 어렵다”라고 말했다. “추론형 모델은 다양한 맥락에서 응용될 수 있고, 특정 분야에 특화될 수 있는데, 이러한 주관성은 기존 어떤 벤치마크로도 온전히 포착하기 어렵다”는 점에서, 지속적 업데이트와 전문가 참여가 필수적인 구조임을 강조했다.
아그라왈는 또 “전문가의 도메인 배경이나 지역적 편향에 따라 평가에 왜곡이 개입될 수 있다”는 점을 지적하며, “그럼에도 엑스벤치는 실전 영향력과 시장 적합성을 평가하기 위한 강력한 출발점이 될 수 있다”라고 평가했다.
새로운 활용례에 맞춘 벤치마크 필요성
아말감 인사이트의 CEO 겸 수석 애널리스트 현 박은 “AI 모델이 매주 혹은 매달 단위로 진화하는 시장에서, 벤치마크를 지속적으로 개선하고 최신화하려는 노력은 환영할 만하다”라면서도, “단순히 업데이트만 할 것이 아니라, 실제로 벤치마크의 기준 자체도 달라져야 한다”라고 강조했다.
박은 “데이터브릭스의 에이전트 브릭스(Agent Bricks) 사례처럼, 새로운 활용례에 특화된 독립적 벤치마크가 필요하다는 목소리가 커지고 있다”면서, 세일즈포스 리서치가 최근 발표한 연구 결과도 LLM이 실제 업무에서는 기술적 능력과 무관하게 성과가 낮을 수 있다는 점을 보여준다고 덧붙였다.
현 박은 “LLM의 가치는 종종 특정 문제 해결력보다는, 문제를 해결할 필요가 있는지 판단하는 능력에 있다”라며, “엑스벤치처럼 복잡한 문제를 직접 풀 수 있는지를 평가하는 것만으로는 부족하고, 이러한 복잡성이 정말 필요한지를 판단하는 열린 질문형 접근이 필요하다”라고 설명했다.
이어 “AI 모델이 직면한 과제가 얼마나 복잡한지를 이해하기 위해, 대부분의 사용자가 바프닉-체르보넨키스 복잡도(VC dimension) 개념을 직관적으로 인식할 수 있어야 한다”면서 “이 값이 높고 낮음을 기준으로 대형 모델을 쓸지 소형 모델을 쓸지 결정하는 것이 비용 차원에서도 핵심적인 판단 기준이 될 수 있다”라고 전했다.
끝으로 박은 “AI 벤치마크는 수십억 달러 규모의 AI 경쟁에서 막대한 이해관계가 걸려 있으면서도 평가 정의가 불명확한 매우 어려운 과제”라며, AI 기업이 특정 벤치마크에 과도하게 최적화하거나 결과를 왜곡할 유인이 상존한다는 점에서, 더욱 공정하고 실용적인 평가 기준 수립이 시급하다고 지적했다.
dl-itworldkorea@foundryco.com
관련자료
-
링크
-
이전
-
다음






