News Feed

“벤치마크로 모델 성능에 대한 혼란 해소” 벡터연구소, 전체 평가 결과 공개

컨텐츠 정보

  • 조회 718

본문

AI 모델은 엄청난 속도로 발전하고 있으며, 새 버전이 나올 때마다 더욱 인상적인 성능을 자랑하고 있다. 그렇다면 이렇게 다양한 모델은 실제로 어떻게 비교할까? 그리고 이를 구매해야 하는 기업은 솔루션 업체가 자사의 결과에 진정 성실하게 임하고 있는지 어떻게 알 수 있을까?

제프리 힌턴이 설립한 벡터 AI 연구소(Vector Institute for Artificial Intelligence)는 대화형 리더보드를 포함하는 새로운 평가 현황 연구를 통해 더 명확한 정보를 제공하고자 한다. 이 독립적인 비영리 AI 연구소는 수학, 일반 지식, 코딩, 안전 및 기타 영역의 16가지 벤치마크를 기준으로 11가지 최고의 오픈소스 및 독점 모델을 테스트하고 그 결과를 완전히 공개했다.

벡터 연구소의 AI 인프라 및 연구 엔지니어링 매니저인 존 윌스는 “연구자, 개발자, 규제 기관 및 최종 사용자는 결과를 독립적으로 검증하고 모델 성능을 비교할 수 있으며, 자체 벤치마크 및 평가를 구축해 모델을 개선하고 신뢰성을 높일 수 있다”고 밝혔다.

주요 모델의 성능

벡터 연구소가 벤치마크 테스트를 수행하고 성능 테스트 결과를 공개한 모델은 다음과 같다.

  • Qwen2.5-72B-Instruct (알리바바)
  • Llama-3.1-70B-Instruct (메타)
  • Command R+ (코히어)
  • Mistral-Large-Instruct-2407 (미스트랄)
  • DeepSeek-R1 (딥시크)
  • 오픈AI GPT-4o
  • 오픈AI o1
  • 오픈AI GPT4o-미니
  • 구글 Gemini-1.5-Pro
  • 구글 Gemini-1.5-Flash
  • 앤트로픽 Claude-3.5-Sonnet

모델은 두 가지 유형의 벤치마크에 따라 순위가 매겨졌다. 하나는 짧은 질문-답변 작업으로 구성된 기본 벤치마크이고, 다른 하나는 여러 단계로 이루어진 문제를 해결하기 위해 순차적인 결정과 도구 사용이 필요한 에이전트 벤치마크이다. 언어 이해, 수학, 코드 생성, 일반 AI 지원, AI 유해성, 상식 추론, 소프트웨어 공학, 대학원 수준의 지능 및 기타 작업에 대한 테스트가 진행됐다.

모델의 성능은 다양했지만, 딥시크와 오픈AI o1이 가장 높은 점수를 받았다. 반면, Command R+는 가장 낮은 성능을 보였는데, 윌스는 테스트한 모델 중 가장 작고 오래된 모델이라고 설명했다.

전반적으로, 비공개 소스 모델은 가장 까다로운 지식 및 추론 작업에서 오픈소스 모델보다 성능이 우수한 경향을 보였지만, 딥시크의 성능은 오픈소스가 여전히 경쟁력을 유지할 수 있음을 증명했다.

윌스는 “단순한 경우라면, 이런 모델들이 꽤 유용할 수 있다. 그러나 작업이 복잡해질수록 추론 능력과 이해력 측면에서 큰 벽에 부딪히게 된다”고 지적했다. 복잡한 작업의 예로는 여러 단계를 필요로 하는 고객 지원 기능이 있다. 윌스는 “복잡한 작업의 경우, 아직 엔지니어링 작업이 남아 있다. 아직 범용 모델과는 거리가 멀다”고 평가했다.

11개 모델 모두 일반 지식, 안전, 코딩과 관련된 실제 문제 해결 능력을 평가하기 위해 고안된 에이전트 벤치마크에 어려움을 겪었다. Claude-3.5-Sonnet와 o1이 이 분야에서 가장 높은 순위를 기록했는데, 특히 명시적인 목표를 가진 구조화된 작업에 있어서는 더욱 뛰어났다. 그럼에도 모든 모델이 개방형 추론과 계획을 필요로 하는 소프트웨어 엔지니어링이나 기타 작업에 어려움을 겪었다.

멀티모달리티는 모델이 다양한 입력을 처리할 수 있게 해주기 때문에 AI 시스템에서 점점 더 중요해지고 있다. 이를 측정하기 위해 벡터는 객관식과 주관식 형식을 통해 이미지와 텍스트에 대한 추론 능력을 평가하는 MMMU(Multimodal Massive Multitask Understanding) 벤치마크를 개발했다. 수학, 금융, 음악, 역사 등의 주제를 다루는 질문은 “쉬움”, “보통”, “어려움”으로 구분된다.

평가 결과, 오픈AI o1이 다양한 형식과 난이도 수준에 걸쳐 “우수한” 멀티모달 이해력을 보였다. Claude-3.5-Sonnet도 좋은 성적을 거뒀지만, o1의 수준에는 미치지 못했다. 이번에도 대부분 모델이 더 까다로운 개방형 과제를 주면 성능이 떨어지는 것을 확인했다.

윌스는 “현재 이런 시스템을 어떻게 하면 정말 멀티모달로 만들 수 있을지, 즉 텍스트 입력, 이미지 입력, 오디오 입력을 받아들이고 그 기능을 통합할 수 있을지 연구하는 작업이 진행되고 있다. 여기서 중요한 점은 아직 그 수준에 도달하지 못했다는 것이다”라고 설명했다.

벤치마킹의 과제 극복

벤치마킹의 큰 문제 중 하나는 평가 누락이다. 모델이 이전에 본 특정 평가 데이터 세트에서는 잘 수행되지만, 새로운 데이터에서는 그렇지 않은 경우를 말한다. 윌스는 “이런 벤치마크가 공개되면 다른 사람들이 이를 복제하고 검증할 수 있기 때문에 정말 좋다”라면서도, ”벤치마크에서 성능이 향상되었을 때, 그 성능 향상이 단지 테스트에 대한 답을 찾았기 때문이 아니라 모델의 기능이 단계적으로 개선되었기 때문이라고 확신할 수 있도록 하는 데는 큰 어려움이 있다”고 덧붙였다.

벡터 연구소는 구매 기업이 벤치마크의 결과를 이해하고 특정 사용례에 가장 적합한 모델을 적용할 수 있도록 샘플 수준의 결과를 모두 공개했다. 윌스는 “대부분의 경우, 사람들이 이런 지표를 보고할 때 높은 수준의 지표만 제공한다”라고 지적했다. 그러나 벡터 연구소의 인터랙티브 리더보드에서는 사용자가 모델을 통해 제시된 모든 질문을 클릭해 분석할 수 있으며, 그 결과도 확인할 수 있다.

따라서 기업 사용자가 특정 사용례를 자세히 살펴보고자 한다면, 그 결과를 아주 깊이 있게 분석해 내용을 이해할 수 있다. 윌스는 IT 의사결정권자가 평가 중인 모델과 구축 중인 모델 사이를 일대일 매핑을 할 수 있도록 실제 사용례와 밀접하게 연결되는 것이 중요하다며, “그것이 바로 우리가 여기서 해결하고자 하는 것 중 하나다. 방법론을 최대한 개방적으로 만드는 것”이라고 강조했다.

가장 일반적인 벤치마킹 과제를 극복하기 위해 벡터 연구소는 보다 참신한 벤치마킹과 동적 평가를 옹호한다. 윌스는 “동적 평가는 훨씬 더 오래 지속되며 평가 누락 문제를 많이 방지한다”라며, “벤치마킹과 평가의 지속적인 개발이 필요하다”라고 덧붙였다.
dl-itworldkorea@foundryco.com

관련자료

댓글 0
등록된 댓글이 없습니다.
Member Rank