News Feed

오픈AI “GPT-5.2, 실제 업무 수행 능력 전문가 수준으로 향상”

컨텐츠 정보

  • 조회 375

본문

오픈AI가 차세대 AI 모델 GPT-5.2를 최근 공개했다. 회사는 이번 버전이 GPT-5.1보다 실제 비즈니스 과제를 “전문가 수준”으로 수행하는 능력이 크게 향상됐다고 밝혔다.

이번 모델은 인스턴트(Instant, 즉시 답변), 씽킹(Thinking, 좋은 답변을 위해 더 오래 생각), 프로(Pro, 리서치급 인텔리전스) 등 3가지 성능 티어로 제공되며, 다양한 벤치마크 전반에서 대폭 개선된 성능을 보였다고 오픈AI는 설명했다.

오픈AI의 자체 벤치마크인 GDP밸(GDPval) 기준에 따르면, GPT-5.2는 44개 비즈니스 과제를 인간 전문가와 동일한 수준으로 수행하는 테스트에서 70.9%의 일치율을 기록했다. 이는 GPT-5.1의 38.8% 대비 약 2배 가까운 향상이다. 3가지 모델 모두에서 개선이 확인됐다. 예를 들어, 오픈AI는 GPT-5.2 씽킹 모델이 인력 계획용 스프레드시트를 완전한 서식 형태로 작성할 수 있었던 반면, GPT-5.1은 같은 내용을 생성했지만 형식이 단순하고 서식이 적용되지 않은 상태였다고 설명했다.

오픈AI는 “GPT-5.2는 사용자에게 더 큰 경제적 가치를 제공하기 위해 설계됐다”라며 “스프레드시트 작성, 프레젠테이션 제작, 코드 작성, 이미지 인식, 긴 맥락 이해, 툴 활용, 복잡한 다단계 프로젝트 수행 등에서 한층 개선됐다”라고 밝혔다.

GPT-5.2는 여러 주요 벤치마크에서도 고르게 성능이 향상됐다. 일반 문제 해결 능력을 평가하는 ARC-AGI-1과 ARC-AGI-2, 그리고 실제 소프트웨어 개발 작업 수행 능력을 측정하는 SWE-벤치 프로/베리파이드(SWE-Bench Pro/Verified) 테스트 모두에서 개선된 결과를 보였다. 오픈AI는 “이런 향상은 실제 업무 환경에서 코드 디버깅, 기능 구현, 대규모 코드 리팩터링, 엔드 투 엔드 수정 작업을 더 안정적으로 수행할 수 있음을 의미한다”라고 말했다.

GPT-5.2는 현재 챗GPT 유료 이용자부터 순차적으로 배포가 시작됐다. 구독 요금은 이전과 동일하다. API를 통해 사용할 경우, 입력 토큰 100만 개당 1.75달러, 출력 토큰 100만 개당 14달러의 요금이 책정됐다. 또한 캐시된 입력 토큰에는 90%의 할인율이 적용된다. GPT-5.1보다 단가가 다소 높지만, 오픈AI는 “GPT-5.2의 토큰 효율성이 높아 동일한 품질 수준을 얻는 데 실제 비용은 오히려 더 낮아졌다”라고 설명했다.

안정세 찾은 ‘코드 레드’

오픈AI는 이번 신형 모델의 빠른 등장을 통해 GPT-5 개발 속도가 크게 가속화됐음을 보여줬다. 불과 얼마 전까지만 해도 회사 내부에서는 위기감이 감돌았다. 12월 초, CEO 샘 알트먼은 임직원에게 ‘코드 레드(Code Red)’ 긴급 메모를 발송해 “GPT-5 개발 속도를 높이지 않으면, 구글의 차세대 모델 제미니나이 3에 뒤처질 위험이 있다”라고 경고했다.

이후 상황은 다소 안정세를 찾은 것으로 보인다. 알트먼은 최근 CNBC와의 인터뷰에서 “제미나이의 발전은 예상보다 위협적이지 않았다”라며 “코드 레드 상태는 내년 1월 종료될 것”이라고 밝혔다. 다만 이번 GPT-5.2 웹 발표문에는 제미나이 3과의 성능 비교는 포함되지 않았다. 외신 보도에 따르면, 별도의 비공개 브리핑에서만 일부 비교 결과가 언급된 것으로 전해졌다.

다만 지멘스의 수석 AI 애널리스트 마리아 수카레바서브스택에서 오픈AI의 벤치마크 활용 방식 전반에 대해 의문을 제기했다. 그는 “GPT-5.2가 GDP밸에서 더 나은 성과를 냈다고 주장하지만, 이 벤치마크는 오픈AI가 오픈AI를 위해 만든 테스트다. 기술적으로 오픈AI는 44개 과제에 맞춰 모델을 미세 조정할 수 있으며, 그 외 다른 영역에서는 완전히 실패할 수도 있다”라고 지적했다.

또한 “모델이 어떤 데이터로 학습됐는지 공개되지 않은 상태에서 GPT-5.2가 제시한 수치는 의미가 없다. 이 모델은 이전 버전과 동일한 한계를 여전히 안고 있다”라고 비판했다.

전자상거래 플랫폼 셀 더 트렌드(Sell The Trend)의 CEO 라시드 ‘러시’ 웨비는 실제 환경에서 GPT-5.2를 테스트한 결과를 공유하며 “GPT-5.2는 복잡한 문맥이 여러 겹으로 겹칠 때도 논리적 흐름을 더 오래 유지하며 무너지지 않았다. 기업 입장에서는 사소한 벤치마크 수치 개선보다 이런 맥락 유지 능력이 훨씬 더 중요하다”라고 말했다.

웨비는 이어 “벤치마크는 발전의 방향을 보여주는 지표일 뿐, 실제 환경에서 모델이 제대로 작동할지를 보장하진 않는다. GPT-5.2는 분명 한 걸음 나아간 모델이지만, 엔터프라이즈 AI는 여전히 발전 중인 영역”이라고 평가했다.

AI 리터러시 교육 기업 휴먼 보이스 미디어(Human Voice Media) 설립자 밥 허친스는 “지금까지 기업이 AI에 느낀 좌절의 대부분은 마지막 20%에서 비롯됐다. 형식, 제약 조건, 작업 인계 등 세부적인 부분에서 문제가 많았다. 약속과 연실의 간극을 완전히 해소한 것은 아니지만 GPT-5.2는 그 영역에서 분명한 진전을 보여주고 있다”라고 평가했다.

예를 들어, 에이전틱 AI 개발 업체 벡타라(Vectara)가 자체 환각 평가 모델(Hallucination Evaluation Model)을 통해 실시한 벤치마크 결과에 따르면, GPT-5.2는 이 분야에서 분명한 개선을 보였지만 여전히 일부 경쟁사보다는 뒤처진 것으로 나타났다.

벡타라의 개발자 관계 총괄 오퍼 멘델레비치는 “오픈AI는 여전히 환각 성능을 개선해야 할 여지가 많다. GPT-5.2 로우 씽킹(Low-Thinking) 버전은 현재 GPT 계열 중 가장 우수하지만, 벡타라 리더보드에서 33위를 기록했고 환각률은 8.4% 수준이었다. 반면 딥시크 V3.2는 6.3%의 환각률로 23위, 제미나이 3은 13.6%, 그록(Grok) 4.1은 17.8%를 기록했다. GPT-5.2가 개선된 것은 분명하지만, 여전히 경쟁사 대비 격차가 남아 있다”라고 설명했다.
dl-itworldkorea@foundryco.com

관련자료

댓글 0
등록된 댓글이 없습니다.