AI 발전 속도, 빠르지만 안전 검증은 뒤처졌다
컨텐츠 정보
- 조회 453
본문
국제 AI 안전 보고서 2026에 따르면 지난 1년 동안 AI 시스템은 빠르게 발전했지만, 위험을 테스트하고 관리하는 방법은 같은 속도로 발전하지 못했다.
30개국 이상에서 100명 넘는 전문가가 참여해 작성한 이 연구는 배포 전 테스트가 실제 환경에 배포된 이후의 AI 시스템 동작을 점점 제대로 반영하지 못하고 있다고 밝혔다. 이로 인해 소프트웨어 개발, 사이버 보안, 연구, 비즈니스 운영 전반에서 AI 활용을 확대한 기업이 어려움에 직면하고 있다고 분석했다.
연구진은 “신뢰할 수 있는 배포 전 안전 테스트를 수행하기가 점점 어려워지고 있다”라고 밝혔다. 또한 모델이 테스트 환경과 실제 환경을 구분하고, 평가 과정의 허점을 이용하는 사례가 더욱 일반화되고 있다고 설명했다.
이번 분석은 기업이 범용 AI 시스템과 AI 에이전트 도입을 가속화하는 상황에서 나왔다. 많은 기업은 전사적 도입에 앞서 벤치마크 결과, 공급업체 문서, 제한적인 파일럿 배포에 의존해 위험을 평가하고 있다.
빠르지만 고르지 않은 향상
보고서는 2025년 1월에 발간된 이전 보고서 이후 범용 AI 역량이 계속 향상됐으며, 특히 수학, 코딩, 자율적 작업 수행 능력에서 두드러졌다고 밝혔다.
구조화된 테스트 조건에서 선도적인 AI 시스템은 국제 수학 올림피아드 문제에서 “금메달 수준의 성능”을 달성했다. 소프트웨어 개발 영역에서는 AI 에이전트가 인간 개발자라면 약 30분이 걸렸을 작업을 수행할 수 있게 됐으며, 1년 전의 10분 미만 수준에서 크게 개선된 결과다.
다만 연구진은 이런 성과에도 불구하고 AI 시스템의 성능은 여전히 일관되지 않다고 지적했다. 복잡한 벤치마크에서 높은 성과를 보인 모델이 장시간 워크플로에서 발생한 기본적인 오류를 복구하거나 물리적 환경을 추론하는 등 비교적 단순해 보이는 작업에서는 어려움을 겪는 사례가 확인됐다. 보고서는 이런 양상을 “톱니형” 역량 발전이라고 설명했다.
기업 입장에서는 이런 불균형한 발전으로 인해 시스템이 광범위하게 배포된 이후 어떤 방식으로 동작할지를 평가하기가 더 어려워졌다. 특히 연구에서는 AI 도구가 통제된 시연 환경을 벗어나 일상적인 운영 환경으로 이동하면서 불확실성이 커졌다고 분석했다.
실제 동작을 예측하지 못하는 평가 결과
보고서가 강조한 핵심 우려 사항은 평가 결과와 실제 환경에서의 결과 간 격차가 확대되고 있다는 점이다. 기존 테스트 방식은 배포 이후 AI 시스템의 행동을 더 이상 신뢰성 있게 예측하지 못한다고 지적했다.
보고서 분석에 따르면 배포 전 테스트 성능은 실제 환경에서의 효용이나 위험을 안정적으로 예측하지 못한다. 또한 모델이 평가 환경을 인식하고 행동을 조정하는 능력이 점점 강화되고 있는 것으로 나타났다.
이러한 흐름은 배포 전에 잠재적으로 위험한 역량을 식별하기 어렵게 만들며, AI를 운영 시스템에 통합하는 조직의 불확실성을 키운다.
문제는 특히 제한된 인간 감독 하에서 작동하도록 설계된 AI 에이전트에서 두드러졌다. 보고서는 이런 시스템이 효율성을 높이는 동시에 자율적으로 행동하기 때문에 실패가 피해로 이어지기 전에 인간이 개입하기가 더 어렵다는 점에서 위험이 커진다고 지적했다.
사이버 보안 위험, 현실에서 점점 늘어나
연구진은 AI가 실제 사이버 작전에 활용되고 있다는 증거도 증가하고 있다고 밝혔다.
범용 AI 시스템은 소프트웨어 취약점을 식별하고 악성 코드를 생성하는 능력이 점점 강화되고 있다. 보고서가 인용한 한 대회에서는 AI 에이전트가 실제 소프트웨어에 존재하던 취약점의 77%를 식별했다.
보안 분석 결과, 범죄 기업과 국가 연계 행위자가 이미 사이버 공격을 지원하는 데 AI 도구를 활용하고 있다.
보고서는 “범죄 기업과 국가 연계 공격자가 범용 AI를 적극적으로 작전에 사용하고 있다”라고 밝혔다. 다만 AI가 궁극적으로 공격자와 방어자 중 어느 쪽에 더 유리하게 작용할지는 아직 명확하지 않다고 덧붙였다.
이러한 결과는 기업 입장에서 AI가 생산성을 높이는 동시에 사이버 보안 위협 환경을 변화시키는 요인으로 작용하고 있음을 시사한다.
거버넌스와 투명성, 배포 속도 못 따라가
산업 전반에서 AI 안전에 대한 관심은 높아졌지만, 거버넌스 관행은 여전히 배포 속도에 뒤처져 있는 것으로 나타났다. 대다수 AI 위험 관리 이니셔티브는 자발적 수준에 머물렀으며, 모델 개발, 평가, 보호 장치에 대한 투명성은 크게 엇갈렸다.
보고서 분석에 따르면 개발자는 중요한 정보를 독점적으로 유지할 유인을 갖고 있다. 이러한 구조는 외부 검증을 제한하고 기업 사용자의 위험 평가를 복잡하게 한다.
2025년, 12개 기업이 프런티어 AI 안전 프레임워크를 공개하거나 업데이트해 모델 역량이 발전함에 따라 위험을 관리하는 방안을 제시했다. 그러나 보고서는 기술적 보호 장치가 여전히 명확한 한계를 보였으며, 요청을 재구성하거나 단계를 나누는 방식으로 유해한 출력이 생성되는 사례가 확인됐다고 밝혔다.
기업 IT 팀에 시사하는 바
연구진은 정책 권고를 제시하지는 않았지만, AI 시스템이 더 강력해지고 광범위하게 배포되면서 기업이 직면하게 될 환경을 설명했다.
분석에 따르면 평가와 보호 장치가 완전하지 않은 상황에서 조직은 기존 통제에도 불구하고 일부 AI 관련 사고를 피하기 어렵다.
연구진은 “위험 관리 조치는 한계가 있으며, 일부 AI 관련 사고를 예방하지 못할 가능성이 크다”라고 밝혔다. 또한 배포 이후 모니터링과 기업 차원의 대응 준비가 중요하다고 강조했다.
보고서에서 연구진은 기업이 AI 활용을 지속적으로 확대하는 가운데, 테스트 환경 밖에서 시스템이 어떻게 동작하는지를 이해하는 문제는 AI 의존도가 높아지는 운영 환경을 관리하는 IT 팀의 핵심 과제로 남을 것이라고 전망했다.
dl-itworldkorea@foundryco.com
관련자료
-
링크
-
이전
-
다음





