신뢰할 수 있는 AI 에이전트를 위한 ‘에이전틱옵스’ 전략 5가지

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.12.17 14:27

조회 1,800

AI 에이전트는 언어 모델과 추론 모델에 자동화와 API를 통한 실행 능력을 결합한 형태다. 모델 컨텍스트 프로토콜(Model Context Protocol, MCP)과 같은 에이전트 간 프로토콜은 다양한 시스템 간 연동을 가능하게 하며, 각 에이전트를 검색 가능한 구성 요소로 만들고 더 복잡한 작업을 조율할 수 있도록 한다.

대부분 조직은 우선 SaaS 애플리케이션에 내장된 형태로 AI 에이전트를 실험할 것이다. HR 분야에서는 AI 에이전트가 채용 담당자의 채용 과정을 지원할 수 있고, 운영 부문에서는 복잡한 공급망 문제를 해결하는 데 활용될 수 있다. 이와 함께 AI 에이전트는 회의 기록 작성, 일정 조율, 워크플로우 도구에서의 업무 캡처 등을 통해 업무 방식의 변화를 이끌고 있다.

혁신적인 기업은 한 단계 더 나아가 자체 AI 에이전트 개발에 나선다. 이들 에이전트는 기업 고유의 워크플로우를 보완하고 산업별 특화 업무를 지원하며, 고객 경험 전반에 통합될 예정이다. 이를 위해 조직은 AI 에이전트 도입을 이끌 개발 원칙과 아키텍처, 비기능 요구사항, 테스트 방법론을 사전에 검토해야 한다. 이런 준비는 실험 단계를 넘어 AI 에이전트를 실제 운영 환경에 배포하기 전에 반드시 거쳐야 할 과정이다.

한편 AI 에이전트를 빠르게 도입할 경우 운영 및 보안 측면의 위험이 커질 수 있다. 이에 따라 IT 책임자들은 ‘에이전틱옵스(AgenticOps)’라는 새로운 운영 접근법을 고민하고 있다. 에이전틱옵스는 데브옵스와 IT 서비스 관리 기능을 확장해, AI 에이전트를 안전하게 보호하고 관측·모니터링하며, 에이전트 관련 사고에 대응하는 역할을 수행한다.

에이전틱 옵스란 무엇인가?

에이전틱옵스는 기존의 여러 IT 운영 역량을 토대로 발전한 개념이다.

먼저 AI옵스(AIOps)는 여러 개로 분산된 모니터링 도구가 만들어내는 복잡성을 해결하기 위해 수년 전 등장했다. AI옵스 플랫폼은 로그 파일과 각종 관측 데이터(observability data)를 한데 모은 뒤, 머신러닝을 적용해 수많은 알림을 관리 가능한 사고 단위로 상관 분석한다. 모델옵스(ModelOps)는 운영 환경에서 머신러닝 모델을 모니터링하고, 모델 드리프트와 같은 운영 이슈를 관리하기 위한 별도의 역량으로 자리 잡았다.

여기에 플랫폼 엔지니어링을 결합하고 IT 프로세스를 자동화하며, IT 운영에 생성형 AI를 활용하면 IT팀은 협업 효율을 높이고 사고를 보다 신속하게 해결할 수 있다. 에이전틱옵스는 이런 흐름 위에서, AI 에이전트 관리라는 고유한 운영 요구사항을 지원하는 동시에 IT 조직에 새로운 AI 역량을 제공해야 한다.

시스코의 AI 소프트웨어·플랫폼 그룹 수석부사장(SVP)인 DJ 삼파스는 에이전틱옵스의 핵심 요건을 3가지로 정리했다. 첫째, 여러 운영 사일로에 흩어진 데이터를 중앙에서 통합할 수 있어야 한다. 둘째, 사람과 AI 에이전트 간의 협업을 지원해야 한다. 셋째, 네트워크와 인프라, 애플리케이션을 이해하도록 설계된 목적 특화 언어 모델을 활용해야 한다.

삼파스는 “고도화된 모델을 갖춘 AI 에이전트는 네트워크, 시스템, 보안 엔지니어가 네트워크를 구성하고 로그를 이해하며 쿼리를 실행하고 문제의 근본 원인을 보다 효율적이고 효과적으로 해결하도록 도울 수 있다”라고 설명했다. 이런 요건은 애플리케이션, 웹 서비스, 기존 AI 모델을 운영할 때와 비교해 AI 에이전트를 관리할 때 직면하는 고유한 과제를 해결하기 위함이다.

미디어민트(MediaMint) CEO 라지브 부타니는 “운영 환경에 배포된 AI 에이전트는 기존 애플리케이션과 달리 출력 결과가 매번 달라질 수 있기 때문에, 전혀 다른 운영 플레이북이 필요하다. 팀은 단순한 가동 시간(uptime)뿐 아니라 사고 억제 수준, 행동당 비용, 에스컬레이션 비율 같은 결과 지표를 추적해야 한다. 진정한 시험대는 사고를 피하는 것이 아니라, 에이전트가 대규모 환경에서도 신뢰할 수 있고 반복 가능한 결과를 제공한다는 점을 입증하는 데 있다”라고 말했다.

IT팀이 운영 환경에서 AI 에이전트를 본격적으로 개발·배포하기 시작함에 따라, 여기서는 단계적으로 도입할 수 있는 5가지 에이전틱옵스 베스트 프랙티스를 제시한다.

1. AI 에이전트의 정체성과 보안 프로필 수립

AI 에이전트는 어떤 데이터와 API에 접근할 수 있어야 할까? 권장하는 접근법은 사람을 관리하는 방식과 동일하게 AI 에이전트를 프로비저닝하는 것이다. 마이크로소프트 엔트라 ID, 옥타, 오라클 IAM 등과 같은 플랫폼을 활용해 에이전트에 명확한 정체성(identity), 권한(authorizations), 접근 권리(entitlements)를 부여하는 방식이다.

디지서트(DigiCert) CTO 제이슨 세이빈은 “AI 에이전트는 스스로 적응하고 학습하기 때문에 강력한 암호학적 정체성이 필요하며, 디지털 인증서를 활용하면 에이전트가 침해되거나 통제 불능 상태로 벗어났을 때 즉시 접근 권한을 회수할 수 있다. 머신 아이덴티티를 관리하듯 에이전트의 정체성을 보호하면, 보안 아키텍처 전반에서 디지털 신뢰와 책임성을 확보할 수 있다”라고 덧붙였다.

권고 : 아키텍트와 데브옵스 엔지니어, 보안 리더가 협력해 AI 에이전트 초기 도입 단계에서 IAM과 디지털 인증서에 대한 표준을 마련해야 한다. 다만 AI 에이전트의 수가 늘어나고 활용 범위가 확대될수록 관련 역량은 계속 진화할 수밖에 없다. 에이전트 ‘인력’이 본격적으로 늘어나는 단계에서는, 보다 전문화된 도구와 설정이 필요해질 가능성도 크다.

2. 플랫폼 엔지니어링·관찰 가능성·모니터링 확장

애플리케이션, 데이터 파이프라인, AI 모델, 각종 연동과 API가 결합된 하이브리드 형태인 AI 에이전트는 기존 데브옵스 프랙티스를 단순히 적용하는 것만으로는 충분하지 않다. 기존 데브옵스 역량을 결합하고 확장하는 접근이 필요하다. 예를 들어 플랫폼 엔지니어링은 비정형 데이터 파이프라인, MCP 연동, AI 모델을 위한 피드백 루프까지 고려해야 한다.

솔로아이오(Solo.io)의 글로벌 필드 CTO인 크리스천 포스타는 “플랫폼팀은 AI 에이전트를 파일럿 단계에서 실제 운영 환경으로 옮기는 데 핵심적인 역할을 하게 될 것이다. 플랫폼 엔지니어링이 단순히 인프라 상태만이 아니라, 에이전트와 LLM이 의존하는 상태 기반 프롬프트, 의사결정, 데이터 흐름까지 인식하도록 진화해야 한다는 의미다. 이런 접근을 통해 조직은 AI팀이 필요로 하는 셀프서비스 혁신 속도를 저해하지 않으면서도 관측 가능성, 보안, 거버넌스를 확보할 수 있다”라고 설명했다.

관찰 가능성과 모니터링 도구 역시 가동 시간, 안정성, 오류, 성능만을 점검하는 수준을 넘어설 필요가 있다. 코파도(Copado) CTO 페데리코 라르센은 “AI 에이전트에는 성능 지표, 의사결정 로그, 행동 추적을 포함한 다층적인 모니터링이 요구된다. 머신러닝을 활용한 선제적 이상 탐지를 통해 비즈니스에 영향을 미치기 전에 에이전트가 기대된 패턴에서 벗어나는 시점을 포착할 수 있다. AI 에이전트가 예상치 못한 결정을 내릴 경우를 대비해, 명확한 에스컬레이션 경로와 함께 휴먼 인 더 루프(human-in-the-loop) 기능을 마련해야 한다”라고 강조했다.

현시점을 기준으로 AI 에이전트를 지원하는 관찰 가능성·모니터링·사고 관리 역량을 제공하는 플랫폼으로는 빅판다(BigPanda), 시스코 AI 캔버스(Cisco AI Canvas), 데이터독의 LLM 관찰 가능성 기능, 솔라윈즈 AI 에이전트가 대표적이다.

권고 : 데브옵스팀이 운영 환경에 처음 배포되는 AI 에이전트를 대상으로 플랫폼 엔지니어링과 관측, 모니터링에 필요한 최소 구성 요건과 표준을 먼저 정의해야 한다. 이후 AI 에이전트 개발이 본격화됨에 따라 관련 업체의 역량을 지속적으로 점검하고 새로운 도구를 검토하는 과정이 필요하다.

3. 사고 관리 및 근본 원인 분석 역량 고도화

사이트 신뢰성 엔지니어(SRE)는 이미 애플리케이션과 데이터 파이프라인 문제의 근본 원인을 찾는 데 어려움을 겪고 있다. 여기에 AI 에이전트가 더해지면, 문제 해결의 난도는 한층 더 높아질 수밖에 없다.

AI 에이전트가 환각을 일으키거나 잘못된 응답을 제공하거나, 부적절한 작업을 자동으로 수행할 경우 SRE와 IT 운영 조직은 즉각 대응해 문제를 해결해야 한다. 이를 위해서는 에이전트가 참조한 데이터 소스와 모델, 추론 과정, 부여된 권한, 비즈니스 규칙 등을 모두 추적해 근본 원인을 규명해야 한다.

데이터이쿠(Dataiku)의 AI 전략 총괄 커트 뮈멜은 “기존의 관측 도구는 성공과 실패 여부만 추적하기 때문에 한계가 있다. AI 에이전트의 경우 어떤 데이터를 사용했는지, 어떤 모델이 영향을 미쳤는지, 어떤 규칙이 결과를 형성했는지 등 추론 경로 자체를 이해해야 한다. 사고 관리는 단순한 대응이 아니라 정밀한 점검 과정이 되며, 근본 원인 역시 ‘에이전트가 중단됐다’가 아니라 ‘상위 모델이 갱신되지 않아 오래된 데이터를 사용했다’는 식으로 규명돼야 한다. 기업에는 단순히 문제가 무엇이었는지를 묻는 수준을 넘어, 의사결정의 출처를 점검하고 오케스트레이션을 조정할 수 있는 도구가 필요하다”라고 강조했다.

실시간 모니터링 도구를 재활용하고, 로그와 성능 지표를 활용해 AI 에이전트의 행동을 추적하는 것도 도움이 된다. 앱디렉트(AppDirect) CTO 앤디 센은 “사고가 발생했을 때는 기존의 근본 원인 분석과 사후 검토 절차를 유지하고, 그 결과를 에이전트에 피드백으로 제공해 지속적인 개선으로 이어가야 한다. 이처럼 관측, 사고 관리, 사용자 지원을 통합한 접근 방식은 AI 에이전트의 성능을 높일 뿐 아니라 안전하고 효율적인 운영 환경을 보장하는 데 기여한다”라고 설명했다.

권고 : 데이터 계보(lineage), 출처(provenance), 데이터 품질 개념에 대한 이해를 바탕으로 도구를 선정하고 SRE를 교육해야 한다. 이런 역량은 AI 에이전트와 관련된 사고 및 문제 관리를 지원하기 위해 IT 운영 조직을 고도화하는 데 핵심적인 요소다.

4. 모델 정확도·드리프트·비용에 대한 KPI 추적

대부분의 데브옵스 조직은 애플리케이션의 신뢰성을 평가할 때 단순한 가동 시간이나 시스템 성능 지표에만 의존하지 않는다. 사이트 신뢰성 엔지니어는 오류 예산(error budget)을 관리하며 애플리케이션 개선을 유도하고 기술 부채를 줄여 나간다.

이처럼 비즈니스에 미치는 영향을 이해하고 미세한 오류까지 추적하는 기존 SRE 프랙티스는 AI 에이전트를 관리하는 환경에서 더욱 중요해진다.

전문가들은 AI 에이전트의 행동과 최종 사용자에게 제공되는 가치를 지속적으로 추적하기 위해 새로운 KPI와 지표가 필요한 영역으로 다음 3가지를 꼽았다.

데이터브릭스(Databricks)의 AI/ML 제품 담당 수석 디렉터인 크레이그 와일리는 “KPI를 정의하면 적절한 모니터링 체계를 구축할 수 있다. 예를 들어 정확도는 95% 이상이어야 한다는 기준을 세우고, 이를 충족하지 못할 경우 경고 메커니즘이 작동하도록 하면 조직 차원의 가시성과 대응 체계를 마련할 수 있다”라고 말했다.

옵저브(Observe) CPO 제이컵 레버릭은 “AI 에이전트 환경에서는 모델 서비스 업체에 대한 의존도가 크게 높아질 수 있기 때문에, 토큰 사용량을 모니터링하고 LLM 활용에 따른 비용을 어떻게 최적화할지 이해하는 것이 중요하다”라고 강조했다.

콘센트릭스(Concentrix) CPO 라이언 피터슨은 “데이터 준비 상태는 한 번의 점검으로 끝나는 문제가 아니다. 신선도와 정확성에 대한 지속적인 감사, 편향 테스트, 브랜드 톤과의 정합성 점검이 필요하다. 지식 베이스 커버리지, 업데이트 빈도, 오류율 같은 지표가 AI에 적합한 데이터인지를 판단하는 진정한 시험대”라고 덧붙였다.

권고 : 조직의 책임자는 AI 에이전트를 위한 운영 지표 전반을 포괄하는 KPI 모델을 정의해야 한다. 이 모델은 SaaS 업체가 제공하는 서드파티 에이전트뿐 아니라, 조직 내부에서 자체 개발한 에이전트에도 적용할 수 있도록 설계해야 한다.

5. 사용자 피드백 수집을 통한 유용성 측정

데브옵스와 IT 운영 조직은 고객과 임직원의 만족도를 추적하는 중요성을 간과한다. 애플리케이션 영역에서도 최종 사용자 지표와 피드백에 대한 검토를 제품 관리 조직이나 이해관계자에게만 맡기는 것은 근시안적인 접근이다. AI 에이전트를 지원하는 환경에서는 이런 검토가 더욱 중요한 운영 역량으로 부상한다.

펜도(Pendo)의 CDO 사우라브 소다니는 “운영 환경에서 AI 에이전트를 관리하는 일은, 에이전트가 어떻게 작동하고 어떤 결과를 만들어내는지에 대한 가시성을 확보하는 것에서 출발한다. 단순히 에이전트가 응답했는지를 보는 것이 아니라, 실제로 사용자가 작업을 완료하는 데 도움이 됐는지, 문제를 해결했는지, 워크플로를 원활하게 진행하도록 지원했는지를 사용자 경험과 연결해 살펴봐야 한다”라고 설명했다.

이 모든 과정이 규정 준수 하에서 이뤄져야 한다. 소다니는 “이런 수준의 인사이트가 있어야만 팀이 성능을 모니터링하고 문제에 대응하며, 상호작용형·자율형·비동기 방식 전반에서 에이전트의 사용자 지원 방식을 지속적으로 개선할 수 있다”라고 덧붙였다.

권고 : 사용자 피드백은 AI옵스와 사고 관리 범위에서 배제돼서는 안 될 핵심 운영 데이터다. 이 데이터는 AI 에이전트의 문제를 해결하는 데 도움을 줄 뿐 아니라, 에이전트의 언어 및 추론 모델을 지속적으로 개선하기 위한 중요한 피드백 자원으로 활용돼야 한다.

결론

점점 더 많은 조직이 AI 에이전트를 개발하고 실험에 나서면서, IT 운영 조직 역시 이를 실제 운영 환경에서 관리하기 위한 도구와 운영 관행을 갖춰야 하는 상황에 놓이고 있다. IT팀은 지금부터 최종 사용자에게 미치는 영향과 비즈니스 성과를 추적하는 것에서 출발해, 점차 에이전트가 의사결정을 어떻게 추천하고 어떤 응답을 제공하는지에 대한 성능 추적까지 관리 범위를 확장해야 한다. AI 에이전트를 모니터링하고 문제를 해결하려면 시스템 수준의 지표만으로는 충분하지 않다.
dl-itworldkorea@foundryco.com