AI 에이전트 비기능 요구사항, 어떻게 설계해야 하는가

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.10.10 11:04

조회 1,936

애자일 사용자 스토리 접근법은 최종 사용자가 누구인지, 어떤 목표를 달성하려 하는지, 그리고 그 이유를 명확히 정의하는 것으로 시작한다. 일반적으로 “사용자 유형으로서, 특정 결과를 달성하기 위해 작업을 완료하고 싶다”는 형식을 따른다. 프로덕트 오너는 개발팀이 스토리가 완료되었는지 판단할 수 있도록 합격/불합격 기준을 제공한다.

프로덕트 오너는 주로 기능적 승인 기준에 집중해 사용자 경험, 비즈니스 규칙, 자동화 동작을 정의한다. 반면, 기술 리드·아키텍트·보안 전문가·데브옵스 엔지니어는 시스템의 성능·운영·컴플라이언스 요구사항에 초점을 맞춘 비기능 요구사항(NFR)을 추가해야 한다.

AI 에이전트를 위한 애자일 사용자 스토리

AI 에이전트를 위한 사용자 스토리는 일반 애플리케이션이나 API와 달라야 할까? AI 에이전트는 애플리케이션·자동화·데이터·API·인공지능 구성요소를 모두 포함하므로, 비기능 요구사항을 명시해야 한다. 사용자 스토리는 다음의 수용 기준을 포함해야 한다.

기능 요구사항 : 에이전트가 수행할 작업과 인간이 개입할 부분을 정의한다.
비기능 요구사항(운영 중심) : 성능·보안·관찰 가능성·컴플라이언스 등 API나 자동화 시스템 수준의 운영 기준을 명시한다.
비기능 요구사항(데이터 중심) : 데이터 품질·거버넌스·편향·AI 모델 유지관리를 포함한다.

비기능 요구사항은 세분화된 사용자 스토리 단위로 작성되어, 개발자가 기능 구현 방향과 코드 리뷰 통과 기준을 명확히 판단할 수 있도록 해야 한다.

그러나 피처 단위 또는 릴리즈 단위의 NFR도 필요하다. 이 수준의 NFR은 AI 에이전트의 릴리즈 준비도, 데이터 및 AI 거버넌스 요구사항, 데브옵스 비협상 항목을 정의한다.

엔지니어링 컨설팅 업체 해피펀코프(HappyFunCorp)의 기술 아키텍처 디렉터 조너선 잘레스키는 “에이전틱 AI를 다루는 팀은 보안·컴플라이언스·확장성처럼 기계적으로 검증 가능한 NFR과, 사용자 경험·미학·체감 성능처럼 인간의 판단이 필요한 NFR을 구분해야 한다”라며, “미래의 AI 제품 개발은 객관적 기준을 대규모로 처리하는 AI와, 의미 있는 경험을 형성하는 인간의 직관적 판단이 결합된 하이브리드 워크플로에 있다”라고 말했다.

윤리와 공정성

AI 에이전트의 전면에는 대규모 언어 모델(LLM)이 있어 자연어 요청을 해석하고, 행동을 수행하며, 권고안을 제시한다. 개발팀은 책임 있고 편향되지 않은 행동을 검증할 수 있는 비기능적 승인 기준을 고려해야 한다. 하지만 이러한 기준은 수치화가 어려워 작성이 쉽지 않다.

AI 신생업체 이만드라(Imandra)의 공동창업자 그랜트 패스모어는 “애자일 팀은 지연 시간·공정성·설명 가능성과 같은 NFR을 평가하는 데 어려움을 겪지만, 명확한 스펙 작업을 수행하면 합격/불합격 테스트가 가능한 구체적 사용자 스토리로 전환할 수 있다”며 “형식 검증을 통해 NFR을 수학적으로 입증 가능한 기능 요구사항으로 전환한다”라고 설명했다.

윤리 및 공정성 관련 NFR은 테스트 시나리오 작성, 합성 데이터 세트 확장, AI 응답 평가를 통해 검증한다. 예시는 다음과 같다.

설명 가능성 : 전문가 집단의 80%가 설명에 동의할 수준의 명확성을 달성해야 한다.
데이터 편향 : 개발팀이 편향 유형을 숙지하고, 편향 탐지 도구를 사용해 기준치를 충족해야 한다.
유해 응답 방지 : 공격적·기만적 발화를 감지하는 도구로 평가하고, 결과를 정량화한다.

정확성과 품질

윤리 검증을 통과한 후에는 AI 에이전트의 유용성·정확성·응답 품질을 측정해야 한다.

F1 점수 : 정밀도와 재현율을 포함한 정확성 지표로, 예를 들어 최소 0.85 이상을 요구할 수 있다.
환각률 : AI가 사실 오류를 내는 빈도를 측정한다.
사용자 만족도 점수 : 사용자 인터페이스 내 피드백 기능으로 긍정/부정 반응을 수집한다.
적대적 테스트(Adversarial Testing) : AI를 일부러 오작동시키는 데이터셋으로 자동화 검증을 수행한다.

데이터 거버넌스 업체 레코드포인트(RecordPoint)의 CTO 조시 메이슨은 “모든 AI 기능은 성능 기준을 명시해야 하며, 분류 모델의 경우 정확도나 F1 점수, LLM은 응답의 85% 이상이 신뢰할 수 있는 인용 또는 근거 검증을 통과해야 한다고 정의할 수 있다”라고 전했다.

보안·프라이버시·컴플라이언스 및 법적 요구사항

AI 관련 보안 및 규제 요구사항은 사용자 스토리·피처·릴리즈 수준에서 혼합적으로 관리된다. AI의 비결정론적 특성을 고려해, 에이전트 런타임 환경에 내장된 보안 기술을 활용함으로써 지속적인 보호와 규제 준수를 달성해야 한다.

보안과 데이터 보호

레코드포인트의 CTO 조시 메이슨은 “AI 시스템은 악용을 방지하고 민감한 데이터를 보호해야 한다”라고 강조하며, 데이터 보안 NFR 개발을 위한 주요 지침을 제시했다.

프롬프트 인젝션은 새로운 SQL 인젝션이다. 런타임 단계에서 침입을 차단할 수 있는 보안 기술이 필요하다.
머신러닝 모델은 새로운 데이터 세트를 사용하기 전, 익명화 및 암호화된 데이터만을 활용해야 하며, 이는 기능 단위의 NFR로 정의될 수 있다.
대규모 언어 모델은 입력 정화(Input Sanitization), 개인식별정보(PII) 마스킹, 적대적 프롬프트 방어 장치 등을 갖춰야 한다.

성능과 확장성

많은 비기능 요구사항은 애플리케이션 수준의 NFR과 유사하게 AI 에이전트의 성능 및 확장성을 수치화하여 검증한다. 예시는 다음과 같다.

응답 시간 : AI 에이전트는 사용자 또는 다른 AI 에이전트의 입력에 대해 98%의 경우 1초 이내에 응답해야 한다.
처리량 : 시스템은 100개의 에이전트 인스턴스 동시 실행을 지원해야 한다.
확장성 : 트래픽이 10배 급증하더라도 성능 저하율이 1% 미만이어야 한다.

AI 코딩 에이전트 플랫폼 업체 젠코더(Zencoder)의 CEO 앤드루 파일레브는 “AI 경험을 구축하는 팀은 모델이 무엇을 수행하는가뿐 아니라 어떻게 수행하는가를 평가해야 한다”며, “기능 벤치마크는 정확성과 유용성만 검증하지만, 속도와 부드러움은 별도의 비기능 지연 지표로 측정해야 한다”라고 말했다. 파일레브는 특히 첫 토큰까지의 시간(Time to First Token), 마지막 토큰까지의 시간(Time to Last Token), 전체 에이전트 실행 지연 시간 등의 지표가 중요하다고 강조했다.

유지보수성과 관찰 가능성

AI 에이전트의 비기능 요구사항은 개발(Dev)과 운영(Ops)의 경계를 연결하며, 애플리케이션·인프라·자동화·AI 모델의 복잡성을 모두 포함한다. 배포는 단지 시작일 뿐이며, 유지보수성과 관찰 가능성을 위한 NFR은 피드백 루프를 형성해 문제를 진단하고 운영 품질을 향상시킨다.

기업이 자율형 에이전틱 AI와 에이전트 간 상호작용을 추진할수록, 공통적으로 적용 가능한 표준화된 NFR 목록의 중요성이 커진다. 대표적인 표준 항목은 다음과 같다.

관찰 가능성 표준 : 모든 AI 에이전트가 중앙 집중식 로깅 체계에 일관된 데이터를 기록해야 한다.
카나리아 릴리즈(Canary Release) : 새로운 AI 모델 버전을 일부 사용자 그룹에 제한적으로 배포하고, 이전 안정 버전과 성능을 비교 평가해야 한다.
모델옵스(ModelOps) : 모델 드리프트를 자동 감지해 재학습이 필요한 시점을 개발팀에 알리는 체계를 구축해야 한다.

운영 표준화의 중요성

AI 에이전트의 구축과 배포는 빠르게 확산되고 있다. 기업은 생산성 향상·모바일 역량 강화·고객 경험 개선을 위해 AI 에이전트를 개발하고 있으며, 에이전틱 AI 아키텍처 규칙과 에이전트 생태계 거버넌스 체계를 수립해야 한다.

AI 에이전트가 실질적 비즈니스 가치를 창출하려면, 기능 요구사항뿐 아니라 운영 및 비기능 요구사항 정의가 필수적이다. 운영 일관성을 고려하지 않은 과거 애플리케이션 개발의 실패를 되풀이하지 않도록, 모든 기업은 AI 에이전트 개발 표준화와 NFR 체계화에 집중해야 한다.
dl-itworldkorea@foundryco.com