“화려한 데모보다 본질” 기업이 갖춰야 할 생성형 AI 성공 조건

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.08.26 14:26

조회 1,684

매일 새로운 LLM이 등장하거나, 수많은 AI 신호 속에서 의미를 찾아내는 새로운 접근법이 쏟아지고 있다. 변화 속도가 지나치게 빨라 따라잡는 것만으로도 벅차다. 그러나 엔터프라이즈 AI에 대한 불편하면서도 안심이 되는 진실이 있다. 지금 시끄러운 것 대부분은 내일이면 사라진다는 점이다. AI 모델은 밈(meme)처럼 유행하고 프레임워크는 끝없이 쏟아지며, 늘 새로운 ‘이번에는 다르다’라는 패턴이 어제의 ‘획기적’ 성과를 금세 밀어낸다. 하지만 모든 반짝이는 AI 트렌드를 따라갈 필요는 없다. 시간이 지날수록 가치를 쌓아가는 몇 가지 핵심 역량과 의사결정 체계를 제대로 갖추는 것만으로 충분하다.

이런 역량과 의사결정 체계는 엔터프라이즈 AI의 OS와 같다. 기반을 제대로 세우면 그 위에서 돌아가는 모든 것, 에이전트, RAG(retrieval-augmented, 검색증강생성), 메모리, 혹은 다음에 어떤 이름으로 재포장될지 모를 기술은 단순한 플러그인에 불과하다.

모델이 아닌 과제에 집중해야 한다

기업이 내려야 할 가장 중요한 AI 의사결정은 ‘무엇을 해결하려 하는지’를 규정하는 일이다. 너무도 당연해 보이지만, 여전히 많은 AI 프로젝트가 “에이전트를 활용해야 한다”라는 선언으로 시작한다. 그러나 실제로는 “케이스 처리 시간을 30% 단축해야 한다”라는 목표부터 세워야 한다. AI 프로젝트 실패 대부분은 모호한 목표 설정, 데이터 준비 부족(이는 뒤에서 다시 다룬다), 평가 부재에서 비롯한다. 성공은 비즈니스 문제 정의와 핵심성과지표(KPI) 설정에서 시작한다. 목표가 무엇인지 규정하지 않으면 성과를 선언할 수도 없다. 그러나 이 중요한 첫 단계를 놓치는 경우가 흔하다.

따라서 비즈니스 목표를 명확한 요구사항으로 전환하는 것이 핵심이다.

입력값 : 시스템이 실제로 받는 것(구조화된 필드, PDF, 로그 등)
제약 조건 : 지연시간, 정확도 임계치, 규제 한계
성공 정의 : 기업이 성과로 인정할 지표(에스컬레이션 감소, 주기 단축, 티켓당 비용 절감 등)

이런 구체적인 요구사항이 나머지 모든 것을 좌우한다. 생성형 AI의 필요성(대부분은 필요하지 않다), 어떤 패턴이 적합한지, 가치를 어떻게 입증할 것인지가 모두 여기서 결정된다. 또한 이를 통해 프로젝트가 유지 불가능한 ‘AI 경험’으로 커져 여러 기능을 제대로 수행하지 못하는 상황을 막을 수 있다.

데이터는 깨끗하고 관리 및 검색할 수 있어야 한다

기업의 진짜 경쟁력은 모델이 아니라 데이터다. 그러나 ‘데이터가 많다’라는 말은 전략이 될 수 없다. AI의 유용성은 다음 3가지 요소에 달렸다.

적합성 : 데이터는 충분히 깨끗하고, 충분히 라벨링되어 있으며, 충분히 최신이어야 한다. 완벽함을 추구하는 것은 불필요한 비용이며, 중요한 것은 적합성이다. 필자는 생성형 AI가 등장하기 훨씬 전부터 “데이터 과학의 화려한 면만 과대평가해 왔으며, 실제로는 데이터 정제와 준비 과정이 근본이자 핵심이다”라고 언급한 바 있다. 이 말은 지금 더 유효하다.
거버넌스 : 어떤 데이터를 사용할 수 있고, 어떻게 사용할 수 있으며, 어떤 정책을 따라야 하는지 명확히 알아야 한다.
검색 가능성 : 추론 시점에 필요한 데이터 조각을 모델에 정확히 제공해야 한다. 이는 모델의 문제가 아니라 데이터 모델링과 인덱싱의 문제다.

RAG 접근법은 계속 진화하겠지만 변하지 않는 원칙이 있다. 시스템은 결국 검색한 맥락의 품질만큼만 성능을 낸다. 조직 고유의 정책, 데이터, 워크플로우와 같은 맥락이 없다면 아무리 뛰어난 모델도 제대로 작동하지 못한다. 따라서 다음과 같은 투자 영역이 중요하다.

문서 정규화 : 일관된 형식과 청킹은 사용자가 질문하는 방식에 맞춰 설계돼야 한다.
인덱싱 전략 : 단순 키워드 검색과 벡터 검색을 결합한 하이브리드 검색은 기본이며, 실제 수행하는 과제에 맞게 최적화해야 한다.
데이터 최신화 파이프라인 : 인덱스는 분기별 프로젝트가 아니라 지속적으로 갱신해야 하는 동적 자산이다. 메모리는 AI의 ‘킬러 앱’이지만, 실시간 활용을 위해서는 최신성과 즉시성이 유지돼야 한다.
메타 권한 : 검색은 단순히 “누가 챗봇을 사용할 수 있는가”를 넘어, 행·열·객체 수준의 접근 제어까지 반영해야 한다.

다시 말해, 검색 계층은 API 계약처럼 다뤄야 한다. 이런 안정성과 명확성이야말로 특정 RAG 라이브러리보다 오래 지속되는 가치다.

AI 평가는 소프트웨어 테스트처럼 운영해야 한다

평가를 PM 두 명과 데모 시연으로 대체한다면, 그것은 평가가 아니다. LLM은 실패하기 전까지는 그럴듯하게 동작하기 때문에 이를 제대로 검증하려면 자동화되고 반복 가능하며, 과제에 맞춘 평가 체계가 필요하다. 훌륭한 AI는 직관이나 분위기에 의존한 개발이 아니라, 체계적이고 비판적인 평가를 통해서 만들어진다. 성공의 열쇠는 모델 동작을 ‘마법’이 아닌 ‘충돌 테스트(crash-test) 엔지니어링’처럼 다루는 데 있다. 이는 실제 운영 데이터에서 추출한 대표 입력과 예상 출력을 담은 골든 세트 활용, 수치·루브릭 기반 평가 점수, 가드레일 점검, 회귀 검증을 포함한다. 새로운 모델이나 프롬프트, 검색 방식은 이 평가 체계를 통과하지 않으면 배포할 수 없다.

평가는 끝없는 프롬프트 튜닝의 쳇바퀴에서 벗어나 개선 효과를 입증하는 길로 이끌어준다. 또한 개발자가 모델을 자유롭게 교체하거나 업데이트하면서 신뢰를 유지할 수 있도록 한다. 백엔드 코드를 테스트 없이 배포하지 않는 것처럼, AI도 더 이상 그런 방식으로 배포해서는 안 된다.

데모가 아닌 시스템을 설계한다

기업 AI의 초기 성과는 대부분 화려한 데모에서 출발했다. 예를 들어 X(구 트위터)에서 흔히 볼 수 있는 “두 줄 프롬프트로 장편 영화를 만들었다” 같은 사례다. 이런 과장된 데모도 의미는 있지만, 진정으로 뛰어난 AI는 지루해 보이는 것이다. “소프트웨어를 운영 환경에 배포해 본 사람은 코드를 생성하는 것보다 그것을 컴파일하고 테스트를 통과시키며, 현장에서 안정적으로 실행되도록 만드는 과정이 훨씬 더 어렵다는 사실을 안다”라는 말이 이런 점을 잘 보여준다.

지속 가능한 성과는 ‘지루해 보이는’ 인터페이스를 가진 모듈형 아키텍처에서 나온다.

추론 게이트웨이 : 안정적인 API 뒤에서 모델 선택을 추상화한다.
오케스트레이션 계층 : 검색 → 추론 → 실행 → 검증 순서로 도구를 배치한다.
상태와 메모리 관리 : 단기(개별 과제), 세션 단위(사용자별), 장기(감사 가능) 수준으로 명확히 구분한다.
관찰가능성 : 로그, 추적, 비용·지연 시간 텔레메트리, 드리프트 감지를 통해 운영 상황을 모니터링한다.

AI 에이전트는 앞으로도 계속 진화하겠지만, 본질은 계획·도구·정책을 결합한 것에 불과하다. 특히 기업 환경에서는 정책(즉 권한, 승인, 에스컬레이션 경로)이 가장 어려운 부분이다. 따라서 이런 정책 요소를 초기 설계 단계에서부터 시스템에 포함해야 한다.

지연 시간·비용·UX는 곧 제품의 기능이다

기업이 AI를 외면하는 이유는 “충분히 똑똑하지 않아서”가 아니다. 지나치게 느리거나, 비싸거나, 사용자에게 불편한 경험을 주기 때문이다.

지연 시간 : 실시간 상호작용에서는 700밀리초 이내에 눈에 보이는 진행 상황을 보여주고, 1.5초 이내에 즉각적으로 느껴지는 응답을 제공해야 한다. 이는 고객 경험에 큰 영향을 준다. 가능한 한 작은 모델이나 경량화된 모델을 활용하고, 응답을 단계적으로 제공하는 방식(예 : 간단한 요약을 먼저 보여주고 필요할 때 심층 분석 제공)을 적용하는 것이 효과적이다.
비용 : 토큰 사용량을 손익계산서처럼 관리해야 한다. 적극적으로 캐시를 활용하되, 특히 시맨틱 캐싱(semantic caching) 이 중요하다. 임베딩을 재사용하고, 업무 필요에 따라 모델을 선택해야 한다. 대부분의 과제에는 큰 모델, 혹은 모델 자체가 필요하지 않다.
사용자 경험(UX) : 사용자는 놀라움보다 예측 가능성을 선호한다. 따라서 ‘출처 인용’이나 ‘단계별 설명’ 같은 제어 기능을 제공하고, ‘질의 수정’이나 ‘피드백을 통한 재학습’ 같은 오류를 수정하는 수단을 마련해야 한다. 일관된 실패 패턴을 보여주는 것도 중요하다.

AI가 기업의 물리 법칙을 바꾸지는 않는다. 만약 “평균 처리 시간을 19% 줄이고, 상호작용당 비용을 0.03달러(약 40원)로 낮췄다”라는 결과를 보여줄 수 있다면, 기업 내에서 AI 예산 확보 논의는 다른 엔터프라이즈 기술과 마찬가지로 쉬워진다.

보안·프라이버시·컴플라이언스는 필수 설계 요소다

프로젝트의 추진력을 가장 빠르게 꺾는 말은 막판에 들려오는 “법무팀에서 안 된다고 한다”라는 피드백이다. 이를 피하려면 초기에 법무·규제 담당을 참여시켜 보안·프라이버시·컴플라이언스를 제약 조건이 아닌 최우선 설계 요구사항으로 반영해야 한다. 간단한 내용이지만, 어쩌면 이 부분이 가장 중요한 원칙일 수 있다.

인간 개입은 프로덕션 단계로 가는 지름길이다

프로덕션 단계로 가는 가장 빠른 길은 완전 자동화가 아니다. 답은 휴먼인더루프(human-in-the-loop), 즉 지원 → 제안 → 승인 → 자동화의 순서를 거친다. 초기에는 AI가 초안 작성, 요약, 추출 같은 반복 업무를 맡고, 사람이 이를 검증한다. 시간이 지나면서 평가와 모니터링 데이터가 쌓이면 일부 단계는 자동 승인이 가능해진다.

이 접근법에는 두 가지 장점이 있다. 첫째는 품질이다. 사람은 신뢰를 무너뜨릴 수 있는 1%의 오류를 잡아낸다. 둘째는 도입률이다. 팀은 대체되는 것이 아니라 보강된다고 느낀다. 이는 실제 사용으로 이어지기 위해 매우 중요하다. 더 나아가 소프트웨어 개발을 포함한 다양한 영역에서 가장 효과적인 AI 활용법은 빠르지만 사고하지 않는 AI를 숙련된 사람의 역량에 결합하는 것이다.

모델에 종속되지 않는 이식성 확보가 답이다

앤디 올리버는 “최신 GPT, 클로드, 제미나이, 오-시리즈(o-series) 모델은 각각 강점과 약점이 다르므로 적절히 섞어 쓰는 것이 유리하다”라고 말했다. 이는 사실이다. 모델은 끊임없이 바뀌고 가격도 변동하며, 기업의 위험 관리 태도 역시 변화한다. 따라서 특정 모델에 종속되면 안 된다. 모델을 교체할 때마다 애플리케이션을 다시 작성해야 한다면, 그것은 시스템이 아니라 단순 데모일 뿐이며 곧 문제가 된다. 따라서 성공적인 AI 배포는 다음 원칙을 따른다.

추론 계층 뒤에 일관된 요청/응답 스키마(도구 호출 형식, 안전 신호 포함)를 두어 모델을 추상화한다.
프롬프트와 정책은 코드 밖에서 버전 관리함으로써 재배포 없이 A/B 테스트와 롤백이 가능하도록 한다.
모델 교체 시에는 듀얼 런(dual run)을 통해 동일 요청을 구 모델과 신 모델에 동시에 보내고, 전환 전 평가 도구로 비교한다.

이식성은 단순한 보험이 아니다. 업체와 협상력을 높이고 두려움 없이 개선사항을 적용할 수 있는 기반이다.

생각보다 덜 중요한 것들

여기까지 AI 성공 전략을 설명했지만, 이 지점에서 아마 많은 사람이 “결국 중요한 건 프롬프트 엔지니어링 아닌가?” 혹은 “더 나은 모델이 답이다”라고 생각할 수 있다. 그러나 이는 흔히 빠지는 AI의 함정이다. 집착하지 말아야 할 것을 정리하면 다음과 같다.

완벽한 프롬프트 : 좋은 프롬프트는 도움이 되지만, 뛰어난 검색, 평가, UX이 훨씬 더 큰 효과를 낸다.
큰 모델 : 대부분 엔터프라이즈 과제는 ‘적정 크기의 모델’과 충분한 맥락으로 더 잘 해결된다. 핵심은 맥락이다.
유행하는 기술 약어 : 에이전트, RAG, 메모리 같은 요소는 단순한 재료일 뿐이다. 이를 실제로 작동하게 만드는 것은 데이터, 평가, 오케스트레이션이다.
단일 업체 의존 : 통합이 편리할 수는 있지만, 추상화가 제대로 되어 있지 않으면 특정 업체에 종속될 위험이 크다.

이 원칙과 함정은 AI에만 해당하는 것이 아니다. 본질적으로 모든 엔터프라이즈 애플리케이션의 성패를 가르는 요소와 동일하다. 결국 AI에서 승리하는 업체와 기업은 탁월한 개발자 경험을 제공하거나, 여기서 언급한 원칙을 충실히 따르고 함정을 피하는 곳일 것이다.
dl-itworldkorea@foundryco.com