“바쁠수록 돌아가라” LLM을 배포하기 전에 고려해야 할 5가지

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.04.10 11:10

조회 704

챗GPT가 등장한 이후로, 대형 언어 모델(LLM)에 대한 열광과 반발이 커지고 있다. 실제로 생성형 AI와 LLM이 부적절하게 활용되는 사례도 많고, 과대평가도 자주 지적된다. 그렇다고 LLM이 유용하지 않은 것은 아니다. 하지만 LLM을 전면적으로 도입하기 전에 먼저 기업은 몇 가지 핵심 질문에 답해야 한다.

LLM이 인간의 반응보다 더 좋거나 적어도 동등한 수준일까?

웹사이트의 첫 페이지에 없는 질문에는 대답하지 않는 챗봇을 좋아하는 사람이 있을까? 반면에, 대본만 읽고 도움을 줄 권한이 없는 고객 서비스 담당자와 이야기하는 것도 마찬가지로 실망스럽다. LLM을 배포할 때는 기존 챗봇이나 사람의 응답과 더 나은지, 최소한 동등한지 테스트해야 한다.

책임을 질 수 있는가?

소송이 빈번한 사회에서 새로운 절차나 기술은 법적 위험에 대한 가능성을 기준으로 평가되어야 한다. 의료, 법률, 금융과 같은 분야는 분명히 주의가 필요한 분야다. 만일 LLM 답변이 허용되지 않는 정책이나 조언을 제시한다면 어떨까? 물론 인간이 답변한 경우에도 회사 정책이나 경영이 잘못되면 집단 소송으로 이어졌다. 그러나 제대로 훈련되지 않았거나 제약이 있는 LLM도 잘못된 답변을 생성해 문제를 초래할 수 있다.

정말 비용이 더 저렴한가?

챗GPT와 같은 일반 LLM의 구독료와 사용량을 측정하는 것은 쉽지만, 구체적인 맞춤형 시스템은 컴퓨팅 성능 이상의 높은 비용을 수반한다. 시스템을 유지 관리하고 디버깅하는 데 필요한 직원과 기타 인프라와 비교하면 어떨까? AI 전문가 한 명을 고용하는 비용으로 고객 서비스 담당자를 여러 명 고용할 수 있다. 챗GPT나 유사 서비스는 현재 투자금을 받아 운영되는데 수익을 내고자 하려는 시점에는 요금이 인상될 수 있다. 정말 시스템을 사용하는 내내 저렴한 비용이 유지될까?

어떻게 유지할 것인가?

대다수 LLM 시스템은 특정 데이터 세트에 맞게 맞춤 훈련된다. LLM이 의존하는 신경망의 단점은 디버깅이 매우 어렵다는 것이다. 기술이 더 발전하면 모델이 학습한 내용을 업데이트(또는 학습 취소)할 수도 있지만, 지금은 상당히 어렵다. 특히 부정적인 반응을 보이는 경우, LLM을 정기적으로 업데이트하는 과정 또는 절차가 있는가?

테스트 과정을 확인하라

LLM의 장점은 신뢰할 수 있는 답변을 제공할 때 질문의 모든 가능한 순열을 예상할 필요가 없다는 것이다. 그러나 “신뢰할 수 있다”는 말이 곧 “정확하다”는 의미는 아니다. 적어도 가장 일반적인 질문과 다양한 순열을 테스트해야 한다. LLM 과정이 사람이나 기존 기계 프로세스를 대체하는 경우, 사람들이 현재 묻고 있는 질문부터 시작하면 좋다.

“바쁠수록 둘러 가라”라는 속담이 있다. 모든 것이 LLM에 적합한 것은 아니며, 열정이 역량을 능가한다는 증거도 충분하다. 그러나 품질과 경제성을 측정하고 적절한 유지 관리 및 테스트 절차를 마련한다면 LLM은 다양한 사용례에서 유용한 도구가 되어줄 것이다.
dl-itworldkorea@foundryco.com