News Feed

LLM 도입 전 체크리스트 27가지

컨텐츠 정보

  • 조회 76

본문

중고차를 살 때는 보닛을 열어보고, 집을 살 때는 누수를 확인한다. 대규모 언어 모델을 고를 때는 무엇을 따져봐야 할까?

모델마다 역량이 다르고, 애플리케이션마다 요구 조건도 제각각이다. 어떤 모델이 내 프로젝트에 맞는지 판단하려면 올바른 질문을 던져야 한다. 개발자들이 모델 채택 전 실제로 검토하는 핵심 질문 27가지를 정리했다.

모델의 크기는 얼마인가

매개변수 수는 모델에 이미 인코딩된 정보의 양을 가늠하는 대략적인 척도다. 어떤 문제는 이 정보를 최대한 활용해야 한다. 프롬프트가 학습 데이터에 포함된 정보를 찾으려 할 때가 그런 경우다.

반면, 더 큰 모델이 필요 없는 문제도 있다. 검색 증강 생성(RAG) 데이터베이스에서 충분한 정보를 추가하거나, 질문 자체가 단순할 수 있다. 질문의 대략적인 규모를 예측할 수 있다면, 조건을 충족하는 가장 작은 모델을 선택하면 된다.

모델이 보유 하드웨어에서 구동되는가

자체 모델을 호스팅할 계획이라면 보유 하드웨어에서 얼마나 잘 작동하는지 반드시 확인해야 한다. 램이나 GPU를 추가하는 일은 항상 번거롭고 때로는 불가능하다. 모델이 하드웨어에 맞지 않거나 원활하게 실행되지 않는다면 해결책이 될 수 없다.

첫 토큰 생성 시간은 얼마인가

대규모 언어 모델의 속도를 측정하는 방법은 여러 가지다. 첫 토큰 생성 시간(TTFT)은 화면에 답변이 뜨기를 기다리는 실시간 대화형 애플리케이션에서 중요한 지표다. 일부 모델은 응답 시작이 빠르지만 이후 속도가 느리고, 다른 모델은 시작까지 시간이 걸린다. 백그라운드 처리나 배치 작업에 대규모 언어 모델을 활용할 계획이라면 이 수치는 그다지 중요하지 않다.

속도 제한이 있는가

모델과 하드웨어의 모든 조합에는 속도 한계가 존재한다. 하드웨어를 직접 공급한다면 테스트를 통해 최대 부하를 설정할 수 있다. API를 사용한다면 업체가 처리 가능한 토큰 수에 속도 제한을 둘 가능성이 높다. 더 많은 처리량이 필요하다면 하드웨어를 추가로 구매하거나 다른 업체를 찾아야 한다.

컨텍스트 윈도우 크기는 얼마인가

질문의 크기는 얼마나 되는가. 대규모 코드베이스 리팩토링처럼 수백만 개의 토큰을 모델에 입력해야 하는 작업도 있다. 컨텍스트 윈도우가 제한된 소형 모델은 프롬프트 끝에 도달하기 전에 앞부분을 잊어버린다.

문제가 작은 프롬프트 안에 해결된다면 컨텍스트 윈도우가 작은 더 단순한 모델로도 충분하다.

모델이 추론과 속도 사이의 균형을 어떻게 맞추는가

모델 개발자는 모델이 문제를 메타 수준에서 추론하거나 생각하는 단계를 추가할 수 있다. 흔히 ‘추론’이라고 부르지만, 실제로는 충분히 좋은 답을 찾을 때까지 다양한 접근법을 반복하는 것을 의미한다. 실제로 추론 깊이와 응답 속도는 서로 상충한다. 반복이 많을수록 응답이 느려진다. 이 ‘추론’이 가치 있는지는 전적으로 문제의 성격에 달려 있다.

모델의 안정성은 어느 수준인가

특정 프롬프트에서 일부 모델은 다른 모델보다 실패 확률이 높다. 답변을 시작하다가 통계적 혼돈에 빠져 무작위 단어와 헛소리를 쏟아내는 경우가 있다. 올바른 답변을 내놓는 경우도 많지만, 모델이 이미 프로덕션에서 운영 중일 때 예기치 않은 순간에 불안정성이 나타나기도 한다.

학습 종료 시점은 언제인가

‘지식 기준일’은 모델 학습 데이터에 새로운 정보 주입이 중단된 날짜다. 모델에 내재된 일반 지식에 의존할 계획이라면 그 정보가 얼마나 오래됐는지 파악해야 한다. 다만 RAG 시스템이나 벡터 데이터베이스의 다른 문서를 통해 프롬프트에 세부 정보를 추가하는 프로젝트라면 최신 날짜가 반드시 필요하지 않다.

추가 학습이 가능한가

일부 대규모 언어 모델 업체는 보통 고객사의 도메인 특화 데이터 세트를 활용한 추가 학습 라운드를 지원한다. 이 미세조정을 통해 파운데이션 모델에 특정 워크플로우나 데이터 파이프라인에서 역할을 수행하는 데 필요한 세부 사항을 학습시킬 수 있다. 미세조정은 새 모델을 처음부터 구축하는 것보다 대개 훨씬 저렴하고 빠르다.

지원하는 미디어 유형은 무엇인가

텍스트만 출력하는 모델이 있고, 이미지를 출력하는 모델도 있고, 완전히 다른 작업을 하도록 학습된 모델도 있다. 입력도 마찬가지다. 텍스트 프롬프트만 읽을 수 있는 모델, 이미지 파일을 분석하거나 차트와 PDF를 처리할 수 있는 모델, 특이한 파일 형식도 해석하는 모델이 있다. 필요한 파일 형식을 모델이 읽고 출력할 수 있는지 반드시 확인해야 한다.

프롬프트 구조는 어떻게 되는가

프롬프트의 구조는 모델마다 다른 영향을 미친다. 시스템 프롬프트의 지시에 특히 민감한 모델이 있는가 하면, 사용자와 대규모 언어 모델이 답에 수렴해가는 소크라테스식 대화 방식으로 이동하는 모델도 있다. 유명인의 페르소나를 채택하도록 권장하는 모델도 있다. 반복적이고 에이전트적인 사고를 이끌어내는 최선의 프롬프트 방식은 아직 활발히 연구 중인 주제다.

모델이 오픈소스인가

일부 모델은 오픈소스 소프트웨어와 유사한 자유를 부여하는 오픈소스 라이선스로 공개됐다. 통제된 환경에서 실행해야 하는 프로젝트는 자체 공간에서 이 모델을 구동하고 온라인 서비스에 대한 신뢰 문제를 피할 수 있다. 모델을 미세조정하려는 사용자에게는 모델 가중치에 직접 접근할 수 있는 오픈소스 모델이 유리하다.

보장된 서비스 수명이 있는가

모델이 오픈소스가 아니라면 개발자가 언제든 서비스를 종료할 수 있다. 일부 서비스는 예측 가능한 기간 동안 모델을 지원하겠다는 보장을 제공한다. 덕분에 개발자는 스택에 모델을 통합한 직후 서비스가 중단되는 상황을 걱정하지 않아도 된다.

오픈소스 모델의 이전 버전은 계속 이용 가능하지만, 독점 모델의 지속 가용성은 소유자가 결정한다. 은퇴한 구버전은 어떻게 될까? 대다수 사용자는 후속 모델로 만족하지만, 구버전에 의존하게 된 사람은 난처해진다. 일부 독점 모델 업체는 서비스 종료 시 모델 가중치를 공개하겠다고 약속했는데, 완전한 오픈소스는 아니지만 모델을 항상 사용 가능하게 하는 방법이다.

모델이 배치 아키텍처를 지원하는가

실시간 답변이 필요하지 않다면 일부 대규모 언어 모델은 프롬프트를 지연 배치로 처리할 수 있다. 많은 모델 호스트가 수요가 낮은 나중 시점에 답변하는 옵션에 대해 큰 폭의 할인을 제공한다. 일부 추론 엔진은 페이지드어텐션(PagedAttention) 같은 기법이나 더 세밀한 스케줄링으로 연속 배치를 제공한다. 이런 기법은 하드웨어 처리량을 높여 비용을 절감하는 데 도움이 된다.

비용은 얼마인가

일부 상황에서는 가격이 매우 중요하다. 특히 특정 작업을 반복적으로 수행할 때 그렇다. 답변 하나의 비용이 1센트도 안 되더라도 쌓이면 상당한 금액이 된다. 대규모 데이터 파이프라인에서는 저렴한 옵션으로 전환하는 것이 재정적 성패를 가르는 차이가 될 수 있다.

반면, 가격이 크게 중요하지 않은 상황도 있다. 프롬프트를 몇 번 실행하는 데 그치거나, 비용이 작업의 가치에 비해 훨씬 낮을 수도 있다. 이런 경우에는 더 크고 정교한 모델에 추가 비용을 쓰더라도 예산에 큰 부담이 없으므로 대규모 언어 모델에서 비용을 절약하려는 것은 별 의미가 없다.

합성 데이터로 학습됐는가

일부 대규모 언어 모델은 다른 모델이 생성한 합성 데이터로 학습된다. 잘 진행될 때는 거짓 정보를 흡수하지 않지만, 잘못될 경우 정밀도가 떨어질 수 있다. 복사본을 계속 복사하면 화질이 흐려지는 것에 비유하거나, 앰프와 마이크 사이의 오디오 피드백에 비교하기도 한다.

학습 데이터에 저작권 문제가 있는가

일부 대규모 언어 모델 개발사는 학습 데이터를 구축할 때 저작권이 있는 책을 무단으로 포함하는 편법을 썼다. 앤트로픽은 예를 들어 아직 저작권이 유효한 일부 서적과 관련한 집단소송 합의를 발표했다. 다른 소송도 계류 중이다. 핵심 주장은 적절한 프롬프트가 주어졌을 때 모델이 저작권 자료에 근접한 내용을 생성할 수 있다는 것이다. 표절이나 불법 복제 자료가 나올 수 있는 답변을 구하는 사용례라면 학습 데이터 선별 방식에 대한 확인이 필요하다.

출처 감사가 이뤄지는가

일부 개발자는 합성 데이터와 저작권 문제에 대한 의문에 대응하기 위해 학습 데이터에 대한 제3자 감사를 제공하고 있다. 미래의 침해 문제에 대한 우려를 해소하는 데 도움이 된다.

면책 조항이 포함돼 있는가

계약에 답변이 저작권을 침해하거나 개인 정보를 포함하지 않는다는 보장이 있는가. 일부 기업은 학습 데이터가 충분히 깨끗하다고 확신해 고객에게 계약상 면책을 제공한다.

환경 영향을 파악할 수 있는가

일반적으로 답변 하나를 생성하는 데 소비되는 전력과 물의 양을 의미한다. 일부 서비스는 다른 서비스 대비 자원 낭비가 적다는 점을 차별화하기 위해 추정치를 제공하고 있다. 전력과 물이 직접 비용이자 주요 비용 항목인 만큼, 가격은 환경 영향을 가늠하는 나쁘지 않은 대리 지표다. 전력과 물은 직접 비용이기 때문에 개발자 입장에서는 두 자원을 덜 사용할수록 경제적으로 유리하다.

하드웨어에 재생 에너지가 사용되는가

전력이 친환경 에너지원에서 왔는가? 일부 서비스는 재생 에너지 업체와 직접 파트너십을 맺고 답변 생성에 사용된 에너지가 태양광이나 풍력 기반임을 보장한다.재생 에너지가 공급될 때까지 쿼리를 대기열에 넣는 배치 서비스를 제공하는 경우도 있다.

모델에 컴플라이언스 문제가 있는가

고도로 규제된 환경에서 일하는 개발자는 데이터 접근 문제를 신경 써야 한다. SOC2, HIPAA, GDPR 같은 표준이 모델 사용 방식에 어떤 영향을 미치는지 검토해야 한다. 대다수 경우 통제된 환경에서 모델을 구동해야 한다. 일부 규제는 특정 결정에 ‘투명성’을 요구하는데, 모델이 결론에 도달한 과정을 설명해야 한다는 뜻이다. 답하기 가장 복잡한 질문이다.

모델은 어디서 실행되는가

일부 규제는 위치와 직결된다. GDPR 규정 중에는 유럽인의 개인 데이터가 유럽 내에 머물러야 한다는 조항이 있다. 지정학과 국경도 세금, 명예훼손, 개인정보 보호 같은 다양한 법적 문제에 영향을 준다. 사용례가 세금, 명예훼손, 개인정보 보호 같은 법적 문제와 맞닿아 있다면 대규모 언어 모델의 물리적 위치가 중요해질 수 있다. 일부 서비스는 이런 문제를 해결하기 위해 지역별 배포를 설정하고 있다.

인간 검수를 지원하는가

일부 개발자는 대규모 언어 모델의 추론 과정에 사람이 개입할 수 있는 지점을 명시적으로 설계에 포함하고 있다. 이 ‘인간 검수(human-in-the-loop)’ 방식은 대규모 언어 모델이 결함 있거나 위험한 답변을 내놓기 전에 중단시킬 수 있게 한다. 이 개입 지점을 위한 최적의 아키텍처 구조를 찾기는 까다로운데, 너무 자주 트리거되면 과도한 작업이 생길 수 있기 때문이다.

어떤 도구를 지원하는가

일부 모델과 서비스는 인터넷 검색, 데이터베이스 조회, 임의 함수 호출 등 외부 기능을 활용할 수 있다. 외부 소스의 데이터를 활용해야 하는 문제에 큰 도움이 된다. 모델 컨텍스트 프로토콜(MCP) 같은 API를 활용하는 도구와 인터페이스의 생태계가 방대하다. 실제로 써보며 안정성을 직접 검증해보는 것이 좋다.

에이전트 기능을 갖췄는가

지금 가장 뜨거운 화두다. 모든 기업이 모델의 추론 역량을 강화하는 방식을 설명하는 데 이 단어를 쓰고 있기 때문이다. 여러 대규모 언어 모델이 함께 작동하고, 또 다른 대규모 언어 모델이 전체를 조율하는 방식을 의미하기도 한다. 실제로 더 스마트해지는지는 미지수다. 더 나은 결과를 내는지는 직접 써봐야 알 수 있다.

모델만의 특이한 버릇이 있는가

대규모 언어 모델을 사용하다 보면 모델 고유의 버릇이 눈에 들어오기 시작한다. 흠 많은 인간에게서 모든 것을 배운 것처럼 느껴진다. 마침표 뒤에 공백이 하나가 아니라 두 개면 다른 답을 내놓는 모델이 있는가 하면, 거만하게 들리는 모델도 있다. 대부분은 짜증스러울 정도로 아첨꾼이다. 모델을 선택할 때는 직접 시간을 들여 사용해보고 그 버릇이 결국 귀엽게 느껴질지, 짜증스러울지, 아니면 더 심각한 문제가 될지 감을 잡아야 한다.
dl-itworldkorea@foundryco.com

관련자료

댓글 0
등록된 댓글이 없습니다.
Member Rank