머신러닝 프로젝트가 실패하는 10가지 이유와 해결책

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.02.27 15:43

조회 705

머신러닝 기술이 광범위한 응용 분야에 채택되면서 많은 섹터에 걸쳐 위상을 강화하고 있다. 시장조사 업체 포춘 비즈니스 인사이트(Fortune Business Insights)는 전 세계 머신러닝 시장이 2023년 260억 3,000만 달러에서 2030년 2,259억 1,000만 달러 규모로 성장할 것으로 전망했다. 머신러닝의 사용 사례에는 제품 추천, 이미지 인식, 사기 탐지, 언어 번역, 진단 툴 등이 포함된다.

AI의 하위 집합인 머신러닝은 예측 의사 결정을 내리기 위해 방대한 데이터 집합을 사용해서 알고리즘을 학습시키는 과정을 의미한다. 머신러닝은 많은 잠재적 혜택을 가진 것으로 평가되지만 위험도 따른다. 머신러닝 프로젝트가 실패하는 가장 일반적인 이유가 무엇인지에 대한 여러 기술 리더의 대답은 다음과 같다.

AI 환각

머신러닝에서 말하는 환각은 LLM이 존재하지 않거나 사람이 지각할 수 없는 패턴 또는 객체가 있다고 인식하는 현상이다. 생성된 코드 또는 챗봇 응답에 환각이 반영된다면 그 결과는 쓸모가 없다.

통합 데이터 플랫폼 공급업체 뉴 렐릭(New Relic)의 AI/ML 책임자 캠든 스위타는 “환각에 대한 우려가 어느 때보다 크다”면서 최근 연구에서 대다수의 머신러닝 엔지니어가 LLM에서 환각 증상을 경험한 것으로 확인됐다고 지적했다.

스위타는 환각 문제에 대처하기 위해서는 콘텐츠 생성에만 집중하는 구조에서 벗어나야 한다면서 “개발자는 요약 작업에 중점을 두고, 환각을 대폭 줄이는 검색 증강 생성(retrieval-augmented generation, RAG)과 같은 고급 기술을 활용해야 한다. 또한 AI 출력의 중심을 검증되고 통제되는 진실한 데이터 소스에 두면 오해의 소지가 있는 정보가 생성될 가능성을 줄일 수 있다”라고 말했다.

모델 편향

기업은 모델 편향을 경계해야 한다. 모델 편향은 모델에 존재하는 구조적 오류이며 지속적으로 부정확한 예측을 유발한다. 이런 오류는 데이터 학습에 사용된 알고리즘, 학습 데이터 선택, 모델을 만들 때 사용한 특징 또는 기타 문제로 인해 발생할 수 있다.

AI를 사용하는 의료 구인구직 매칭 기업 스태프DNA(StaffDNA)의 CEO 셸던 아로라는 “머신러닝 모델을 학습시키는 데 사용되는 데이터는 정확한 그룹 대표성과 다양한 데이터 집합을 포함해야 한다. 어느 한 그룹의 대표성이 너무 강하면 전체 집단을 정확하게 반영하지 못한다. 모델 성능을 지속적으로 모니터링하면 모든 인구통계 그룹의 공정한 대표성을 보장할 수 있다”라고 말했다.

스위타는 편향을 해결하는 것이 현대 AI 환경의 성공을 이끌기 위한 핵심이라면서 “편향된 콘텐츠를 사전에 식별하고 수정하기 위한 지속적인 감독과 경고 메커니즘, 콘텐츠 필터링을 구현해야 한다. 이런 방법론을 통해 검증된 콘텐츠에 더 높은 우선순위를 두는 AI 프레임워크를 개발할 수 있다”라고 조언했다.

스위타는 편향 문제를 해결하기 위해서는 빠르게 발전하는 모델에 발맞춰 지속적으로 시스템을 개선하는 동적인 접근 방식을 도입해야 한다면서 “편향에 대응하기 위한 세심한 맞춤 전략이 필요하다”라고 덧붙였다.

법적·윤리적 위험

머신러닝은 특정한 법적, 윤리적 위험을 수반한다. 법적 위험에는 모델 편향에 의한 차별, 데이터 개인정보 침해, 보안 유출, 지적 재산권 침해가 포함된다. 이런 위험은 머신러닝 시스템의 개발자와 사용자에게 영향을 미칠 수 있다.

윤리적 위험에는 유해성 또는 악용 가능성, 데이터 오용, 투명성과 책임성의 부재 등이 포함된다. 머신러닝 알고리즘을 기반으로 한 의사 결정은 본래 의도가 아니었다 해도 개인에게 부정적인 영향을 미칠 수 있다.

스위타는 검증되고 통제되며 신뢰할 수 있는 데이터를 중심으로 하는 모델과 출력의 필요성을 재차 강조하며 “데이터 사용과 개인정보 보호에 관한 규정과 표준을 준수함으로써 머신러닝과 관련된 법적, 윤리적 위험을 줄일 수 있다”라고 강조했다.

낮은 데이터 품질

데이터에 의존해서 긍정적인 결과를 얻고자 하는 모든 기술이 그렇듯이 머신러닝도 성공하기 위해서는 고품질의 데이터가 필요하다. 낮은 데이터 품질은 부실한 모델과 쓸모없는 결과로 이어질 수 있다.

시장조사 업체 가트너의 분석에 따르면 대다수 기업이 데이터와 관련한 문제를 겪고 있으며, 상당수는 AI를 신뢰하지 않는 가장 큰 이유로 데이터의 비신뢰성과 부정확성을 지적한다. 가트너 분석 및 AI팀의 선임 디렉터이자 애널리스트인 피터 크렌스키는 “리더와 실무자는 프로토타입을 위한 데이터 준비와 실제 환경에 맞는 준비 사이에서 어려움을 겪는다”라고 말했다.

이런 과제를 해결하려면 크렌스키는 “완벽함을 넘어 데이터의 의도된 목적에 맞게 거버넌스를 조정해서 신뢰와 적응력을 촉진하는 접근 방식을 채택해야 한다”라고 설명했다.

온라인 엔터테인먼트 사이트 온라인 게임즈(Online Games)의 CEO 마린 크리스티안-오비디우는 머신러닝은 데이터의 품질에 크게 좌우된다면서 “불량 데이터는 부정확한 예측으로 이어진다. 편향된 입력으로 인해 관련성 없는 콘텐츠를 제시하는 추천 시스템과 같다”라고 말했다.

크리스티안-오비디우는 이 문제를 해결하기 위해서는 강력한 데이터 정리 프로세스와 다양한 데이터 집합을 도입해야 한다고 말했다. 아로라 역시 신뢰할 수 있는 머신러닝 모델을 구축하려면 고품질 데이터가 필수적이라면서 “정기적으로 데이터를 정제하고 전처리 기술을 구현해서 정확성을 보장해야 한다. 양질의 데이터는 모델을 효과적으로 학습시키고 신뢰할 수 있는 출력을 얻기 위한 열쇠”라고 덧붙였다.

부정확하고 부실한 데이터 외에, 특정 작업에 유의미하게 기여하지 않는 데이터 포인트에도 대처해야 한다. 팀은 데이터 시각화, 통계 분석과 같은 기능을 사용해 관련성 없는 데이터를 식별하고, 이렇게 식별된 데이터를 모델 학습에 앞서 데이터 집합에서 제거할 수 있다.

모델 과적합과 과소적합

사용된 데이터 외에 모델 자체가 머신러닝 프로젝트에서 결함의 원인이 되기도 한다.

과적합(Overfitting)은 모델이 학습 집합에 너무 근접하게 피팅될 때 발생한다. 과적합은 새로운 데이터에 제대로 대처하지 못하는 상황으로 이어진다. 일반적으로 모델은 알려진 데이터 집합을 사용한 학습을 거쳐 새로운 데이터에 대한 예측을 수행하는데, 과적합 모델은 새로운 데이터에서 일반화를 잘 하지 못하고 의도한 작업을 수행할 수 없다.

구글 소프트웨어 엔지니어이면서 AI를 사용해 저널리스트와 전문가를 연결하는 기업인 프레스펄스(PressPulse) 창업자이기도 한 엘비스 선은 “모델이 학습 데이터에 대해서는 우수한 결과를 보이지만 새로운 데이터에 대해서는 그렇지 못한 경우 과적합하다고 한다. 지나치게 복잡해지면 모델은 패턴을 파악하는 것이 아니라 훈련 데이터를 단순히 ‘기억’하게 된다”라고 말했다.

과소적합(Underfitting)은 모델이 지나치게 단순해서 입력 변수와 출력 변수 간의 관계를 정확히 포착하지 못하는 경우 발생한다. 결과적으로 모델은 학습 데이터와 새 데이터 모두에 대해 제대로 작동하지 못한다. 선은 “모델이 너무 단순해서 데이터의 실제 복잡성을 표현하지 못할 때 과소적합이 발생한다”라고 지적했다.

선은 교차 검증, 정규화, 적절한 모델 아키텍처를 사용해 이런 문제를 해결할 수 있다고 말했다. 교차 검증은 학습에서 제외된 데이터에 대한 모델의 성능을 평가해 일반화 능력을 입증한다. 선은 “기업은 모델 복잡성과 일반화 사이에서 균형을 맞춰 신뢰할 수 있고 정확한 머신러닝 솔루션을 생산할 수 있다”면서 L1, L2와 같은 정규화 기술은 모델 복잡성에 페널티를 부과하고 더 단순하고 광범위하게 적용 가능한 솔루션을 촉진함으로써 과적합을 방지한다고 말했다.

레거시 시스템 통합 문제

머신러닝을 레거시 IT 시스템과 통합하려면 머신러닝에 대한 기존 인프라의 준비 상태를 평가하고 통합 프로세스를 만들고 API를 사용해 데이터를 교환하는 등의 작업이 필요할 수 있다. 어떤 작업이 필요하든 중요한 것은 현재 시스템이 새로운 머신러닝 기반 제품을 지원할 수 있도록 하는 것이다.

소프트웨어 인력 에이전시인 스케일러블 패스(Scalable Path)의 창업자 겸 CEO인 데미안 필리아트로는 “레거시 시스템은 머신러닝 툴의 인프라 요구사항을 충족하지 못할 수 있으며, 이 경우 비효율성이나 불완전한 통합으로 이어질 수 있다”라고 지적했다.

예를 들어 필리아트로는 “수요 예측 머신러닝 모델은 소매 업체에서 현재 사용 중인 재고 관리 소프트웨어와 호환되지 않을 수 있다. 따라서 구현에 앞서 시스템을 철저히 평가해야 한다”라고 설명했다.

필리아트로는 구형 시스템과 머신러닝 모델 간의 상호작용을 가능하게 해주는 API와 마이크로서비스를 사용해 둘을 통합할 수 있다면서 “또한 순차적인 롤아웃 과정에서 데이터 과학자와 IT팀이 여러 직무에 걸쳐 협업하면 더욱 원활한 도입을 보장할 수 있다”라고 말했다.

성능 및 확장성 문제

확장성 역시 문제다. 특히 시간이 지날수록 머신러닝 사용량이 증가하면서 더욱 문제가 된다. 전보다 훨씬 더 큰 데이터 집합과 높아진 복잡성, 더 높은 계산 수요 하에서 시스템이 성능과 효율성을 유지할 수 없다면 유용하지 않은 결과가 도출될 가능성이 높다.

머신러닝 모델은 증가하는 데이터 볼륨을 현저한 성능 또는 속도 저하 없이 처리할 수 있어야 한다. 아로라는 “기업은 확장 가능한 클라우드 컴퓨팅 리소스를 사용하지 않으면 데이터 양의 변동성에 대처할 수 없다. 데이터 집합의 크기에 따라 더 복잡한 모델이 필요할 수 있다. 분산 컴퓨팅 프레임워크는 대규모 데이터 집합을 병렬 계산할 수 있게 해준다”라고 말했다.

부족한 투명성과 신뢰

필리아트로는 머신러닝 애플리케이션이 “블랙박스” 방식으로 작동하는 경우가 많아 결과를 설명하기가 어렵다고 말했다.

필리아트로는 “의료와 같이 기밀성이 중요한 환경에서 이처럼 투명성이 부족할 경우 사용자가 확신을 갖기 어려울 수 있다. 가능하다면 해석 가능한 모델을 사용하거나 SHAP(SHapley Additive exPlanations)과 같은 설명 프레임워크를 사용해 이 문제에 대처할 수 있다”라고 조언했다.

또한 필라아트로는 의사 결정 프로세스를 적절하게 문서화하고 시각화하는 것도 사용자 신뢰와 규정 준수를 촉진해 AI의 윤리적 사용을 보장하는 데 도움이 될 수 있다고 덧붙였다.

크리스티안-오비디우는 “모델은 설명 없이 결과를 제공하는 경우가 많다. 예를 들어 플레이어 참여 모델은 유지율을 높일 수 있지만 어떤 요소가 중요한지를 명확히 설명하지 않는다. 이해하기 쉬운 모델을 사용하고, 결과에 대해서는 전문가의 도움을 받아야 한다”라고 강조했다.

부족한 분야별 지식

선은 머신러닝을 효과적으로 사용하기 위해서는 당면한 문제 또는 분야에 대한 광범위한 지식이 필요한 경우가 많다고 말했다. 적절한 인력을 갖추지 못했다면 이 같은 분야별 지식이 큰 문제가 될 수 있다.

선은 “산업별 데이터 구조, 비즈니스 절차, 법규와 같은 요인이 머신러닝 솔루션의 성공과 실패를 가를 수 있다”라고 말했다.

선은 이 공백을 메우려면 머신러닝 전문가는 관련 분야 종사자와 긴밀히 협력해야 한다면서 “머신러닝팀의 기술적인 전문성과 분야 전문가의 상황별 지식을 결합하면 더 좋은 머신러닝 모델을 만들 수 있다. 이 같은 형태의 협업은 문제 정의, 학습 데이터 집합 생성 또는 모델 개발 및 배포 중 지속적인 피드백 루프의 형태를 취할 수 있다”라고 말했다.

머신러닝 기술 인력 부족

다른 많은 기술 분야와 마찬가지로 머신러닝에서도 많은 기업이 인력 부족에 직면하고 있다.

크렌스키는 “기술 인력이 부족한 가운데 기술 영역과 비기술 영역 이해관계자 간의 간극을 메워야 할 필요성으로 인해 문제가 자주 발생한다. 도입을 촉진하고 계속 발전하는 역량에 따라 여러 팀을 조율하기 위해서는 변화 관리가 중요하지만 이런 변화 관리에 어려움을 겪는 기업이 많다”라고 말했다.

크렌스키는 직원 재훈련을 실시하고 분야 간 협업을 촉진하며, AI 기술 해설가와 같은 새로운 역할을 수용하는 등의 방법으로 이런 과제를 극복할 수 있다고 조언했다.
dl-itworldkorea@foundryco.com