더 큰 모델보다 더 나은 데이터가 먼저다
컨텐츠 정보
- 조회 157
본문
AI는 산업 전반에 걸쳐 동일한 속도로 발전하지 않는다. 일부 방향에서는 빠르게 앞서나가는 반면, 다른 방향에서는 여전히 뒤처진다.
오늘날 가장 발전한 AI 애플리케이션을 살펴보면 이 대비가 뚜렷해진다. 소프트웨어 개발 분야에서 AI는 급속히 일상화되고 있다. 배포 가능한 코드를 작성하고, 난해한 라이브러리를 해설하며, 인간 팀이 따라가기 어려운 속도로 반복 작업을 수행한다.
그러나 동일한 AI 모델을 복잡한 고객 지원 워크플로우에 투입하거나, 미묘한 임상 시나리오를 추론하게 하면 균열이 드러나기 시작한다. 다단계 추론이 흔들리고, 맥락이 누락되며, 다른 영역에서 보여준 강점과 일관성이 없어 보이는 방식으로 성능이 저하된다.
이런 AI 모델들은 대체로 비슷하다. 유사한 하드웨어에서 구동되고, 유사한 방식으로 학습되는 경우가 많다. 그렇다면 왜 태스크별 성능 차이가 발생하는 것일까? 가장 단순한 설명이 가장 간과되어 있다. 바로 데이터다.
소프트웨어 엔지니어링 분야는 방대하고 구조화된, 그리고 가시성이 높은 디지털 기록의 혜택을 누린다. 코드는 표준화된 언어로 작성되고, 견고한 문서화의 뒷받침을 받으며, 공개 포럼에서 검토되고, 대규모로 논의된다. 이런 생태계가 풍부하고 유용한 학습 자료 풀을 만들어냈다.
다른 분야는 그렇지 못한 경우가 많다. 예를 들어 의료 데이터는 기관마다 흩어져 있고, 개인정보 보호 제약에 묶여 있으며, 다양한 형태로 표현되고, AI 학습에 바로 활용할 수 있는 상태로 준비된 경우가 드물다. 기업 워크플로우는 AI 학습을 위해 설계되지 않은 내부 시스템에 담겨 있다. 다국어 음성 데이터는 품질과 대표성 면에서 편차가 크다.
이 불균형이 이른바 ‘데이터 격차’를 만들어낸다. 데이터 격차란 모델이 이론상 달성할 수 있는 성능과 실제로 달성 가능한 성능 사이의 거리를 말하며, 적합한 데이터가 아직 활용 가능한 형태로 존재하지 않기 때문에 발생한다. 이 데이터 격차를 좁히는 것이 오늘날 AI에서 가장 중요하면서도 가장 주목받지 못하는 과제일 것이다.
AI 발전에서 빠진 기둥
최근 AI의 발전을 이끄는 세 가지 힘이 있다. 모델, 칩, 그리고 데이터다.
AI 모델에는 막대한 투자가 이뤄졌다. 주요 연구 기관들은 수천 명의 연구자와 과학자를 두고 아키텍처, 학습 기법, 평가 방법을 적극적으로 개선하고 있다. 돌파구는 벤치마크 점수, 학술 논문, 인간 태스크에서의 모델 성능으로 측정된다. 컴퓨팅 칩에 대한 투자도 그에 못지않게 집중되어 있다. 하드웨어 제조사와 인프라 공급업체는 대규모 학습을 통해 더 빠른 결과를 제공하는 데이터센터를 구축하고 지원하는 데 수십억 달러를 쏟아붓고 있다.
그러나 데이터는 AI 개발에서 동일한 수준의 제도적 관심을 받지 못했다. 프런티어 AI 연구소의 연구자와 나눈 대화에는 공통된 불만이 있었다. 의료 분야 등 핵심 사용례에서 오늘날 모델의 한계는 아키텍처의 상상력 부족이 아니라, 고품질 도메인 특화 데이터의 가용성 부족에서 비롯된다는 것이다. 병목은 항상 아이디어의 부재가 아니라, 신뢰할 수 있는 입력의 부재다.
유용한 데이터를 얻기 위해 인터넷을 긁어모으던 시대는 이미 지났으며, 이 방식은 더 이상 확장이 불가능하다. 발전은 진정한 생활 경험과 기업 프로세스의 복잡성을 반영하는 데이터셋을 구축하고 큐레이팅하는 데 달려 있다. 그 작업에는 과학적 엄밀함과 AI 데이터 분야의 연구 전문성이 모두 필요하다.
모든 도약 뒤에 있는 데이터셋
AI의 역사는 일관된 교훈을 반복해서 보여준다. 모델 역량의 큰 도약은 항상 고품질 데이터 가용성의 큰 도약에 뒤따랐다. 명확하게 레이블링된 이미지에 의존했던 초기 비전 시스템부터 방대한 텍스트 컬렉션으로 학습된 오늘날의 언어 모델까지, 모든 주요 도약은 더 많은 고품질 데이터에 대한 접근을 전제로 했다.
아키텍처 혁신만으로는 좀처럼 충분하지 않다. 새로운 접근법의 가치는 모델이 실제로 무엇을 할 수 있는지를 드러내는 대규모의 구조화되고 대표성 있는 데이터셋과 결합될 때만 발현된다. 비전이든 언어든, 발전은 기반 데이터를 수집하고 정리하며 검증하는 고된 작업에 달려 있었다.
대규모 언어 모델이 이를 명확히 보여준다. 대규모 언어 모델의 등장은 단지 더 나은 학습 기법의 결과가 아니라, 전례 없는 규모의 데이터에 대한 접근 덕분이기도 했다. 모델이 그 데이터를 생성한 것이 아니라, 모델이 그 데이터에 의존한 것이다. 이런 패턴은 현재에 대해 시급한 질문을 제기한다. 누가 차세대 기반 데이터셋을 구축하고 있는가?
의료부터 오디오, 에이전트 태스크 성능에 이르기까지 다양한 도메인에 걸쳐 널리 받아들여지는 청사진이 없다. 복잡한 기업 태스크를 처리하는 AI 에이전트를 학습시키기 위한 표준 데이터셋은 어떤 모습이어야 하는가? 의학적 의사결정을 보조하는 모델에 대한 임상적으로 의미 있는 평가란 무엇인가? 광범위한 대표성과 신뢰할 수 있는 성능을 확보하기 위해 다국어 음성 데이터는 어떻게 큐레이팅되어야 하는가?
이것들은 단순한 소싱 문제가 아니다. 반드시 해결해야 할 근본적인 연구 과제다.
데이터를 범용품으로 취급할 때
중요한 데이터 관련 결정이 조달 업무처럼 처리되는 경우가 너무 많다. 기업이 ‘의료 대화’ 또는 ‘야생동물 장면’을 요청하면, 해당 요청은 내부 조달 또는 데이터 소싱 팀, 혹은 외부 데이터 공급업체로 전달되고, 이들은 요구 사항에 부합하는 것처럼 보이는 데이터를 모아 제공한다. 암묵적인 가정은 데이터가 대체 가능하다는 것, 즉 기본 사양만 충족하면 어떤 데이터셋이든 마찬가지라는 것이다.
실제 적용 사례는 다른 이야기를 한다. 포함 기준, 주석 표준, 필터링 규칙, 검증 프로토콜 등의 요소에 대한 사소해 보이는 선택들이 다운스트림 성능을 극적으로 바꿀 수 있다. 데이터 설계는 아키텍처만큼이나 모델 동작에 영향을 미친다.
이 때 역량, 설계, 전달 세 가지 구조적 문제가 이 상황을 더욱 심화시킨다.
역량 : 최고 수준의 엄밀함으로 도메인 특화 데이터셋을 구축하는 데 전념하는 전문 팀은 상대적으로 드물다. 인재와 자금은 모델 개발과 하드웨어 혁신 쪽으로 흘러들어 갔다. 데이터 작업은 흔히 배경에서 이루어지지만, 실제로는 두 분야 모두를 뒷받침한다.
설계 : 데이터셋 구축은 신경망 설계와는 다른 별개의 분야다. 실험 설계, 도메인 지식, 통계적 검증에 대한 전문성을 필요로 한다. 모델 연구자가 모델 학습과 평가를 수행하면서 데이터 연구의 전체 부담까지 동시에 짊어지기를 기대하는 것은 업스트림 태스크의 복잡성을 간과하는 일이다.
전달 : 모델 개선을 위해 특정 데이터 소스를 요청하는 연구자와 그 데이터를 실제로 소싱하는 담당자가 서로 다른 경우가 많다. 그 결과, 요청이 조달 및 공급업체 관계의 여러 단계를 거치면서 뉘앙스와 연구 기반 전문성이 누락되거나 희석되는 경우가 생긴다. 사양서는 충족하지만 실제로 모델 성능 향상에는 기여하지 못하는 데이터가 나오는 이유가 여기에 있다.
주석 공급업체의 부상과 강화학습 서비스는 필요의 일부를 충족시켰다. 모델 출력 평가, 텍스트 레이블링, 구조화된 정보 평가는 많은 최적화 태스크에 필수적이다. 그러나 이런 활동은 특정하고 제한된 목적을 위해 신중하게 구성된 데이터를 생성한다.
AI의 프런티어 과제는 더 많은 것을 요구한다. 실제 인간 활동과 유기적인 기업 프로세스에서 파생된 데이터셋이 필요하다. 그러한 데이터는 복잡하고, 멀티모달하며, 민감하다. 기본적으로 AI에 바로 활용할 수 있는 상태인 경우가 드물다. 그리고 신뢰할 수 있는 학습 및 평가 자료로 변환하는 것은 과학적 작업이다.
AI 데이터 계층을 위한 과학적 엄밀함의 필요성
고품질 데이터가 핵심 병목이라면, 과학적 엄밀함이 해결책의 일부다. 선도적인 모델 개발사들이 전용 연구소를 두고, 하드웨어가 전용 개발 생태계를 갖추고 있는 것처럼, AI의 데이터 계층도 집중적이고 과학적으로 기반을 둔 기관을 필요로 한다.
이는 데이터셋 설계, 평가 방법론, 품질 관리 같은 핵심 질문들에 직접 맞닥뜨리는 것을 의미한다. 논의가 규모에서 끝나서는 안 되며, 데이터 구조, 대표성, 전문가 검증을 다루어야 한다.
데이터셋 구축은 실험 설계로 접근해야 한다. 프로토콜은 문서화되고 검증되어야 한다. 평가 프레임워크는 데이터셋이 의도한 적용 분야를 진정으로 반영하는지 테스트해야 한다.
또한 이 분야에는 단순화된 대리 지표가 아닌 실제 복잡성을 반영하는 표준과 벤치마크가 필요하다. 예를 들어 의료 분야에서, 임상 보조를 위해 설계된 시스템을 일반적인 문답 테스트로 평가하는 것은 불충분하다. 실제 임상 환경은 멀티모달 입력과 맥락적 판단을 수반한다. 배포 전 의미 있는 관문으로 기능하려면 벤치마크가 그 현실을 반영해야 한다.
품질 측정도 또 다른 중요한 프런티어다. 금융은 신용 점수 같은 표준화된 지표로 리스크를 평가한다. AI에는 데이터셋과 벤치마크에 대한 그에 상응하는 기준이 없다. 데이터셋 품질과 평가 신뢰도를 정량화하는 명확한 방법론을 개발하면 모델 평가에 명확성을 가져올 수 있다.
다국어 오디오 라이브러리를 평가하는 기준은 멀티모달 종양학 데이터셋의 기준과 다를 것이다. 그러나 기저의 원칙은 동일하다. 더 나은 모델은 더 잘 정의되고, 더 잘 측정된 데이터를 필요로 한다.
잘못될 경우의 리스크
AI 시스템이 고위험 배포에 점점 더 가까워지면서, 취약한 데이터 관행은 실질적인 리스크를 수반한다.
벤치마크는 학습에 사용된 것과 동일한 데이터로 만들어서는 안 된다. 이는 모델에게 시험 전에 정답을 미리 알려주는 것이나 다름없다. 데이터 품질과 선별보다 규모 확장을 우선시하면 모델 성능 향상이 줄어들며, 소수집단을 차별하거나 배제하는 편향을 낳을 수도 있다. 이는 방법론적 과제이며, 반드시 해결해야 한다.
데이터 계층에 요구되는 엄밀함은 헤드라인을 장식하지 못할 수도 있다. 극적인 제품 출시와는 잘 어울리지 않는다. 그러나 AI의 데이터 계층은 신뢰, 안전, 그리고 모든 AI 발전의 지속적인 진보를 위한 토대다.
데이터 시대를 위한 생태계
단일 기업이 데이터 격차를 혼자서 해결할 수는 없다. 필요한 것은 서로 다른 도메인과 과제에 집중하되, 과학적 규율에 대한 공통된 헌신으로 연결된 AI 데이터 연구소와 연구 그룹의 생태계다. 이런 기관이 모이면 모델 연구자 및 도메인 전문가와 협력하여 데이터셋 오염, 사실성, 근거성, 비식별화, 국제적 대표성, 편향 같은 과제를 해결할 것이다. 그리고 단순화된 추상화가 아닌 실제 복잡성을 반영하는 벤치마크를 설계할 것이다.
AI의 궤적은 더 큰 모델이나 더 빠른 칩에 의해서만 결정되지 않을 것이다. AI의 궤적은 우리가 구축하는 데이터셋, 우리가 채택하는 표준, 그리고 우리가 근본에 적용하는 엄밀함에 의해 형성될 것이다. 오늘날 우리가 목도하는 불균등한 프런티어는 불균등한 데이터 환경을 반영한다. 격차를 좁히려면 의도적이고 연구 중심적인 데이터셋 설계가 필요하다.
임상 맥락에서 신뢰할 수 있는 방식으로 작동하고, 기업 워크플로우를 탐색하며, 언어와 문화 전반에 걸쳐 책임감 있게 기능하는 AI 시스템을 원한다면, AI를 위한 데이터를 최우선 과학적 사업으로 다루어야 한다.
AI 모델에는 연구소가 있다. AI 칩 제조사에는 제조 시설이 있다. AI 데이터에는 동등한 진지함과 야망을 갖춘 기관이 필요하다.
dl-itworldkorea@foundryco.com
관련자료
-
링크
-
이전
-
다음






