“깨끗하기만 하다면?” 학습 데이터를 훔치지 않는 AI 모델 개발의 진전과 한계

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.07.23 15:57

조회 432

많은 기업이 생성형 AI 프로젝트에 수십억 달러를 쏟아붓고 있지만, 향후 발생할 수 있는 법적 위험에 대해서는 대부분 눈을 감고 있다.

위험 요소는 사실상 무한하다. 대부분 기업은 LLM을 배포하기 전에 자체 데이터를 활용해 세부 조정을 하지만, 모델이 처음부터 학습한 기반 데이터는 알 수 없다. 오픈AI, 구글, AWS, 앤트로픽, 메타, 마이크로소프트 등 주요 AI 모델 개발업체는 학습 데이터에 대한 정보를 전혀 공개하지 않는다. 예를 들어 데이터의 연령, 신뢰도, 원문 언어는 물론이고, 개인정보 보호법이나 저작권, 상표권, 특허권, 의료나 금융, 개인 식별 정보 등 민감한 데이터에 대한 규제를 위반했는지 여부도 알 수 없다.

간혹 업체가 모델 학습에 사용된 데이터 출처 목록을 제공하더라도, 그 내용이 실질적인 정보를 담고 있지 않은 경우도 많다. 예를 들어 “비자 거래 정보”라는 출처가 기재되어 있다고 하자. 얼마나 오래된 정보인가? 검증된 정보인가? 법적 요구사항을 충족할 정도로 충분히 비식별화됐는가?

미국 일부 주에서는 ‘장물 수취’ 범죄가 의심되는 재산을 취득한 것만으로도 유죄가 될 수 있다. 이 개념을 여기에 적용할 수 있을까? 기업은 자신이 사용하는 LLM의 학습 데이터 중 일부가 저작권 등 각종 법규를 위반했을 가능성이 크다는 사실을 알고 있으면서도, “묻지도 말하지도 말라”는 식으로 이를 회피하고 있다. 향후 이런 사안이 법적 문제로 불거질 경우, 기업은 법정에서 “도둑맞은 데이터라는 사실을 몰랐다”는 주장을 설득력 있게 펴기 어려울지도 모른다.

파생되는 위험도 있다. 예를 들어 어떤 연구자가 지열 에너지 생산량을 계산하는 새로운 공식을 개발했다고 하자. LLM 개발사가 이 정보를 무단 수집해 모델을 학습시켰고, 엑슨모빌이 이 모델을 라이선스로 활용해 더 수익성 높은 에너지 추출 방법을 고안해 50억 달러의 신규 이익을 창출했다면 어떻게 될까? 원 저작자가 엑슨모빌을 상대로 이익 배분을 요구하며 소송을 제기할 수도 있다.

무어 인사이트 앤 스트래티지의 대표 애널리스트 제이슨 앤더슨은 “지난 1년간 이 문제를 가끔씩 고민했다면, 앞으로는 주요 고려 사항이 될 것”이라고 말했다. 앤더슨은 “오픈소스 기반 모델의 학습 및 튜닝 비용이 계속 낮아지는 상황에서, 이런 고위험 규제 환경에서 기업이 스스로 법적 위험에 노출되는 것은 어리석은 일”이라고 경고했다.

앤더슨은 6월에 있었던 앤트로픽과 공정 이용에 대한 법원 판결이 사안을 더욱 복잡하게 만들고 있다고 덧붙였다. 이 판결에서 법원은 “앤트로픽이 저자 허가 없이 출판된 책을 모델 학습에 사용하더라도, 해당 도서를 합법적으로 구입했다면 문제가 없다”라고 판시했다. 앤더슨은 “이 문제는 다층적인데, 솔직히 판결은 핵심을 비껴갔다”라며, “왜 더 많은 기업이 이 문제에 관심을 두지 않고 있는지 의문”이라고 지적했다.

데이터를 훔치지 않는 AI 모델

한 가지 대안은 법적으로 문제가 될 수 있는 정보를 학습하지 않도록 명시적으로 설계된 생성형 AI 모델을 사용하는 것이다. 이런 방식에는 장단점이 있지만, 몇몇 대학 주도의 프로젝트는 오픈소스나 퍼블릭 도메인 같은 ‘법적으로 안전한’ 정보만을 모델 학습 데이터로 사용하는 것을 목표로 하고 있다.

예를 들어, ‘커먼파일(Common Pile)’은 토론토대, 코넬대, 메릴랜드대, MIT, 카네기멜론대, 로렌스 리버모어 연구소 연구팀이 허깅페이스, 일레더AI 등 일부 AI 기업과 함께 만든 프로젝트다. 커먼파일은 LLM 학습을 위해 설계된 8TB 규모의 공개 라이선스 텍스트 모음집이다. 커먼파일 웹사이트에 따르면, “연구 논문, 소스코드, 책, 백과사전, 교육 자료, 음성 전사문 등 다양한 도메인의 30개 출처”에서 데이터를 수집했다.

커먼파일 팀은 “이 데이터를 바탕으로 매개변수 70억 개 규모의 LLM 2종(Comma v0.1-1T, Comma v0.1-2T)을 각각 1조 개와 2조 개의 토큰으로 학습시켜, 비라이선스 데이터를 사용한 라마 1·2 7B 모델과 유사한 연산 자원에서 유사한 성능을 달성했다”고 밝혔다. 연구팀은 커먼파일 v0.1 데이터는 물론, 생성 코드, 학습 구성 및 체크포인트도 함께 공개했다.

다만, 초기 공개 모델은 주요 상용 모델에 비해 성능이 떨어진다는 우려도 있다. 예컨대 커먼파일 개발팀도 해당 모델의 성능이 메타가 2년 전 출시한 라마 2와 비슷한 수준이라고 인정했다.

싱가포르 기반 옴니시엔 테크놀로지스(Omniscien Technologies)의 CTO 디온 위긴스는 이런 오픈 데이터 시도를 긍정적으로 평가했지만, 현시점에서 성능 격차가 있다는 점은 인정했다. 위긴스는 “오늘날 최고 모델을 당장 대체할 수 있느냐? 아니다. 하지만 그게 핵심은 아니다”라며, “이 수준의 품질을 단 32개의 윤리적 출처만으로 달성한 것이다. 활용 가능한 출처는 수백만 개가 더 있다”라고 강조했다. 이어 “이 모델은 빅 AI가 거짓말을 했다는 점을 입증하는 기준선이다. 현재 더 많은 데이터를 추가해 경쟁력을 높이는 작업이 진행 중이다. 아직 완성 단계는 아니다”라고 밝혔다.

그럼에도 불구하고, 많은 기업이 장기적인 생성형 AI 도입을 준비하고 있는 만큼, 윤리적 데이터 기반 모델이 향후 안전성과 성능을 모두 갖춘 대안이 될 수 있다는 기대도 커지고 있다.

면책 조항의 유효성

한편,에서는 주요 생성형 AI 모델 개발사가 제공하는 ‘면책(indemnification)’ 약속이 균형추 역할을 하고 있다. 일부 업체는 자사 모델이 생성한 콘텐츠로 인해 고객이 소송에 휘말릴 경우, 법적 비용을 부담하겠다고 밝혔다.

무어 인사이트 앤 스트래티지의 앤더슨은 “개발사 면책 조건을 제공한다면, 기업은 이를 반드시 확보해야 한다”라며, “이는 공급업체가 학습 데이터에 책임을 지고, 저작권 데이터를 사용하지 않으려는 의도를 가진다는 의미다. 물론 범용 모델에서 실수가 발생할 수 있다는 점도 인정하는 것이며, 저작권자가 문제를 제기할 경우 전적인 책임을 공급업체가 진다는 약속”이라고 설명했다.

다만 모든 업체가, 혹은 한 업체의 모든 제품이 같은 수준의 보호를 제공하는 것은 아니다. 따라서 관련 세부 조항을 꼼꼼히 살펴야 한다. 앤더슨은 “IBM이 가장 광범위한 면책 조항을 제공하지만, 다른 주요 업체도 일정 수준의 보호를 약속하고 있다. 예를 들어 앤트로픽의 클로드는 엔터프라이즈 티어에서는 면책이 제공되지만, 저가형에는 없다. 어도비나 게티이미지는 자사 데이터를 자체 학습에만 사용하기 때문에 자동으로 해당된다”라고 밝혔다.

그러나 이런 면책 조항이 실제로 얼마나 보호 기능을 할 수 있느냐에 대해서는 회의적인 시각도 있다. 과거 연방검사 출신이자 현재 조지워싱턴대 로스쿨 교수 겸 유닛 221B 법률 자문을 맡고 있는 기술법 전문가 마크 래시는 “소프트웨어 업체가 실질적으로 의미 있는 면책을 제공할 가능성은 매우 낮다”라며, “도대체 무엇에 대한 면책인가? 결국 AI를 통해 생성하고 사용하는 콘텐츠에 대한 책임은 이용자 본인이 진다”라고 지적했다.

래시는 이어 “모델에 타인의 콘텐츠를 침해하지 말라는 조건을 부여할 수 있느냐?”는 질문에 대해 “사실상 매우 어렵거나 불가능할 것”이라며, “저작권 침해 문제는 매우 모호하다. AI를 사용한다는 건 실질적, 법적으로 미지의 영역으로 들어간다는 뜻”이라고 답했다.

위험과 이익 사이에서 저울질

거대 유통회사인 메이시스의 기술 담당 부사장 브라이언 필립스는 “우리는 상위 5개 모델 개발사의 LLM을 사용하고 있다”라며, 생성형 AI 도입 시 저작권을 비롯한 법적 복잡성에 대해 “확실히 위험 요소가 있다”고 인정했다. 필립스는 “우리는 혁신을 추구하면서도, 동시에 제약 속의 혁신을 고민하고 있다. 균형이 쉽지는 않지만, 주요 생성형 AI 모델을 사용하는 것이 궁극적으로 위험보다 이익이 크다고 판단한다”라고 밝혔다.

필립스는 생성형 AI 개발사에게 책임을 전가하는 ‘위험 전가(risk transference)’를 언급하며, “우리는 정화된(sanitized) 모델을 제공받고자 한다”라며, 메이시스가 협력 중인 주요 모델 업체는 “모든 법적 책임을 질 것”을 보장했다고 밝혔다.

앤더슨 역시 동의했다. “소형 학술 모델이 ‘깨끗한 데이터’를 사용한다고 해서 무언가 마법 같은 이점을 제공한다고는 생각하지 않는다. 그 자체로 차별성이 충분하지 않다”라고 지적했다.

앤더슨은 “외부 데이터가 정화됐다는 주장은 결국 주장일 뿐이다. 허깅페이스에만도 다양한 모델과 데이터 세트가 있고, 크리에이티브 커먼즈 같은 라이선스 체계도 이런 주장을 뒷받침할 수 있지만, 결국 누군가의 말을 믿는 수밖에 없다. 데이터 세트는 유동적이기 때문에 기업이 이를 따라잡기는 어렵다. 그런 점에서 페어리 트레인드 같은 단체가 이 문제에 대응하려는 시도를 하고 있다”라고 설명했다.

앤더슨은 오픈 데이터 출처를 사용하더라도 위험이 사라지지는 않는다고 지적했다. “이런 모델을 활용해 신약이나 발명을 도출해도, 누군가 나타나 ‘내가 로열티를 받을 권리가 있다’고 주장할 수도 있다”라고 덧붙였다.
dl-itworldkorea@foundryco.com