“트래픽 80%가 봇” 생성형 AI가 장악한 인터넷과 오픈 액세스 웹사이트
컨텐츠 정보
- 조회 712
본문
생성형 AI가 인터넷에 심각한 피해를 입히기 시작했다. 인터넷의 주요 목적 중 하나는 과학자, 학자, 일반 대중 간의 자유롭고 개방적인 소통과 정보 교환을 위한 글로벌 네트워크 역할을 하고, 검열이 불가능한 자유로운 표현의 장이 되는 것이다.
인터넷의 목적을 가장 순수하게 표현한 것이 바로 오픈 액세스(Open Access) 웹사이트의 세계이다. 이들은 학술 정보(연구 논문, 서적, 데이터, 교육 자료 등)에 대한 무료 무제한 액세스를 제공한다. 오픈 액세스를 통해 사용자는 기술적 장벽 없이 콘텐츠를 얻을 수 있다. 오픈 액세스는 적절한 저작자 표시를 통해 콘텐츠를 읽고 다운로드하고 복사하고 배포하고 재사용할 수 있는 법적 권한을 제공한다. 그리고 오픈 액세스는 더 넓은 의미의 오픈 사이언스 운동의 일부이다.
AI 크롤러의 공격을 받는 오픈 액세스 웹사이트
그러나 지금은 오픈 액세스 웹사이트가 공격을 받고 있다. 생성형 AI 챗봇과 관련 서비스의 훈련 데이터 세트에 추가할 데이터를 지속적으로 스캔하는 AI 봇 또는 AI 크롤러가 오픈 액세스 웹사이트와 기타 사이트를 트래픽으로 압박해 자원에 부담을 주고 서비스 중단 사태를 초래하고 있다.
물론, 인터넷에는 다양한 종류의 봇이 있으며, 이들은 모두 합쳐서 인간보다 훨씬 더 많은 인터넷 트래픽을 생성한다. 디자인러시(DesignRush)에 따르면 현재 전체 웹 방문의 80%는 봇이 차지하고 있다. 봇 유형도 검색 엔진 봇, SEO 및 분석 봇, 소셜 미디어 봇, 악성 봇, 웹 스크래핑 봇 등이 있다.
그러나 AI 크롤러는 역대 가장 빠르게 성장하는 봇 유형이다. 디자인러시에 따르면, 한 업체(오픈AI의 GPT 봇)의 크롤러가 현재 전체 웹 트래픽의 약 13%를 차지하고 있으며, 매달 수억 건의 요청을 만들어내고 있다.
이들 봇의 임무는 데이터를 가져와 원래의 출처를 대체하는 것이다. 예를 들어, 어떤 주제에 대한 과학 논문을 찾기 위해 구글을 사용하는 대신, AI 크롤러는 그 논문들을 가져와 여러 논문과 여러 사이트에서 조합한 새로운 “논문”을 사용자에게 제시함으로써 사용자가 출처 사이트를 무시하고 챗봇에서 정보를 얻도록 유도한다.
문제를 지나치게 단순화하면, 오픈 액세스 웹사이트에서 더 많은 데이터를 수집하면 챗봇이 더 빠르고 사용하기 편리해진다. 그러나, 데이터 수집 자체가 OA 사이트를 더 느리고 사용하기 어렵게 만든다.
콘텐츠를 가져가는 것을 비난하는 목소리가 높아졌지만, 챗봇 업체들이 콘텐츠를 가져가는 사이트의 상당수를 트래픽으로 눌러 꼼짝 못하게 하고 사실도 알아야 한다. 마치 매일 DDOS 공격을 하는 것과 같다. 다양한 종류의 봇이 다양한 유형의 웹사이트에 다양한 방식으로 영향을 미치지만, OA 사이트에 치명적인 영향을 미칠 수 있다.
기술적 정책적 반격
클라우드플레어는 현재 LLM 훈련 데이터를 의도적으로 오염시켜, 허가 없이 웹사이트에서 데이터를 가져가는 AI 업체에 맞서고 있다. 클라우드플레어는 CDN, 사이버보안, DDoS 완화, 웹 성능 최적화 서비스를 제공한다.
클라우드플레어가 해결하고자 하는 문제는 이렇다. “오픈AI, 앤트로픽, 퍼플렉시티와 같은 업체가 웹사이트에서 데이터를 수집하고, 사이트의 robots.txt 파일을 무시하고(원래는 검색엔진에 색인에서 제외할 파일을 알려주기 위해 설계된 파일임), 어쨌든 데이터를 가져간다는 비난을 받았다. 이런 유명 업체 외에도 합법적인 소유자의 허락 없이 데이터를 수집하는 소규모의 덜 합법적인 업체도 많다.
클라우드플레어의 솔루션은 모든 웹사이트에 적용할 수 있는 “AI 미로”라는 기능이다. 이 프로그램은 들어오는 봇을 자체적인 특수 목적의 웹사이트로 리디렉션한다. 이 웹사이트에는 실제로 정확한 정보이지만, 해당 웹사이트와는 관련이 없는 AI 생성 정보만 잔뜩 들어 있다.
AI 미로는 봇을 운영하는 업체의 시간을 낭비하게 할 뿐 아니라, 허니팟 역할도 하기 때문에 클라우드플레어는 이런 업체를 블랙리스트에 추가할 수 있다.
이 아이디어는 시카고 대학의 “나이트셰이드(Nightshade)” 프로젝트와 다소 유사하다. 이 프로젝트는 이미지 데이터를 오염시켜 예술가의 작품을 보호하기 위한 것으로, 디지털 이미지 아티스트는 나이트셰이드를 무료로 다운로드하고 작품의 픽셀을 변환해 사람들이 동일한 이미지를 볼 수 있도록 만들 수 있었지만, AI 모델은 사진의 모양을 완전히 잘못 읽었다.
AI 크롤러를 막는 한 가지 방법은 좋은 구식 robots.txt 파일을 사용하는 것이다. 그러나 앞서 언급했듯이, AI 크롤러는 흔히 이 파일을 무시한다. 많은 사람이 AI 업체를 대상으로 침해 소송을 제기하고 처벌을 요구하는 것은 이 때문이다.
또 다른 접근 방식은 웹 애플리케이션 방화벽(WAF)을 사용하는 것이다. WAF는 AI 크롤러를 포함한 원치 않는 트래픽을 차단하는 동시에 합법적인 사용자가 사이트에 액세스할 수 있도록 한다. 특정 AI 봇의 특징을 인식하고 차단하도록 WAF를 구성함으로써 웹사이트는 이론적으로 콘텐츠를 보호할 수 있다. 더 발전된 AI 크롤러는 합법적인 트래픽을 모방하거나 순환 IP 주소를 사용해 탐지를 피할 수 있다. 이를 방지하려면 시간이 많이 들고 규칙과 IP 평판 목록을 자주 업데이트해야 하므로 또 다른 부담이 된다.
또한 AI 봇의 과도한 데이터 검색을 방지하기 위해 속도 제한을 사용할 수도 있다. 특정 기간 내에 단일 IP가 요청할 수 있는 횟수를 제한하는 식으로 서버 부하와 데이터 오용 위험을 줄일 수 있다. 고급 봇 관리 솔루션도 점점 더 인기를 얻고 있다. 이런 도구는 머신러닝과 행동 분석을 활용해 원치 않는 AI 봇을 식별하고 차단함으로써, 전통적인 방법보다 더 포괄적인 보호 기능을 제공한다.
마지막으로, 콘텐츠 제작자가 자신의 작업이 사용되는 방식을 더 잘 통제할 수 있도록 보호 정책을 개발하고 있다.
한편, AI 크롤러가 오픈 액세스 웹사이트에 미치는 영향에 대해서는 당장 뭔가 조처를 해야 한다. 오픈 액세스 웹사이트는 사람과 LLM 기반 챗봇 모두에게 인터넷에서 최고의 정보원이다. 단순히 콘텐츠를 가져가는 것이 합법적이거나 수용 가능한지에 대한 논쟁이 온라인, 법원, 정부에서 진행되고 있지만, 그동안에도 문제의 업체들이 같은 사이트를 본질적으로 방해하고 공격하고 망가뜨리는 것을 방관할 수는 없다.
dl-itworldkorea@foundryco.com
관련자료
-
링크
-
이전
-
다음





