News Feed

AI 봇 트래픽 폭증…서버 과부하 및 DDoS 위협 가시화

컨텐츠 정보

  • 조회 483

본문

엣지 클라우드 플랫폼 업체 패스트리(Fastly)가 최근 발표한 보고서에 따르면, 최근 트래픽 분석에서 자동화된 웹 트래픽 양상에 뚜렷한 변화가 나타났다. 보고서 집필팀은 전체 AI 봇 트래픽 가운데 약 80%가 AI 크롤러에 의해 발생했으며, 이 중 메타가 절반 이상을 차지해 구글과 오픈AI를 합친 수치를 넘어섰다고 밝혔다.

이 결과는 4월 16일부터 7월 15일까지 패스트리가 제공하는 넥스트 젠 WAF(Next Gen WAF)와 봇 매니지먼트(Bot Management) 서비스를 통해 수집된 트래픽을 분석한 결과다. 패스트리는 이번 분석이 AI 기반 자동화가 온라인 트래픽을 재편하는 양상을 잘 보여준다고 설명했다.

보고서 집필팀은 AI 봇을 두 가지 유형으로 구분했다. 크롤러(Crawler)와 페처(Fetcher)다. 집필팀은 크롤러 봇에 대해 “검색엔진 크롤러와 유사하게 웹사이트를 체계적으로 탐색해 콘텐츠를 수집하며, 이를 검색 색인 구축이나 언어 모델 학습에 활용한다. 이 과정은 모델의 학습 단계에 앞서 반드시 필요한 절차다”라고 설명했다.

반면 페처 봇은 “사용자 행동에 반응해 웹사이트 콘텐츠에 접근한다. 예를 들어 사용자가 특정 주제에 대한 최신 정보를 요청하면, 페처 봇은 관련 페이지를 실시간으로 가져온다. 또한 사용자의 검색 쿼리에 맞는 웹사이트 링크를 노출시켜 가장 적절한 콘텐츠로 연결하는 데 활용된다”라고 보고서는 설명했다. 이어 “전체 AI 봇 요청 가운데 약 80%는 크롤러 봇이 차지하고, 나머지 20%가 페처 봇에서 발생한다”라고 덧붙였다.

AI 봇 트래픽의 급격한 증가

보고서는 AI 봇의 실시간 페칭이 크롤러의 최대 요청률보다 더 큰 도전 과제라고 지적했다. 이번 분석에서는 한 크롤러가 최대 분당 1,000건의 요청을 보낸 사례가 있었다. 반면 실시간 페칭은 훨씬 더 공격적이다. 보고서에 따르면 한 사례에서 단일 페처 봇이 특정 웹사이트에 분당 3만 9,000건의 요청을 보내 최대 부하를 기록했다. 집필팀은 “이 같은 트래픽 규모는 악의적 의도가 없더라도 원본 서버에 부담을 가중하고 서버 자원을 소진시키며, 사용자 대역폭을 소모해 비용이 큰 DDoS 유사 현상을 초래할 수 있다”라고 지적했다.

보고서의 다른 주요 결과는 다음과 같다.

  • 메타의 AI 봇은 전체 크롤러 트래픽의 52%를 차지해 구글(23%)이나 오픈AI(20%)보다 두 배 이상 많았다.
  • AI 모델 학습을 위한 데이터 수집이 가장 빈번하게 발생하는 산업군은 하이테크, 커머스, 미디어·엔터테인먼트 분야였다.
  • 챗GPT가 웹사이트에 가장 많은 실시간 트래픽을 발생시키며, 전체 페처 봇 요청의 98%는 오픈AI의 봇에서 발생했다.

패스트리의 수석 보안 연구원 매튜 마투르는 이번 보고서 작성 배경에 대해 “AI 봇 트래픽이 급격히 증가하면서 업계 전반에 큰 우려가 제기되고 있다. 패스트리는 인터넷 트래픽을 들여다볼 수 있는 위치에 있기 때문에 AI 봇이 웹 인프라에 가하는 과도한 부하부터 웹사이트 콘텐츠의 무단 활용, 분석 결과 왜곡에 이르기까지 인터넷에 어떤 영향을 미치고 있는지 보여주는 중요한 역할을 한다”라고 설명했다.

인포-테크 리서치 그룹(Info-Tech Research Group)의 기술 자문이자 제품 리드인 레디 도디팔리는 이번 결과에 대해 “생성형 AI 모델과 임베디드 시스템이 확산하면서 대규모 데이터 수집 수요가 급격히 늘었고, 이에 따라 수십억 개의 웹페이지를 탐색해 머신러닝 알고리즘에 데이터를 공급하는 크롤러 활동이 급증했다”라고 말했다.

도디팔리는 “AI 크롤러에는 많은 장점이 있지만 궁극적으로 기업, 웹사이트 운영자, 이용자 모두가 데이터 프라이버시, 보안, 윤리, 지식재산권, 인프라, 대역폭 소모와 같은 부정적 파급효과를 반드시 인식해야 한다”라고 강조했다.

도디팔리는 크롤러 활동을 관리하고 완화하기 위한 프레임워크와 베스트 프랙티스 마련을 권했다. “예를 들어, 많은 크롤러가 이제 인간의 행동을 모방해 기존 방어 체계와 통제를 우회하고 있으며, 이에 따라 혁신적인 탐지 기술이 필요하다. AI 봇의 활동이 파괴적인 요소가 아니라 건설적인 힘으로 남을 수 있도록 신중한 접근이 필요하다”라고 덧붙였다.

캐나다 보안업체 보세론 시큐리티(Beauceron Security)의 대표 데이비드 시플리는 패스트리의 이번 조사 결과에 대해 “이는 AI의 비용이 결국 모두에게 영향을 미치게 될 것임을 보여준다. 웹 호스팅 업체가 AI 봇으로 인한 트래픽 증가에 직면하면서 그 비용은 불가피하게 웹사이트 운영자에게 전가될 수밖에 없다”라고 말했다.

또한 시플리는 “이런 현상은 인간 사용자의 웹사이트 방문이 급감하는 시점에 발생하고 있으며, 광고 수익에 의존하는 사이트에는 부정적인 영향을 미쳐 추가적인 부담으로 작용하고 있다”라고 전했다.

시플리는 “웹사이트 운영자도 어려운 선택에 직면해 있다. 블로그 내용이나 정보가 챗GPT 같은 도구의 학습 데이터에 포함되는 것이 사용자의 정보 탐색이나 구매 결정에 가치가 있을 수 있다. 나아가 미래에는 사람이 AI 에이전트를 통해 웹사이트와 직접 상호작용하며 주문까지 완료할 가능성도 있다”라고 말했다.

DDoS 공격은 시간문제

우려해야 할 또 다른 문제도 있다. 시플리는 “AI가 학습 데이터 세트를 확장하는 과정에서 비용을 발생시키지만, 현재까지의 데이터에 따르면 과거 검색엔진처럼 전자상거래 전환을 위해 웹사이트로 트래픽을 유입시키는 역할은 하지 않고 있다. 이 관계는 기생적일 수 있다”라고 말했다.

시플리는 “또 다른 위험은 중개 배제(disintermediation) 가능성이다. 특히 AI가 환각을 일으켜 웹사이트나 비즈니스 제품에 대해 잘못된 정보를 제공하는 경우가 문제다. 더 심각한 것은 누군가가 의도적으로 AI 모델을 오염시켜 특정 기업에 피해를 주려는 시도로, 이는 언젠가는 현실화될 수밖에 없다. 보안 관점에서 보면 이 막대한 AI 트래픽이 DDoS 공격에 활용되는 것은 결국 시간문제다”라고 지적했다.

마투르는 “봇 트래픽, 특히 AI 봇 트래픽은 앞으로도 계속 증가할 것이다. 이를 완화할 수 있는 통제 장치를 마련하는 것이 필수적이다. 예를 들어 robots.txt 지침을 활용하거나, 요청 제한 같은 기술적 제어를 적용하거나, 종합적인 봇 관리 솔루션에 투자하는 방식이 있다. 무엇보다 중요한 것은 전략을 세워 두는 것으로, 봇 트래픽이 급증할 때 기업이 이미 대비할 수 있어야 한다”라고 조언했다.

기업은 더 정교한 봇 관리 전략을 마련해야 한다. 그러나 실제로 어떤 기업이 체계적인 전략을 보유하고 있는지에 대한 질문에 대해 마투르는 “자사 데이터가 LLM 학습에 활용되면서 매출 감소를 겪는 유명 기업이나, 크롤링으로 인해 성능 문제를 겪는 공개 웹 리소스 운영자는 이 문제에 대해 공개적으로 문제를 제기하며 대응 방안을 모색하고 있다”라고 말했다.

다만 마투르는 “더 큰 문제는 소규모 웹사이트나 개발자일 가능성이 크다. 이들은 봇 트래픽을 충분히 가시화하지 못하고 있으며, AI 크롤링이 초래하는 비용조차 제대로 인식하지 못하고 있다. 선제적인 대응 전략을 갖추기는커녕 상황 자체를 파악하지 못하는 경우가 많다”라고 강조했다.
dl-itworldkorea@foundryco.com

관련자료

댓글 0
등록된 댓글이 없습니다.
Member Rank