데이터와 AI로 보안 역량을 강화하는 6가지 방법

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.06.05 12:22

조회 1,849

데이터 분석 플랫폼과 그 안에 담긴 정보는 CISO가 보호해야 할 가장 중요한 기업이다. 동시에 데이터 분석은 보안팀이 위협을 식별하고 완화하는 데 매우 효과적인 도구가 될 수 있다.

AI/ML과 데이터 과학이 빠르게 발전하면서 보안 책임자는 이전과는 비교할 수 없을 정도로 정밀하게 공격 징후를 포착할 수 있게 됐다. 이런 기술을 통해 보안팀은 훨씬 더 신속하게 대응을 시작할 수 있다.

미시간대학교 혁신기술대학에서 AI와 사이버보안 등 기술 분야를 가르치고 있으며, GM(General Motors)에서 CISO를 역임한 티모시 베이츠는 “오늘날 보안은 전통적인 방어만큼이나 데이터를 얼마나 똑똑하게 활용하느냐가 핵심이다. 데이터 과학과 머신러닝은 사고가 확대되기 전에 대응할 수 있는 맥락과 타이밍을 제공한다”라고 말했다.

베이츠가 GM에서 근무하던 당시 진행한 가장 주목할 만한 이니셔티브는 글로벌 SOC(security operations center)를 설계해 사이버보안 전략을 ‘사후 대응’에서 ‘사전 예방’ 중심으로 전환한 것이었다. GM은 침입 탐지 도구와 SIEM(security information and event management) 플랫폼을 활용해 복잡하게 분산된 인프라 전반의 로그 데이터를 수집하고 분석했다.

베이츠는 “데이터 분석을 통해 매일 수십억 건의 로그 이벤트를 처리하면서 이상 행위를 실시간으로 탐지하는 행동 기준선을 구축했다. 특히 제조 네트워크에서 비정상적인 로그인 및 명령줄 활동 패턴을 식별한 사례가 있었는데, 이를 통해 중요 시스템에 도달하기 전에 크리덴셜 스터핑 공격을 차단했다. 이 조치로 수백만 달러의 피해로 이어질 뻔한 사고를 사전에 방지했다”라고 설명했다.

GRC(governance, risk, and compliance) 솔루션 업체 로직게이트(LogicGate)의 CISO 겸 CIO인 닉 카스만은 “사이버보안은 방대한 데이터셋으로 가득한 영역이며, AI·ML·데이터 과학은 이를 다루는 데 있어 막대한 도움을 준다. 핵심적인 효과는 아직 개발 단계에 있지만, 현재도 보안 데이터셋과 위험 관리를 결합하는 즉각적인 활용례가 성과를 내고 있다”라고 말했다.

수집하고 AI와 분석 도구를 도입했다고 해서 무조건 성공이 보장되는 것은 아니다. 효과를 극대화하려면 베스트 프랙티스를 철저히 따라야 한다. 여기서는 사이버보안에서 데이터를 효과적으로 활용하기 위한 핵심 전략을 소개한다.

머신러닝을 활용해 심층 패턴을 분석하라

베이츠는 대표적인 방법으로 SIEM 플랫폼과 머신러닝 모델을 결합해, 매일 생성되는 수십억 건의 로그 데이터를 패턴 중심으로 분석하는 전략을 제안했다. 베이츠는 “비즈니스 부서별로 행동 기준선을 설정한 뒤, 이를 벗어나는 이상 징후를 실시간으로 탐지해야 한다. 로그만으로는 문제가 무엇인지 알 수 없다. 패턴이 핵심이다. 머신러닝 덕분에 GM의 SOC는 노이즈 가득한 데이터를 바로 실행 가능한 인사이트로 바꿀 수 있었다”라고 설명했다.

이와 같은 심층 분석은 GM에서 발생한 크리덴셜 스터핑 공격을 차단하는 데 결정적인 역할을 했다고 설명했다. 베이츠는 “공격 행위가 내부 관리자의 정상적인 활동을 모방했지만, 미묘하게 어긋난 부분이 있어 시스템이 이를 이상 징후로 감지했다”라고 말했다.

소프트웨어 개발 아웃소싱 업체 바이레스데브(BairesDev) 역시 위협 및 비정상 활동을 더 빠르게 식별하기 위해 머신러닝 기반 데이터 분석을 활용하고 있다.

니어쇼어 소프트웨어 개발 업체 바이레스데브(BairesDev)의 CISO 파블로 리볼디는 “이 시스템은 네트워크 트래픽, 사용자 행동, 디바이스 활동을 학습해 사용자의 정상적인 패턴을 정의한다. 이후 의심스러운 활동이 감지되면 실시간으로 경고를 발생한다. 이 같은 조기 탐지는 실제 피해가 발생하기 전에 내부자 위협, 계정 탈취, 또는 네트워크에서 움직이는 침입자를 차단할 수 있게 돕는다”라고 설명했다.

머신러닝 도구는 일반적인 필터를 우회할 수 있는 정교한 피싱 시도까지 탐지하는 데 도움을 줄 수 있다고 설명했다. 리볼디는 “이 시스템은 시간이 지날수록 점점 더 정교해진다. 그 결과, 오탐은 줄고 실제 위협에 더 집중할 수 있다. 모든 보안 취약점이 동일한 수준의 위험을 갖는 것은 아니기 때문에, 머신러닝은 기업에 실질적인 위협이 되는 취약점을 우선적으로 식별하는 데 유용하다”라고 덧붙였다.

머신러닝의 핵심인 ‘학습’에 집중하라

머신러닝을 효과적으로 활용하려면 지속적인 재학습은 필수적이다. 변화하는 위협 벡터와 진화하는 사이버 범죄자의 행태에 대응하려면 새로운 데이터를 기반으로 모델을 꾸준히 업데이트해야 한다.

리볼디는 “머신러닝 모델은 사용자의 도움으로 더 똑똑해진다. 피드백 루프를 반드시 마련해야 한다. 분석가가 이벤트에 라벨을 붙이고 설정을 조정할 수 있도록 하면, 모델의 정확도가 지속적으로 개선된다. 무엇보다 중요한 건 데이터 자체다. 머신러닝 모델에는 안전한 양질의 데이터가 필요하며, 이런 데이터는 컴퓨터·클라우드·로그인 시스템 등 다양한 소스에서 수집돼야 한다”라고 말했다.

리볼디는 머신러닝 모델이 충분한 맥락을 가진 데이터를 학습할 수 있도록 하려면 데이터 레이크나 SIEM 플랫폼을 정교하게 통합 구축하는 것이 중요하다고 강조했다.

베이츠는 “이미 알려진 악성 행위만 감시하지 말고 이전에 탐지된 적이 없어도 ‘어딘가 이상한’ 징후를 포착할 수 있도록 모델을 학습시켜야 한다. 가장 위험한 공격은 전형적인 경보 신호를 울리지 않는다. 예상치 못한 시간대의 로그인, 낯선 호스트에서 실행되는 개발 스크립트 같은 미묘한 변화가 침해 활동의 신호일 수 있다”라고 말했다.

데이터 과학을 보안팀에 통합하라

많은 기업이 데이터 과학·분석팀과 사이버보안팀을 별도로 운영한다. 하지만 베이츠는 조직 전반의 맥락을 이해하고, 단순한 일반 패턴이 아닌 실제 환경에 맞춰 모델을 조정할 수 있는 데이터 과학자를 SOC 팀과 통합하는 것이 효과적이라고 조언했다.

베이츠는 “이제 사이버보안은 더 이상 방화벽이나 안티바이러스만의 문제가 아니다. 지금은 데이터를 기반으로 한 전략이 핵심이다. 보안 전문성과 데이터 모델링을 결합한 덕분에 GM은 사후 대응이 아닌 실시간 대응이 가능했다”라고 말했다.

로직게이트의 카스만은 “데이터 과학팀이 보안팀과 함께 움직이는 기업은 외부 도구에만 의존하는 기업보다 앞서 나갈 수 있다. 지금처럼 상호 연결되고 특정 업체에 종속되지 않는 환경에서는, 내부 팀 간 책임 있는 협업이 핵심이다. 기업의 최종 목표를 이해하는 데이터 과학팀이 보안팀과 협력해 데이터 웨어하우스나 데이터 레이크에 필요한 데이터를 수집·저장할 수 있도록 지원하는 것이 최적의 방식”이라고 설명했다.

데이터 거버넌스와 통합 수준을 끌어올려라

글로벌 기술 리서치 및 컨설팅 기업 ISG의 디렉터 아나이 나와테는 “사이버보안 영역에서 데이터와 AI 역량을 최대한 활용하려면, 데이터 품질을 확보하고 다양한 데이터 소스를 통합하는 데 집중해야 한다”라고 강조했다.

이어 “데이터의 정확도를 높이고 모델 드리프트를 최소화하려면 데이터를 지속적으로 정제하고 표준화하며, 적절한 방식으로 검증해야 한다”라고 말했다.

또한 나와테는 “다양한 데이터 소스를 통합하면, 보안팀은 특정 이상 징후나 트렌드에 대한 더 풍부한 맥락 정보를 확보할 수 있으며, 이를 통해 복합적인 위협에 대한 인사이트가 더 깊어진다”라고 덧붙였다.

이와 같은 맥락에서, 위협 탐지는 외부 경계에만 집중할 것이 아니라 전사적으로 확장할 필요가 있다. 베이츠는 “SOC가 OT 네트워크나 클라우드 시스템과 같은 운영 환경에 깊이 통합되도록 해야 한다. 위협 행위자는 보안의 빈틈을 알고 있다. 공장 현장이나 개발 파이프라인이 그 틈이 되도록 놔둬서는 안 된다”라고 강조했다.

베이츠는 “사이버 공격은 레거시 시스템, 원격 공장, 소프트웨어 개발 환경처럼 간과하기 쉬운 영역에 숨어들곤 한다. GM은 이런 영역 전반에 대한 실시간 가시성을 확보했기에 위협이 심각한 사고로 번지기 전에 차단할 수 있었다”라고 말했다.

맞춤형 LLM으로 역량을 보완하라

기업의 특수한 요구에 맞춰 커스터마이징된 LLM(large language model)은 사이버보안 역량을 강화하는 데 유용하다.

나와테는 “고도화된 보안팀을 보유했거나 고유한 보안 요구사항 또는 복잡한 환경을 가진 일부 기업은 보안 분석에 맞춤형 솔루션을 점점 더 많이 활용하고 있다. 다만 이들 기업도 당분간은 맞춤형 솔루션과 상용 제품을 혼합해 사용하는 하이브리드 모델을 유지할 가능성이 크다”라고 말했다. 맞춤형 LLM은 조직별로 특화된 데이터·위험 시각화나 위험 정량화 이니셔티브에 효과적으로 활용되고 있다.

보안 서비스 업체 다이렉트디펜스(DirectDefense)의 CSO 크리스토퍼 월컷은 “LLM을 맞춤 학습시켜 센서 및 로그의 원시 데이터를 처리하고 상관 분석에 활용하면, 보다 정제되고 간결한 데이터 피드를 주류 보안 도구에 전달할 수 있다”라고 설명했다.

월컷은 “SOC 인력은 AI를 활용해 실시간으로 실험하면서 더 정교한 쿼리 작성법을 익히고 동시에 AI에게도 추가적인 맥락 정보를 학습시킬 수 있다. 이 과정에서 생성되는 메타데이터는 보안 운영을 혁신적으로 바꿀 수 있으며, 방어 조치의 고도화된 자동화를 가능하게 한다”라고 말했다.

맞춤 학습된 LLM은 다양한 개별 기능에 적용할 수 있으며, 그중에서도 이벤트 및 로그 데이터를 사전 처리하는 용도가 가장 효과적이다. 월컷은 “AI는 기존의 휴리스틱 기반이나 규칙 기반 머신러닝 솔루션으로는 식별하기 어려운 행동 그룹을 찾아낼 수 있으며, 이를 통해 다른 보안 도구에 전달되는 데이터의 정확도와 신뢰도를 크게 높일 수 있다”라고 부연했다.

문서 자산 분석에 AI를 적극 활용하라

비정형 데이터를 분석하면 사이버보안팀이 얻을 수 있는 보안 인사이트도 크게 확대된다. 예를 들어, AI를 기업의 시스템을 관리하고 보호하는 데 사용되는 각종 문서를 분석하는 데 활용하는 것이다. 이런 문서에는 보안 정책, 절차, 지침 등 기업의 사이버보안 운영을 이끄는 핵심 문서가 포함된다. 이들 문서는 보안 통제 체계를 구성하는 기반이 되며, 기업의 규제 컴플라이언스 수행에 있어서도 핵심적인 요소다.

로직게이트의 카스만은 “문서를 읽고, 요약하고, 작성하는 일이 그 어느 때보다 쉬워졌다. 보안 담당자는 AI 모델을 활용해 위험 관리 프레임워크와 위험 분석 보고서 간의 핵심 차이점을 읽고 요약할 수 있다”라고 설명했다.

카스만은 “기업의 모든 SOP(standard operating procedures)를 검색해 문제가 있는 것으로 알려졌거나 의심되는 관행을 찾아내고 표준을 따르지 않는 프로세스를 식별하거나 솔루션 업체의 보안 문서와 보고서를 분석하는 모델도 구축할 수 있다”라고 말했다.
dl-itworldkorea@foundryco.com