AI 코딩 툴, 생산성만 높이는 게 아니다…기업 보안을 위협하는 새로운 변수

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.09.26 14:42

조회 462

AI 코딩 도구 사용이 늘면서 생산성은 향상됐지만, 그만큼 보안 위험도 커지고 있다.

애플리케이션 보안 업체 아피로(Apiiro)의 최신 연구에 따르면 AI 코딩 툴은 단순 구문 오류를 줄여주지만, 그 효과는 비용이 큰 구조적 결함 증가로 상쇄되고 있다. 아피로의 분석 결과, AI가 작성한 코드에서는 사소한 구문 오류와 논리적 버그는 감소했지만 권한 상승 경로는 늘어났고 아키텍처 설계상의 취약점도 증가했다.

연구팀은 AI가 오픈소스 의존성 문제, 취약한 코딩 패턴, 비밀정보 노출, 클라우드 구성 오류 등 다양한 보안 결함을 오히려 확산하고 있다고 설명했다. 특히 AI 코딩 도구로 인해 생성되는 풀 리퀘스트(pull request)는 건수는 줄어든 대신 규모가 훨씬 커져, 잠재적 위험을 더욱 키우는 것으로 나타났다.

AI 활용한 코딩은 ‘대규모 위험 자동화’

필자가 인터뷰한 독립 보안 전문가들 역시 아피로의 주요 분석 결과에 동의했다. AI가 생성한 코드는 더 깊은 아키텍처 취약점과 권한 상승 위험을 만들어내며, 이는 탐지하기 어렵고 수정 비용도 훨씬 크다는 것이다.

아이젠틱AI(i-GENTIC AI)의 공동 설립자이자 CEO인 자라 팀사는 아피로의 연구 결과가 실제 현장에서 자사의 경험과도 일치한다고 전했다. 팀사는 “AI 보조도구는 사소한 버그를 줄여주지만 동시에 더 근본적인 시스템 취약점을 키운다”라고 말했다.

팀사는 이어 “AI 도구는 판단을 내리도록 설계된 것이 아니다. 권한 상승 경로, 안전한 아키텍처 패턴, 규제 준수와 같은 미묘한 요소를 고려하지 않는다. 바로 그 부분에서 위험이 발생한다. 코드는 더 빨리 배포되지만, 관리와 검증이 부족하다면 기업은 사실상 대규모 위험을 자동화하는 셈”이라고 덧붙였다.

소프트웨어 개발업체 코드스파이AI(Codespy AI)의 공동 설립자이자 CTO 라즈 단다지는 AI 기반 소프트웨어 개발이 종종 발견하기 어려운 버그를 양산한다며 “최신 LLM이 단순한 버그를 만들어내는 경우는 거의 없다. 대부분 버그는 테스트 단계나 심지어 운영 단계까지 넘어간 뒤에야 발견되는 경우가 많다”라고 지적했다.

위험 키우는 ‘그림자 엔지니어’와 바이브 코딩

CI/CD 플랫폼 업체 클라우드비즈(Cloudbees)의 글로벌 정보보안 총괄 아슈윈 미트라는 문제의 일부분이 비기술 인력이 AI를 활용해 앱, 스크립트, 대시보드를 개발하는 데 있다고 지적했다.

미트라는 “이른바 그림자 엔지니어(shadow engineer)는 자신이 소프트웨어 개발 생명주기(SDLC)의 일부라는 사실조차 인식하지 못하고, 중요한 리뷰와 보안 검증 절차를 자주 우회한다. 정적 애플리케이션 보안 테스트(SAST), 동적 애플리케이션 보안 테스트(DAST), 수동 리뷰 같은 기본 보안 도구는 AI가 생성한 코드를 프롬프트 단계에서 탐지하도록 설계되지 않았다”라고 설명했다.

또한 “보안 훈련을 받은 적 없는 사람이 만든 코드도 공격 표면을 계속 넓히고 있다. 누구나 코딩할 수 있는 시대가 되면서 위험은 기하급수적으로 늘어나고, 보안 검증은 한계가 있어 모든 것을 잡아내지 못한다. 특히 맥락에 따라 달라지는 보안 위협이나 복잡한 취약점, API 유출, 취약한 인증, 개인정보(PII) 노출, 암호화되지 않은 데이터는 놓치기 쉽다”라고 경고했다.

애플리케이션 보안 자동화 플랫폼 업체 콰이엇AI(Qwiet AI) 설립자 겸 CTO 체탄 코니케는 “바이브 코딩은 훈련받지 않은 더 많은 사람이 프로덕션 파이프라인에 참여하게 만들어 문제를 키운다. AI가 생성한 대규모 멀티터치 풀 리퀘스트는 리뷰어를 압도해 검증의 효과를 희석시키고, 각 병합의 피해 범위를 크게 넓힌다”라고 말했다.

대규모 AI 풀 리퀘스트, 결함 탐지 더 복잡하게 만들어

소프트웨어 개발·컨설팅 업체 파이네스트(Pynest) CTO 로만 릴코는 아피로의 연구 결과가 자사 개발 현장에서 AI 보조도구를 처음 도입했을 때 겪은 문제와 일치한다고 말했다. 릴코는 “구문 오류가 줄어든 효과보다 아키텍처 취약점과 클라우드 설정 오류가 증가한 부작용이 훨씬 컸다”라고 설명했다.

릴코는 “캐나다의 한 핀테크 프로젝트에서 AI가 이상적인 코드 포맷을 갖춘 서비스를 생성했지만, 권한 부여 로직이 취약하게 작성돼 있었다. 겉보기에는 수정이 쉬워 보였지만 실제로는 모듈 간 권한 상승으로 이어질 수 있는 위험한 버그였다. 깊이 있는 코드 리뷰가 없었다면 이런 결함은 손쉽게 프로덕션 단계까지 넘어갔을 것”이라고 언급했다.

AI의 또 다른 문제는 한 번에 수십 개 파일, 심지어 여러 마이크로서비스까지 포함하는 대규모 풀 리퀘스트를 생성한다는 점이다.

릴코는 “소규모 리테일러 프로젝트에서 실제로 이런 사례를 목격했다. AI가 한 번의 커밋으로 10개 이상의 파일을 동시에 수정했는데, 리뷰어들은 이를 한 줄씩 꼼꼼히 검토하기가 어려웠다”라고 설명했다.

IT 컨설팅 기업 리절턴트(Resultant) 수석 보안 컨설턴트 존 오테도 AI가 생성하는 풀 리퀘스트가 건수는 줄고 규모는 커지는 흐름이 “취약점의 영향 범위를 확대해 탐지, 리뷰, 롤백을 개발팀과 보안팀 모두에게 훨씬 더 어렵게 만든다”라고 지적했다.

이런 위험을 줄이기 위해 오테는 “AI 기반 개발에는 엄격한 아키텍처 위협 모델링을 병행해야 하며, 의존성·비밀정보 자동 스캔을 포함한 세밀한 코드 리뷰 정책을 적용하고, 클라우드 보안 상태 관리(CSPM)를 지속적으로 통합해 설계 단계 취약점을 프로덕션 전에 잡아내야 한다”라고 조언했다.

‘장황한’ AI 코딩도 위험하다

애플리케이션 보안 스타트업 미니머스(Minimus) 수석 솔루션 아키텍트 닐 카펜터는 AI 코딩 툴이 동일한 작업을 수행하는 데 필요 이상으로 많은 코드를 작성하는 경향이 있어, 그 결과 공격 벡터가 늘어나고 신뢰성은 낮아진다고 지적했다.

카펜터는 “AI 보조도구는 충분한 맥락을 제공받지 못하면 애플리케이션의 다른 함수나 모듈을 호출하는 대신 기능을 새로 만들거나 다시 작성하는 경우가 많다”라고 설명했다.

클라우드 보안 최적화 플랫폼 업체 래피드포트(RapidFort) CEO 메흐란 파리마니도 이런 평가에 동의하며 “AI 도구는 불필요한 컴포넌트, 의존성, 구성 결정을 포함하는 더 크고 복잡한 소프트웨어를 만들어내는 경향이 있다. 이는 개발팀이 충분히 고려하거나 검토하지 못하는 문제로 이어진다”라고 말했다.

규모의 문제

아피로는 자체 딥 코드 분석(Deep Code Analysis, DCA) 엔진을 활용해 수만 개 코드 저장소와 수천 명 개발자가 작성한 코드를 다양한 코딩 툴과 함께 분석했다. 그 결과 2025년 6월 기준 AI가 생성한 코드는 한 달에 1만 건이 넘는 신규 보안 취약점을 발생시킨 것으로 나타났다. 이는 불과 6개월 만에 10배나 급증한 수치다.

취약점 유형은 오픈소스 의존성 문제, 취약한 코딩 패턴, 비밀정보 노출, 클라우드 구성 오류 등 다양했다.

한편 런타임 애플리케이션 보안 업체 콘트라스트 시큐리티(Contrast Security) CTO 제프 윌리엄스는 아피로의 결론에 이견을 보이며 “AI 코딩 툴이 개발 속도를 4배 높이는 동시에 취약점을 10배 늘린다는 주장은 과장됐다. 다른 연구에서는 두 지표 모두 훨씬 낮은 수치가 나온다”라고 지적했다.

윌리엄스는 “구글은 개발 속도가 10% 증가했다고, METR은 오히려 19% 감소했다고 보고한다. 10배 늘어난 취약점이라는 주장도 의외다. 직접 본 다른 여러 연구에 따르면 AI가 생성한 코드의 취약점 수는 대체로 기존과 비슷한 수준이었다”라고 말했다.

이어 “아피로가 코드 보안 분석 플랫폼 업체 셈그렙(Semgrep)의 최근 연구도 다뤘으면 좋았을 것이다. 이 연구에 따르면 AI 기반 취약점 탐지가 실제 취약점은 10~20%만 잡아내고, 거짓 양성을 탐지하는 비율이 높은 것으로 나타났다”라고 지적했다.

아피로에 설명을 요청하자, 아피로는 연구 범위, 방법론, 조사 대상에서 차이가 있었기 때문에 이번 연구와 기존 실험실 기반 연구 사이에 격차가 발생했다고 말했다.

아피로 프로덕트 매니저 이타이 누스바움은 “이번 연구는 이전보다 훨씬 넓은 범위를 다뤘다. 코드 레벨의 결함뿐 아니라 오픈소스 의존성 리스크, 비밀정보 노출까지 분석했으며, 이는 모두 기업에 심각한 보안 위험을 초래할 수 있다. 셈그렙의 연구가 AI 기반 취약점 탐지의 정확도를 측정한 것이라면, 아피로의 연구는 실제 엔터프라이즈 환경에서 AI 코딩 보조도구의 산출물을 장기간 추적·분석한 것”이라고 강조했다.

보안 교육·개발 훈련 플랫폼 업체 시큐어 코드 워리어(Secure Code Warrior) CEO 피에터 단휴는 “24개월 전 실시한 LLM 비교 연구에서 인젝션 결함 같은 단순한 취약점 유형은 상당수 정확히 처리됐지만 접근 제어, 보안 설정 오류 같은 더 주관적이고 복잡한 유형에서는 정확도가 낮아 보안 역량을 갖춘 개발자 수준에는 미치지 못했다”라고 말했다.

이어 “연구에 따르면 AI 코딩 도구와 이런 도구가 사용하는 LLM은 특정 언어(타입스크립트)에서는 비교적 안전한 코드를 잘 작성하지만, 다른 언어(PHP)에서는 훨씬 더 취약한 결과를 내는 경우가 있었다. 아직까지 인간 개발자를 완전히 배제할 수 있는 세계는 존재하지 않는다”라고 설명했다.

AI는 책임을 대신할 수 없다

감사·컴플라이언스·리스크 관리 소프트웨어 플랫폼 업체 오딧보드(AuditBoard) CISO 리치 마커스는 AI의 한계를 인식하지 못하는 것이야말로 이 기술 사용에서 가장 큰 위험이라고 지적했다.

마커스는 “기업은 개발자에게 AI를 제공하기 전에 반드시 위험 요소와 올바른 사용법에 대한 교육을 실시해야 하며, 개발자는 AI가 책임을 대신할 수 없다는 사실을 이해해야 한다. AI가 코드를 작성했더라도 커밋하는 순간 그 코드에 대한 책임은 개발자 본인에게 있다”라고 강조했다.

또한 마커스는 “AI가 생성한 코드 역시 코드 리뷰, SCA, SAST, 수동 테스트 같은 안전한 소프트웨어 개발 원칙과 절차를 그대로 따라야 한다. 만약 그 안의 결함으로 인해 버그나 보안 사고가 발생한다면, 결국 이를 해결해야 하는 것은 개발자 본인이다. 따라서 코드를 충분히 이해하고 책임져야 한다”라고 말했다.

AI는 워크플로우를 가속화해야 하지만, 철저한 검증을 희생해서는 안 된다는 데는 다른 여러 전문가도 의견을 같이한다.

아이젠틱 AI의 팀사는 “AI가 생성한 코드가 포함된 풀 리퀘스트는 반드시 경험 많은 엔지니어가 검토해야 한다. 코드 자체뿐 아니라 비즈니스 로직과 컴플라이언스 맥락을 이해하는 사람이 리뷰해야 한다. 기업은 AI가 작성한 코드를 다른 서드파티 의존성처럼 취급해 투명성과 추적 가능성을 우선해야 한다”라고 조언했다.

또한 “누가 작성했는지, 어떤 모델이 어떤 파라미터로 생성했는지에 대한 전체 추적이 가능해야 한다. 이렇게 해야 나중에 감사와 문제 해결이 훨씬 수월해진다”라고 강조했다.

코딩 툴 현명하게 쓰는 베스트 프랙티스

AI 코딩 툴은 적절히 활용한다면 개발팀의 생산성을 크게 높일 수 있는 기술이 될 수 있다. 그러나 이를 위해서는 반드시 위험을 관리하는 가드레일을 구축해야 한다.

아이젠틱 AI의 팀사는 “강력한 거버넌스, 자동화된 검증 체계, 그리고 인간의 책임성을 결합해야 AI의 속도를 활용하면서도 취약점을 늘리지 않을 수 있다”라고 조언했다.

다른 전문가들은 AI 코딩 툴과 관련한 위험을 완화하기 위한 다양한 방안을 제시했다.

AI 코딩 툴에 보안 툴을 직접 통합하고, MCP(Model Context Protocol) 서버 같은 기능을 활용할 것
프로젝트 성격에 따라 AI가 생성하는 코드 변경량을 제한해 풀 리퀘스트 규모를 관리 가능한 수준으로 유지할 것
CI/CD 파이프라인에 자동 검증을 엄격히 적용하고, 비밀정보 스캐너·정적 분석·클라우드 설정 검증을 필수로 활성화할 것

팀사는 “AI 코딩 툴이 만든 결함을 줄이려면 기존과는 다른 사고방식이 필요하다. 에이전틱AI 솔루션을 도입해 AI가 생성한 코드를 병합하기 전에 정책, 보안 표준, 규제 요건에 맞춰 자동으로 점검하도록 해야 한다. AI를 AI로 감시해야 한다”라고 강조했다.

또한 또 보안 강화를 위해 ‘시프트 레프트(shift left)’ 보안과 지속적 모니터링 도입도 현명한 방법이다. 팀사는 “보안 검증은 파이프라인 마지막 단계에서 얹는 방식으로는 충분하지 않다. AI가 생성한 코드도 오픈소스 기여 코드와 똑같은 수준의 검증을 받도록 CI/CD 프로세스에 직접 통합돼야 한다”라고 말했다.

파이네스트의 릴코 역시 “AI 코딩 툴을 주니어 개발자로 취급한다. 그들의 코드는 반드시 시니어 개발자가 검토한다”라고 설명했다.
dl-itworldkorea@foundryco.com