코드는 AI가 짠다, 책임은 누가 지나

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2026.05.27 11:58

조회 49

반발은 예정된 수순이었다. 지난 1년간 실리콘밸리는 소프트웨어 개발이 ‘프롬프트 입력 후 즉시 배포’하는 작업으로 변모하기 직전이라고 외쳐왔다. 원하는 것을 설명하면 AI 코딩 에이전트가 알아서 만들어 준다는 것이다. 물론 결과물을 승인할 시니어 엔지니어 몇 명쯤은 남겨둘 수도 있겠지만, 꼭 그럴 필요도 없다는 분위기다. 구글 CEO 순다르 피차이는 구글의 신규 코드 중 75%가 이제 AI로 생성되어 엔지니어의 검토를 거치고 있다고 밝혔는데, 이전보다 급격히 높아진 수치다.

대단하지 않은가? 그런데 과연 그럴까?

월스트리트저널은 최근 인기 AI 에이전트 오픈클로(OpenClaw)의 핵심 모듈을 개발한 엔지니어 마리오 체크너와 아르민 로나허의 경고를 집중 조명했다. 두 사람은 AI 코딩 도구가 소프트웨어에 이른바 ‘바이브 슬롭(vibe slop)’을 범람시키고 있다고 주장한다. AI에 의한 소프트웨어 개발에서 진짜 중요한 부분, 즉 설계, 판단, 테스트, 책임 의식, 그리고 변경 대상 시스템에 대한 깊은 이해를 빼먹는 사람들이 너무 많다는 것이다.

이 경고는 진지하게 받아들일 필요가 있다. 수백만 명이 사용하는 도구를 직접 만든 사람들이 바로 그 도구가 산업 규모로 버그투성이의 잠재적으로 위험한 소프트웨어를 양산할 수 있다고 경고할 때는, AI 열풍을 떠받치는 전제를 재점검해야 할 시점이 온 것이다.

하지만 어디까지나 재점검이지, 거부는 아니다.

“AI 코딩은 나쁘다”는 결론은 올바른 답이 아니다. 그런 주장은 어리석다. AI 코딩의 강점은 전동 공구의 그것과 닮아 있다. 숙련된 사람에게는 더 많은 일을 더 빠르게 해낼 수 있는 힘을 준다. 반면 미숙하거나 부주의한 사람에게는 더 큰 실수를 더 큰 자신감으로 저지를 수 있는 힘을 준다. 엔터프라이즈 AI가 딱 그 모습이다.

거의 맞다는 것은 틀린 것

필자는 ‘AI 코드가 거의 맞을 때 드는 실질적 비용’에 대해 맥락이 같은 주장을 펼친 바 있다. 문제는 대규모 언어 모델이 눈에 띄게 망가진 결과물을 내놓는 것이 아니었다. 그랬다면 바로 잡아내고 넘어가면 그만이다. 진짜 문제는 대규모 언어 모델이 매우 빠르게 그럴듯한 결과물을 생성한다는 점이다. 빠르고 그럴듯한 것은 정확히 프로덕션 환경에 슬그머니 침투하는 종류의 오류다.

코드를 생성하는 일이 소프트웨어 개발에서 어려운 부분이었던 적은 없다는 점을 인식하는 것이 중요하다. 허니컴(Honeycomb) 창업자 겸 CTO 채리티 메이저스의 말처럼, 훌륭한 소프트웨어 엔지니어가 된다는 것은 단순히 코드를 많이 생산하는 능력보다는 “프로덕션 환경에서 대규모 소프트웨어를 이해하고 유지하며 설명하고 관리하는 능력, 그리고 비즈니스 요구를 기술적 구현으로 전환하는 능력”과 훨씬 더 깊은 관련이 있다. 필자가 이전에도 썼듯이, 개발 속도는 거의 올바른 지표가 아니다. 개발자는 시간의 상당 부분을 단순히 코드를 추가하는 것이 아니라 기존 시스템을 이해하는 데 쓴다.

AI는 그 힘든 작업의 필요성을 없애주지 않았다. AI가 한 일은 그 작업을 어리석게 건너뛰기 더 쉽게 만든 것이다.

소프트웨어 영역에만 해당되는 이야기도 아니다. 필자도 업무에서 AI를 꾸준히 활용한다. 예를 들어 영업팀 교육에 쓸 슬라이드 초안을 잡거나 고객 피드백을 종합하는 데 AI를 사용한다. AI는 메모의 80% 정도를 채운 첫 초안처럼 출발점을 마련해준다. 그러나 80%만 맞는 최종본은 오히려 짐이 되므로, 에이전트를 코치하고 감독하는 작업이 반드시 따른다. 예전에 하던 것과는 다른 종류의 작업이지만, 엄연히 실제 작업이다.

문제의 본질은 책임 포기

AI 코딩 논쟁의 가장 어리석은 버전은 “AI가 개발자를 대체할 것인가”라고 묻는 것이다. 더 나은 질문은 “AI는 어떤 개발자에게 보상을 주는가”다. AI는 결과물을 맹목적으로 수용하는 사람에게 보상하지 않는다. 결과물이 해당 시스템, 보안 모델, 성능 범위, 사용자 요구, 기업 기준에 부합하는지 빠르고 정확하게 판단할 수 있는 사람에게 보상한다. 다시 말해 AI는 경험을 보상하며, ‘좋은 것’이 어떤 것인지 아는 사람에게 보상한다.

바로 그 이유에서 자율 코딩 에이전트 집단은 필자에게 불안감을 준다. 에이전트가 유용할 수 없다는 것이 아니라, 책임이 프롬프트처럼 확장되지 않기 때문이다. 개발자 한 명이 AI가 생성한 변경 사항 하나를 검토할 수 있다. 어쩌면 다섯 개도 가능하다. 변경 사항이 작고 테스트가 탄탄하다면 스무 개도 될 수 있다. 그러나 회사가 수십 개, 수백 개의 에이전트가 풀 리퀘스트, 이슈, 테스트, 마이그레이션, 수정 사항을 쏟아내는 것을 자축하기 시작할 때, 분명한 질문이 떠오른다. 실제로 무슨 일이 일어나고 있는지 이해하는 사람은 누구인가?

답이 “또 다른 에이전트”라면 안타깝게도 원점으로 돌아간 것이다. 오픈소스 유지 관리자들은 이미 그 부작용을 체감하고 있다. 유지 관리자가 품질이 낮고 AI로 생성된 기여물이 프로젝트를 압도하고 있다고 경고한 후, 깃허브는 풀 리퀘스트 통제 강화를 검토해왔다. InfoWorld 보도에 따르면 깃허브는 이 홍수를 막기 위해 더 강력한 필터와 유지 관리자 제어 도구를 고려했다.

이것이 AI 슬롭의 추악한 경제학이다. 생성 비용은 저렴하지만 검토 비용은 비싸다.

마찰 자체가 핵심

로나허는 관련 논점을 인상적인 명료함으로 제시해왔다. 크리스티나 폰셀라와 함께한 “마찰은 당신의 판단이다(The Friction Is Your Judgment)”라는 강연에서, 에이전트가 생성한 코드는 국지적으로 편리한 답을 향해 표류하는 경향이 있다고 주장한다. 예외를 처리하고, 대안을 추가하고, 이상한 엣지 케이스를 덮어쓰고, 데모가 계속 돌아가게 유지하는 식이다. 각각의 변경은 개별적으로는 합리적으로 보일 수 있지만, 수백 번의 변경이 코드베이스 전반에 걸쳐 쌓이고 나서 시스템을 이해하기가 더 어려워지는 것이 문제다.

틀린 말이 아니다. 마찰은 걷어내야 할 장애물이 아니다. 오히려 마찰이 있는 곳에 판단력이 존재한다.

그래서 ‘루프 안의 인간’이라는 표현은 닳고 닳았음에도 여전히 중요하다. 그러나 그 문구는 인간이 주의를 기울이고 작업을 판단할 능력이 있을 때만 의미를 가진다. 첫 번째 테스트를 통과했다는 이유로 생성된 코드를 수락하는 주니어 개발자는 문제를 해결하지 못한다. 실질적인 검토가 불가능한 속도로 에이전트가 작성한 풀 리퀘스트 더미를 ‘검토’하는 시니어 개발자도 마찬가지다.

안전장치는 루프 근처에 어슴푸레 존재하는 사람이 아니다. 안전장치는 책임을 가정하는 것이 아니라 책임을 강제하는 시스템 안에서 의도적으로 적용되는 전문성이다. 개발자 입장에서 AI는 테스트 생성이나 낯선 코드 설명 같은 범위가 정해진 작업에 사용될 때 가장 강력하다. 반대로 광범위한 아키텍처 결정을 내리거나 저장소가 아닌 사람들의 머릿속에 있는 비즈니스 규칙을 추론하도록 요청받을 때는 더 취약해진다.

관리자 입장에서 최악의 지표는 “AI가 생성한 코드의 비율”이다. AI가 자동 완성한 문장 비율로 뉴스룸을 평가하는 것과 다를 바 없다. 그게 무슨 의미가 있는가? 실질적인 질문은 결함이 줄었는지, 납기가 빨라졌는지, 장애가 줄었는지, 고객이 더 만족하는지다.

AI 지원 소프트웨어 개발 현황을 다룬 2025년 DORA 보고서는 이 문제를 더 유용하게 짚어준다. AI는 기업의 기존 강점과 약점을 모두 증폭하는 경향이 있다. 탄탄한 테스트, 명확한 소유권, 철저한 검토, 우수한 관찰 가능성, 빠른 롤백 체계가 있다면 기업은 AI로 더 강해질 뿐이다. 엔지니어링 위생이 취약하다면 AI 때문에 기업은 더 약해질 것이다.

즉, AI는 엔지니어링 규율의 필요성을 없애주지 않는다. AI는 규율이 없을 때 치러야 할 대가를 높일 뿐이다.

가드레일은 메모로 만들 수 없어

규율은 필요하지만 기업 차원에서는 그것만으로 충분하지 않다. 수만 명의 엔지니어, 애널리스트, 마케터, 법률가, 영업직원이 선의와 메모 한 장으로 “속도를 늦추고 결과물을 점검”하게 할 수는 없다. 규모가 커지면 루프 안에 인간을 넣는 일은 선의가 아닌 아키텍처로 강제되어야 한다.

실제로는 에이전트가 접촉하는 시스템, 즉 아이덴티티, 데이터 거버넌스, 관찰 가능성 등에 가드레일을 내재화하는 것을 의미한다. 필자가 재직 중인 기업(오라클)에 관한 이야기처럼 들릴 수도 있겠다. 그러나 업계 전반에서 필자가 목격하는 진정으로 흥미로운 변화, 그리고 오라클이 판돈을 거는 방향은, 바로 그런 통제 기능을 데이터 레이어 자체에 더 깊이 밀어 넣는 것이다. 에이전트가 프로덕션의 열쇠를 쥔 영리한 스크립트가 아니라 거버넌스가 적용된 엔터프라이즈 데이터를 대상으로 작동하게 하는 방식 말이다.

에이전트가 코드 전부를 대신 써준다는 말보다 훨씬 덜 화려하게 들릴 것이다. 그러나 바로 그것이 요점이다. 엔터프라이즈 AI에서 ‘재미없음’은 흠이 아니다.

구글이 신규 코드의 **75%**를 AI로 생성한다는 수치가 기업들에게 얼마나 큰 의미를 가져야 할까? 틀린 말은 아닐 것이다. 그러나 구글에는 그 결과물 하나하나를 꼼꼼히 검토하는 세계 최고 수준의 엔지니어들이 버티고 있다.

AI 낙관론자들이 으레 빠뜨리는 대목이 바로 그것인데, 정작 가장 빠뜨려서는 안 될 부분이기도 하다. 인간이야말로 AI를 제대로 작동시키는 최선의 방법이다.
dl-itworldkorea@foundryco.com