System, Not Model: 범용 LLM이 펜테스트를 대체할 수 없는 이유
AI 보안 플랫폼을 구매한다는 것은 어떤 가치에 비용을 지불하는 것일까요? 플랫폼을 직접 구축한다는 것은 어떤 일들을 포함할까요?
최근 Xint팀이 고객들을 통해 이런 질문들을 종종 듣게 됩니다. "클로드(Claude) 엔터프라이즈 버전에 보안 스캐닝 기능이 포함되어 있는데, 왜 굳이 별도 솔루션을 써야 하나요?" 혹은 "오픈 소스 에이전트를 직접 모델에 연결해서 쓰면 되는 것 아닌가요?"
충분히 던질 수 있는 질문입니다. 하지만 이 질문들은 현장의 실무와는 거리가 먼 한 가지 오해를 전제로 하고 있습니다. 바로 '모델이 곧 제품'이라는 생각입니다. "똑똑한 모델에 코드를 밀어 넣기만 하면 취약점을 찾아낼 것"이라는 가설이죠.
하지만 이는 언론 보도나 마케팅 자료가 만들어낸 '환상'에 가깝습니다. 이 환상에 기반해 보안 체계를 구축했다간, 머지않아 막대한 비용 낭비라는 성적표를 받게 될 것입니다. 이번 글에서는 취약점 탐지 플랫폼의 진짜 가치가 무엇인지, 왜 모델은 가장 값싼 재료에 불과한지 짚어보겠습니다.
모델이 할 수 있는 일과 없는 일
2024년 중반 Claude 3.5 Sonnet이 출시된 이후, LLM의 보안 취약점 추론 능력은 비약적으로 발전했습니다. 현재의 모델들은 특정 함수를 타겟팅해 취약점 패턴을 식별하고, 제어 흐름을 분석하며, 공격 경로(Exploit Path)를 제안할 줄 압니다.
분명 유용한 기능이지만, 이는 실제 펜테스트(침투 테스트) 전체 과정 중 아주 작은 조각일 뿐입니다.
LLM에 파일을 던져서 얻는 것: 패턴 인식, 그럴듯한 약점 분류, 추측성 공격 시나리오. (대개 수많은 오탐과 함께 제공됩니다.)
LLM만으로는 절대 얻을 수 없는 것: 다음에 어떤 파일을 검사할지에 대한 우선순위 결정, 해당 취약점이 실제 시스템에서 실행 가능한지에 대한 검증, 기존 방어 체계로 이미 막혀있는지 여부, 실제로 작동하는 공격 코드(Exploit), 개발자가 바로 실행해 볼 수 있는 재현 환경.
현업에서 발생하는 가장 흔한 실수는 이 복잡한 '파이프라인'을 '프롬프트 한 줄'로 퉁치고, 그것을 보안 솔루션이라 부르는 것입니다.
모델이 대신해주지 않는 '진짜 업무' 5단계
펜테스트 과정을 5단계로 나누어 보면, 왜 모델 하나만으론 부족한지 명확해집니다.
타겟팅 (어디를 볼 것인가?): 운영 코드베이스는 수백만에서 수천만 줄에 달합니다. 모델이 한 번에 볼 수 있는 분량은 한정되어 있고, 호출할 때마다 돈이 듭니다. 전체 코드 중 '위험한 0.1%'를 골라내는 것은 모델의 영역이 아니라 고도의 타겟팅 전략이 필요한 영역입니다.
맥락 파악 (연결 구조 이해): 특정 함수만 봐서는 안 됩니다. 이 함수가 어디서 호출되는지, 상위 단계에서 어떤 입력값 검증을 거치는지 알아야 합니다. 단일 파일만 분석하는 모델은 기존 보안 도구(SAST)가 범해온 오류를 그대로 반복할 뿐입니다.
검증 및 심각도 분류 (노이즈 제거): 모델은 수천 개의 취약점 후보를 쏟아냅니다. 하지만 그중 상당수는 실제 영향이 없거나 이미 방어된 것들입니다. 펜테스터 업무의 절반은 이 '신호와 소음'을 구분하는 일입니다. 소음을 만들어낸 모델에게 소음을 걸러내라고 시키는 것은 애초에 불가능합니다.
공격 코드 구현 및 확증: "취약해 보인다"는 추측과 "이 값을 넣으면 뚫린다"는 증명은 차원이 다릅니다. 모델이 짠 코드를 실제 환경에서 실행해 보고 성공 여부를 확인하는 별도의 검증 파이프라인이 반드시 필요합니다.
보고서 작성: CISO(보안책임자)나 감사자가 요구하는 수준의 보고서는 단순한 줄글이 아닙니다. 심각도, 재현 단계, 영향도, 패치 제안 등이 구조화되어야 합니다. LLM의 답변을 리포트로 바꾸는 것 자체가 하나의 거대한 공정입니다.
모델은 부품일 뿐, 진짜는 시스템이다
Anthropic의 'Mythos' 사례는 이를 완벽히 증명합니다. Anthropic은 모델만 돌린 게 아닙니다. 21명의 전문 연구팀이 타겟을 고르고, 스캐닝 전략을 설계하고, 결과물을 직접 분류하는 '지지 구조(Scaffolding)'를 먼저 만들었습니다.
실제로 저희 Xint는 동일한 코드베이스에 범용 모델(Opus, GPT)을 사용했지만, Anthropic이 놓친 12개의 제로데이를 추가로 찾아냈습니다. 모델이 더 좋아서가 아니라, 모델을 감싸고 있는 시스템이 더 정교했기 때문입니다.
고객이 실제로 구매하는 것 (Value Proposition)
보안 플랫폼에 비용을 지불한다는 것은 단순히 '똑똑한 AI'를 빌리는 것이 아니라, 다음의 가치들을 사는 것입니다.
효율적인 타겟팅: 코드 전체를 훑느라 토큰 비용을 낭비하지 않고, 0.1%의 핵심 영역만 골라 분석합니다.
검증된 데이터: 전문가의 검토를 거친 것과 다름없는, 오탐 없는 결과물만 전달받습니다.
즉시 실행 가능한 가이드: 개발자가 보안 담당자 도움 없이도 바로 문제를 해결할 수 있도록 재현 단계와 패치 코드를 제공합니다.
지속적인 업그레이드: 다음 세대 모델이 나오면 시스템이 알아서 흡수합니다. 고객은 파이프라인을 새로 짤 필요 없이 성능 향상의 혜택만 누리면 됩니다.
질문을 바꿔야 합니다
이제 "모델이 싼데 왜 비싼 솔루션을 써야 하느냐"는 질문은 무의미합니다. CISO, 보안 담당자라면 다음과 같이 질문해야 합니다.
"우리 팀이 직접 보안 연구원을 고용하고, 검증 파이프라인과 보고 시스템을 구축하는 데 드는 비용이 플랫폼을 구독하는 것보다 저렴한가?"
단언컨대, 그 리스트에서 모델 호출 비용이 가장 저렴한 요소일 겁입니다.
AI 보안 솔루션 파트너를 만난다면 확인해보세요, "다음 분기에 더 좋은 모델이 나오면, 당신들의 시스템은 무엇이 달라집니까?" 이 질문에 대한 대답이 '단순 프롬프트'와 '진짜 제품'을 가르는 기준이 될 것입니다.
모델은 재료일 뿐입니다. 제품은 시스템입니다.
모델이 계속 진화하는 동안, 여러분이 본업에 집중할 수 있도록 Xint는 그 단단한 시스템을 제공합니다.