MCP 서버 속 AI 행동을 들여다본다

코드 수정 없이 모든 도구 호출을 기록하는 MCP 전용 관측 도구 Spanly

AI 에이전트가 외부 도구와 연결되는 표준으로 자리 잡은 MCP(Model Context Protocol). 그런데 정작 그 MCP 서버 안에서 에이전트가 무슨 도구를 어떻게 호출했는지를 들여다볼 전용 관측 수단은 부족했다. 스팬리(Spanly)는 바로 이 빈틈을 노린, MCP 트래픽 전용 관측(observability) 레이어다.

무슨 일인가

스팬리의 한 줄 요약은 "모든 도구 호출, 모든 패킷을, 어떤 언어든, 코드 수정 없이"다. 데이터독·센트리·뉴렐릭 같은 기존 APM을 이미 쓰고 있더라도, 그 옆에 붙는 MCP 전용 레이어를 표방한다. 이미 APM 업체들도 MCP 계측을 일부 지원하지만, 그건 "지원되는 언어로 짜였고 서버 코드를 고칠 수 있을 때"만 통한다는 게 스팬리의 주장이다.

반면 스팬리는 프로토콜 수준에서 작동해 어떤 언어든, stdio든 HTTP든, 코드 한 줄 고치지 않고 동작한다고 강조한다. 핵심 차별점은 "전체 페이로드"다. 도구 호출을 추상화된 스팬(span)으로만 남기는 게 아니라, 인자·결과·에러·타이밍이 담긴 JSON-RPC 패킷 전체를 그대로 기록한다. 덕분에 당직 엔지니어가 실패한 도구 호출을 스팬 조각들로 재구성하지 않고 바로 읽어낼 수 있다.

핵심 짚어보기

대시보드는 서버·클라이언트·도구·프롬프트·리소스별 요청 수와 에러율, P50/P95/P99 지연을 한눈에 보여준다. 클로드 코드(Claude Code)·커서·코덱스 CLI 같은 클라이언트별 연결 현황까지 구분된다. 운영 지표로는 요청당 1ms 미만의 SDK 오버헤드, 99.9% 데이터 수집 가동률, 미국·EU 2개 리전의 데이터 거주성을 내세운다. 모든 요청에 W3C 추적 컨텍스트를 보존해 기존 APM 추적과 연결할 수도 있다.

도입 문턱은 낮다. SDK와 CLI는 아파치 2.0 오픈소스로 깃허브에 공개됐고, 신용카드 없이 쓰는 무료 티어가 있다. 프록시 모드를 쓰면 직접 만들지 않은 남의 서버 트래픽까지 감쌀 수 있고, 헤더나 JWT 클레임으로 클라이언트·테넌트별 분리 뷰도 제공한다. 초기 도입처 10곳에는 비즈니스 요금 50% 할인을 12개월 고정해 주는 창립 파트너 프로그램도 운영한다.

1인기업 실전 적용 포인트

자체 MCP 서버를 팔 거라면 관측부터 붙여라: 고객사가 "왜 이 도구 호출이 실패했나"를 물을 때, 전체 페이로드 로그가 곧바로 답이 된다.
코드 수정 없이 시작하라: 프록시 모드로 띄우면 기존 서버를 건드리지 않고 트래픽만 감싸 며칠 만에 도입 효과를 본다.
에이전트 비용·지연을 도구 단위로 추적하라: 어떤 도구가 P95 지연을 끌어올리는지 보이면, 느린 호출만 캐싱·교체해 응답 속도를 개선할 수 있다.
오픈소스 무료 티어로 검증 후 결정하라: 카드 없이 시작해 실제 트래픽에 맞는지 확인한 뒤 유료 전환을 판단한다.

전망 / 주의점

MCP가 에이전트-도구 연결의 사실상 표준이 될수록, "눈에 보이지 않는 도구 호출"을 관측하는 일은 선택이 아니라 운영 필수가 된다. 다만 전체 페이로드를 저장한다는 건 민감 데이터까지 로그에 남을 수 있다는 뜻이므로, 마스킹·보존 기간 정책을 함께 설계해야 한다.

출처: 스팬리 (https://spanly.com/)

MCP 서버 속 AI 행동을 들여다본다

무슨 일인가

핵심 짚어보기

1인기업 실전 적용 포인트

전망 / 주의점

AI 에이전트 작업 이력, 검색으로 되살린다

엑스코드27, 스킬을 클로드·커서로 빼낸다

엑스코드 27 '에이전트 스킬', 클로드·커서서도 쓴다