비주얼 디프 896장, AI가 1분 만에 전수 리뷰
해포가 MCP 서버 출시 — 에이전트가 시각 회귀 테스트를 검토·승인한다
시각 회귀 테스트 서비스 해포(Happo)가 AI 에이전트용 MCP(Model Context Protocol) 서버를 내놨다. 창업자 헨릭 페르손(Henric Persson)이 지난 8일 공식 블로그에서 공개한 사례가 인상적이다. 아이콘 하나를 바꾼 커밋에서 디프(diff) 896장이 쏟아졌는데, 클로드에게 한 문장을 지시하자 약 1분 만에 896장을 전부 구조 분석하고 근거 문서까지 남긴 뒤 승인했다는 것이다.
무슨 일인가
시각 회귀 테스트는 UI 변경 전후의 스크린샷을 비교해 의도치 않은 화면 깨짐을 잡는 기법이다. 문제는 규모다. 사이드바 아이콘 하나만 바꿔도 그 사이드바가 들어가는 모든 페이지 변형 × 모든 브라우저 × 모든 화면 크기에서 디프가 발생한다. 사람은 결국 다크 모드와 라이트 모드 정도만 훑어보고 '일괄 승인'을 누르게 되고, 그 사이로 진짜 버그가 빠져나간다. 해포의 새 MCP 서버는 이 검토 작업을 코딩 에이전트에게 넘긴다.
핵심 짚어보기
이 방식이 통하는 이유는 역할 분담에 있다. 에이전트는 이미 코드 변경 내용을 알고 있고, 해포는 디프만 가져다준다. 그래서 에이전트는 '어떤 화면 변화가 나와야 정상인지' 기대치를 갖고 검토를 시작한다. 896장 사례에서 클로드는 먼저 '아이콘 하나치고 디프가 너무 많다'고 의심을 표한 뒤, 컴포넌트·브라우저별로 디프를 분해해 약 100개 페이지 변형 × 5개 브라우저라는 영향 범위를 계산해냈다. 이어 실제 전후 이미지를 표본 확인하고 접근성 위반 증가가 0건임을 점검한 뒤에야 승인했다.
플레이크(flake·비결정적 오탐) 판별 사례도 있다. 자신의 PR과 무관한 페이지에서 디프가 하나 잡히자, 클로드는 포커스 링이 사라진 것뿐이며 비결정적 포커스 타이밍 문제라고 진단하고 해당 건만 플레이크로 분류했다. 이 세션은 약 20초 걸렸고, 페르손이 직접 재확인한 결과 판정이 맞았다.
주목할 설계 포인트는 프라이버시다. MCP 서버가 해포 서버 쪽에 있어 해포는 고객 코드 저장소에 접근하지 않는다. 코드 맥락은 고객 측 에이전트가, 스크린샷 디프는 해포가 각자 들고 와 합치는 구조다.
1인기업 실전 적용 포인트
- 혼자 개발하면 비주얼 리뷰는 사실상 '안 하는 일'이 된다. 해포 같은 도구 + MCP 조합이면 사람이 포기하던 전수 검토를 에이전트의 기본 업무로 만들 수 있다.
- 바로 적용하려면 PR 마무리 루틴에 '디프 리뷰하고 승인/반려 판단해, 확신 없는 건 표시만 해'라는 지시 한 줄을 추가하라. 자동 승인이 아니라 '불확실 건 플래그' 모드가 안전하다.
- 같은 패턴을 다른 영역에 복제할 수 있다. 라이트하우스 성능 리포트, 링크 깨짐 검사, 크롤링 결과 비교처럼 '대량 결과물 + 코드 맥락' 조합이면 에이전트 전수 검토가 성립한다.
- 디프가 수백 장 규모일 때는 표본 검사라는 한계를 기억하고, 대형 변경에서는 표본 수를 늘리라고 명시적으로 지시하라.
전망 / 주의점
페르손 본인도 표본 검사의 한계를 인정했다. 896장 승인은 구조 추론 + 일부 이미지 확인에 기반한 것이어서, 표본 밖에서 깨진 화면이 있었다면 놓쳤을 수 있다. 아직 운영 표본도 작다. 그래도 '사람이 어차피 안 보던 것'을 '에이전트가 근거를 남기며 보는 것'으로 바꿨다는 점에서, QA 자동화의 다음 단계를 보여주는 사례다.
출처: Happo Blog (https://happo.io/blog/introducing-happo-mcp-server)