가벼운 작업은 작은 모델에…클로드 코드 비용 줄이기

제로GPU 라우터 플러그인, 분류·추출·PII 마스킹을 전문 소형모델로 자동 분기

AI 코딩 세션에서 일어나는 모든 요청이 최상급 추론을 필요로 하지는 않는다. 텍스트 분류, 개체 추출, 태깅, 개인정보(PII) 마스킹 같은 작업은 작고 빠른 전문 모델로도 충분하다. 이 점에 착안해 클로드 코드(Claude Code)의 가벼운 작업을 소형·나노 언어 모델(SLM)로 자동 분기시키는 '제로GPU 라우터(ZeroGPU Router)' 플러그인이 나왔다.

무슨 일인가

제로GPU 라우터는 클로드 코드의 플러그인 시스템에 붙어, 제로GPU의 추론 명령을 클로드가 호출할 수 있는 스킬과 슬래시 명령으로 노출한다. 모든 요청을 프런티어 모델로 보내는 대신, 좁은 자연어 처리 작업만 골라 더 작고 저렴한 전문 모델로 자동 또는 선택적으로 라우팅한다. "마스킹(redact)", "추출(extract)", "분류(classify)" 같은 의도가 담긴 요청은 별도 지시 없이도 적절한 모델이 알아서 작동한다. AI 코딩 워크플로 안에서 '어떤 작업을 어떤 모델이 맡을지'를 결정하는 라우팅 계층이 점점 스택의 일부가 되고 있다는 흐름을 반영한다.

핵심 짚어보기

라우터가 호출하는 모델 카탈로그는 작업별로 특화돼 있다. PII 추출·마스킹에는 gliner-multi-pii-v1, 개체 추출과 구조화 분류에는 gliner2-base-v1, 제로샷 분류에는 deberta-v3-small, IAB 분류 태깅에는 zlm-v1-iab-classify-edge, 가벼운 단발 대화 응답에는 LFM2.5-1.2B-Instruct가 배정된다. 모두 제로GPU의 서버리스 추론 플랫폼에서 돌아간다. 설계 철학은 명확하다 — 추론이 중요한 일에만 큰 모델을 쓰고, 정형화된 NLP 작업은 엣지 최적화 소형 모델에 맡겨 비용을 아낀다. 클로드는 맥락이 깊고 추론이 필요한 작업에 집중하게 두는 것이다.

1인기업 실전 적용 포인트

고객 문의 분류, 리뷰 감성 태깅, 문서에서 항목 추출 같은 반복 NLP 업무가 있다면, 이런 작업을 소형 모델로 분기시켜 프런티어 모델 호출 비용을 직접적으로 줄일 수 있다.
개인정보가 섞인 데이터를 다룰 때 PII 마스킹 전용 모델(gliner-multi-pii-v1)을 워크플로 앞단에 두면, 비용 절감과 규정 준수를 동시에 챙긴다.
'AI 비용이 부담된다'면 모델을 통째로 바꾸기 전에, 작업 종류별로 모델을 나눠 쓰는 라우팅부터 도입하는 것이 현실적인 절감 1순위다.

전망

AI 코딩 에이전트가 워크플로의 중심에 자리 잡을수록, 어떤 작업을 어떤 모델에 보낼지 결정하는 인프라 계층의 중요성은 커진다. 다만 외부 추론 플랫폼에 작업을 보내는 만큼 데이터 경계와 지연·안정성은 따져봐야 하고, 소형 모델의 정확도가 작업에 충분한지도 검증이 필요하다. 무조건 싼 모델이 아니라 '작업에 맞는 가장 작은 모델'을 고르는 안목이 관건이다.

출처: Hacker News / Medium(ZeroGPU) (https://medium.com/zerogpu/how-to-reduce-ai-compute-costs-with-our-claude-code-plugin-routing-lightweight-ai-tasks-to-small-2a265e19c699)

가벼운 작업은 작은 모델에…클로드 코드 비용 줄이기

무슨 일인가

핵심 짚어보기

1인기업 실전 적용 포인트

전망

앤트로픽, 외국인의 Fable 5 사용 차단

파블은 설계만, 코덱스가 짓는다 — 토큰 80% 절감 루프

앤트로픽, 몰래 답 깎던 가드레일 사과