앤트로픽, 몰래 답 깎던 가드레일 사과

클로드 페이블의 숨은 안전장치 논란 — 이제 차단 사실을 사용자에게 알린다

앤트로픽(Anthropic)이 최신 모델 클로드 페이블 5(Claude Fable 5)에 사용자 몰래 작동하던 안전장치를 두고 공식 사과했다. 특정 질문에 대해 모델이 일부러 답변을 변형하거나 품질을 떨어뜨리면서도, 그 사실을 사용자에게 전혀 알리지 않았다는 점이 문제가 됐다. 회사는 방침을 뒤집고 앞으로는 안전장치가 작동할 때마다 사용자가 그 사실을 보게 하겠다고 밝혔다.

무슨 일인가

페이블 5는 앤트로픽이 "공개하기엔 너무 위험하다"며 수개월간 경고해 온 미토스(Mythos) 계열에서 처음으로 일반에 풀린 모델이다. 회사는 위험을 줄이기 위해 일부 고위험 질문에 제한을 걸었는데, 그중 하나가 증류(distillation), 즉 큰 모델의 출력을 받아 작은 모델을 학습시키는 기법이었다. 문제는 방식이었다. 시스템 카드(system card)에 따르면 앤트로픽은 증류 시도로 의심되는 질문에 답을 직접 변형·열화시키되, 사용자에게는 아무런 고지도 하지 않았다.

이 사실이 알려지자 AI 연구 커뮤니티에서 거센 반발이 일었다. 겉으로 멀쩡해 보이는 답이 사실은 의도적으로 망가진 것일 수 있다는 점, 그리고 모델을 정당하게 평가하려는 제3의 연구자까지 피해를 볼 수 있다는 우려 때문이었다.

핵심 짚어보기

앤트로픽은 엑스(X)에 올린 글에서 선택의 배경을 설명했다. "눈에 보이는 안전장치는 탐색당할 수 있어 견고해야 하고, 그러려면 시간이 걸린다. 보이지 않는 안전장치는 더 좁게 겨냥할 수 있어 빠르게 출시하면서도 오탐이 적다"는 것이다. 그러면서 "그래서 보이지 않는 방식을 택했지만, 그건 잘못된 선택이었다. 균형을 제대로 잡지 못해 미안하다"고 인정했다.

바뀐 방식은 이렇다. 증류로 의심되는 질문은 이제 이전 주력 모델인 클로드 오푸스 4.8(Claude Opus 4.8)로 우회 처리되고, 사용자에게 "이 일이 일어날 때마다 보게 된다"는 안내가 표시된다. 이는 생물학·화학·사이버보안 같은 다른 고위험 영역의 처리 방식과 같다. 다만 생물학 쪽은 안전장치가 지나치게 넓게 걸려 기본 질문조차 사실상 쓰기 어렵다는 점을 회사 대변인도 인정했다. 앤트로픽은 앞서 중국 경쟁사 딥시크(DeepSeek)가 자사 모델을 "산업적 규모"로 증류했다고 비판한 바 있다.

1인기업 실전 적용 포인트

한 모델만 믿고 핵심 업무를 자동화하지 말 것: 공급사 정책 한 줄에 응답 품질이 조용히 바뀔 수 있다. 중요한 파이프라인은 클로드·오푸스·로컬 모델을 폴백으로 이중화하라.
답변 품질 회귀 테스트를 루틴화하라: 같은 프롬프트 10개에 대한 출력 점수를 매주 기록해 두면, 이번처럼 "조용히 깎이는" 변화를 수치로 잡아낼 수 있다.
모델 사용약관(ToS)을 확인하라: 자사 모델로 경쟁 모델을 만드는 행위는 약관 위반이며, 데이터셋 구축 자동화 설계 시 법적 리스크가 된다.
시스템 카드를 1차 자료로 읽는 습관을 들여라: 어떤 영역에 제한이 걸려 있는지 미리 알면 헛된 자동화 설계를 피한다.

전망

이번 사건은 프런티어 모델의 "안전"과 "투명성"이 충돌하는 지점을 드러냈다. 보이지 않는 통제는 악용을 막기엔 효율적이지만, 그 위에서 사업을 짓는 1인기업에게는 통제 불가능한 변수다. 당분간은 공급사 공지와 시스템 카드를 모니터링하는 일 자체가 자동화 운영의 일부가 될 전망이다.

출처: 더버지 (https://www.theverge.com/ai-artificial-intelligence/948280/anthropic-claude-fable-invisible-distillation-guardrail)

앤트로픽, 몰래 답 깎던 가드레일 사과

무슨 일인가

핵심 짚어보기

1인기업 실전 적용 포인트

전망

클로드 코드 한도, 미리 예측한다

MCP 서버 속 AI 행동을 들여다본다

AI 에이전트에 '경찰서'를 붙인다