같은 모델도 도구 따라 성능이 갈린다

Artificial Analysis, 코딩 에이전트를 비용·토큰·시간까지 측정한 벤치마크 공개

어떤 AI 코딩 도구를 쓸지 고를 때 '모델 성능표'만 봐서는 부족하다는 점을 보여 주는 측정 결과가 나왔다. 분석 기관 아티피셜 애널리시스(Artificial Analysis)는 코딩 에이전트의 실제 작업 수행 능력을 정답률뿐 아니라 비용·토큰 사용량·실행 시간까지 함께 측정한 벤치마크를 공개했다. 특히 같은 모델이라도 어떤 도구(하네스)에 얹느냐에 따라 성능이 달라진다는 점을 데이터로 짚었다.

무슨 일인가

이 벤치마크는 세 가지 시험을 합쳐 하나의 종합 지수로 만든다. 코드 생성 능력을 보는 'SWE-Bench-Pro-Hard-AA'(150문제), 터미널 작업을 보는 'Terminal-Bench v2'(84문제), 기술 질의응답을 보는 'SWE-Atlas-QnA'(124문제)다. 지수는 각 시험을 세 번씩 돌린 첫 시도 정답률(pass@1)의 평균으로 계산한다. 단순히 '누가 더 똑똑한가'를 넘어, 같은 작업을 처리하는 데 토큰을 얼마나 쓰고 비용이 얼마나 드는지를 한눈에 비교하도록 설계됐다.

핵심 짚어보기

가장 흥미로운 부분은 '하네스 비교'다. 모델을 클로드 오푸스 4.7(Claude Opus 4.7)로 고정한 채, 클로드 코드·커서 CLI·오픈코드(OpenCode) 세 도구에 각각 얹어 성능을 비교했다. 그 결과 같은 모델이라도 도구에 따라 점수가 갈렸고, 이 후보 기사의 제목처럼 오푸스가 클로드 코드보다 오픈코드에서 더 좋은 성적을 낸 사례도 관측됐다. 비용 해석에는 주의가 필요하다. 같은 작업이라도 프롬프트 캐시 적중률이 공급자의 요청 분산 방식에 따라 달라져, 실제 체감 비용이 크게 바뀐다. 측정 기관은 캐시 적중을 인위적으로 높이는 설정을 쓰지 않았다고 밝혔는데, 이는 일반 사용자의 실제 환경에 가깝게 재현하기 위해서다. 또한 여기서 말하는 비용은 토큰당 API 요금 기준이며, 다수 사용자가 쓰는 구독 요금제와는 다르다는 점도 명시됐다.

1인기업 실전 적용 포인트

모델만 보고 도구를 고르지 말자. 같은 클로드 모델이라도 클로드 코드·커서·오픈코드 중 어느 도구에 얹느냐로 정답률과 비용이 달라지므로, 내 작업 유형(코드 생성/터미널/질의응답)에 맞는 조합을 직접 비교해 보는 게 낫다.
토큰 사용량 지표를 함께 보면 '정답률은 비슷한데 토큰을 절반만 쓰는' 효율 좋은 조합을 찾을 수 있다. 비용이 곧 이익인 1인기업에는 이 효율 지표가 정답률만큼 중요하다.
캐시 적중률이 비용을 좌우하므로, 반복 작업에서는 동일한 프롬프트 구조를 유지해 캐시를 최대한 재활용하는 워크플로가 실질적인 절감으로 이어진다.
벤치마크 비용은 API 종량제 기준이라, 구독 요금제를 쓴다면 실제 청구액과 다르다는 점을 감안해 자신의 결제 방식에 맞춰 재해석해야 한다.

전망 / 주의점

벤치마크 지수가 비슷한 두 도구라도 저장소 작업·터미널 워크플로·평가형 질의응답에서 강점이 제각각이라, 종합 점수 하나로 줄 세우는 것은 위험하다. 측정 기관도 '세부 시험별 결과를 함께 보라'고 권고한다. 결국 1인기업이 할 일은 남의 평균표를 맹신하는 대신, 자기 실제 작업으로 두세 조합을 짧게 테스트해 비용 대비 성능이 가장 좋은 짝을 고르는 것이다.

출처: Artificial Analysis (https://artificialanalysis.ai/agents/coding-agents)

같은 모델도 도구 따라 성능이 갈린다

무슨 일인가

핵심 짚어보기

1인기업 실전 적용 포인트

전망 / 주의점

클로드 코드 한도, 미리 예측한다

AI 에이전트의 '셀프 검증'… 자기 채점을 못 믿는다면