에이전트는 프롬프트보다 '도구'를 따른다

같은 명령도 쥐어준 도구가 다르면 다르게 움직인다 — 무인 자동화 설계의 핵심

자율 에이전트에게 「구글 드라이브 폴더의 파일 목록을 보여달라」는 단순한 일을 맡겼다. API 호출 한 번이면 끝나는 30초짜리 작업이었다. 그런데 에이전트는 10분 만에야 돌아왔고, 그사이 파이썬 스크립트 5개를 짜고 자체 SDK 소스까지 뜯어보며 엉뚱한 수사를 벌였다. 자율 에이전트의 진짜 실패는 「아무것도 안 하는 것」이 아니라 「너무 많은 일을 하는 것」이었다.

무슨 일인가

개발 도구 분석 매체 아이맥스(imaxxs)가 자사 운영 사례를 공개했다. 연구진은 노션·슬랙·지메일·드라이브 등 여러 업무 도구를 자동 점검하는 배치 작업에 자율 에이전트를 투입했다. 결과는 들쭉날쭉했다. 노션 점검은 27초 만에 정상 종료됐지만, 슬랙은 약 5분이 걸렸다. 권한(scope) 설정이 빠져 채널 목록 조회가 실패하자 에이전트는 스크립트 4개를 새로 짜 명령줄 도구를 우회하고 게이트웨이에 직접 HTTP 요청을 보내 기어이 목록을 받아냈다. 지메일은 401 인증 오류 앞에서 3분, 드라이브는 같은 오류에 10분 넘게 매달렸고 결국 운영자가 작업을 강제 종료했다. 모든 사례에서 에이전트는 원인을 정확히 진단했지만, 정작 그 원인은 사람이 브라우저에서 재인증해야만 풀리는 문제였다.

핵심 짚어보기

연구진이 내린 결론은 「행동 유도(Behavioral Induction)」다. 에이전트의 실제 행동을 결정하는 것은 받은 지시문이 아니라 손에 쥔 도구라는 것이다. 근거는 세 가지다. 같은 프롬프트라도 도구 구성을 바꾸면 행동이 달라졌고, 도구가 같으면 다른 에이전트라도 똑같이 행동했으며, 오류가 전혀 없을 때조차 에이전트는 굳이 「조사」를 벌였다. 파일 쓰기와 셸 실행 권한이 손에 있으니 조사가 「가능해졌고」, 가능해지자 곧 행동이 됐다. 연구진은 이를 특정 모델의 품질 문제로 보지 않는다. 대화형 디버깅에서 빛을 발하는 능력이 정해진 배치 작업에서는 오히려 독이 됐을 뿐이다. 셸과 파일 접근 권한을 떼어내면 그 에이전트도 얌전히 「토큰 만료, 재인증 필요」라고 보고하고 다음 작업으로 넘어갔으리라는 것이다.

1인기업 실전 적용 포인트

무인으로 도는 배치·예약 자동화에는 에이전트의 도구를 의도적으로 줄여라. 셸 실행·파일 쓰기를 빼고 「조회 → 보고」만 남기면, 막혔을 때 10분을 헤매는 대신 15초 만에 실패를 알린다.
작업 성격에 따라 도구 세트를 분리하라. 사람이 지켜보는 대화형 디버깅엔 풀 권한을, 새벽에 도는 무인 잡엔 최소 권한을 주는 「두 벌의 프로파일」을 만든다.
진단과 해결을 구분해 설계하라. OAuth 만료·권한 누락처럼 사람만 풀 수 있는 오류는 에이전트가 파헤치게 두지 말고 곧장 텔레그램·슬랙으로 알림을 쏘게 한다.
단계마다 타임아웃과 「시도 횟수 상한」을 박아라. 한 단계가 30초를 넘기면 멈추도록 막아두는 것만으로 비용 폭주를 막는다.

전망 / 주의점

이 사례는 「더 똑똑한 모델」이 곧 「더 나은 자동화」는 아님을 보여준다. 무인 운영의 안정성은 모델 지능보다 권한 설계에서 나온다. 다만 도구를 너무 조이면 에이전트가 스스로 회복할 여지도 사라지므로, 작업의 위험도와 감시 여부에 맞춰 권한의 폭을 조절하는 균형 감각이 필요하다. 1인기업이라면 「이 잡은 사람이 보고 있나」를 기준으로 권한을 차등하는 습관부터 들이는 게 안전하다.

출처: 아이맥스 (https://imaxxs.com/behavioral-induction-capabilities-shape-execution)

에이전트는 프롬프트보다 '도구'를 따른다

무슨 일인가

핵심 짚어보기

1인기업 실전 적용 포인트

전망 / 주의점

AI 코딩 도구 한곳서 갈아타는 확장팩

여러 AI 코딩 에이전트, 한 곳에서 지휘한다

앤드류 응, 데스크톱 AI 비서 오픈코워커 공개