Claude Code 비용 절감 완전 가이드 | 토큰 관리 10가지 전략

Claude Code, 쓰면 쓸수록 돈이 나간다 — 진짜 얼마나?

Claude Code를 팀에 도입하고 싶은데 비용이 걱정되는 분들 많을 것이다. 공식 문서에 따르면 평균적으로 개발자 1인당 월 $100~200(Sonnet 4.6 기준)이 발생한다. 하루로 환산하면 약 $6 수준이며, 사용자의 90%는 하루 $12 이내로 유지된다.

하지만 “자동화 파이프라인에서 돌리거나 여러 인스턴스를 동시에 실행하면?” — 당연히 비용은 급격히 올라간다. 이 글에서는 Claude Code 비용 절감을 위한 공식 권장 전략을 실전 관점에서 정리한다.


1. 먼저 지금 얼마 쓰고 있는지 파악하라

/cost 명령으로 실시간 확인

Claude Code에는 현재 세션의 토큰 사용량을 즉시 확인하는 명령이 있다.

/cost

출력 결과는 이렇게 나온다:

Total cost:            $0.55
Total duration (API):  6m 19.7s
Total duration (wall): 6h 33m 10.2s
Total code changes:    0 lines added, 0 lines removed

주의할 점이 있다. /cost는 API 사용자 전용이다. Claude Max / Pro 구독자라면 구독에 사용량이 포함되어 있으므로 청구 목적과 무관하다. 구독자는 /stats로 사용 패턴을 확인하면 된다.

팀 단위 비용 추적

Claude API를 팀으로 사용한다면 Anthropic Console에서 워크스페이스 지출 한도를 설정할 수 있다. Claude Code를 처음 Console 계정으로 인증하면 “Claude Code” 워크스페이스가 자동 생성되어 조직 전체의 비용을 중앙에서 추적할 수 있다.

Bedrock, Vertex, Foundry 환경에서는 클라우드로 메트릭이 전송되지 않으므로, 이 경우 여러 기업들이 LiteLLM을 활용해 키별 지출을 추적하는 방식을 사용한다고 공식 문서는 안내한다.


2. 팀 규모에 맞는 속도 제한 설정

팀 배포 시 분당 토큰(TPM)과 분당 요청(RPM)을 적절히 제한하지 않으면 비용이 예상을 훌쩍 초과할 수 있다. 공식 권장 수치는 다음과 같다.

팀 규모 사용자당 TPM 사용자당 RPM
1~5명 200k~300k 5~7
5~20명 100k~150k 2.5~3.5
20~50명 50k~75k 1.25~1.75
50~100명 25k~35k 0.62~0.87
100~500명 15k~20k 0.37~0.47
500명 이상 10k~15k 0.25~0.35

팀이 커질수록 사용자당 TPM이 낮아지는 이유는 간단하다. 조직 규모가 클수록 동시 접속자 비율이 줄어들기 때문이다. 라이브 교육처럼 동시 사용이 집중되는 상황이 예상된다면 더 높은 TPM 할당이 필요하다.


3. 에이전트 팀(Agent Teams) 사용 시 비용 주의

에이전트 팀은 여러 Claude Code 인스턴스를 동시에 실행하는 기능이다. 각 인스턴스가 독립된 컨텍스트 윈도우를 가지므로, 토큰 사용량이 팀원 수에 비례해서 증가한다. plan mode로 실행하면 표준 세션 대비 약 7배 더 많은 토큰을 소비한다.

에이전트 팀 비용을 통제하는 핵심 원칙은 다음과 같다:

  • 팀원에는 Sonnet을 사용한다 (Opus 대신)
  • 팀 규모를 가능한 한 작게 유지한다
  • spawn 프롬프트를 최대한 간결하게 작성한다
  • 작업이 끝나면 즉시 팀을 정리한다 — 유휴 상태에서도 토큰이 소비된다

에이전트 팀은 기본 비활성화 상태다. 필요 시 settings.jsonCLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1을 추가해 활성화할 수 있다.


4. 토큰 사용량을 줄이는 실전 전략 7가지

Claude Code는 prompt caching과 auto-compaction으로 기본 최적화를 제공한다. 여기에 더해 직접 실천할 수 있는 전략들이다.

① 컨텍스트를 미리 관리한다

관련 없는 작업으로 전환할 때마다 /clear를 사용해 새로 시작한다. 오래된 컨텍스트는 이후 모든 메시지에서 토큰을 낭비한다. 세션을 지우기 전 /rename으로 이름을 붙여두면 나중에 /resume으로 돌아올 수 있다.

CLAUDE.md에 아래처럼 compaction 지침을 추가하면 요약 품질도 높아진다:

# Compact instructions
When you are using compact, please focus on test output and code changes

② 작업 성격에 맞는 모델을 선택한다

대부분의 코딩 작업은 Sonnet으로 충분하다. 복잡한 아키텍처 설계나 다단계 추론이 필요한 경우에만 Opus를 쓴다. /model로 세션 중간에도 전환 가능하며, 간단한 subagent 작업이라면 설정에서 model: haiku를 지정한다.

③ MCP 서버 오버헤드를 줄인다

각 MCP 서버는 유휴 상태에서도 도구 정의를 컨텍스트에 올린다. /mcp로 현재 구성된 서버를 확인하고 적극적으로 사용하지 않는 서버는 비활성화한다.

가능하면 MCP 대신 gh, aws, gcloud 같은 CLI 도구를 직접 사용하는 것이 컨텍스트 효율이 훨씬 낫다.

④ Hooks와 Skills로 전처리를 오프로드한다

Claude가 10,000줄 로그 파일을 전부 읽는 대신, hook이 미리 ERROR 라인만 필터링해서 넘기면 수만 토큰이 수백 토큰으로 줄어든다.

Skills는 프로젝트 아키텍처·네이밍 규칙 등 도메인 지식을 담아두는 공간이다. Claude가 스스로 파일을 탐색하는 대신 skill에서 즉시 컨텍스트를 얻을 수 있다.

⑤ CLAUDE.md는 500줄 이하로 유지한다

CLAUDE.md는 세션 시작 시 항상 컨텍스트에 올라간다. PR 리뷰, DB 마이그레이션 같은 특정 워크플로우 지침은 Skills로 분리하고 CLAUDE.md에는 필수 항목만 남긴다.

⑥ 확장 사고(Extended Thinking)를 상황에 맞게 조정한다

확장 사고는 기본값이 31,999 토큰 예산이며, 사고 토큰은 출력 토큰으로 청구된다. 단순한 작업에서는 /effort로 노력 수준을 낮추거나 MAX_THINKING_TOKENS=8000으로 예산을 제한하는 것이 효과적이다.

⑦ 대용량 작업은 subagents에 위임한다

테스트 실행, 문서 조회, 로그 처리처럼 대량의 출력을 생성하는 작업은 subagent로 위임한다. 세부 결과는 subagent 컨텍스트 안에 머물고 요약만 주 대화로 돌아오기 때문에 메인 세션의 컨텍스트가 깔끔하게 유지된다.


5. 프롬프트 품질이 곧 비용이다

“이 코드베이스 개선해줘” 같은 모호한 요청은 광범위한 파일 탐색을 유발한다. “auth.ts의 로그인 함수에 입력 검증 추가”처럼 범위를 명확히 지정하면 Claude는 최소한의 파일 읽기로 작업을 완료한다.

복잡한 작업일수록 이 습관이 중요하다:

  • Plan mode 먼저: Shift+Tab으로 구현 전 계획을 승인받아 방향 착오를 예방한다
  • 잘못된 방향이면 즉시 Escape: 더 진행하기 전에 /rewind로 이전 checkpoint로 돌아간다
  • 검증 기준을 제공: 테스트 케이스, 예상 출력, 스크린샷을 함께 주면 Claude가 스스로 문제를 포착한다
  • 점진적으로 테스트: 한 파일 작성 → 테스트 → 다음으로 진행하는 흐름이 결국 싸다

6. 유휴 상태에서도 토큰은 소비된다

Claude Code는 아무것도 하지 않아도 백그라운드에서 소량의 토큰을 사용한다. claude --resume을 위한 대화 요약, /cost 같은 명령 처리 등이다. 공식 문서에 따르면 일반적으로 세션당 $0.04 미만으로 무시할 수준이지만, 인스턴스를 많이 띄워두는 환경이라면 누적 비용을 감안해야 한다.


정리 — Claude Code 비용 절감 핵심 체크리스트

  • /cost 또는 /stats로 현재 사용량 파악
  • ☑ 팀 규모에 맞는 TPM/RPM 속도 제한 설정
  • ☑ 작업 전환 시 /clear로 컨텍스트 초기화
  • ☑ 단순 작업은 Sonnet, 복잡 추론만 Opus
  • ☑ 사용하지 않는 MCP 서버 비활성화
  • ☑ 특화 지침은 CLAUDE.md → Skills로 분리
  • ☑ 확장 사고 예산 조정 (MAX_THINKING_TOKENS)
  • ☑ 에이전트 팀 사용 후 즉시 정리
  • ☑ 프롬프트는 구체적이고 범위를 명확히
  • ☑ 대용량 작업은 subagent에 위임

Claude Code는 제대로 쓰면 강력하지만, 아무 생각 없이 쓰면 비용이 예상을 벗어난다. 위 전략들을 하나씩 적용하면 같은 작업량에 대한 토큰 비용을 30~50% 이상 줄일 수 있다.

함께 보면 좋은 의사 운영 사이트

교육, 개원 준비, 홈페이지 제작, 의사 커뮤니티까지 운영에 도움이 되는 사이트를 모았습니다.