본문 바로가기
기술의기록

claude code 토큰 비용 90% 절감하는 5가지 꿀팁

by Jeremy Winchester 2026. 1. 30.
반응형

😱 "매달 API 비용이... 얼마나 나왔다고요?"

안녕하세요! Claude Code 열심히 쓰고 계신가요? 😊

처음엔 "우와, AI가 코딩 다 해주네!" 하면서 신나게 쓰다가... 월말에 청구서 보고 깜짝 놀라신 적 있으시죠?

"어... 이번 달 API 비용이 생각보다 많이 나왔네...?" 😨

저도 그랬어요. 처음엔 "개발 생산성 올라가니까 좀 비싸도 괜찮지!" 했는데, 팀 전체가 쓰기 시작하니까 비용이 눈덩이처럼 불어나더라고요.

그런데! 제대로 된 최적화 전략만 알면 같은 작업을 훨씬 저렴하게 할 수 있다는 거, 알고 계셨나요?

오늘은 Claude Code를 똑똑하게 아껴쓰는 5가지 필살기를 소개해드릴게요! 💪


📊 먼저 알아야 할 것: Claude Code 비용 구조

💵 실제로 얼마나 드나요?

공식 통계 (Anthropic 발표):

  • 평균 비용: 하루 $6 (약 8,000원)
  • 90%의 사용자: 하루 $12 미만 (16,000원)
  • 월 평균: $100-200 (13만-26만원)

출처: Claude Code 공식 문서

"생각보다 비싸네요..." 😓

맞아요! 특히 팀으로 쓰면 개발자 1명당 월 13-26만원씩 나가니까 부담되죠.

🔍 토큰이 뭐길래 이렇게 비싼가요?

토큰 = AI가 처리하는 텍스트 조각

간단히 말하면:

  • 영어 1단어 ≈ 0.75 단어
  • 약 4 문자 = 1 토큰

모델별 가격 (2025년 1월 기준):

모델 입력 (100만 토큰) 출력 (100만 토큰) 용도

Haiku 4.5 $1 $5 간단한 작업
Sonnet 4.5 $3 $15 일반 개발 ✅
Opus 4.5 $5 $25 복잡한 작업

200K 토큰 초과 시 (Long Context):

  • Sonnet 4.5: $6 / $22.50 (2배!)

출처: Anthropic API Pricing


🎯 꿀팁 #1: Prompt Caching으로 최대 90% 절감 (최강의 무기!)

🔥 이게 진짜 게임 체인저예요!

Prompt Caching은 Claude Code가 자동으로 해주는 기능인데요, 제대로 활용하면 비용을 대폭 줄일 수 있어요!

💡 작동 원리

공식 가격 (Anthropic 문서):

일반 입력:

Sonnet 4.5 기준: $3/100만 토큰

Prompt Caching 사용:

첫 요청 (캐시 저장): $3.75/100만 토큰 (25% 추가)
다음 요청 (캐시 읽기): $0.30/100만 토큰 (90% 절감!)

캐시 수명:

  • 기본: 5분
  • 확장 (API): 1시간

출처: Prompt Caching 문서

🎯 실전 활용 전략

전략 1: CLAUDE.md 최적화

비효율적인 예:

# 프로젝트 정보
이 프로젝트는 Next.js로 만든 블로그입니다.
(수천 줄의 상세한 설명...)

→ 너무 길면 캐시 효율 떨어짐 ❌

효율적인 예:

# 프로젝트 정보
Stack: Next.js 14, TypeScript, Tailwind
Test: npm test
Lint: npm run lint

# Code Style
- TypeScript strict mode
- Prefer interfaces over types
- No `any` - use `unknown`

# Key Directories
- src/components/ - React components
- src/api/ - API routes
- tests/ - Test files

# Compact instructions
Focus on code changes and test results

→ 500줄 미만 권장 ✅

왜 좋은가?

  • 구조화된 정보: AI가 빠르게 파싱
  • 적절한 길이: 공식 권장 500줄 미만
  • 안정적: 자주 변경되지 않음

전략 2: 연관 작업은 한 세션에서

비효율적 패턴 ❌:

/clear # 매번 초기화
"Button 수정해줘"
→ 캐시 초기화

/clear
"Input 수정해줘"  
→ 또 캐시 초기화

효율적 패턴 ✅:

# 연관 작업은 5분 내에 연속으로
"Button 수정해줘"
→ 캐시 생성

"이제 Input도 똑같이"  
→ 캐시 히트! 90% 절감

"Form도 같은 패턴으로"
→ 또 캐시 히트! 90% 절감

🎯 꿀팁 #2: /compact와 /clear 전략적 활용

🧹 컨텍스트 관리의 중요성

공식 권장사항:

"Token costs scale with context size: the more context Claude processes, the more tokens you use."

출처: Claude Code 비용 관리

💡 /compact 명령어 마스터

기본 사용법

# 단순 압축
/compact
→ Claude가 자동으로 중요한 내용만 요약

커스텀 압축 (공식 예시)

# 특정 내용에 집중
/compact Focus on code samples and API usage

CLAUDE.md에 압축 규칙 설정

# Compact instructions

When compacting, focus on:
- Code changes
- Test results
- Error messages

출처: Claude Code 문서

🚀 /clear vs /compact 선택 가이드

상황 명령어 이유

완전히 다른 작업 /clear 깔끔하게 새로 시작
같은 프로젝트 계속 /compact 맥락 유지하며 절약
버그 디버깅 중 /compact 이전 시도 보존

공식 권장:

"Clear between tasks: Use /clear to start fresh when switching to unrelated work. Stale context wastes tokens on every subsequent message."


🎯 꿀팁 #3: 모델 선택 전략

🤔 상황에 맞는 모델 선택

공식 가격표:

모델 입력/출력 (백만 토큰)

Haiku 4.5 $1 / $5
Sonnet 4.5 $3 / $15
Opus 4.5 $5 / $25

📊 모델별 권장 용도

Haiku 4.5 - 빠르고 저렴

적합한 작업:

  • 간단한 코드 수정
  • 스타일 변경
  • 오타/버그 수정
/model haiku
"변수명을 camelCase로 바꿔줘"

Sonnet 4.5 - 균형잡힌 선택 ⭐

적합한 작업:

  • 일반적인 기능 개발
  • 코드 리뷰
  • 리팩토링
/model sonnet  # 기본값
"사용자 인증 API 구현해줘"

💡 공식 권장:

"Sonnet handles most coding tasks well and costs less than Opus. Reserve Opus for complex architectural decisions or multi-step reasoning."

Opus 4.5 - 복잡한 작업용

적합한 작업:

  • 복잡한 아키텍처 설계
  • 어려운 버그 디버깅
  • 알고리즘 최적화
/model opus
"마이크로서비스 아키텍처 설계해줘"

🎯 모델 전환 명령어

# 기본 모델 설정
/config
→ Default model: sonnet

# 필요시 전환
/model haiku  # 간단한 작업
/model opus   # 복잡한 작업
/model sonnet # 다시 일반 모드

🎯 꿀팁 #4: Extended Thinking 비용 관리

🧠 Extended Thinking이 뭔가요?

공식 설명:

"Extended thinking is enabled by default with a budget of 31,999 tokens because it significantly improves performance on complex planning and reasoning tasks."

출처: Claude Code 비용 문서

중요: Thinking 토큰도 출력 토큰 요금으로 청구됩니다!

💡 설정 조정하기

비활성화

/config
→ Extended thinking: disabled

Budget 조정

/config
→ Max thinking tokens: 8000

공식 권장:

"For simpler tasks where deep reasoning isn't needed, you can reduce costs by disabling it in /config or lowering the budget (for example, MAX_THINKING_TOKENS=8000)."

🎯 언제 켜고, 언제 끄나요?

켜야 할 때:

  • 복잡한 알고리즘 설계
  • 미묘한 버그 찾기
  • 아키텍처 결정

꺼야 할 때:

  • 간단한 코드 수정
  • 스타일 변경
  • 테스트 작성

🎯 꿀팁 #5: MCP 서버와 도구 최적화

🔌 MCP 도구 관리

공식 문서:

"Each MCP server adds tool definitions to your context, even when idle."

출처: Claude Code 비용 문서

예시:

  • Bash tool: 245 input tokens 추가

출처: API Pricing

💡 최적화 전략

현재 MCP 확인

/context
→ Active MCP servers와 토큰 사용량 확인

CLI 도구 활용

공식 권장:

"Prefer CLI tools when available: Tools like gh, aws, gcloud, and sentry-cli are more context-efficient than MCP servers because they don't add persistent tool definitions."

예시:

# MCP 대신 CLI 사용
"gh pr list를 실행해서 결과 알려줘"
→ 더 효율적!

💎 보너스 팁: /cost 명령어로 실시간 모니터링

📊 비용 투명하게 확인하기

공식 명령어:

/cost

⎿ Total cost: $0.0827
⎿ Total duration (API): 26.3s
⎿ Total duration (wall): 42.3s
⎿ Total code changes: 62 lines

출처: AWS Blog - Claude Code with Bedrock

🎯 예산 설정 (API 사용 시)

# 최대 예산 설정
claude -p --max-budget-usd 5.00 "query"
→ $5 초과하면 자동 중지

출처: CLI Reference


📈 비용 절감 요약

💰 핵심 전략

Anthropic 공식 최적화 방법:

  1. Prompt Caching 활용 → 최대 90% 절감
  2. Context 관리 (/compact, /clear)
  3. 적절한 모델 선택 (Haiku → Sonnet → Opus)
  4. Extended Thinking 조정
  5. MCP 서버 최소화

공식 문서:

"Claude Code automatically optimizes costs through prompt caching (which reduces costs for repeated content like system prompts) and auto-compaction (which summarizes conversation history when approaching context limits)."


🚀 실전 적용: 오늘부터 바로 시작하기

✅ 즉시 적용 체크리스트

5분 안에:

  • [ ] /cost 명령어로 현재 사용량 확인
  • [ ] CLAUDE.md 500줄 이하로 정리
  • [ ] Extended Thinking budget 확인

이번 주 안에:

  • [ ] Compact instructions 작성
  • [ ] 모델 선택 전략 수립
  • [ ] 불필요한 MCP 서버 비활성화

💭 마무리: 똑똑하게 아껴쓰는 개발자가 되세요!

Claude Code는 정말 강력한 도구예요. 하지만 제대로 최적화하지 않으면 비용이 생각보다 많이 나올 수 있죠.

오늘 소개한 공식 최적화 전략만 실천해도 비용을 크게 절감할 수 있습니다!

핵심 3줄 요약:

  1. Prompt Caching 자동 활용 (최대 90% 절감)
  2. /compact로 컨텍스트 관리 (연속 작업 시)
  3. 적절한 모델 선택 (Haiku → Sonnet → Opus)

"비용 걱정 줄이고 마음껏 AI 코딩하세요!" 💪


🔗 공식 리소스

Anthropic 공식 문서:

관련 글:

반응형