AI 코딩 도구, 당신의 지갑을 몰래 털고 있었다면? 숨겨진 요금을 찾아 40% 절감한 비결

세 달 전만 해도 저는 네 가지 AI 코딩 도구를 동시에 사용하고 있었습니다. Claude Code, Codex CLI, Gemini CLI, 그리고 간단한 질문을 위한 챗 UI까지. 매달 앤트로픽과 OpenAI에서 날아오는 청구서를 보며 '대체 이 돈을 어디에 썼지?' 하고 막연히 고개를 갸웃거릴 뿐이었죠. 제가 실무에서 여러 AI 도구를 함께 쓰면서 편리함에 취해 비용 관리에 너무 소홀했구나 싶었습니다.

어떤 모델이 언제 호출되는지 전혀 감이 오지 않았습니다. Claude Code가 Sonnet으로 라우팅 되는지 Opus로 라우팅 되는지 알 길이 없었고, Gemini가 백그라운드에서 얼마나 많은 토큰을 소모하고 있는지도 파악할 수 없었죠. 그저 청구서를 결제하고 다음 달을 기다리는 게 전부였습니다.

그러다 어느 날, 한 달치 청구서를 한 줄 한 줄 꼼꼼히 들여다보게 되었습니다.

그리고 그 해답은 예상보다 훨씬 불편했습니다.

불투명한 AI 요금 청구의 불편한 진실

AI 코딩 도구를 직접 사용하면, 요금 청구는 대부분 집계된 형태로 이루어집니다. "claude-sonnet-4-6: 2.4M tokens" 같은 내역은 볼 수 있지만, 정작 중요한 정보는 알 수가 없습니다.

어떤 작업이 그 많은 토큰을 발생시켰는지 (코드 리뷰? 리팩토링? 아니면 간단한 코드 완성?)
어떤 도구가 주범인지 (Claude Code? 제가 쓰는 챗 UI?)
더 저렴하거나 심지어 무료 모델로도 처리할 수 있었던 작업은 없었는지?

사실상 눈뜬장님처럼 비용을 쓰고 있는 셈입니다. 측정할 수 있는 것만 최적화할 수 있는데, 제공자들이 제공하는 빌링 대시보드는 개발자들이 도구 레벨에서 사용량을 이해하도록 만들어지지 않았더군요.

그래서 제가 나섰습니다: CliGate 개발기

이런 상황에서 '어떻게 하면 투명하게 비용을 볼 수 있을까?' 고민하다 직접 만들게 된 것이 바로 로컬 프록시, CliGate입니다. 모든 AI 코딩 도구가 이 프록시를 거치도록 설계했죠. localhost:8081 하나로 모든 자격 증명과 라우팅을 관리하니, 스택의 이 위치가 비용 추적 기능을 추가하기에 더할 나위 없이 완벽한 자리였습니다. 제가 직접 이걸 구현하면서, 단순히 데이터를 모으는 것을 넘어 의미 있는 인사이트를 얻을 수 있겠다는 확신이 들었습니다.

모든 요청은 프록시를 통과합니다. 프록시는 어떤 도구가 요청을 보냈는지, 어떤 모델이 요청되었는지, 얼마나 많은 토큰이 사용되었는지(응답 스트림에서), 그리고 각 모델의 토큰당 비용이 얼마인지 모두 파악할 수 있습니다. 계산은 간단하고, 데이터는 놀랍도록 명확해졌죠.

일주일간의 평범한 코딩 작업 후 사용량 대시보드의 모습은 이렇습니다:

Provider breakdown (this week)
──────────────────────────────────────────
Anthropic API          $4.82   68%
ChatGPT Account         $0.00    0%   ← account pool, no API cost
Free (Kilo AI)          $0.00    0%   ← routed to DeepSeek/Qwen
OpenAI API              $2.27   32%
──────────────────────────────────────────
Total                   $7.09

모델별 사용량 분석은 훨씬 더 흥미로운 이야기를 들려주었습니다.

claude-sonnet-4-6       $4.21   59%
claude-haiku-4-5        $0.00    0%   ← free routing active
gpt-4o                  $1.89   27%
codex-mini              $0.38    5%

haiku 라인이 '0'으로 찍힌 부분에서 저는 멈칫하며 생각에 잠겼습니다.

예상치 못한 반전: 공짜 AI 모델이 있었다고?

CliGate에는 '무료 모델 라우팅'이라는 기능이 있습니다. claude-haiku-4-5 모델로 요청이 들어오면, 앤트로픽으로 바로 전달하는 대신 Kilo AI를 통해 미리 설정해 둔 무료 모델(DeepSeek R1, Qwen3, MiniMax 등)로 프록시가 라우팅해주는 기능이죠. API 키도 필요 없습니다.

이 기능을 거의 실험 삼아 켜봤는데, 일주일 후 사용량 통계를 보고 깜짝 놀랐습니다. 모든 간단한 질문, 짧은 코드 완성, "이 함수가 무슨 일을 하나요?" 같은 문의들이 전부 무료로 처리되고 있었던 겁니다. 비싼 Sonnet 호출은 정말 필요한 작업에만 쓰였고요.

이런 분할 처리가 자동으로 이루어졌다는 점이 핵심입니다. 제가 굳이 신경 쓸 필요가 전혀 없었던 거죠.

haiku 요청을 처리할 무료 모델은 CliGate 설정 탭에서 변경할 수 있습니다. 저는 작업 유형에 따라 DeepSeek R1과 Qwen3를 번갈아 사용하고 있습니다. 추론 능력은 DeepSeek이, 코드 생성 능력은 Qwen3가 더 좋다고 느꼈거든요.

제 코딩 습관까지 바꾼 CliGate의 핵심 기능들

계정별 추적 (Per-account tracking). 저는 여러 개의 Claude 계정을 사용하고 있습니다. CliGate는 계정별 사용량 통계를 세분화해서 보여주기 때문에, 특정 계정의 할당량이 더 빨리 소진되는지 확인하고 균형을 맞출 수 있습니다.
일별/월별 사용량 보기 (Daily and monthly views). 일별 스파크라인(sparkline)과 월별 총액을 전환하며 볼 수 있습니다. 일별 보기는 이상치를 포착하는 데 아주 유용합니다. 특정 모듈을 리팩토링하느라 Claude Code를 세 번이나 길게 사용했던 어느 오후의 작업이 사용량 급증으로 나타나, 그 주에 비용이 더 많이 나온 이유를 명확히 설명해줍니다.
요금 레지스트리 (Pricing registry). 모든 모델의 토큰당 가격은 설정 가능합니다. OpenAI가 요금을 변경해도(실제로 자주 변경됩니다), 설정 파일을 직접 건드리지 않고도 대시보드에서 바로 업데이트할 수 있습니다. 기본 목록에 없는 모델에 대한 수동 오버라이드도 추가할 수 있고요.
요청별 비용 로그 (Cost per request in the logs). 요청 로그 뷰는 각 요청 옆에 비용을 표시합니다. 특정 요청이 비싸다고 느껴지면, 정확한 프롬프트, 응답, 토큰 수, 그리고 비용을 한곳에서 바로 확인할 수 있습니다.

그래서, 실질적으로 무엇이 달라졌을까요?

저는 이제 claude-haiku 작업은 기본적으로 무료 모델을 통해 라우팅하고, 앱 레벨 라우팅을 설정해서 제가 주로 사용하는 간단한 챗 창(예: "이 에러가 뭐죠?")은 무료 경로를, Claude Code는 온전히 Sonnet 모델을 사용하도록 분리했습니다.

그 결과, 월별 AI 도구 지출이 약 40% 가까이 줄어들었는데, 이건 정말 놀라운 수치였죠. 제가 실무에서 이 부분을 테스트해 봤을 때, 단순히 비용이 줄어드는 것을 넘어 'AI API 비용은 어쩔 수 없는 고정 지출'이라는 제 오래된 생각 자체가 바뀌는 경험을 했습니다. 이제는 어떤 작업을 어떤 모델로 처리할지, 비용 효율성을 고려하며 의사 결정을 내리는 습관이 자연스럽게 자리 잡았죠.

만약 여러분이 여러 AI 코딩 도구를 사용하고 있으며 모든 호출에 토큰당 요금을 지불하고 있다면, 지금 당장 10분만 시간을 내어 어디에 돈이 쓰이는지 확인해 볼 가치가 있습니다. 그 해답은 예상보다 훨씬 더 개선될 여지가 많을지도 모릅니다.

CliGate는 무료 오픈 소스 프로젝트입니다. 관심 있는 분들은 언제든지 GitHub에서 확인해 보세요: github.com/codeking-ai/cligate

지금 여러분의 AI 도구 지출은 어떤 모습인가요? 혹시 그냥 청구서를 결제하고 있지는 않으신가요?

원문: https://dev.to/yiyaoai/my-ai-coding-tools-were-running-up-a-tab-i-couldnt-see-so-i-fixed-that-1g67 수집일: 2026-04-13 07:26:28