opencrabs/usage_pricing.toml.example at main · adolfousier/opencrabs · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
# OpenCrabs Usage Pricing Table — usage_pricing.toml.example
#
# This file is copied to ~/.opencrabs/usage_pricing.toml on first run.
# Edit that file live — changes take effect immediately on next /usage open.
# No restart needed.
#
# Rules:
#   - `prefix` is matched as a case-insensitive substring of the model name
#   - First match within each provider wins — put specific prefixes before general ones
#   - Costs are per 1 million tokens (USD)
#   - Add any provider/model — if it's not here, cost shows as $0.00

[providers.anthropic]
entries = [
  { prefix = "claude-opus-4",      input_per_m = 5.0,   output_per_m = 25.0  },
  { prefix = "claude-3-opus",      input_per_m = 15.0,  output_per_m = 75.0  },
  { prefix = "claude-sonnet-4",    input_per_m = 3.0,   output_per_m = 15.0  },
  { prefix = "claude-3-7-sonnet",  input_per_m = 3.0,   output_per_m = 15.0  },
  { prefix = "claude-3-5-sonnet",  input_per_m = 3.0,   output_per_m = 15.0  },
  { prefix = "claude-3-sonnet",    input_per_m = 3.0,   output_per_m = 15.0  },
  { prefix = "claude-haiku-4",     input_per_m = 1.0,   output_per_m = 5.0   },
  { prefix = "claude-3-5-haiku",   input_per_m = 0.80,  output_per_m = 4.0   },
  { prefix = "claude-3-haiku",     input_per_m = 0.25,  output_per_m = 1.25  },
]

[providers.openai]
entries = [
  { prefix = "gpt-5-nano",          input_per_m = 0.10,  output_per_m = 0.40  },
  { prefix = "gpt-5-mini",         input_per_m = 0.30,  output_per_m = 1.20  },
  { prefix = "gpt-5",              input_per_m = 1.25,  output_per_m = 10.0  },
  { prefix = "gpt-4-turbo",        input_per_m = 10.0,  output_per_m = 30.0  },
  { prefix = "gpt-4",              input_per_m = 30.0,  output_per_m = 60.0  },
  { prefix = "o3-mini",            input_per_m = 1.10,  output_per_m = 4.40  },
  { prefix = "o3",                 input_per_m = 10.0,  output_per_m = 40.0  },
  { prefix = "o1-mini",            input_per_m = 1.10,  output_per_m = 4.40  },
  { prefix = "o1",                 input_per_m = 15.0,  output_per_m = 60.0  },
]

[providers.minimax]
entries = [
  { prefix = "minimax-m2.7-high",  input_per_m = 0.60,  output_per_m = 2.40  },
  { prefix = "minimax-m2.7",       input_per_m = 0.30,  output_per_m = 1.20  },
  { prefix = "minimax-m2.5-high",  input_per_m = 0.60,  output_per_m = 2.40  },
  { prefix = "minimax-m2.5",       input_per_m = 0.30,  output_per_m = 1.20  },
  { prefix = "minimax-m2.1",       input_per_m = 0.30,  output_per_m = 1.20  },
  { prefix = "minimax-text-01",    input_per_m = 0.20,  output_per_m = 1.10  },
  { prefix = "minimax",            input_per_m = 0.30,  output_per_m = 1.20  },
]

[providers.google]
entries = [
  { prefix = "gemini-2.0-flash",   input_per_m = 0.10,  output_per_m = 0.40  },
  { prefix = "gemini-1.5-pro",     input_per_m = 1.25,  output_per_m = 5.0   },
  { prefix = "gemini-1.5-flash",   input_per_m = 0.075, output_per_m = 0.30  },
]

[providers.deepseek]
entries = [
  { prefix = "deepseek-r1",        input_per_m = 0.55,  output_per_m = 2.19  },
  { prefix = "deepseek-v3",        input_per_m = 0.27,  output_per_m = 1.10  },
  { prefix = "deepseek",           input_per_m = 0.27,  output_per_m = 1.10  },
]

[providers.meta]
entries = [
  { prefix = "llama-3.3-70b",      input_per_m = 0.59,  output_per_m = 0.79  },
  { prefix = "llama-3.1-405b",     input_per_m = 2.70,  output_per_m = 2.70  },
  { prefix = "llama-3.1-70b",      input_per_m = 0.52,  output_per_m = 0.75  },
  { prefix = "llama-3.1-8b",       input_per_m = 0.07,  output_per_m = 0.07  },
]

[providers.xai]
entries = [
  { prefix = "grok-3-mini",        input_per_m = 0.30,  output_per_m = 0.50  },
  { prefix = "grok-3",             input_per_m = 3.0,   output_per_m = 15.0  },
  { prefix = "grok-2",             input_per_m = 2.0,   output_per_m = 10.0  },
  { prefix = "grok",               input_per_m = 5.0,   output_per_m = 15.0  },
]

[providers.moonshot]
entries = [
  # Kimi K2.6 — Moonshot AI (≤262k context)
  # Cache hit: $0.16/1M, Cache miss: $0.95/1M
  { prefix = "kimi-k2.6",            input_per_m = 0.95,  output_per_m = 4.0,   cache_write_per_m = 0.95, cache_read_per_m = 0.16 },
  { prefix = "kimi-k2-6",            input_per_m = 0.95,  output_per_m = 4.0,   cache_write_per_m = 0.95, cache_read_per_m = 0.16 },
  { prefix = "kimik2.6",             input_per_m = 0.95,  output_per_m = 4.0,   cache_write_per_m = 0.95, cache_read_per_m = 0.16 },
  { prefix = "kimi-k2.5",          input_per_m = 0.60,  output_per_m = 3.0   },
  { prefix = "kimi-k2-turbo",      input_per_m = 1.15,  output_per_m = 8.0   },
  { prefix = "kimi-k2",            input_per_m = 0.60,  output_per_m = 2.50  },
  { prefix = "kimi",               input_per_m = 0.60,  output_per_m = 2.50  },
]

[providers.mistral]
entries = [
  { prefix = "mistral-large",      input_per_m = 2.0,   output_per_m = 6.0   },
  { prefix = "mistral-small",      input_per_m = 0.10,  output_per_m = 0.30  },
  { prefix = "codestral",          input_per_m = 0.20,  output_per_m = 0.60  },
  { prefix = "mistral",            input_per_m = 0.25,  output_per_m = 0.25  },
]

[providers.qwen]
entries = [
  # Qwen 3.6 Max Preview — DashScope tiered pricing (≤128k: $1.3/$7.8, 128k-256k: $2/$12)
  # All variants map here: qwen3.6-max-preview, qwen-3.6-max-preview, qwen-3-6-max-preview, etc.
  { prefix = "qwen-3.6-max-preview",  input_per_m = 1.30,  output_per_m = 7.80,  cache_write_per_m = 1.625, cache_read_per_m = 0.13 },
  { prefix = "qwen3.6-max-preview",   input_per_m = 1.30,  output_per_m = 7.80,  cache_write_per_m = 1.625, cache_read_per_m = 0.13 },
  { prefix = "qwen-3-6-max-preview",  input_per_m = 1.30,  output_per_m = 7.80,  cache_write_per_m = 1.625, cache_read_per_m = 0.13 },
  { prefix = "qwen3-6-max-preview",   input_per_m = 1.30,  output_per_m = 7.80,  cache_write_per_m = 1.625, cache_read_per_m = 0.13 },
  { prefix = "qwen-max-preview",      input_per_m = 1.30,  output_per_m = 7.80,  cache_write_per_m = 1.625, cache_read_per_m = 0.13 },
  # Qwen 3.6 Plus (thinking) — DashScope tiered pricing (input ≤256k)
  # Output corrected to $3.0 per DashScope official pricing (was $1.50)
  { prefix = "qwen-3.6-plus",      input_per_m = 0.50,  output_per_m = 3.00,  cache_write_per_m = 0.625, cache_read_per_m = 0.05 },
  { prefix = "qwen3.6-plus",       input_per_m = 0.50,  output_per_m = 3.00,  cache_write_per_m = 0.625, cache_read_per_m = 0.05 },
  { prefix = "qwen-plus",          input_per_m = 0.50,  output_per_m = 3.00,  cache_write_per_m = 0.625, cache_read_per_m = 0.05 },
]

[providers.zhipu]
entries = [
  # GLM-5.1 — Zhipu AI (≤200k context)
  { prefix = "glm-5.1",            input_per_m = 0.95,  output_per_m = 3.15  },
  # GLM-5 Turbo — Zhipu AI
  { prefix = "glm-5-turbo",        input_per_m = 0.95,  output_per_m = 3.15  },
  { prefix = "glm-5",              input_per_m = 0.95,  output_per_m = 3.15  },
  { prefix = "zhipu",              input_per_m = 0.95,  output_per_m = 3.15  },
]

[providers.opencode]
entries = [
  { prefix = "mimo-v2-pro",         input_per_m = 1.0,   output_per_m = 3.0   },
  { prefix = "mimo-v2-omni",        input_per_m = 0.40,  output_per_m = 2.0   },
  { prefix = "nemotron-3-super",    input_per_m = 0.10,  output_per_m = 0.50  },
  { prefix = "big-pickle",          input_per_m = 0.0,   output_per_m = 0.0   },
  { prefix = "opencode-zen",        input_per_m = 0.0,   output_per_m = 0.0   },
  { prefix = "opencode-go",         input_per_m = 0.0,   output_per_m = 0.0   },
]