Claude Fable 5:新特性与价格
Anthropic 新的顶级档位模型——新特性与规格、API 价格只要官方 3 折、和 Opus 4.8 怎么选,以及 Claude Code 接入教程。
Anthropic 发布了 Claude Fable 5——一个位于 Opus 之上的新档位,也是迄今最强的 Claude 模型。Model id 是 claude-fable-5,现已在 OmniaKey 上线,按官方价 3 折计费,和其他所有模型共用同一把 key、同一份余额。
Fable 5 新在哪
Fable 5 不是 Opus 的小版本号升级,而是一个有独立定价的新顶级档位——它高于 Opus 4.8,就像 Opus 高于 Sonnet:
| Claude Fable 5 | Claude Opus 4.8 | |
|---|---|---|
| Model id | claude-fable-5 | claude-opus-4-8 |
| 上下文窗口 | 1M tokens | 1M tokens |
| 最大输出 | 128K tokens | 128K tokens |
| Thinking | 仅 adaptive(不可显式关闭;不用时省略 thinking 字段) | adaptive,可选(接受显式 disabled) |
| 官方价(每 1M tokens,输入 / 输出) | $10 / $50 | $5 / $25 |
请求接口和 Opus 4.8、4.7 一致:adaptive thinking 取代了固定思考预算,temperature 这套采样参数被整体移除(下文细说)。如果你的代码已经跑在 Opus 4.8 上,切换基本只是改一个字符串——唯一的例外是显式的 thinking: {"type": "disabled"} 在 Fable 5 上会被拒绝(详见下文迁移说明)。
要看 benchmark 跑分,第一手来源是 Anthropic 的 Fable 5 system card;这篇只讲实际用起来会变的东西——规格、价格、怎么跑。
API 价格:官方 vs OmniaKey
Fable 5 多少钱?官方定价是 Opus 的两倍——每百万 tokens 输入 $10、输出 $50。重度 agent 会话烧输出 tokens 很快,这个价差比看起来更明显。在 OmniaKey 上,所有 Anthropic 模型统一按官方价的 30% 计费——也就是全线一致的 3 折:
| 每 1M tokens | 输入 | 输出 | 缓存命中 |
|---|---|---|---|
| Anthropic 官方 | $10 | $50 | $1 |
| OmniaKey | $3 | $15 | $0.30 |
按 token 计费、没有月费——充多少用多少,dashboard 能看到每一笔调用花了多少。Prompt caching 原样透传,长 agent 会话的重复上下文按 $0.30 的缓存价计。
选 Fable 5 还是 Opus 4.8?
价格翻倍,所以 Fable 5 不是新默认,而是新上限。
- 日常编码留在 Opus 4.8。它处理长程 agent 任务依然非常出色,大多数会话感觉不出差别。
- 真卡住了再上 Fable 5——最难的重构、更深的多步推理、跑失败一次比 token 费更贵的活。
两个模型走同一个端点、同一把 key,实际用法很简单:默认 Opus 4.8,值得的任务 /model claude-fable-5 升上去,干完降回来。
在 Claude Code 里用
如果 Claude Code 已经指向 OmniaKey,会话里切个模型就行:
/model claude-fable-5
从零开始的话,两个环境变量:
export ANTHROPIC_BASE_URL="https://api.omniakey.com"
export ANTHROPIC_AUTH_TOKEN="your-omniakey-api-key"
claude
Base URL 只填到域名为止,别带 /v1 路径。 Claude Code 会自己补 /v1/messages。完整接入流程(包括创建 key)见 Claude Code 接入指南。
Cursor、Cline、aider 则走 OmniaKey 的 OpenAI 兼容端点驱动 Fable 5——model id 同样是 claude-fable-5,不需要做任何协议转换:
无论走哪种接入方式,你请求的 model id 就是实际在跑的那个——OmniaKey 绝不会把 Fable 5 的调用偷偷换成更便宜的模型。
从旧 Claude 模型迁移:三个会踩的 400
Fable 5 沿用 Opus 4.8 的请求接口。但从更早的 Claude 模型迁移过来,有三种以前能跑的写法现在会返回 400——走任何网关都一样(包括 OmniaKey),因为这是模型层面的限制:
- 采样参数没了。
temperature、top_p、top_k全部返回 400。删掉,用提示词来控制行为。 - 固定思考预算没了。
thinking: {"type": "enabled", "budget_tokens": N}返回 400。改用thinking: {"type": "adaptive"},让模型自己决定想多少。 - 不能显式关掉 thinking。 这条是 Fable 5 独有:
thinking: {"type": "disabled"}返回 400(Opus 4.8 仍接受)。想不带 thinking 跑,把thinking字段整个省略。
末轮 assistant 预填(prefill)同样不支持——4.6 家族以来的所有模型都如此,用结构化输出替代;对话中间的 few-shot assistant 消息不受影响。