Anthropic 发布了 Claude Fable 5——一个位于 Opus 之上的新档位，也是迄今最强的 Claude 模型。Model id 是 claude-fable-5，现已在 OmniaKey 上线，按官方价 3 折计费，和其他所有模型共用同一把 key、同一份余额。

Fable 5 新在哪

Fable 5 不是 Opus 的小版本号升级，而是一个有独立定价的新顶级档位——它高于 Opus 4.8，就像 Opus 高于 Sonnet：

	Claude Fable 5	Claude Opus 4.8
Model id	`claude-fable-5`	`claude-opus-4-8`
上下文窗口	1M tokens	1M tokens
最大输出	128K tokens	128K tokens
Thinking	仅 adaptive（不可显式关闭；不用时省略 `thinking` 字段）	adaptive，可选（接受显式 `disabled`）
官方价（每 1M tokens，输入 / 输出）	$10 / $50	$5 / $25

请求接口和 Opus 4.8、4.7 一致：adaptive thinking 取代了固定思考预算，temperature 这套采样参数被整体移除（下文细说）。如果你的代码已经跑在 Opus 4.8 上，切换基本只是改一个字符串——唯一的例外是显式的 thinking: {"type": "disabled"} 在 Fable 5 上会被拒绝（详见下文迁移说明）。

要看 benchmark 跑分，第一手来源是 Anthropic 的 Fable 5 system card；这篇只讲实际用起来会变的东西——规格、价格、怎么跑。

API 价格：官方 vs OmniaKey

Fable 5 多少钱？官方定价是 Opus 的两倍——每百万 tokens 输入 $10、输出 $50。重度 agent 会话烧输出 tokens 很快，这个价差比看起来更明显。在 OmniaKey 上，所有 Anthropic 模型统一按官方价的 30% 计费——也就是全线一致的 3 折：

每 1M tokens	输入	输出	缓存命中
Anthropic 官方	$10	$50	$1
OmniaKey	$3	$15	$0.30

按 token 计费、没有月费——充多少用多少，dashboard 能看到每一笔调用花了多少。Prompt caching 原样透传，长 agent 会话的重复上下文按 $0.30 的缓存价计。

选 Fable 5 还是 Opus 4.8？

价格翻倍，所以 Fable 5 不是新默认，而是新上限。

日常编码留在 Opus 4.8。它处理长程 agent 任务依然非常出色，大多数会话感觉不出差别。
真卡住了再上 Fable 5——最难的重构、更深的多步推理、跑失败一次比 token 费更贵的活。

两个模型走同一个端点、同一把 key，实际用法很简单：默认 Opus 4.8，值得的任务 /model claude-fable-5 升上去，干完降回来。

在 Claude Code 里用

如果 Claude Code 已经指向 OmniaKey，会话里切个模型就行：

text

/model claude-fable-5

从零开始的话，两个环境变量：

bash

export ANTHROPIC_BASE_URL="https://api.omniakey.com"
export ANTHROPIC_AUTH_TOKEN="your-omniakey-api-key"
claude

Base URL 只填到域名为止，别带 /v1 路径。 Claude Code 会自己补 /v1/messages。完整接入流程（包括创建 key）见 Claude Code 接入指南。

Cursor、Cline、aider 则走 OmniaKey 的 OpenAI 兼容端点驱动 Fable 5——model id 同样是 claude-fable-5，不需要做任何协议转换：

OpenAI-compatible

https://api.omniakey.com/v1

Anthropic-native

https://api.omniakey.com

Gemini-native

https://api.omniakey.com/v1beta

无论走哪种接入方式，你请求的 model id 就是实际在跑的那个——OmniaKey 绝不会把 Fable 5 的调用偷偷换成更便宜的模型。

从旧 Claude 模型迁移：三个会踩的 400

Fable 5 沿用 Opus 4.8 的请求接口。但从更早的 Claude 模型迁移过来，有三种以前能跑的写法现在会返回 400——走任何网关都一样（包括 OmniaKey），因为这是模型层面的限制：

采样参数没了。 temperature、top_p、top_k 全部返回 400。删掉，用提示词来控制行为。
固定思考预算没了。 thinking: {"type": "enabled", "budget_tokens": N} 返回 400。改用 thinking: {"type": "adaptive"}，让模型自己决定想多少。
不能显式关掉 thinking。 这条是 Fable 5 独有：thinking: {"type": "disabled"} 返回 400（Opus 4.8 仍接受）。想不带 thinking 跑，把 thinking 字段整个省略。

末轮 assistant 预填（prefill）同样不支持——4.6 家族以来的所有模型都如此，用结构化输出替代；对话中间的 few-shot assistant 消息不受影响。

获取 OmniaKey API Key 查看模型价格