GPT-5.4 xhigh、Qwen3.6-Plus、Claude Opus 4.6、Claude Opus 4.7 对比

GPT-5.4 xhigh 指的是：GPT-5.4 + reasoning.effort=xhigh。xhigh 是推理档位，不是单独的底模。
Claude Opus 4.6 截至 2026-04-20 已不是最新 Opus。Anthropic 已在 2026-04-16 发布 Claude Opus 4.7。

一句话结论

要终端式 coding、复杂多步执行、跨工具稳定性：优先看 GPT-5.4 xhigh。
要 GitHub issue 修复、仓库级 bugfix、Claude 生态里的最新主力模型：优先看 Claude Opus 4.7。
要性价比、1M 长上下文、阿里云接入、中文开发环境：优先看 Qwen3.6-Plus。
Claude Opus 4.6 仍然强，尤其在长上下文一致性上有代表性成绩，但从官方定位到最新公开 benchmark，Opus 4.7 已经是 4.6 的直接升级版。

核心规格

维度	GPT-5.4 xhigh	Qwen3.6-Plus	Claude Opus 4.6	Claude Opus 4.7
官方定位	复杂专业工作、agent、coding	通用推理 + agent + 多模态	复杂 agent、coding、长周期任务	Claude 当前最强通用可用模型，主打复杂推理与 agentic coding
推理模式	`none/low/medium/high/xhigh`	默认开启思考模式	`adaptive thinking` / extended thinking	`adaptive thinking` + `effort`，新增 `xhigh`
上下文窗口	1,050,000	1,000,000	1M	1M
最大输出	128,000	65,536	128k	128k
公开价格	$2.50 输入 / $15 输出	阿里云国际区：0-256K 为 3.7471 元输入 / 22.4826 元输出；256K-1M 为 14.9884 元输入 / 44.965 元输出	$5 输入 / $25 输出	$5 输入 / $25 输出
长上下文定价备注	超过标准 272K 窗口后，按更高倍率计费	256K 以上进入更高阶梯	1M 窗口按标准价	1M 窗口按标准价
额外特点	OpenAI 终端 agent 指标强	国内接入和性价比优势明显	长上下文一致性强，4.7 的直接前代	更高分辨率视觉、更长任务预算、直接升级 4.6

Benchmark 速览

注意：下面分数都来自厂商官方，但不完全是同一套 harness、同一套 prompt、同一套推理预算，适合看趋势，不适合把 1 到 2 分的差距当成严格胜负。为便于横向比较，下面统一写成纯数字；若无额外说明，可按百分比口径理解。

补充：为保持 GPT-5.4 xhigh 和 Qwen3.6-Plus 的目标型号一致，表中混合使用了 OpenAI、Qwen、Anthropic 官方页面。Opus 4.6 / 4.7 的多项数字使用 Anthropic 2026-04-16 发布页里的最新对照图口径，因此个别数值会和更早的单模型发布页略有差异。

Benchmark	GPT-5.4 xhigh	Qwen3.6-Plus	Claude Opus 4.6	Claude Opus 4.7
SWE-Bench Verified	未见同口径官方公开值	78.8	80.8	87.6
SWE-Bench Pro	57.7	56.6	53.4	64.3
Terminal-Bench 2.0	75.1	61.6	65.4	69.4
MCP-Atlas	67.2	74.1	75.8	77.3
HLE with tools	52.1	50.6	53.3	54.7
GPQA Diamond / GPQA	93.0	90.4	91.3	94.2
OSWorld-Verified	75.0	62.5	72.7	78.0

补充说明：

GPT-5.4 xhigh 这一格没有继续留 -，而是改成 未见同口径官方公开值。原因是截至 2026-04-20，OpenAI 官方未在 GPT-5.4 页面公开与本表同口径的 SWE-Bench Verified 分数，而且 OpenAI 在 2026-02-23 明确表示不再建议把 SWE-Bench Verified 作为前沿 coding 主指标。
Qwen3.6-Plus 官方博客公开的是 GPQA = 90.4，未明确写成 GPQA Diamond，因此这里用 GPQA Diamond / GPQA 并列标注，避免继续留空。

测试项说明

测试项	主要测试什么	更偏向什么场景
SWE-Bench Verified	在真实 GitHub issue 上修复代码并通过测试	工程修复、代码理解、单仓库 coding
SWE-Bench Pro	更难、更贴近真实开发环境的工程修复题	高难 coding agent、复杂项目维护
Terminal-Bench 2.0	在终端环境里执行多步任务、跑命令、改文件、完成目标	终端 agent、DevOps 式自动执行
MCP-Atlas	使用外部工具、MCP 服务和多工具协作完成任务	工具调用型 agent、工作流编排
HLE with tools	高难知识与推理题，并允许调用工具辅助	深度研究、复杂分析、知识工作
GPQA Diamond	研究生级科学问答，强调高强度推理	学术推理、专业问答
OSWorld-Verified	在桌面/操作系统环境里执行 GUI 任务	桌面 agent、跨应用操作

Anthropic 新增信息

1. 为什么现在应优先看 Opus 4.7

对“真实 GitHub issue 修复”这类 agentic coding 任务，Opus 4.7 的 SWE-Bench Pro 达到 64.3，相比 Opus 4.6 的 53.4 是明显跃升。
在 SWE-Bench Verified 上，Opus 4.7 也从 Opus 4.6 的 80.8 提升到 87.6。
Anthropic 官方文档明确把 Opus 4.7 定义为 Opus 4.6 的直接升级版，并强调它在 agentic coding 上有明显进步。
如果你的 agent 主要工作是读仓库、改代码、跑测试、解决 issue，那么从 4.6 升到 4.7 基本是推荐动作，而不是可选动作。

2. Opus 4.6 仍然强的地方

Opus 4.6 在 SWE-Bench Verified 上仍然有 80.8，放在公开通用可用模型里依然是强成绩。
Opus 4.6 在 1M 长上下文上的代表性成绩是 MRCR v2 8-needle / 1M = 76。这也是它“长上下文一致性强”的一个官方支撑点。
很多人会把 Opus 4.6 归为“长文档、长链条任务里更稳、更连贯”的那类模型。这里我能直接给出的官方依据是长上下文一致性成绩；“更会处理模糊提示”这部分更接近经验总结，而不是单一 benchmark。

3. Mythos Preview 说明了上限在哪里

Anthropic 在 Project Glasswing 里给出的 Claude Mythos Preview 分数更高：SWE-Bench Verified 93.9、SWE-Bench Pro 77.8、Terminal-Bench 2.0 82.0。
这说明 Opus 4.6 虽然强，但不是 Anthropic 现阶段能力天花板；Opus 4.7 也不是 Mythos 级别。
但 Mythos Preview 是受限研究预览，不是通用可用模型，所以如果你是实际选型，真正该比较的是 GPT-5.4 xhigh、Qwen3.6-Plus、Opus 4.6、Opus 4.7。

Opus 4.7 补充评测

下面这些是 Anthropic 在 2026-04-16 发布页里额外给出的官方评测，更适合看 Opus 4.7 相比 4.6 的升级方向。

测试项	Claude Opus 4.7	Claude Opus 4.6	GPT-5.4	说明
GDPVal-AA	1753	1619	1674	经济价值型知识工作，4.7 高于 4.6 和 GPT-5.4
OfficeQA Pro	80.6	57.1	51.1	文档推理与企业文档理解，4.7 提升很大
GraphWalks Parents 1M	75.1	71.1	-	长上下文图遍历推理
GraphWalks BFS 1M	58.6	41.2	-	长上下文多跳推理，4.7 明显强于 4.6
Vending-Bench 2	10937	8018	-	长期连贯执行，余额越高越好
SWE-Bench Multilingual	80.5	77.8	-	多语言代码修复
SWE-Bench Multimodal	34.5	27.1	-	多模态代码修复，Anthropic 内部实现

按场景排序

1. 终端式 coding agent

GPT-5.4 xhigh
Claude Opus 4.7
Claude Opus 4.6
Qwen3.6-Plus

依据：按当前公开数字，Terminal-Bench 2.0 大致是 75.1 / 69.4 / 65.4 / 61.6。如果你主要工作流是“读仓库 -> 改代码 -> 跑命令 -> 迭代修复”，GPT-5.4 xhigh 目前仍然最稳，但 Opus 4.7 已经明显强于 4.6。

2. GitHub issue 修复 / 仓库级 bugfix

Claude Opus 4.7
GPT-5.4 xhigh
Qwen3.6-Plus
Claude Opus 4.6

依据：SWE-Bench Pro 大致是 64.3 / 57.7 / 56.6 / 53.4。如果你的核心任务是“解决真实 issue、提交修复、跑回归”，Opus 4.7 现在是更值得优先试的那个 Claude。

3. MCP / 工具调用型 agent

Claude Opus 4.7
Claude Opus 4.6
Qwen3.6-Plus
GPT-5.4 xhigh

依据：按当前 Anthropic 官方对照图，MCP-Atlas 大致是 77.3 / 75.8 / 67.2；Qwen 官方博客给出的 Qwen3.6-Plus 是 74.1。这项对 harness 很敏感，所以我更建议把它看成“方向性排序”。

4. 深度研究 / 长文档知识工作

Claude Opus 4.7 约等于 GPT-5.4 xhigh
Claude Opus 4.6
Qwen3.6-Plus

依据：HLE with tools 大致是 54.7 / 53.3 / 52.1 / 50.6。同时，Opus 4.6 在 MRCR v2 1M 上有 76，Opus 4.7 在 GraphWalks BFS 1M 上进一步到 58.6 vs 41.2，所以这两代 Claude 在长上下文知识工作里都值得重点看。

5. 中文环境 / 国内接入 / 成本敏感

Qwen3.6-Plus
GPT-5.4 xhigh
Claude Opus 4.7
Claude Opus 4.6

原因：

Qwen3.6-Plus 在阿里云百炼和国内开发工具链里的接入成本最低。
官方文档也把 qwen3.6-plus 列为“深度研发与架构设计”的推荐模型之一。
OpenAI 的价格低于 Opus 4.7 / 4.6，但国内直接使用和结算链路通常不如阿里云方便。

6. 新项目今天怎么选

要最强终端式 coding 与综合执行：GPT-5.4 xhigh
要最强 Claude 线、仓库级 bugfix、最新可用主力：Claude Opus 4.7
要更强性价比和国内可用性：Qwen3.6-Plus
除非有兼容性原因，否则不建议新项目只锁定 Claude Opus 4.6

推断项

下面两项是经验判断，不是我在本次文件里直接引用的统一头对头 benchmark：

中文写作、中文 PRD、中文技术方案润色：我仍然会把 Qwen3.6-Plus 放在很有竞争力的位置。
纯英文复杂工程协作、长链工具执行、跨文件修复：我会优先在 GPT-5.4 xhigh 和 Claude Opus 4.7 之间做 A/B。

如果你的目标是“写代码”

一个容易忽略的点：

Qwen3.6-Plus 是通用推理 / agent 强模型。
如果你要的是更纯粹的 coding 选型，阿里云官方文档会同时推荐 qwen3-coder-next 和 qwen3-coder-plus 这一类代码向模型。

也就是说，如果你在阿里云生态里做编程助手，Qwen3.6-Plus 不一定永远是最佳单点答案，它更像“通用能力和编码能力兼顾”的模型。

选型建议

适合直接选 GPT-5.4 xhigh 的情况

你要最强终端式 coding
你主要做复杂仓库级 agent
你需要强终端执行、强多步任务完成率

适合直接选 Claude Opus 4.7 的情况

你已经在 Claude 工作流里
你主要做 GitHub issue 修复、复杂代码改动、长文档知识工作
你希望直接站在 Claude 线的当前主力模型上

适合直接选 Qwen3.6-Plus 的情况

你在国内或阿里云生态
你想要 1M 上下文，但又不想把预算抬太高
你更看重中文体验、接入便利、模型性价比

只有这些情况才继续优先看 Opus 4.6

你已经针对 Opus 4.6 做了大量流程调优
你更在意沿用现有 Claude 工作流，而不是立刻迁移
你要把它当作 Opus 4.7 的前代参考线来比较

最后的简版结论

最强终端式 coding：GPT-5.4 xhigh
最强 GitHub issue 修复 / Claude 主力：Claude Opus 4.7
最优性价比：Qwen3.6-Plus
Claude Opus 4.6 仍强，但它现在更像 Opus 4.7 的前代参考线，而不是新项目首选

来源

OpenAI GPT-5.4 model page: https://developers.openai.com/api/docs/models/gpt-5.4
OpenAI GPT-5.4 mini and nano: https://openai.com/index/introducing-gpt-5-4-mini-and-nano/
OpenAI GPT-5.4 announcement: https://openai.com/index/introducing-gpt-5-4/
OpenAI research, Why SWE-bench Verified no longer measures frontier coding capabilities: https://openai.com/research/why-swe-bench-verified-no-longer-measures-frontier-coding-capabilities
Qwen3.6-Plus 官方博客: https://qwen.ai/blog?id=qwen3.6
阿里云百炼模型规格: https://help.aliyun.com/zh/model-studio/models
阿里云百炼模型价格: https://help.aliyun.com/zh/model-studio/model-pricing
阿里云 Cursor 选型建议: https://help.aliyun.com/zh/model-studio/cursor
Anthropic Claude models overview: https://platform.claude.com/docs/en/about-claude/models/overview
Anthropic Claude Opus 4.7 新功能: https://platform.claude.com/docs/zh-CN/about-claude/models/whats-new-claude-4-7
Anthropic Claude Opus 4.7 announcement: https://www.anthropic.com/news/claude-opus-4-7
Anthropic Claude Opus 4.6 announcement: https://www.anthropic.com/news/claude-opus-4-6?id=ClaudeOpus4.6
Anthropic Claude Opus page: https://www.anthropic.com/claude/opus
Anthropic Project Glasswing: https://www.anthropic.com/glasswing
Anthropic Claude pricing: https://platform.claude.com/docs/en/about-claude/pricing
Anthropic Claude 4.6 文档: https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-6