• GPT-5.4 xhigh 指的是:GPT-5.4 + reasoning.effort=xhighxhigh 是推理档位,不是单独的底模。
  • Claude Opus 4.6 截至 2026-04-20 已不是最新 Opus。Anthropic 已在 2026-04-16 发布 Claude Opus 4.7

一句话结论

  • 要终端式 coding、复杂多步执行、跨工具稳定性:优先看 GPT-5.4 xhigh
  • 要 GitHub issue 修复、仓库级 bugfix、Claude 生态里的最新主力模型:优先看 Claude Opus 4.7
  • 要性价比、1M 长上下文、阿里云接入、中文开发环境:优先看 Qwen3.6-Plus
  • Claude Opus 4.6 仍然强,尤其在长上下文一致性上有代表性成绩,但从官方定位到最新公开 benchmark,Opus 4.7 已经是 4.6 的直接升级版。

核心规格

维度 GPT-5.4 xhigh Qwen3.6-Plus Claude Opus 4.6 Claude Opus 4.7
官方定位 复杂专业工作、agent、coding 通用推理 + agent + 多模态 复杂 agent、coding、长周期任务 Claude 当前最强通用可用模型,主打复杂推理与 agentic coding
推理模式 none/low/medium/high/xhigh 默认开启思考模式 adaptive thinking / extended thinking adaptive thinking + effort,新增 xhigh
上下文窗口 1,050,000 1,000,000 1M 1M
最大输出 128,000 65,536 128k 128k
公开价格 $2.50 输入 / $15 输出 阿里云国际区:0-256K 为 3.7471 元输入 / 22.4826 元输出;256K-1M 为 14.9884 元输入 / 44.965 元输出 $5 输入 / $25 输出 $5 输入 / $25 输出
长上下文定价备注 超过标准 272K 窗口后,按更高倍率计费 256K 以上进入更高阶梯 1M 窗口按标准价 1M 窗口按标准价
额外特点 OpenAI 终端 agent 指标强 国内接入和性价比优势明显 长上下文一致性强,4.7 的直接前代 更高分辨率视觉、更长任务预算、直接升级 4.6

Benchmark 速览

注意:下面分数都来自厂商官方,但不完全是同一套 harness、同一套 prompt、同一套推理预算,适合看趋势,不适合把 1 到 2 分的差距当成严格胜负。为便于横向比较,下面统一写成纯数字;若无额外说明,可按百分比口径理解。

补充:为保持 GPT-5.4 xhighQwen3.6-Plus 的目标型号一致,表中混合使用了 OpenAI、Qwen、Anthropic 官方页面。Opus 4.6 / 4.7 的多项数字使用 Anthropic 2026-04-16 发布页里的最新对照图口径,因此个别数值会和更早的单模型发布页略有差异。

Benchmark GPT-5.4 xhigh Qwen3.6-Plus Claude Opus 4.6 Claude Opus 4.7
SWE-Bench Verified 未见同口径官方公开值 78.8 80.8 87.6
SWE-Bench Pro 57.7 56.6 53.4 64.3
Terminal-Bench 2.0 75.1 61.6 65.4 69.4
MCP-Atlas 67.2 74.1 75.8 77.3
HLE with tools 52.1 50.6 53.3 54.7
GPQA Diamond / GPQA 93.0 90.4 91.3 94.2
OSWorld-Verified 75.0 62.5 72.7 78.0

补充说明:

  • GPT-5.4 xhigh 这一格没有继续留 -,而是改成 未见同口径官方公开值。原因是截至 2026-04-20,OpenAI 官方未在 GPT-5.4 页面公开与本表同口径的 SWE-Bench Verified 分数,而且 OpenAI 在 2026-02-23 明确表示不再建议把 SWE-Bench Verified 作为前沿 coding 主指标。
  • Qwen3.6-Plus 官方博客公开的是 GPQA = 90.4,未明确写成 GPQA Diamond,因此这里用 GPQA Diamond / GPQA 并列标注,避免继续留空。

测试项说明

测试项 主要测试什么 更偏向什么场景
SWE-Bench Verified 在真实 GitHub issue 上修复代码并通过测试 工程修复、代码理解、单仓库 coding
SWE-Bench Pro 更难、更贴近真实开发环境的工程修复题 高难 coding agent、复杂项目维护
Terminal-Bench 2.0 在终端环境里执行多步任务、跑命令、改文件、完成目标 终端 agent、DevOps 式自动执行
MCP-Atlas 使用外部工具、MCP 服务和多工具协作完成任务 工具调用型 agent、工作流编排
HLE with tools 高难知识与推理题,并允许调用工具辅助 深度研究、复杂分析、知识工作
GPQA Diamond 研究生级科学问答,强调高强度推理 学术推理、专业问答
OSWorld-Verified 在桌面/操作系统环境里执行 GUI 任务 桌面 agent、跨应用操作

Anthropic 新增信息

1. 为什么现在应优先看 Opus 4.7

  • 对“真实 GitHub issue 修复”这类 agentic coding 任务,Opus 4.7SWE-Bench Pro 达到 64.3,相比 Opus 4.653.4 是明显跃升。
  • SWE-Bench Verified 上,Opus 4.7 也从 Opus 4.680.8 提升到 87.6
  • Anthropic 官方文档明确把 Opus 4.7 定义为 Opus 4.6 的直接升级版,并强调它在 agentic coding 上有明显进步。
  • 如果你的 agent 主要工作是读仓库、改代码、跑测试、解决 issue,那么从 4.6 升到 4.7 基本是推荐动作,而不是可选动作。

2. Opus 4.6 仍然强的地方

  • Opus 4.6SWE-Bench Verified 上仍然有 80.8,放在公开通用可用模型里依然是强成绩。
  • Opus 4.6 在 1M 长上下文上的代表性成绩是 MRCR v2 8-needle / 1M = 76。这也是它“长上下文一致性强”的一个官方支撑点。
  • 很多人会把 Opus 4.6 归为“长文档、长链条任务里更稳、更连贯”的那类模型。这里我能直接给出的官方依据是长上下文一致性成绩;“更会处理模糊提示”这部分更接近经验总结,而不是单一 benchmark。

3. Mythos Preview 说明了上限在哪里

  • Anthropic 在 Project Glasswing 里给出的 Claude Mythos Preview 分数更高:SWE-Bench Verified 93.9SWE-Bench Pro 77.8Terminal-Bench 2.0 82.0
  • 这说明 Opus 4.6 虽然强,但不是 Anthropic 现阶段能力天花板;Opus 4.7 也不是 Mythos 级别。
  • Mythos Preview 是受限研究预览,不是通用可用模型,所以如果你是实际选型,真正该比较的是 GPT-5.4 xhighQwen3.6-PlusOpus 4.6Opus 4.7

Opus 4.7 补充评测

下面这些是 Anthropic 在 2026-04-16 发布页里额外给出的官方评测,更适合看 Opus 4.7 相比 4.6 的升级方向。

测试项 Claude Opus 4.7 Claude Opus 4.6 GPT-5.4 说明
GDPVal-AA 1753 1619 1674 经济价值型知识工作,4.7 高于 4.6 和 GPT-5.4
OfficeQA Pro 80.6 57.1 51.1 文档推理与企业文档理解,4.7 提升很大
GraphWalks Parents 1M 75.1 71.1 - 长上下文图遍历推理
GraphWalks BFS 1M 58.6 41.2 - 长上下文多跳推理,4.7 明显强于 4.6
Vending-Bench 2 10937 8018 - 长期连贯执行,余额越高越好
SWE-Bench Multilingual 80.5 77.8 - 多语言代码修复
SWE-Bench Multimodal 34.5 27.1 - 多模态代码修复,Anthropic 内部实现

按场景排序

1. 终端式 coding agent

  1. GPT-5.4 xhigh
  2. Claude Opus 4.7
  3. Claude Opus 4.6
  4. Qwen3.6-Plus

依据:按当前公开数字,Terminal-Bench 2.0 大致是 75.1 / 69.4 / 65.4 / 61.6。如果你主要工作流是“读仓库 -> 改代码 -> 跑命令 -> 迭代修复”,GPT-5.4 xhigh 目前仍然最稳,但 Opus 4.7 已经明显强于 4.6。

2. GitHub issue 修复 / 仓库级 bugfix

  1. Claude Opus 4.7
  2. GPT-5.4 xhigh
  3. Qwen3.6-Plus
  4. Claude Opus 4.6

依据:SWE-Bench Pro 大致是 64.3 / 57.7 / 56.6 / 53.4。如果你的核心任务是“解决真实 issue、提交修复、跑回归”,Opus 4.7 现在是更值得优先试的那个 Claude。

3. MCP / 工具调用型 agent

  1. Claude Opus 4.7
  2. Claude Opus 4.6
  3. Qwen3.6-Plus
  4. GPT-5.4 xhigh

依据:按当前 Anthropic 官方对照图,MCP-Atlas 大致是 77.3 / 75.8 / 67.2;Qwen 官方博客给出的 Qwen3.6-Plus74.1。这项对 harness 很敏感,所以我更建议把它看成“方向性排序”。

4. 深度研究 / 长文档知识工作

  1. Claude Opus 4.7 约等于 GPT-5.4 xhigh
  2. Claude Opus 4.6
  3. Qwen3.6-Plus

依据:HLE with tools 大致是 54.7 / 53.3 / 52.1 / 50.6。同时,Opus 4.6MRCR v2 1M 上有 76Opus 4.7GraphWalks BFS 1M 上进一步到 58.6 vs 41.2,所以这两代 Claude 在长上下文知识工作里都值得重点看。

5. 中文环境 / 国内接入 / 成本敏感

  1. Qwen3.6-Plus
  2. GPT-5.4 xhigh
  3. Claude Opus 4.7
  4. Claude Opus 4.6

原因:

  • Qwen3.6-Plus 在阿里云百炼和国内开发工具链里的接入成本最低。
  • 官方文档也把 qwen3.6-plus 列为“深度研发与架构设计”的推荐模型之一。
  • OpenAI 的价格低于 Opus 4.7 / 4.6,但国内直接使用和结算链路通常不如阿里云方便。

6. 新项目今天怎么选

  1. 要最强终端式 coding 与综合执行:GPT-5.4 xhigh
  2. 要最强 Claude 线、仓库级 bugfix、最新可用主力:Claude Opus 4.7
  3. 要更强性价比和国内可用性:Qwen3.6-Plus
  4. 除非有兼容性原因,否则不建议新项目只锁定 Claude Opus 4.6

推断项

下面两项是经验判断,不是我在本次文件里直接引用的统一头对头 benchmark:

  • 中文写作、中文 PRD、中文技术方案润色:我仍然会把 Qwen3.6-Plus 放在很有竞争力的位置。
  • 纯英文复杂工程协作、长链工具执行、跨文件修复:我会优先在 GPT-5.4 xhighClaude Opus 4.7 之间做 A/B。

如果你的目标是“写代码”

一个容易忽略的点:

  • Qwen3.6-Plus 是通用推理 / agent 强模型。
  • 如果你要的是更纯粹的 coding 选型,阿里云官方文档会同时推荐 qwen3-coder-nextqwen3-coder-plus 这一类代码向模型。

也就是说,如果你在阿里云生态里做编程助手,Qwen3.6-Plus 不一定永远是最佳单点答案,它更像“通用能力和编码能力兼顾”的模型。

选型建议

适合直接选 GPT-5.4 xhigh 的情况

  • 你要最强终端式 coding
  • 你主要做复杂仓库级 agent
  • 你需要强终端执行、强多步任务完成率

适合直接选 Claude Opus 4.7 的情况

  • 你已经在 Claude 工作流里
  • 你主要做 GitHub issue 修复、复杂代码改动、长文档知识工作
  • 你希望直接站在 Claude 线的当前主力模型上

适合直接选 Qwen3.6-Plus 的情况

  • 你在国内或阿里云生态
  • 你想要 1M 上下文,但又不想把预算抬太高
  • 你更看重中文体验、接入便利、模型性价比

只有这些情况才继续优先看 Opus 4.6

  • 你已经针对 Opus 4.6 做了大量流程调优
  • 你更在意沿用现有 Claude 工作流,而不是立刻迁移
  • 你要把它当作 Opus 4.7 的前代参考线来比较

最后的简版结论

  • 最强终端式 coding:GPT-5.4 xhigh
  • 最强 GitHub issue 修复 / Claude 主力:Claude Opus 4.7
  • 最优性价比:Qwen3.6-Plus
  • Claude Opus 4.6 仍强,但它现在更像 Opus 4.7 的前代参考线,而不是新项目首选

来源