AI
GPT-5.4 xhigh、Qwen3.6-Plus、Claude Opus 4.6、Claude Opus 4.7 对比
GPT-5.4 xhigh指的是:GPT-5.4+reasoning.effort=xhigh。xhigh是推理档位,不是单独的底模。Claude Opus 4.6截至 2026-04-20 已不是最新 Opus。Anthropic 已在 2026-04-16 发布Claude Opus 4.7。
一句话结论
- 要终端式 coding、复杂多步执行、跨工具稳定性:优先看
GPT-5.4 xhigh。 - 要 GitHub issue 修复、仓库级 bugfix、Claude 生态里的最新主力模型:优先看
Claude Opus 4.7。 - 要性价比、1M 长上下文、阿里云接入、中文开发环境:优先看
Qwen3.6-Plus。 Claude Opus 4.6仍然强,尤其在长上下文一致性上有代表性成绩,但从官方定位到最新公开 benchmark,Opus 4.7已经是4.6的直接升级版。
核心规格
| 维度 | GPT-5.4 xhigh | Qwen3.6-Plus | Claude Opus 4.6 | Claude Opus 4.7 |
|---|---|---|---|---|
| 官方定位 | 复杂专业工作、agent、coding | 通用推理 + agent + 多模态 | 复杂 agent、coding、长周期任务 | Claude 当前最强通用可用模型,主打复杂推理与 agentic coding |
| 推理模式 | none/low/medium/high/xhigh |
默认开启思考模式 | adaptive thinking / extended thinking |
adaptive thinking + effort,新增 xhigh |
| 上下文窗口 | 1,050,000 | 1,000,000 | 1M | 1M |
| 最大输出 | 128,000 | 65,536 | 128k | 128k |
| 公开价格 | $2.50 输入 / $15 输出 | 阿里云国际区:0-256K 为 3.7471 元输入 / 22.4826 元输出;256K-1M 为 14.9884 元输入 / 44.965 元输出 | $5 输入 / $25 输出 | $5 输入 / $25 输出 |
| 长上下文定价备注 | 超过标准 272K 窗口后,按更高倍率计费 | 256K 以上进入更高阶梯 | 1M 窗口按标准价 | 1M 窗口按标准价 |
| 额外特点 | OpenAI 终端 agent 指标强 | 国内接入和性价比优势明显 | 长上下文一致性强,4.7 的直接前代 | 更高分辨率视觉、更长任务预算、直接升级 4.6 |
Benchmark 速览
注意:下面分数都来自厂商官方,但不完全是同一套 harness、同一套 prompt、同一套推理预算,适合看趋势,不适合把 1 到 2 分的差距当成严格胜负。为便于横向比较,下面统一写成纯数字;若无额外说明,可按百分比口径理解。
补充:为保持 GPT-5.4 xhigh 和 Qwen3.6-Plus 的目标型号一致,表中混合使用了 OpenAI、Qwen、Anthropic 官方页面。Opus 4.6 / 4.7 的多项数字使用 Anthropic 2026-04-16 发布页里的最新对照图口径,因此个别数值会和更早的单模型发布页略有差异。
| Benchmark | GPT-5.4 xhigh | Qwen3.6-Plus | Claude Opus 4.6 | Claude Opus 4.7 |
|---|---|---|---|---|
| SWE-Bench Verified | 未见同口径官方公开值 | 78.8 | 80.8 | 87.6 |
| SWE-Bench Pro | 57.7 | 56.6 | 53.4 | 64.3 |
| Terminal-Bench 2.0 | 75.1 | 61.6 | 65.4 | 69.4 |
| MCP-Atlas | 67.2 | 74.1 | 75.8 | 77.3 |
| HLE with tools | 52.1 | 50.6 | 53.3 | 54.7 |
| GPQA Diamond / GPQA | 93.0 | 90.4 | 91.3 | 94.2 |
| OSWorld-Verified | 75.0 | 62.5 | 72.7 | 78.0 |
补充说明:
GPT-5.4 xhigh这一格没有继续留-,而是改成未见同口径官方公开值。原因是截至2026-04-20,OpenAI 官方未在GPT-5.4页面公开与本表同口径的SWE-Bench Verified分数,而且 OpenAI 在2026-02-23明确表示不再建议把SWE-Bench Verified作为前沿 coding 主指标。Qwen3.6-Plus官方博客公开的是GPQA = 90.4,未明确写成GPQA Diamond,因此这里用GPQA Diamond / GPQA并列标注,避免继续留空。
测试项说明
| 测试项 | 主要测试什么 | 更偏向什么场景 |
|---|---|---|
| SWE-Bench Verified | 在真实 GitHub issue 上修复代码并通过测试 | 工程修复、代码理解、单仓库 coding |
| SWE-Bench Pro | 更难、更贴近真实开发环境的工程修复题 | 高难 coding agent、复杂项目维护 |
| Terminal-Bench 2.0 | 在终端环境里执行多步任务、跑命令、改文件、完成目标 | 终端 agent、DevOps 式自动执行 |
| MCP-Atlas | 使用外部工具、MCP 服务和多工具协作完成任务 | 工具调用型 agent、工作流编排 |
| HLE with tools | 高难知识与推理题,并允许调用工具辅助 | 深度研究、复杂分析、知识工作 |
| GPQA Diamond | 研究生级科学问答,强调高强度推理 | 学术推理、专业问答 |
| OSWorld-Verified | 在桌面/操作系统环境里执行 GUI 任务 | 桌面 agent、跨应用操作 |
Anthropic 新增信息
1. 为什么现在应优先看 Opus 4.7
- 对“真实 GitHub issue 修复”这类 agentic coding 任务,
Opus 4.7的SWE-Bench Pro达到64.3,相比Opus 4.6的53.4是明显跃升。 - 在
SWE-Bench Verified上,Opus 4.7也从Opus 4.6的80.8提升到87.6。 - Anthropic 官方文档明确把
Opus 4.7定义为Opus 4.6的直接升级版,并强调它在 agentic coding 上有明显进步。 - 如果你的 agent 主要工作是读仓库、改代码、跑测试、解决 issue,那么从
4.6升到4.7基本是推荐动作,而不是可选动作。
2. Opus 4.6 仍然强的地方
Opus 4.6在SWE-Bench Verified上仍然有80.8,放在公开通用可用模型里依然是强成绩。Opus 4.6在 1M 长上下文上的代表性成绩是MRCR v2 8-needle / 1M = 76。这也是它“长上下文一致性强”的一个官方支撑点。- 很多人会把
Opus 4.6归为“长文档、长链条任务里更稳、更连贯”的那类模型。这里我能直接给出的官方依据是长上下文一致性成绩;“更会处理模糊提示”这部分更接近经验总结,而不是单一 benchmark。
3. Mythos Preview 说明了上限在哪里
- Anthropic 在
Project Glasswing里给出的Claude Mythos Preview分数更高:SWE-Bench Verified 93.9、SWE-Bench Pro 77.8、Terminal-Bench 2.0 82.0。 - 这说明
Opus 4.6虽然强,但不是 Anthropic 现阶段能力天花板;Opus 4.7也不是 Mythos 级别。 - 但
Mythos Preview是受限研究预览,不是通用可用模型,所以如果你是实际选型,真正该比较的是GPT-5.4 xhigh、Qwen3.6-Plus、Opus 4.6、Opus 4.7。
Opus 4.7 补充评测
下面这些是 Anthropic 在 2026-04-16 发布页里额外给出的官方评测,更适合看 Opus 4.7 相比 4.6 的升级方向。
| 测试项 | Claude Opus 4.7 | Claude Opus 4.6 | GPT-5.4 | 说明 |
|---|---|---|---|---|
| GDPVal-AA | 1753 | 1619 | 1674 | 经济价值型知识工作,4.7 高于 4.6 和 GPT-5.4 |
| OfficeQA Pro | 80.6 | 57.1 | 51.1 | 文档推理与企业文档理解,4.7 提升很大 |
| GraphWalks Parents 1M | 75.1 | 71.1 | - | 长上下文图遍历推理 |
| GraphWalks BFS 1M | 58.6 | 41.2 | - | 长上下文多跳推理,4.7 明显强于 4.6 |
| Vending-Bench 2 | 10937 | 8018 | - | 长期连贯执行,余额越高越好 |
| SWE-Bench Multilingual | 80.5 | 77.8 | - | 多语言代码修复 |
| SWE-Bench Multimodal | 34.5 | 27.1 | - | 多模态代码修复,Anthropic 内部实现 |
按场景排序
1. 终端式 coding agent
GPT-5.4 xhighClaude Opus 4.7Claude Opus 4.6Qwen3.6-Plus
依据:按当前公开数字,Terminal-Bench 2.0 大致是 75.1 / 69.4 / 65.4 / 61.6。如果你主要工作流是“读仓库 -> 改代码 -> 跑命令 -> 迭代修复”,GPT-5.4 xhigh 目前仍然最稳,但 Opus 4.7 已经明显强于 4.6。
2. GitHub issue 修复 / 仓库级 bugfix
Claude Opus 4.7GPT-5.4 xhighQwen3.6-PlusClaude Opus 4.6
依据:SWE-Bench Pro 大致是 64.3 / 57.7 / 56.6 / 53.4。如果你的核心任务是“解决真实 issue、提交修复、跑回归”,Opus 4.7 现在是更值得优先试的那个 Claude。
3. MCP / 工具调用型 agent
Claude Opus 4.7Claude Opus 4.6Qwen3.6-PlusGPT-5.4 xhigh
依据:按当前 Anthropic 官方对照图,MCP-Atlas 大致是 77.3 / 75.8 / 67.2;Qwen 官方博客给出的 Qwen3.6-Plus 是 74.1。这项对 harness 很敏感,所以我更建议把它看成“方向性排序”。
4. 深度研究 / 长文档知识工作
Claude Opus 4.7约等于GPT-5.4 xhighClaude Opus 4.6Qwen3.6-Plus
依据:HLE with tools 大致是 54.7 / 53.3 / 52.1 / 50.6。同时,Opus 4.6 在 MRCR v2 1M 上有 76,Opus 4.7 在 GraphWalks BFS 1M 上进一步到 58.6 vs 41.2,所以这两代 Claude 在长上下文知识工作里都值得重点看。
5. 中文环境 / 国内接入 / 成本敏感
Qwen3.6-PlusGPT-5.4 xhighClaude Opus 4.7Claude Opus 4.6
原因:
Qwen3.6-Plus在阿里云百炼和国内开发工具链里的接入成本最低。- 官方文档也把
qwen3.6-plus列为“深度研发与架构设计”的推荐模型之一。 - OpenAI 的价格低于 Opus 4.7 / 4.6,但国内直接使用和结算链路通常不如阿里云方便。
6. 新项目今天怎么选
- 要最强终端式 coding 与综合执行:
GPT-5.4 xhigh - 要最强 Claude 线、仓库级 bugfix、最新可用主力:
Claude Opus 4.7 - 要更强性价比和国内可用性:
Qwen3.6-Plus - 除非有兼容性原因,否则不建议新项目只锁定
Claude Opus 4.6
推断项
下面两项是经验判断,不是我在本次文件里直接引用的统一头对头 benchmark:
- 中文写作、中文 PRD、中文技术方案润色:我仍然会把
Qwen3.6-Plus放在很有竞争力的位置。 - 纯英文复杂工程协作、长链工具执行、跨文件修复:我会优先在
GPT-5.4 xhigh和Claude Opus 4.7之间做 A/B。
如果你的目标是“写代码”
一个容易忽略的点:
Qwen3.6-Plus是通用推理 / agent 强模型。- 如果你要的是更纯粹的 coding 选型,阿里云官方文档会同时推荐
qwen3-coder-next和qwen3-coder-plus这一类代码向模型。
也就是说,如果你在阿里云生态里做编程助手,Qwen3.6-Plus 不一定永远是最佳单点答案,它更像“通用能力和编码能力兼顾”的模型。
选型建议
适合直接选 GPT-5.4 xhigh 的情况
- 你要最强终端式 coding
- 你主要做复杂仓库级 agent
- 你需要强终端执行、强多步任务完成率
适合直接选 Claude Opus 4.7 的情况
- 你已经在 Claude 工作流里
- 你主要做 GitHub issue 修复、复杂代码改动、长文档知识工作
- 你希望直接站在 Claude 线的当前主力模型上
适合直接选 Qwen3.6-Plus 的情况
- 你在国内或阿里云生态
- 你想要 1M 上下文,但又不想把预算抬太高
- 你更看重中文体验、接入便利、模型性价比
只有这些情况才继续优先看 Opus 4.6
- 你已经针对
Opus 4.6做了大量流程调优 - 你更在意沿用现有 Claude 工作流,而不是立刻迁移
- 你要把它当作
Opus 4.7的前代参考线来比较
最后的简版结论
- 最强终端式 coding:
GPT-5.4 xhigh - 最强 GitHub issue 修复 / Claude 主力:
Claude Opus 4.7 - 最优性价比:
Qwen3.6-Plus Claude Opus 4.6仍强,但它现在更像Opus 4.7的前代参考线,而不是新项目首选
来源
- OpenAI GPT-5.4 model page: https://developers.openai.com/api/docs/models/gpt-5.4
- OpenAI GPT-5.4 mini and nano: https://openai.com/index/introducing-gpt-5-4-mini-and-nano/
- OpenAI GPT-5.4 announcement: https://openai.com/index/introducing-gpt-5-4/
- OpenAI research, Why SWE-bench Verified no longer measures frontier coding capabilities: https://openai.com/research/why-swe-bench-verified-no-longer-measures-frontier-coding-capabilities
- Qwen3.6-Plus 官方博客: https://qwen.ai/blog?id=qwen3.6
- 阿里云百炼模型规格: https://help.aliyun.com/zh/model-studio/models
- 阿里云百炼模型价格: https://help.aliyun.com/zh/model-studio/model-pricing
- 阿里云 Cursor 选型建议: https://help.aliyun.com/zh/model-studio/cursor
- Anthropic Claude models overview: https://platform.claude.com/docs/en/about-claude/models/overview
- Anthropic Claude Opus 4.7 新功能: https://platform.claude.com/docs/zh-CN/about-claude/models/whats-new-claude-4-7
- Anthropic Claude Opus 4.7 announcement: https://www.anthropic.com/news/claude-opus-4-7
- Anthropic Claude Opus 4.6 announcement: https://www.anthropic.com/news/claude-opus-4-6?id=ClaudeOpus4.6
- Anthropic Claude Opus page: https://www.anthropic.com/claude/opus
- Anthropic Project Glasswing: https://www.anthropic.com/glasswing
- Anthropic Claude pricing: https://platform.claude.com/docs/en/about-claude/pricing
- Anthropic Claude 4.6 文档: https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-6