Qwen3.7 Max 编程榜单升到第二，但接入 Codex 仍有工具调用稳定性问题

新闻资讯 2026-05-28 收藏

Qwen3.7 Max 在多项编程榜单里冲到前列，一句话网页和小游戏测试也能跑通，但长任务接入 Codex 后仍会碰到环境变量配置和工具调用 400 报错，离稳定替代 GPT-5.5 还有距离。

Qwen3.7 Max 最近在编程榜单里的位置明显上去了。原文引用的 5 月 26 日榜单里，它在综合排名上只落后于 Claude Opus 4.7，在 Terminal Bench、SWE Bench 这类偏代码的评测里也排到国产模型前列。真正值得 Mac 开发者关注的，不只是它又往前冲了一位，而是它接进 Codex 之后，能不能稳定承担真实工作流。

这篇实测围绕两件事展开：一是它单独做网页和小游戏时，完成度到底能不能追上 GPT-5.5、Claude Opus 4.7 和 Gemini 3.5 Flash；二是把它接进 Codex 之后，能不能把这种纸面成绩转成更长的代理任务。

免费额度先把试错门槛压低

Qwen3.7 Max 现在可以通过阿里云百炼拿到 100 万免费 Token，现阶段输入价格为每百万 Token 6 元，输出价格为每百万 Token 18 元。新用户还能用 10 元月费换 20 元额度，但半价节省计划只能买一个档位，不能把多个优惠包叠加。

如果只看账面成本，它并不是最便宜的一档，但和 Claude Opus 4.7、GPT-5.5 这类高价代码模型相比，试错门槛确实低不少。对想给 Codex 找替代模型、又不想先烧一大笔额度的人来说，这一点很现实。

了一个细节：百炼的优惠计划不能层层叠加，便宜并不等于可以无限低成本试错。把价格、免费额度和后续稳定性一起看，Qwen3.7 Max 现阶段更像值得认真试用的候选，而不是已经可以无脑切换的默认选项。

一句话网页测试能跑通，但不是场场都赢

原文先拿几个一句话提示词的小项目做对比，包括液体晃动动画、六边形 2048、地铁博物馆网站和浏览器操作系统界面。Qwen3.7 Max 的特点是基础完成度不差。液体动画能正常运行，还主动加了颜色、晃动和液量调节；六边形 2048 也能玩，只是规则判断偶尔会出错。

但它并没有在每一轮里稳定压过其他模型。六边形 2048 这一轮，Claude Opus 4.7 对蜂巢格移动规则的理解更完整；GPT-5.5 借助 Codex 可以自己打开浏览器预览、抓控制台信息再修代码，最终成品也更成熟。到了地铁博物馆和浏览器 OS 这类更看信息组织和视觉设计的测试里，Qwen3.7 Max 也没有拉开明显优势，反而更容易受提示词质量影响。

放进 Codex 之后，上限变高，问题也更集中

真正有意思的部分出现在把 Qwen3.7 Max 接进 Codex 之后。按原文测试，模型切到自定义提供商后，先要同时改 ~/.codex/config.toml 和系统环境变量，否则会反复遇到 CODEX Missing environment variable。配置完成后，终端版 Codex 和桌面版 Codex App 都能识别这套自定义模型。

接入 Codex 再配合前端设计类 Skill 后，同样的提示词通常比直接放在网页端更容易做出完整成品，因为任务会进入多步流程，模型会跟着规划、生成、检查再回修。也正是在这里，Qwen3.7 Max 的上限看起来比单轮对话更高。

问题也在这一阶段暴露得更明显。原文测试中，只要任务进入工具调用，就反复碰到 stream disconnected before completion: <400> InternalError.Algo.InvalidParameter: The "function.arguments" parameter of the code model must be in JSON format. 这类报错。它意味着模型能对话，不等于能稳定跑 Codex 的 agent 工具链；一旦任务开始频繁读文件、改代码或调用专门工具，连接稳定性就会先成为瓶颈。

现阶段更像值得尝试的候选，而不是稳定替代品

把几轮测试放在一起看，Qwen3.7 Max 确实已经进到值得认真试用的一档。它在排行榜上的位置、网页生成的基础完成度，以及接进 Codex 之后的潜力，都说明这代模型比前代更接近真实开发使用场景。

但原文给出的结论也很克制：它还不能稳定替代 GPT-5.5。简单任务能跑，长任务也能看到潜力，可一旦进入 agent 工具调用，接口兼容和流式输出稳定性仍会先出问题。对把 Mac 当长期开发工作台的人来说，现阶段更稳妥的做法仍然是把它当成低成本候选模型来试，而不是直接接管整条 Codex 工作流。