Qwen3.7 Max 编程榜单升到第二,但接入 Codex 仍有工具调用稳定性问题

Qwen3.7 Max 在多项编程榜单里冲到前列,一句话网页和小游戏测试也能跑通,但长任务接入 Codex 后仍会碰到环境变量配置和工具调用 400 报错,离稳定替代 GPT-5.5 还有距离。
Qwen3.7 Max 最近在编程榜单里的位置明显上去了。原文引用的 5 月 26 日榜单里,它在综合排名上只落后于 Claude Opus 4.7,在 Terminal Bench、SWE Bench 这类偏代码的评测里也排到国产模型前列。真正值得 Mac 开发者关注的,不只是它又往前冲了一位,而是它接进 Codex 之后,能不能稳定承担真实工作流。

这篇实测围绕两件事展开:一是它单独做网页和小游戏时,完成度到底能不能追上 GPT-5.5、Claude Opus 4.7 和 Gemini 3.5 Flash;二是把它接进 Codex 之后,能不能把这种纸面成绩转成更长的代理任务。
免费额度先把试错门槛压低
Qwen3.7 Max 现在可以通过阿里云百炼拿到 100 万免费 Token,现阶段输入价格为每百万 Token 6 元,输出价格为每百万 Token 18 元。新用户还能用 10 元月费换 20 元额度,但半价节省计划只能买一个档位,不能把多个优惠包叠加。

如果只看账面成本,它并不是最便宜的一档,但和 Claude Opus 4.7、GPT-5.5 这类高价代码模型相比,试错门槛确实低不少。对想给 Codex 找替代模型、又不想先烧一大笔额度的人来说,这一点很现实。

了一个细节:百炼的优惠计划不能层层叠加,便宜并不等于可以无限低成本试错。把价格、免费额度和后续稳定性一起看,Qwen3.7 Max 现阶段更像值得认真试用的候选,而不是已经可以无脑切换的默认选项。
一句话网页测试能跑通,但不是场场都赢
原文先拿几个一句话提示词的小项目做对比,包括液体晃动动画、六边形 2048、地铁博物馆网站和浏览器操作系统界面。Qwen3.7 Max 的特点是基础完成度不差。液体动画能正常运行,还主动加了颜色、晃动和液量调节;六边形 2048 也能玩,只是规则判断偶尔会出错。

但它并没有在每一轮里稳定压过其他模型。六边形 2048 这一轮,Claude Opus 4.7 对蜂巢格移动规则的理解更完整;GPT-5.5 借助 Codex 可以自己打开浏览器预览、抓控制台信息再修代码,最终成品也更成熟。到了地铁博物馆和浏览器 OS 这类更看信息组织和视觉设计的测试里,Qwen3.7 Max 也没有拉开明显优势,反而更容易受提示词质量影响。
放进 Codex 之后,上限变高,问题也更集中
真正有意思的部分出现在把 Qwen3.7 Max 接进 Codex 之后。按原文测试,模型切到自定义提供商后,先要同时改 ~/.codex/config.toml 和系统环境变量,否则会反复遇到 CODEX Missing environment variable。配置完成后,终端版 Codex 和桌面版 Codex App 都能识别这套自定义模型。
接入 Codex 再配合前端设计类 Skill 后,同样的提示词通常比直接放在网页端更容易做出完整成品,因为任务会进入多步流程,模型会跟着规划、生成、检查再回修。也正是在这里,Qwen3.7 Max 的上限看起来比单轮对话更高。
问题也在这一阶段暴露得更明显。原文测试中,只要任务进入工具调用,就反复碰到 stream disconnected before completion: <400> InternalError.Algo.InvalidParameter: The "function.arguments" parameter of the code model must be in JSON format. 这类报错。它意味着模型能对话,不等于能稳定跑 Codex 的 agent 工具链;一旦任务开始频繁读文件、改代码或调用专门工具,连接稳定性就会先成为瓶颈。
现阶段更像值得尝试的候选,而不是稳定替代品
把几轮测试放在一起看,Qwen3.7 Max 确实已经进到值得认真试用的一档。它在排行榜上的位置、网页生成的基础完成度,以及接进 Codex 之后的潜力,都说明这代模型比前代更接近真实开发使用场景。
但原文给出的结论也很克制:它还不能稳定替代 GPT-5.5。简单任务能跑,长任务也能看到潜力,可一旦进入 agent 工具调用,接口兼容和流式输出稳定性仍会先出问题。对把 Mac 当长期开发工作台的人来说,现阶段更稳妥的做法仍然是把它当成低成本候选模型来试,而不是直接接管整条 Codex 工作流。