Codex for Mac 新增 Computer Use

Codex for Mac 新增 Computer Use

OpenAI 新版 Codex for Mac 加入的 Computer Use 功能,已经把 macOS 桌面代理从演示能力推向更接近可实际使用的自动化工具。

Codex for Mac 新加入的 Computer Use 功能,核心亮点不只是“能点按钮”,而是它能在后台同时操作多个 Mac 应用,并且不必把应用强行切到前台。对日常需要跨应用整理信息、执行重复操作的用户来说,这意味着桌面代理第一次开始具备真正可用的工作流价值。

这项能力之所以比常见的截图点击式代理更强,关键在于它大量利用了 macOS 的辅助功能层级,也就是 accessibility tree。借助这套结构化界面信息,Codex 不只是“看见屏幕”,而是能更细地理解窗口里的按钮、文本框和控件层次,因此在复杂应用里往往比单纯依赖坐标点击的方案更稳定、更精准。

原文还提到,这套能力延续了 Sky 团队此前的技术路线,而 OpenAI 在 Codex for Mac 里进一步把它做成了更完整的桌面体验,包括更顺手的权限引导、可视化的虚拟光标,以及在后台并行处理多个应用的交互方式。相比只会偶尔调用 AppleScript 或模拟点击的方案,这种实现更接近真正的桌面代理。

作者在实测中让 Codex 控制 Music、Slack、Ivory、Unread 和 Shortcuts 等多款应用:既能在 Music 里直接打开专辑并播放音乐,也能同时浏览多个信息流后汇总重点,还能批量安装和验证捷径文件。虽然它还达不到熟练用户手动操作的速度,但在没有 API 或 CLI 的图形界面里,已经展现出比同类工具更强的实用性。

来源:MacStories