OpenAI 新版 Codex for Mac 加入的 Computer Use 功能,已经把 macOS 桌面代理从演示能力推向更接近可实际使用的自动化工具。

Codex for Mac 新加入的 Computer Use 功能,核心亮点不只是“能点按钮”,而是它能在后台同时操作多个 Mac 应用,并且不必把应用强行切到前台。对日常需要跨应用整理信息、执行重复操作的用户来说,这意味着桌面代理第一次开始具备真正可用的工作流价值。

这项能力之所以比常见的截图点击式代理更强,关键在于它大量利用了 macOS 的辅助功能层级,也就是 accessibility tree。借助这套结构化界面信息,Codex 不只是“看见屏幕”,而是能更细地理解窗口里的按钮、文本框和控件层次,因此在复杂应用里往往比单纯依赖坐标点击的方案更稳定、更精准。

原文还提到,这套能力延续了 Sky 团队此前的技术路线,而 OpenAI 在 Codex for Mac 里进一步把它做成了更完整的桌面体验,包括更顺手的权限引导、可视化的虚拟光标,以及在后台并行处理多个应用的交互方式。相比只会偶尔调用 AppleScript 或模拟点击的方案,这种实现更接近真正的桌面代理。

作者在实测中让 Codex 控制 Music、Slack、Ivory、Unread 和 Shortcuts 等多款应用:既能在 Music 里直接打开专辑并播放音乐,也能同时浏览多个信息流后汇总重点,还能批量安装和验证捷径文件。虽然它还达不到熟练用户手动操作的速度,但在没有 API 或 CLI 的图形界面里,已经展现出比同类工具更强的实用性。

来源:MacStories