Operator 背后的技术：Computer

Operator 背后的核心是 OpenAI 新研发的 Computer-Using Agent (CUA) 模型。CUA 结合了 GPT-4o 的视觉理解能力以及强化学习训练得到的高级推理能力，能够自主与图形用户界面（GUI）进行交互。

CUA 的工作流程可以概括为三大步骤：

CUA 会实时截取当前屏幕快照，并将其作为上下文输入模型，从而理解当前任务所处的状态。

CUA 通过链式思维（Chain-of-Thought, CoT）逐步规划操作步骤，并根据历史操作和视觉变化进行实时调整与自我修正。

CUA 控制鼠标和键盘，进行点击、滚动、输入等操作直至任务完成。如遇敏感操作（如登录、验证码处理等），它会主动寻求用户确认。

例如在一个演示中，用户命令 Operator：

“订一张今晚7点在 Beretta 的双人位。”

Operator 随即打开浏览器，搜索 Beretta 并识别出网页错误地点（默认显示弗吉尼亚州），随后自动修正为旧金山地址，并完成预订流程。这种灵活纠错能力，正是 CUA 的核心优势。

CUA 在多个基准测试中的表现显著超越传统方法：

值得注意的是，OpenAI 在测试中不仅仅评估了网页操作，也尝试了完整操作系统环境下的模拟任务。尽管目前操作系统上的成功率只有 38.1%，还未达到可用阶段，但这表明未来 CUA 有望成为全能型智能体。

同时，任务执行步数对成功率也有明显影响。从下图可以看出，当执行步骤控制在 10~100 步时，成功率从 10% 提升至 38%。但与人类 72.4% 的成功率相比，CUA 仍有很大的进步空间。

为了进一步优化体验，未来可能会对常见任务进行 RL 微调，从而在减少执行步数的同时提升成功率。

Agent 时代真的来了？

OpenAI 早在内部将人工智能的发展划分为五个等级：

Operator 的发布，意味着 OpenAI 已正式跨入第三级——Agent 智能体阶段。

接下来几周/几个月，OpenAI 将逐步扩展智能体的操作空间，从网页浏览延伸到更多任务场景，真正开启“自主软件操作”的新时代。

有不少人认为，2025 年将成为“智能体元年”。从 OpenAI 到 Google、Anthropic，再到国内各大厂商，都在押注 Agent 技术。

个人认为，未来十年将是智能体快速发展的黄金时代。但要真正让 Agent 成为工作、生活中的得力助手，仍需要大量工程实践与系统优化。

只有当智能体脱离“演示体验”，真正做到稳定、可靠、高效时，我们才能真正迎来一个由 AI 助手协同完成任务的世界。

也许那时，我们才真的“把事情变得有趣”——而不只是“让人类更省事”。