最新消息:雨落星辰是一个专注网站SEO优化、网站SEO诊断、搜索引擎研究、网络营销推广、网站策划运营及站长类的自媒体原创博客

Operator 背后的技术:Computer

网站源码admin3浏览0评论

Operator 背后的技术:Computer

Operator 背后的核心是 OpenAI 新研发的 Computer-Using Agent (CUA) 模型。CUA 结合了 GPT-4o 的视觉理解能力以及强化学习训练得到的高级推理能力,能够自主与图形用户界面(GUI)进行交互。

CUA 的工作流程可以概括为三大步骤:

1. 感知(Perception)

CUA 会实时截取当前屏幕快照,并将其作为上下文输入模型,从而理解当前任务所处的状态。

2. 推理(Reasoning)

CUA 通过链式思维(Chain-of-Thought, CoT)逐步规划操作步骤,并根据历史操作和视觉变化进行实时调整与自我修正。

3. 操作(Action)

CUA 控制鼠标和键盘,进行点击、滚动、输入等操作直至任务完成。如遇敏感操作(如登录、验证码处理等),它会主动寻求用户确认。

例如在一个演示中,用户命令 Operator:

“订一张今晚7点在 Beretta 的双人位。”

Operator 随即打开浏览器,搜索 Beretta 并识别出网页错误地点(默认显示弗吉尼亚州),随后自动修正为旧金山地址,并完成预订流程。这种灵活纠错能力,正是 CUA 的核心优势。


性能表现:大幅超越以往方法

CUA 在多个基准测试中的表现显著超越传统方法:

  • Computer Use 任务成功率:38.1%(领先于此前最佳 22.0%)
  • Browser Use 任务成功率:58.1%(显著高于之前的 36.2%)

值得注意的是,OpenAI 在测试中不仅仅评估了网页操作,也尝试了完整操作系统环境下的模拟任务。尽管目前操作系统上的成功率只有 38.1%,还未达到可用阶段,但这表明未来 CUA 有望成为全能型智能体。

同时,任务执行步数对成功率也有明显影响。从下图可以看出,当执行步骤控制在 10~100 步时,成功率从 10% 提升至 38%。但与人类 72.4% 的成功率相比,CUA 仍有很大的进步空间。

为了进一步优化体验,未来可能会对常见任务进行 RL 微调,从而在减少执行步数的同时提升成功率。


Agent 时代真的来了?

OpenAI 早在内部将人工智能的发展划分为五个等级:

  1. 聊天机器人(Chatbots):当前主流大模型所处阶段。
  2. 推理者(Reasoners):具备较强逻辑与推理能力。
  3. 智能体(Agents):具备感知-推理-行动闭环,能自主执行任务。
  4. 创新者(Innovators):能够独立产生新知识和想法。
  5. 组织者(Organizations):具备协同能力,提升复杂系统效率。

Operator 的发布,意味着 OpenAI 已正式跨入第三级——Agent 智能体阶段

接下来几周/几个月,OpenAI 将逐步扩展智能体的操作空间,从网页浏览延伸到更多任务场景,真正开启“自主软件操作”的新时代。


写在最后:Agent 黄金十年

有不少人认为,2025 年将成为“智能体元年”。从 OpenAI 到 Google、Anthropic,再到国内各大厂商,都在押注 Agent 技术。

个人认为,未来十年将是智能体快速发展的黄金时代。但要真正让 Agent 成为工作、生活中的得力助手,仍需要大量工程实践与系统优化。

只有当智能体脱离“演示体验”,真正做到稳定、可靠、高效时,我们才能真正迎来一个由 AI 助手协同完成任务的世界。

也许那时,我们才真的“把事情变得有趣”——而不只是“让人类更省事”。

与本文相关的文章

发布评论

评论列表(0)

  1. 暂无评论