AI 工具推荐之 Agent TARS：字节跳动开源的多模态AI智能体

在人工智能技术迅猛发展的当下，字节跳动推出了一款名为Agent TARS的开源多模态AI智能体，迅速引起了业界和学术界的广泛关注。作为一款基于UI-TARS模型的创新工具，Agent TARS旨在通过自然语言指令实现对计算机的自动化控制，尤其是在图形用户界面（GUI）交互中表现出色。它的开源性质不仅降低了技术应用的门槛，还为开发者提供了广阔的定制空间，推动了AI技术在自动化、用户体验提升以及多领域融合中的发展。

一、背景与定义

1.1 Agent TARS的起源与目标

Agent TARS是字节跳动开发的一款多模态AI智能体，其核心技术基于UI-TARS模型。UI-TARS是一个原生的GUI代理模型，利用视觉语言模型（Vision-Language Model, VLM）处理屏幕截图，并通过自然语言指令执行类似人类的键盘和鼠标操作。这一设计的目标是通过更自然、直观的方式，让用户能够轻松控制计算机，完成从简单文件管理到复杂网页操作的各种任务。

其名称“Agent TARS”灵感来源于科幻电影《星际穿越》中的AI机器人TARS，寓意其作为人类在复杂任务中的得力助手。与传统的基于脚本或规则的自动化工具不同，Agent TARS通过多模态输入（语言指令与视觉信息）的结合，展现了AI在GUI交互领域的突破性进展。无论是打开应用程序、编辑文档，还是在网页上预订机票，用户只需用自然语言描述需求，Agent TARS便能自动完成操作，极大简化了人机交互的流程。

1.2 开源的意义

作为一个开源项目，Agent TARS的代码、模型权重以及相关文档在GitHub和Hugging Face等平台上公开，任何开发者都可以免费下载、使用甚至修改。这种开放性不仅体现了字节跳动对技术共享的承诺，也为全球AI社区提供了一个宝贵的资源。开发者可以根据自身需求定制Agent TARS的功能，或将其集成到其他系统中，从而推动AI技术在更多场景中的落地应用。

开源还带来了另一个重要优势：透明度。通过公开技术细节，Agent TARS接受来自全球开发者的审视和优化，确保其性能和可靠性不断提升。这种开放协作的模式，正是Agent TARS能够在短时间内获得广泛关注的重要原因之一。

二、功能与用例

2.1 核心功能

Agent TARS的功能强大且多样，能够处理多种GUI任务。以下是几个典型的功能示例：

文档编辑：用户只需说“打开‘Documents > Papers’文件夹中的某个Word文档，在其中输入‘hello’，然后保存”，Agent TARS便会自动完成整个操作流程，包括定位文件、启动应用程序、输入文字和保存文档。
网页操作：通过指令“在浏览器中预订从西雅图到纽约的机票”，Agent TARS可以打开浏览器、导航至订票网站、选择日期并完成预订。
文件管理：用户可以要求Agent TARS搜索特定文件、移动文件到指定文件夹或创建新文件夹，这些任务都能快速完成。

这些功能的核心在于Agent TARS能够理解自然语言指令，并将其转化为具体的GUI操作。这种能力不仅提高了操作效率，还降低了用户对技术背景的要求。

2.2 潜在用例

除了上述核心功能，Agent TARS在更多领域中也展现出广阔的应用潜力：

教育领域：在在线教育平台上，Agent TARS可以帮助教师自动化课程管理任务。例如，教师可以指令“将课件上传至学习管理系统并发布作业”，Agent TARS会自动完成这些操作，让教师将更多精力投入到教学设计和学生互动中。
医疗领域：在医院信息系统中，Agent TARS可以协助医护人员快速录入患者信息、查询病历或生成报告。例如，通过指令“打开患者管理系统，输入患者ID并检索最近的检查结果”，医护人员可以大幅减少手动操作时间，提升工作效率。
软件测试：在软件开发中，Agent TARS可以用于自动化GUI测试。通过模拟用户操作（如点击按钮、输入数据等），它能够验证应用程序的交互逻辑是否符合预期，从而提高软件质量并缩短开发周期。

这些用例表明，Agent TARS不仅适用于个人用户，还能在专业领域中发挥重要作用。它的灵活性和适应性，使其成为一个多功能的AI助手。

2.3 Agent Tars 演示视频

三、技术细节与架构

3.1 模型基础

Agent TARS的核心是UI-TARS模型，该模型基于Qwen2-VL构建，提供7B（70亿参数）和72B（720亿参数）两个版本。训练数据规模约为50B个标记，训练过程分为三个阶段：持续预训练、退火和直接偏好优化（DPO）。这种分阶段训练策略确保了模型在感知、推理和执行能力上的全面提升。

UI-TARS的工作流程可以形式化为一个序列：(instruction, (o₁, a₁), (o₂, a₂), …, (oₙ, aₙ))，其中：

instruction 是用户输入的自然语言指令；
oᵢ 是时间步i的屏幕截图（观察）；
aᵢ 是模型根据观察执行的动作，如点击或输入。

3.2 技术创新

UI-TARS的成功离不开以下几个关键技术创新：

3.2.1 增强感知

UI-TARS通过大规模GUI屏幕截图数据集进行训练，数据集包含丰富的元数据，如元素类型、边界框和文本内容。这些数据覆盖了网站、应用程序和操作系统等多种场景，支持多种任务类型，包括：

元素描述：识别屏幕上的按钮、输入框等元素；
密集标注：为屏幕上的每个区域生成详细描述；
状态转换标注：记录操作前后的界面变化；
问答（QA）：回答与屏幕内容相关的问题；
Set-of-Mark（SoM）：标记屏幕上的关键区域。

这种多样化的训练数据，使UI-TARS能够准确理解复杂的GUI环境。

3.2.2 统一动作建模

为了适应不同平台的操作需求，UI-TARS标准化了跨平台动作，包括：

Click(x, y)：点击屏幕上的某个坐标；
Drag(x1, y1, x2, y2)：拖动鼠标从一点到另一点；
Type(content)：输入指定文本；
Finished()：表示任务完成；
CallUser()：在需要用户干预时发出提示。

通过收集大量的动作轨迹数据，UI-TARS能够灵活应对不同操作系统的界面差异。

3.2.3 系统2推理

UI-TARS引入了“系统2推理”机制，通过在每个时间步加入“思想”（thoughts, tᵢ），将其工作流程扩展为：(instruction, (o₁, t₁, a₁), (o₂, t₂, a₂), …, (oₙ, tₙ, aₙ))。这种机制受ReAct框架启发，允许模型在执行任务时进行任务分解、反思和调整。例如，在预订机票时，UI-TARS会先思考“需要打开浏览器”，然后再执行具体操作。这种深思熟虑的决策过程显著提升了其处理复杂任务的能力。

3.2.4 迭代训练

UI-TARS的训练过程在数百个虚拟PC上进行，使用在线轨迹引导生成实时数据。结合反思调优和DPO优化，模型能够从错误中学习并不断改进。例如，当某个操作失败时，UI-TARS会分析原因并调整策略，确保下次执行更准确。

3.3 与其他模型的对比

与GPT-4o或Claude等模型相比，UI-TARS在GUI交互领域的优势在于其原生设计和针对性优化。GPT-4o虽然在通用任务中表现出色，但在GUI环境的感知和动作执行上不如UI-TARS精准。而UI-TARS通过专门的训练数据和技术创新，能够更高效地处理高信息密度的界面，减少对预定义规则的依赖。

四、性能与基准测试

4.1 测试结果

UI-TARS在多个GUI代理基准测试中表现出色，以下是具体数据：

感知能力：
- VisualWebBench：UI-TARS-72B得分82.8，优于Qwen2-VL-7B（73.3）和GPT-4o（78.5）；
- WebSRC：得分89.3，领先于Qwen2-VL-7B（81.8）和GPT-4o（87.7）；
- ScreenQA-short：得分88.6，高于Qwen2-VL-7B（84.9）和GPT-4o（82.3）。
接地能力：
- ScreenSpot Pro：UI-TARS-72B在文本接地和图标接地上的得分分别为50.9和17.5，远超Claude Computer Use（23.4和7.1）。
代理能力：
- OSWorld：UI-TARS-72B-DPO在15步内得分22.7，50步内达到24.6，优于Claude（22.0和14.9）；
- AndroidWorld：UI-TARS-72B-SFT得分46.6，高于GPT-4o（34.5）。

4.2 结果分析

这些测试结果表明，UI-TARS在感知、接地和任务执行方面均达到了行业领先水平。其优越性的背后，是大规模训练数据、系统2推理和统一动作建模的综合作用。例如，在OSWorld测试中，UI-TARS能够在有限步骤内完成复杂任务，这得益于其强大的任务分解和反思能力。而在AndroidWorld测试中，其跨平台适应性进一步凸显了技术优势。

五、应用与未来潜力

5.1 实际应用场景

Agent TARS已经在多个场景中展现出实用价值：

办公自动化：自动化文档编辑、文件搜索和报告生成，提升工作效率。
辅助功能：通过语音指令控制计算机，为视障或行动不便的用户提供便利。
软件测试：自动化GUI测试，降低开发成本。

5.2 未来发展方向

未来，Agent TARS有望在以下领域进一步扩展：

跨平台操作：支持移动设备和游戏环境，实现多模态交互。
物联网集成：与智能家居设备结合，通过语音控制灯光、空调等。
个性化定制：根据用户习惯优化操作流程，提供更智能的体验。

这些发展方向将使Agent TARS在日常生活和专业领域中发挥更大作用。

六、开源与社区影响

Agent TARS的开源性质为其带来了强大的社区支持。开发者可以通过GitHub或Homebrew（brew install --cask agent-tars）轻松安装，社区贡献指南也鼓励更多人参与开发。未来，Agent TARS计划优化代理框架并扩展应用场景，邀请全球开发者共同推动多模态AI的进步。

官网地址： github地址：

七、结语

Agent TARS作为字节跳动开源的多模态AI智能体，凭借其卓越的GUI交互能力和开放性，在AI领域中占据了独特地位。它不仅为自动化和用户体验的提升提供了强大工具，也为AI与人类交互的未来开辟了新的可能性。随着技术的不断进步，Agent TARS有望在更多领域中带来革命性改变，成为AI技术发展的重要里程碑。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2025-04-10，如有侵权请联系 cloudcommunity@tencent 删除开源agent工具模型数据

科技改变生活-雨落星辰 - 所有的伟大,都源于一个勇敢的开始

AI 工具推荐之 Agent TARS：字节跳动开源的多模态AI智能体