Agent-S3 开源 GUI Agent 框架详解-创锋一号

Agent-S3 开源 GUI Agent 框架详解

研究对象：Agent-S3（Simular AI 开发的 GUI 自动化 Agent 框架）
核心论文：arXiv:2510.02250 — “Scaling Agents for Computer Use”

一、项目概况

项目	信息
项目名称	Agent S（当前版本：Agent S3）
开发团队	Simular Research / Simular AI
论文发表	2025 年 10 月 2 日（v1），2026 年 2 月 3 日（v2）
开源仓库	https://github.com/simular-ai/Agent-S（11.8k Stars, 1.4k Forks, 353 Commits）
PyPI 包名	gui-agents
论文链接	https://arxiv.org/abs/2510.02250
官方博客	https://www.simular.ai/articles/agent-s3
许可协议	Apache 2.0
支持平台	Linux、macOS（Darwin）、Windows
Discord 社区	https://discord.gg/E2XfsK9fPV

核心定位

Agent S3 是一个开源的 GUI Agent 框架，目标是"让 AI 像人类一样操作电脑"。它通过 Agent-Computer Interface (ACI) 使 Agent 能够自主理解和操控桌面/网页 GUI 界面，完成各种日常数字化任务。

二、演进历程（S1 → S2 → S3）

Agent S1（2024 年 10 月发布）

论文：arXiv:2410.08164（ICLR 2025 收录，获 Best Paper Award）
架构：Graph Search Agent（图搜索 + 多模态感知）
OSWorld 成绩：20.6%
核心贡献：提出 Agent-Computer Interface（ACI）概念，开创开源 GUI Agent 方向

Agent S2（2025 年 3 月/4 月发布）

论文：arXiv:2504.00906（COLM 2025 收录）
架构：Compositional Generalist-Specialist（组合式通用+专用框架）
- Manager（规划）+ Worker（执行）+ Grounding（定位）+ Memory（记忆）
OSWorld 成绩：48.8%（后提升至 SOTA）
核心贡献：Compositional Grounding and Planning，超越 OpenAI CUA/Operator 和 Anthropic Claude 3.7 Sonnet Computer-Use

Agent S2.5（2025 年 8 月发布）

更简单、更好、更快
OSWorld-Verified 新 SOTA

Agent S3（2025 年 10 月发布）— 本次调研重点

论文：arXiv:2510.02250 — “The Unreasonable Effectiveness of Scaling Agents for Computer Use”
架构：简化框架 + 原生 CodeAgent +Behavior Best-of-N (bBoN)
OSWorld 成绩：单 rollout 66%，bBoN 72.6%（首次超越人类基线 72.36%）
核心贡献：首次提出 GUI Agent 的"横向扩展"（wide-scaling）框架

三、Agent-S3 核心架构

3.1 整体架构

Agent S3 采用简化且模块化的架构设计：

┌─────────────────────────────────────────────────┐ │ Agent S3 │ ├─────────────────────────────────────────────────┤ │ │ │ ┌──────────────┐ ┌──────────────────────┐ │ │ │ Main Agent │───▶│ Grounding Agent │ │ │ │ (GPT-5/Claude)│ │ (UI-TARS-1.5-7B) │ │ │ └──────┬───────┘ └──────────┬───────────┘ │ │ │ │ │ │ ▼ ▼ │ │ ┌──────────────┐ ┌──────────────────────┐ │ │ │ Reflection │ │ CodeAgent │ │ │ │ Agent │ │ (Python/Bash) │ │ │ └──────────────┘ └──────────────────────┘ │ │ │ │ ┌──────────────────────────────────────────┐ │ │ │ Behavior Best-of-N (bBoN) Pipeline │ │ │ │ ┌──────────────┐ ┌──────────────┐ │ │ │ │ │Behavior │───▶│ Comparative │ │ │ │ │ │Narrator │ │ Judge │ │ │ │ │ └──────────────┘ └──────────────┘ │ │ │ └──────────────────────────────────────────┘ │ │ │ └─────────────────────────────────────────────────┘

3.2 主要组件

Main Agent（主 Agent）

使用大语言模型（推荐 GPT-5 或 Claude）进行推理和决策
负责任务理解、步骤规划、决策制定
支持多模型后端：OpenAI、Anthropic、Gemini、OpenRouter、Azure OpenAI、vLLM 等
维护轨迹（trajectory），最多保留 8 步图像历史

Grounding Agent（定位 Agent / OSWorldACI）

负责将 Agent 的意图动作翻译为可执行的 PyAutoGUI 代码
推荐模型：ByteDance 的 UI-TARS-1.5-7B（部署在 HuggingFace Inference Endpoints）
基于视觉和文本双重定位（Visual and Text Grounding）
不依赖无障碍树（accessibility tree）或硬编码元素 ID
输出坐标分辨率：1920x1080（UI-TARS-1.5-7B）或 1000x1000（UI-TARS-72B）

Reflection Agent（反思 Agent）

在 Agent 执行过程中实时介入
检查每一步操作是否正确，纠正偏差
可启用/禁用（--enable_reflection）
与 bBoN 不同：Reflection 是执行时的，bBoN 是执行后的

CodeAgent（代码 Agent）

S3 新增功能
支持在本地执行 Python 和 Bash 代码
适用于数据处理、文件操作、系统自动化等场景
可通过call_code_agent动作触发
安全警告：在本地机器上执行任意代码，仅限可信环境使用
Bash 脚本有 30 秒超时限制

3.3 Behavior Best-of-N (bBoN) — 核心创新

这是 Agent S3 最具创新性的特性，解决了 GUI Agent 的"高方差"瓶颈。

问题定义

GUI Agent 在长程任务中表现不稳定（high variance）
同样的 Agent 有时成功，有时完全失败
微小的错误（误点、延迟响应、弹窗）会随时间累积放大
传统的单 rollout 方法即使使用更强模型，也不够一致

bBoN 解决方案

核心思路：运行 N 个独立 rollout，从中选择最好的结果。

流程（两阶段后处理管道）：

阶段1：Behavior Narrator（行为叙事器） ├── 分析每次 rollout 的 before/after 截图 ├── 分析执行的 PyAutoGUI 代码 ├── 生成"事实描述"（fact captions）—— 每步操作的实际改变 └── 串联形成"行为叙事"（behavior narrative） （简洁、可解释、可比较） 阶段2：Comparative Judge（对比评判器） ├── 接收多个 rollout 的行为叙事 ├── 使用 VLM（视觉语言模型）进行对比评估 ├── 基于事实描述进行多选择判断 └── 选出最优的 rollout

关键设计细节

事实描述（Fact Captions）：
- 将 noisy 的逐步骤记录转化为关于"每步发生了什么"的简洁陈述
- 独立于 Agent 意图（ground truth）
- 关注直接影响任务成功的信息
对比评判（Comparative Judging）：
- 不使用独立打分，而是跨 rollout 对比
- 引用各 rollout 中的事实进行推理
- 多选择格式（multi-choice）更可靠、更可扩展
评判器对齐：
- 在评判器可提升表现的 44% OSWorld 任务中，评判器正确选择率为 78.4%
- 人工复核发现实际正确率为 92.8%
- 暗示 OSWorld 真实性能可能接近 76.3%

四、性能与基准测试

4.1 OSWorld 基准

模型/方法	成绩	说明
Agent S3 + bBoN	72.6%	首次超越人类基线
人类基线	72.36%	—
Agent S3（单 rollout）	66%	已超之前 SOTA
GTA1 w/ GPT-5	63.4%	之前 SOTA
Claude Sonnet 4.5	61.4%	—
Agent S2	48.8%	—
Agent S1	20.6%	—

4.2 跨平台泛化（零样本）

基准	Agent S3 单 rollout	+ bBoN
WindowsAgentArena	50.2%	56.6%（3 rollouts）
AndroidWorld	68.1%	71.6%

4.3 演进趋势图

OSWorld 成绩演进 72.6% │ ████████████████████ Agent S3 + bBoN (超越人类!) │ 72.4% │ ════════════════════ 人类基线 │ 66.0% │ ████████ Agent S3 (单rollout) │ 63.4% │ ███████ GTA1 + GPT-5 │ 61.4% │ ██████ Claude Sonnet 4.5 │ 48.8% │ ████ Agent S2 │ 20.6% │ █ Agent S1 └─────────────────────────────

五、安装与部署

5.1 环境要求

单显示器：专为单显示器设计
系统支持：Linux、macOS、Windows
依赖：PyTesseract（需额外安装 tesseract OCR）

5.2 安装方式

# 方式一：pip 安装（推荐）pipinstallgui-agents# 方式二：源码安装（开发）gitclone https://github.com/simular-ai/Agent-S.gitcdAgent-S pipinstall-e.# 额外依赖brewinstalltesseract# macOS

5.3 API 配置

# 环境变量exportOPENAI_API_KEY=your_keyexportANTHROPIC_API_KEY=your_keyexportHF_TOKEN=your_key

5.4 推荐配置

agent_s\--provideropenai\--modelgpt-5-2025-08-07\--ground_providerhuggingface\--ground_urlhttp://localhost:8080\--ground_modelui-tars-1.5-7b\--grounding_width1920\--grounding_height1080

5.5 CLI 主要参数

参数	说明	默认值
`--provider`	主模型提供商	openai
`--model`	主模型名称	gpt-5-2025-08-07
`--ground_provider`	定位模型提供商	必填
`--ground_url`	定位模型 URL	必填
`--ground_model`	定位模型名称	必填
`--grounding_width/height`	坐标输出分辨率	必填
`--max_trajectory_length`	最大图像轨迹长度	8
`--enable_reflection`	启用反思 Agent	True
`--enable_local_env`	启用本地代码执行	False
`--model_temperature`	模型温度	—

5.6 Simular Cloud

不想本地部署？可以使用 Simular Cloud：

免费：公共计算机（排队制）
付费：专用私有计算机（$50/月起）
支持实时人工干预，浏览器远程访问

六、支持的模型

主模型（推理/决策）

OpenAI（GPT-5, GPT-4o 等）
Anthropic（Claude 系列）
Google Gemini
Azure OpenAI
OpenRouter
vLLM（本地部署）

定位模型（GUI 元素识别）

UI-TARS-1.5-7B（ByteDance/Seed，推荐）
UI-TARS-72B（ByteDance/Seed）
支持通过 HuggingFace Inference Endpoints、TGI、vLLM 等部署

七、SDK 与 API

7.1 Python SDK

fromgui_agents.s3.agents.agent_simportAgentS3fromgui_agents.s3.agents.groundingimportOSWorldACIfromgui_agents.s3.utils.local_envimportLocalEnv# 1. 配置引擎参数engine_params={"engine_type":"openai","model":"gpt-5-2025-08-07",}engine_params_for_grounding={"engine_type":"huggingface","model":"ui-tars-1.5-7b","base_url":"http://localhost:8080","grounding_width":1920,"grounding_height":1080,}# 2. 初始化local_env=LocalEnv()# 可选grounding_agent=OSWorldACI(env=local_env,platform="linux",# darwin, windowsengine_params_for_generation=engine_params,engine_params_for_grounding=engine_params_for_grounding,width=1920,height=1080)agent=AgentS3(engine_params,grounding_agent,platform="linux",max_trajectory_length=8,enable_reflection=True)# 3. 执行任务importpyautogui screenshot=pyautogui.screenshot()obs={"screenshot":screenshot}info,action=agent.predict(instruction="Close VS Code",observation=obs)exec(action[0])

7.2 动作空间

Agent S3 通过 PyAutoGUI 执行以下类型操作：

鼠标点击（click、double_click、right_click）
鼠标移动（moveTo、drag）
键盘输入（typewrite、hotkey、press）
截图
代码执行（CodeAgent）

八、与竞品对比

8.1 主要竞品

维度	Agent S3（Simular）	OpenAI Operator	Anthropic Claude CU
类型	开源框架	闭源产品	闭源产品
OSWorld	72.6%（超越人类）	~61.4%	~61.4%
平台	Linux/Mac/Windows	云端虚拟浏览器	桌面
自定义模型	支持（OpenAI/Anthropic/vLLM等）	仅 OpenAI	仅 Anthropic
本地部署	完全支持	不支持	不支持
bBoN	支持	不支持	不支持
代码执行	支持（可选）	有限	有限
价格	免费（开源）	订阅制	订阅制
研究贡献	学术论文 + 开源	商业产品	商业产品

8.2 Agent S3 的核心优势

开源透明：完整开源，可审计、可定制
超越人类性能：72.6% vs 72.36%（人类）
可扩展性：bBoN 提供可量化的性能提升路径
多模型支持：不绑定单一 LLM 供应商
跨平台：支持三大操作系统
学术研究：顶会论文（ICLR、COLM），有理论支撑

8.3 Agent S3 的局限

需要 GPU 部署定位模型：UI-TARS 需要单独部署
单显示器限制：不支持多显示器环境
安全性：CodeAgent 可执行任意本地代码
API 成本：频繁调用 GPT-5/Claude + 定位模型，token 消耗大
速度：GUI 操作本质较慢，bBoN 需要 N 倍时间
无状态保持：每次运行相对独立，依赖外部持久化

九、应用场景

9.1 软件测试自动化

UI 测试自动化
跨浏览器/跨平台回归测试
异常界面处理

9.2 RPA（机器人流程自动化）

表单填写
数据录入/导出
跨系统数据同步

9.3 研究与评估

GUI Agent 基准测试
Agent 行为分析
模型能力评估

9.4 个人助手

日常桌面任务自动化
文件管理与处理
应用操作代劳

9.5 企业应用

工单处理
数据迁移
报告生成

十、团队与公司背景

Simular AI

信息	详情
公司全称	Simular（The Autonomous Computer Company）
创始人	前 Google DeepMind 研究员
产品线	Agent S（开源框架）、Sai（商业产品）、Simular Cloud（云服务）
旗舰产品	Sai— 始终在线的 AI 同事，运行在私有云桌面

论文作者

Gonzalo Gonzalez-Pumariega, Vincent Tu, Chih-Lun Lee, Jiachen Yang, Ang Li, Xin Eric Wang

十一、技术亮点总结

Behavior Best-of-N (bBoN)：首个针对 GUI Agent 的横向扩展框架，通过多 rollout + 行为叙事 + 对比评判实现性能跃升
首次超越人类：在 OSWorld 基准上达到 72.6%，超过人类基线 72.36%
简化架构：相比 S2 的复杂层级结构，S3 更简单、更快、更灵活
原生 CodeAgent：支持在 GUI 操作之外执行 Python/Bash 代码
强泛化能力：零样本迁移到 WindowsAgentArena（50.2%→56.6%）和 AndroidWorld（68.1%→71.6%）
评判器高对齐：与人类偏好一致性达 92.8%

十二、论文引用

@misc{Agent-S3, title={Scaling Agents for Computer Use}, author={Gonzalo Gonzalez-Pumariega and Vincent Tu and Chih-Lun Lee and Jiachen Yang and Ang Li and Xin Eric Wang}, year={2025}, eprint={2510.02250}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2510.02250}, }

十三、相关链接

资源	链接
GitHub 仓库	https://github.com/simular-ai/Agent-S
论文（arXiv）	https://arxiv.org/abs/2510.02250
官方博客	https://www.simular.ai/articles/agent-s3
官方视频	https://www.youtube.com/watch?v=VHr0a3UBsh4
公司产品	https://www.simular.ai/
Sai 产品	https://www.sai.work/
Simular Cloud	https://cloud.simular.ai/
PyPI 包	https://pypi.org/project/gui-agents/
Discord 社区	https://discord.gg/E2XfsK9fPV
DeepWiki 文档	https://deepwiki.com/simular-ai/Agent-S
OSWorld 基准	https://os-world.github.io/
UI-TARS 模型	https://huggingface.co/ByteDance-Seed/UI-TARS-1.5-7B

十四、结论与展望

Agent-S3 代表了 GUI Agent 领域的重大突破。其核心贡献在于：

证明了 GUI Agent 的扩展定律：与 LLM 类似，GUI Agent 也能通过正确的扩展方式（bBoN）获得显著性能提升
跨越人类门槛：72.6% vs 72.36%，虽然差距不大，但具有标志性意义
开源推动进步：完整的开源实现加速了该领域的研究和应用

未来方向：

bBoN 的 N 越大，性能可能继续提升（理论上限尚不明确）
更高效的评判器设计（降低 bBoN 的额外成本）
多 Agent 协作（多 Agent 在同一个桌面环境协同工作）
更安全的代码执行沙箱
多显示器支持
更低的 API 成本（通过更小的专用模型替代部分大模型调用）

企业官网建设流程全解析