Agent-S3 开源 GUI Agent 框架详解
研究对象:Agent-S3(Simular AI 开发的 GUI 自动化 Agent 框架)
核心论文:arXiv:2510.02250 — “Scaling Agents for Computer Use”
一、项目概况
| 项目 | 信息 |
|---|---|
| 项目名称 | Agent S(当前版本:Agent S3) |
| 开发团队 | Simular Research / Simular AI |
| 论文发表 | 2025 年 10 月 2 日(v1),2026 年 2 月 3 日(v2) |
| 开源仓库 | https://github.com/simular-ai/Agent-S(11.8k Stars, 1.4k Forks, 353 Commits) |
| PyPI 包名 | gui-agents |
| 论文链接 | https://arxiv.org/abs/2510.02250 |
| 官方博客 | https://www.simular.ai/articles/agent-s3 |
| 许可协议 | Apache 2.0 |
| 支持平台 | Linux、macOS(Darwin)、Windows |
| Discord 社区 | https://discord.gg/E2XfsK9fPV |
核心定位
Agent S3 是一个开源的 GUI Agent 框架,目标是"让 AI 像人类一样操作电脑"。它通过 Agent-Computer Interface (ACI) 使 Agent 能够自主理解和操控桌面/网页 GUI 界面,完成各种日常数字化任务。
二、演进历程(S1 → S2 → S3)
Agent S1(2024 年 10 月发布)
- 论文:arXiv:2410.08164(ICLR 2025 收录,获 Best Paper Award)
- 架构:Graph Search Agent(图搜索 + 多模态感知)
- OSWorld 成绩:20.6%
- 核心贡献:提出 Agent-Computer Interface(ACI)概念,开创开源 GUI Agent 方向
Agent S2(2025 年 3 月/4 月发布)
- 论文:arXiv:2504.00906(COLM 2025 收录)
- 架构:Compositional Generalist-Specialist(组合式通用+专用框架)
- Manager(规划)+ Worker(执行)+ Grounding(定位)+ Memory(记忆)
- OSWorld 成绩:48.8%(后提升至 SOTA)
- 核心贡献:Compositional Grounding and Planning,超越 OpenAI CUA/Operator 和 Anthropic Claude 3.7 Sonnet Computer-Use
Agent S2.5(2025 年 8 月发布)
- 更简单、更好、更快
- OSWorld-Verified 新 SOTA
Agent S3(2025 年 10 月发布)— 本次调研重点
- 论文:arXiv:2510.02250 — “The Unreasonable Effectiveness of Scaling Agents for Computer Use”
- 架构:简化框架 + 原生 CodeAgent +Behavior Best-of-N (bBoN)
- OSWorld 成绩:单 rollout 66%,bBoN 72.6%(首次超越人类基线 72.36%)
- 核心贡献:首次提出 GUI Agent 的"横向扩展"(wide-scaling)框架
三、Agent-S3 核心架构
3.1 整体架构
Agent S3 采用简化且模块化的架构设计:
┌─────────────────────────────────────────────────┐ │ Agent S3 │ ├─────────────────────────────────────────────────┤ │ │ │ ┌──────────────┐ ┌──────────────────────┐ │ │ │ Main Agent │───▶│ Grounding Agent │ │ │ │ (GPT-5/Claude)│ │ (UI-TARS-1.5-7B) │ │ │ └──────┬───────┘ └──────────┬───────────┘ │ │ │ │ │ │ ▼ ▼ │ │ ┌──────────────┐ ┌──────────────────────┐ │ │ │ Reflection │ │ CodeAgent │ │ │ │ Agent │ │ (Python/Bash) │ │ │ └──────────────┘ └──────────────────────┘ │ │ │ │ ┌──────────────────────────────────────────┐ │ │ │ Behavior Best-of-N (bBoN) Pipeline │ │ │ │ ┌──────────────┐ ┌──────────────┐ │ │ │ │ │Behavior │───▶│ Comparative │ │ │ │ │ │Narrator │ │ Judge │ │ │ │ │ └──────────────┘ └──────────────┘ │ │ │ └──────────────────────────────────────────┘ │ │ │ └─────────────────────────────────────────────────┘3.2 主要组件
Main Agent(主 Agent)
- 使用大语言模型(推荐 GPT-5 或 Claude)进行推理和决策
- 负责任务理解、步骤规划、决策制定
- 支持多模型后端:OpenAI、Anthropic、Gemini、OpenRouter、Azure OpenAI、vLLM 等
- 维护轨迹(trajectory),最多保留 8 步图像历史
Grounding Agent(定位 Agent / OSWorldACI)
- 负责将 Agent 的意图动作翻译为可执行的 PyAutoGUI 代码
- 推荐模型:ByteDance 的 UI-TARS-1.5-7B(部署在 HuggingFace Inference Endpoints)
- 基于视觉和文本双重定位(Visual and Text Grounding)
- 不依赖无障碍树(accessibility tree)或硬编码元素 ID
- 输出坐标分辨率:1920x1080(UI-TARS-1.5-7B)或 1000x1000(UI-TARS-72B)
Reflection Agent(反思 Agent)
- 在 Agent 执行过程中实时介入
- 检查每一步操作是否正确,纠正偏差
- 可启用/禁用(
--enable_reflection) - 与 bBoN 不同:Reflection 是执行时的,bBoN 是执行后的
CodeAgent(代码 Agent)
- S3 新增功能
- 支持在本地执行 Python 和 Bash 代码
- 适用于数据处理、文件操作、系统自动化等场景
- 可通过
call_code_agent动作触发 - 安全警告:在本地机器上执行任意代码,仅限可信环境使用
- Bash 脚本有 30 秒超时限制
3.3 Behavior Best-of-N (bBoN) — 核心创新
这是 Agent S3 最具创新性的特性,解决了 GUI Agent 的"高方差"瓶颈。
问题定义
- GUI Agent 在长程任务中表现不稳定(high variance)
- 同样的 Agent 有时成功,有时完全失败
- 微小的错误(误点、延迟响应、弹窗)会随时间累积放大
- 传统的单 rollout 方法即使使用更强模型,也不够一致
bBoN 解决方案
核心思路:运行 N 个独立 rollout,从中选择最好的结果。
流程(两阶段后处理管道):
阶段1:Behavior Narrator(行为叙事器) ├── 分析每次 rollout 的 before/after 截图 ├── 分析执行的 PyAutoGUI 代码 ├── 生成"事实描述"(fact captions)—— 每步操作的实际改变 └── 串联形成"行为叙事"(behavior narrative) (简洁、可解释、可比较) 阶段2:Comparative Judge(对比评判器) ├── 接收多个 rollout 的行为叙事 ├── 使用 VLM(视觉语言模型)进行对比评估 ├── 基于事实描述进行多选择判断 └── 选出最优的 rollout关键设计细节
事实描述(Fact Captions):
- 将 noisy 的逐步骤记录转化为关于"每步发生了什么"的简洁陈述
- 独立于 Agent 意图(ground truth)
- 关注直接影响任务成功的信息
对比评判(Comparative Judging):
- 不使用独立打分,而是跨 rollout 对比
- 引用各 rollout 中的事实进行推理
- 多选择格式(multi-choice)更可靠、更可扩展
评判器对齐:
- 在评判器可提升表现的 44% OSWorld 任务中,评判器正确选择率为 78.4%
- 人工复核发现实际正确率为 92.8%
- 暗示 OSWorld 真实性能可能接近 76.3%
四、性能与基准测试
4.1 OSWorld 基准
| 模型/方法 | 成绩 | 说明 |
|---|---|---|
| Agent S3 + bBoN | 72.6% | 首次超越人类基线 |
| 人类基线 | 72.36% | — |
| Agent S3(单 rollout) | 66% | 已超之前 SOTA |
| GTA1 w/ GPT-5 | 63.4% | 之前 SOTA |
| Claude Sonnet 4.5 | 61.4% | — |
| Agent S2 | 48.8% | — |
| Agent S1 | 20.6% | — |
4.2 跨平台泛化(零样本)
| 基准 | Agent S3 单 rollout | + bBoN |
|---|---|---|
| WindowsAgentArena | 50.2% | 56.6%(3 rollouts) |
| AndroidWorld | 68.1% | 71.6% |
4.3 演进趋势图
OSWorld 成绩演进 72.6% │ ████████████████████ Agent S3 + bBoN (超越人类!) │ 72.4% │ ════════════════════ 人类基线 │ 66.0% │ ████████ Agent S3 (单rollout) │ 63.4% │ ███████ GTA1 + GPT-5 │ 61.4% │ ██████ Claude Sonnet 4.5 │ 48.8% │ ████ Agent S2 │ 20.6% │ █ Agent S1 └─────────────────────────────五、安装与部署
5.1 环境要求
- 单显示器:专为单显示器设计
- 系统支持:Linux、macOS、Windows
- 依赖:PyTesseract(需额外安装 tesseract OCR)
5.2 安装方式
# 方式一:pip 安装(推荐)pipinstallgui-agents# 方式二:源码安装(开发)gitclone https://github.com/simular-ai/Agent-S.gitcdAgent-S pipinstall-e.# 额外依赖brewinstalltesseract# macOS5.3 API 配置
# 环境变量exportOPENAI_API_KEY=your_keyexportANTHROPIC_API_KEY=your_keyexportHF_TOKEN=your_key5.4 推荐配置
agent_s\--provideropenai\--modelgpt-5-2025-08-07\--ground_providerhuggingface\--ground_urlhttp://localhost:8080\--ground_modelui-tars-1.5-7b\--grounding_width1920\--grounding_height10805.5 CLI 主要参数
| 参数 | 说明 | 默认值 |
|---|---|---|
--provider | 主模型提供商 | openai |
--model | 主模型名称 | gpt-5-2025-08-07 |
--ground_provider | 定位模型提供商 | 必填 |
--ground_url | 定位模型 URL | 必填 |
--ground_model | 定位模型名称 | 必填 |
--grounding_width/height | 坐标输出分辨率 | 必填 |
--max_trajectory_length | 最大图像轨迹长度 | 8 |
--enable_reflection | 启用反思 Agent | True |
--enable_local_env | 启用本地代码执行 | False |
--model_temperature | 模型温度 | — |
5.6 Simular Cloud
不想本地部署?可以使用 Simular Cloud:
- 免费:公共计算机(排队制)
- 付费:专用私有计算机($50/月起)
- 支持实时人工干预,浏览器远程访问
六、支持的模型
主模型(推理/决策)
- OpenAI(GPT-5, GPT-4o 等)
- Anthropic(Claude 系列)
- Google Gemini
- Azure OpenAI
- OpenRouter
- vLLM(本地部署)
定位模型(GUI 元素识别)
- UI-TARS-1.5-7B(ByteDance/Seed,推荐)
- UI-TARS-72B(ByteDance/Seed)
- 支持通过 HuggingFace Inference Endpoints、TGI、vLLM 等部署
七、SDK 与 API
7.1 Python SDK
fromgui_agents.s3.agents.agent_simportAgentS3fromgui_agents.s3.agents.groundingimportOSWorldACIfromgui_agents.s3.utils.local_envimportLocalEnv# 1. 配置引擎参数engine_params={"engine_type":"openai","model":"gpt-5-2025-08-07",}engine_params_for_grounding={"engine_type":"huggingface","model":"ui-tars-1.5-7b","base_url":"http://localhost:8080","grounding_width":1920,"grounding_height":1080,}# 2. 初始化local_env=LocalEnv()# 可选grounding_agent=OSWorldACI(env=local_env,platform="linux",# darwin, windowsengine_params_for_generation=engine_params,engine_params_for_grounding=engine_params_for_grounding,width=1920,height=1080)agent=AgentS3(engine_params,grounding_agent,platform="linux",max_trajectory_length=8,enable_reflection=True)# 3. 执行任务importpyautogui screenshot=pyautogui.screenshot()obs={"screenshot":screenshot}info,action=agent.predict(instruction="Close VS Code",observation=obs)exec(action[0])7.2 动作空间
Agent S3 通过 PyAutoGUI 执行以下类型操作:
- 鼠标点击(click、double_click、right_click)
- 鼠标移动(moveTo、drag)
- 键盘输入(typewrite、hotkey、press)
- 截图
- 代码执行(CodeAgent)
八、与竞品对比
8.1 主要竞品
| 维度 | Agent S3(Simular) | OpenAI Operator | Anthropic Claude CU |
|---|---|---|---|
| 类型 | 开源框架 | 闭源产品 | 闭源产品 |
| OSWorld | 72.6%(超越人类) | ~61.4% | ~61.4% |
| 平台 | Linux/Mac/Windows | 云端虚拟浏览器 | 桌面 |
| 自定义模型 | 支持(OpenAI/Anthropic/vLLM等) | 仅 OpenAI | 仅 Anthropic |
| 本地部署 | 完全支持 | 不支持 | 不支持 |
| bBoN | 支持 | 不支持 | 不支持 |
| 代码执行 | 支持(可选) | 有限 | 有限 |
| 价格 | 免费(开源) | 订阅制 | 订阅制 |
| 研究贡献 | 学术论文 + 开源 | 商业产品 | 商业产品 |
8.2 Agent S3 的核心优势
- 开源透明:完整开源,可审计、可定制
- 超越人类性能:72.6% vs 72.36%(人类)
- 可扩展性:bBoN 提供可量化的性能提升路径
- 多模型支持:不绑定单一 LLM 供应商
- 跨平台:支持三大操作系统
- 学术研究:顶会论文(ICLR、COLM),有理论支撑
8.3 Agent S3 的局限
- 需要 GPU 部署定位模型:UI-TARS 需要单独部署
- 单显示器限制:不支持多显示器环境
- 安全性:CodeAgent 可执行任意本地代码
- API 成本:频繁调用 GPT-5/Claude + 定位模型,token 消耗大
- 速度:GUI 操作本质较慢,bBoN 需要 N 倍时间
- 无状态保持:每次运行相对独立,依赖外部持久化
九、应用场景
9.1 软件测试自动化
- UI 测试自动化
- 跨浏览器/跨平台回归测试
- 异常界面处理
9.2 RPA(机器人流程自动化)
- 表单填写
- 数据录入/导出
- 跨系统数据同步
9.3 研究与评估
- GUI Agent 基准测试
- Agent 行为分析
- 模型能力评估
9.4 个人助手
- 日常桌面任务自动化
- 文件管理与处理
- 应用操作代劳
9.5 企业应用
- 工单处理
- 数据迁移
- 报告生成
十、团队与公司背景
Simular AI
| 信息 | 详情 |
|---|---|
| 公司全称 | Simular(The Autonomous Computer Company) |
| 创始人 | 前 Google DeepMind 研究员 |
| 产品线 | Agent S(开源框架)、Sai(商业产品)、Simular Cloud(云服务) |
| 旗舰产品 | Sai— 始终在线的 AI 同事,运行在私有云桌面 |
论文作者
Gonzalo Gonzalez-Pumariega, Vincent Tu, Chih-Lun Lee, Jiachen Yang, Ang Li, Xin Eric Wang
十一、技术亮点总结
- Behavior Best-of-N (bBoN):首个针对 GUI Agent 的横向扩展框架,通过多 rollout + 行为叙事 + 对比评判实现性能跃升
- 首次超越人类:在 OSWorld 基准上达到 72.6%,超过人类基线 72.36%
- 简化架构:相比 S2 的复杂层级结构,S3 更简单、更快、更灵活
- 原生 CodeAgent:支持在 GUI 操作之外执行 Python/Bash 代码
- 强泛化能力:零样本迁移到 WindowsAgentArena(50.2%→56.6%)和 AndroidWorld(68.1%→71.6%)
- 评判器高对齐:与人类偏好一致性达 92.8%
十二、论文引用
@misc{Agent-S3, title={Scaling Agents for Computer Use}, author={Gonzalo Gonzalez-Pumariega and Vincent Tu and Chih-Lun Lee and Jiachen Yang and Ang Li and Xin Eric Wang}, year={2025}, eprint={2510.02250}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2510.02250}, }十三、相关链接
| 资源 | 链接 |
|---|---|
| GitHub 仓库 | https://github.com/simular-ai/Agent-S |
| 论文(arXiv) | https://arxiv.org/abs/2510.02250 |
| 官方博客 | https://www.simular.ai/articles/agent-s3 |
| 官方视频 | https://www.youtube.com/watch?v=VHr0a3UBsh4 |
| 公司产品 | https://www.simular.ai/ |
| Sai 产品 | https://www.sai.work/ |
| Simular Cloud | https://cloud.simular.ai/ |
| PyPI 包 | https://pypi.org/project/gui-agents/ |
| Discord 社区 | https://discord.gg/E2XfsK9fPV |
| DeepWiki 文档 | https://deepwiki.com/simular-ai/Agent-S |
| OSWorld 基准 | https://os-world.github.io/ |
| UI-TARS 模型 | https://huggingface.co/ByteDance-Seed/UI-TARS-1.5-7B |
十四、结论与展望
Agent-S3 代表了 GUI Agent 领域的重大突破。其核心贡献在于:
- 证明了 GUI Agent 的扩展定律:与 LLM 类似,GUI Agent 也能通过正确的扩展方式(bBoN)获得显著性能提升
- 跨越人类门槛:72.6% vs 72.36%,虽然差距不大,但具有标志性意义
- 开源推动进步:完整的开源实现加速了该领域的研究和应用
未来方向:
- bBoN 的 N 越大,性能可能继续提升(理论上限尚不明确)
- 更高效的评判器设计(降低 bBoN 的额外成本)
- 多 Agent 协作(多 Agent 在同一个桌面环境协同工作)
- 更安全的代码执行沙箱
- 多显示器支持
- 更低的 API 成本(通过更小的专用模型替代部分大模型调用)