Agent-S3 开源 GUI Agent 框架详解
2026/6/9 11:52:59 网站建设 项目流程

Agent-S3 开源 GUI Agent 框架详解

研究对象:Agent-S3(Simular AI 开发的 GUI 自动化 Agent 框架)
核心论文:arXiv:2510.02250 — “Scaling Agents for Computer Use”


一、项目概况

项目信息
项目名称Agent S(当前版本:Agent S3)
开发团队Simular Research / Simular AI
论文发表2025 年 10 月 2 日(v1),2026 年 2 月 3 日(v2)
开源仓库https://github.com/simular-ai/Agent-S(11.8k Stars, 1.4k Forks, 353 Commits)
PyPI 包名gui-agents
论文链接https://arxiv.org/abs/2510.02250
官方博客https://www.simular.ai/articles/agent-s3
许可协议Apache 2.0
支持平台Linux、macOS(Darwin)、Windows
Discord 社区https://discord.gg/E2XfsK9fPV

核心定位

Agent S3 是一个开源的 GUI Agent 框架,目标是"让 AI 像人类一样操作电脑"。它通过 Agent-Computer Interface (ACI) 使 Agent 能够自主理解和操控桌面/网页 GUI 界面,完成各种日常数字化任务。


二、演进历程(S1 → S2 → S3)

Agent S1(2024 年 10 月发布)

  • 论文:arXiv:2410.08164(ICLR 2025 收录,获 Best Paper Award)
  • 架构:Graph Search Agent(图搜索 + 多模态感知)
  • OSWorld 成绩:20.6%
  • 核心贡献:提出 Agent-Computer Interface(ACI)概念,开创开源 GUI Agent 方向

Agent S2(2025 年 3 月/4 月发布)

  • 论文:arXiv:2504.00906(COLM 2025 收录)
  • 架构:Compositional Generalist-Specialist(组合式通用+专用框架)
    • Manager(规划)+ Worker(执行)+ Grounding(定位)+ Memory(记忆)
  • OSWorld 成绩:48.8%(后提升至 SOTA)
  • 核心贡献:Compositional Grounding and Planning,超越 OpenAI CUA/Operator 和 Anthropic Claude 3.7 Sonnet Computer-Use

Agent S2.5(2025 年 8 月发布)

  • 更简单、更好、更快
  • OSWorld-Verified 新 SOTA

Agent S3(2025 年 10 月发布)— 本次调研重点

  • 论文:arXiv:2510.02250 — “The Unreasonable Effectiveness of Scaling Agents for Computer Use”
  • 架构:简化框架 + 原生 CodeAgent +Behavior Best-of-N (bBoN)
  • OSWorld 成绩:单 rollout 66%,bBoN 72.6%(首次超越人类基线 72.36%
  • 核心贡献:首次提出 GUI Agent 的"横向扩展"(wide-scaling)框架

三、Agent-S3 核心架构

3.1 整体架构

Agent S3 采用简化且模块化的架构设计:

┌─────────────────────────────────────────────────┐ │ Agent S3 │ ├─────────────────────────────────────────────────┤ │ │ │ ┌──────────────┐ ┌──────────────────────┐ │ │ │ Main Agent │───▶│ Grounding Agent │ │ │ │ (GPT-5/Claude)│ │ (UI-TARS-1.5-7B) │ │ │ └──────┬───────┘ └──────────┬───────────┘ │ │ │ │ │ │ ▼ ▼ │ │ ┌──────────────┐ ┌──────────────────────┐ │ │ │ Reflection │ │ CodeAgent │ │ │ │ Agent │ │ (Python/Bash) │ │ │ └──────────────┘ └──────────────────────┘ │ │ │ │ ┌──────────────────────────────────────────┐ │ │ │ Behavior Best-of-N (bBoN) Pipeline │ │ │ │ ┌──────────────┐ ┌──────────────┐ │ │ │ │ │Behavior │───▶│ Comparative │ │ │ │ │ │Narrator │ │ Judge │ │ │ │ │ └──────────────┘ └──────────────┘ │ │ │ └──────────────────────────────────────────┘ │ │ │ └─────────────────────────────────────────────────┘

3.2 主要组件

Main Agent(主 Agent)
  • 使用大语言模型(推荐 GPT-5 或 Claude)进行推理和决策
  • 负责任务理解、步骤规划、决策制定
  • 支持多模型后端:OpenAI、Anthropic、Gemini、OpenRouter、Azure OpenAI、vLLM 等
  • 维护轨迹(trajectory),最多保留 8 步图像历史
Grounding Agent(定位 Agent / OSWorldACI)
  • 负责将 Agent 的意图动作翻译为可执行的 PyAutoGUI 代码
  • 推荐模型:ByteDance 的 UI-TARS-1.5-7B(部署在 HuggingFace Inference Endpoints)
  • 基于视觉和文本双重定位(Visual and Text Grounding)
  • 不依赖无障碍树(accessibility tree)或硬编码元素 ID
  • 输出坐标分辨率:1920x1080(UI-TARS-1.5-7B)或 1000x1000(UI-TARS-72B)
Reflection Agent(反思 Agent)
  • 在 Agent 执行过程中实时介入
  • 检查每一步操作是否正确,纠正偏差
  • 可启用/禁用(--enable_reflection
  • 与 bBoN 不同:Reflection 是执行时的,bBoN 是执行后的
CodeAgent(代码 Agent)
  • S3 新增功能
  • 支持在本地执行 Python 和 Bash 代码
  • 适用于数据处理、文件操作、系统自动化等场景
  • 可通过call_code_agent动作触发
  • 安全警告:在本地机器上执行任意代码,仅限可信环境使用
  • Bash 脚本有 30 秒超时限制

3.3 Behavior Best-of-N (bBoN) — 核心创新

这是 Agent S3 最具创新性的特性,解决了 GUI Agent 的"高方差"瓶颈。

问题定义
  • GUI Agent 在长程任务中表现不稳定(high variance)
  • 同样的 Agent 有时成功,有时完全失败
  • 微小的错误(误点、延迟响应、弹窗)会随时间累积放大
  • 传统的单 rollout 方法即使使用更强模型,也不够一致
bBoN 解决方案

核心思路:运行 N 个独立 rollout,从中选择最好的结果。

流程(两阶段后处理管道)

阶段1:Behavior Narrator(行为叙事器) ├── 分析每次 rollout 的 before/after 截图 ├── 分析执行的 PyAutoGUI 代码 ├── 生成"事实描述"(fact captions)—— 每步操作的实际改变 └── 串联形成"行为叙事"(behavior narrative) (简洁、可解释、可比较) 阶段2:Comparative Judge(对比评判器) ├── 接收多个 rollout 的行为叙事 ├── 使用 VLM(视觉语言模型)进行对比评估 ├── 基于事实描述进行多选择判断 └── 选出最优的 rollout
关键设计细节
  1. 事实描述(Fact Captions)

    • 将 noisy 的逐步骤记录转化为关于"每步发生了什么"的简洁陈述
    • 独立于 Agent 意图(ground truth)
    • 关注直接影响任务成功的信息
  2. 对比评判(Comparative Judging)

    • 不使用独立打分,而是跨 rollout 对比
    • 引用各 rollout 中的事实进行推理
    • 多选择格式(multi-choice)更可靠、更可扩展
  3. 评判器对齐

    • 在评判器可提升表现的 44% OSWorld 任务中,评判器正确选择率为 78.4%
    • 人工复核发现实际正确率为 92.8%
    • 暗示 OSWorld 真实性能可能接近 76.3%

四、性能与基准测试

4.1 OSWorld 基准

模型/方法成绩说明
Agent S3 + bBoN72.6%首次超越人类基线
人类基线72.36%
Agent S3(单 rollout)66%已超之前 SOTA
GTA1 w/ GPT-563.4%之前 SOTA
Claude Sonnet 4.561.4%
Agent S248.8%
Agent S120.6%

4.2 跨平台泛化(零样本)

基准Agent S3 单 rollout+ bBoN
WindowsAgentArena50.2%56.6%(3 rollouts)
AndroidWorld68.1%71.6%

4.3 演进趋势图

OSWorld 成绩演进 72.6% │ ████████████████████ Agent S3 + bBoN (超越人类!) │ 72.4% │ ════════════════════ 人类基线 │ 66.0% │ ████████ Agent S3 (单rollout) │ 63.4% │ ███████ GTA1 + GPT-5 │ 61.4% │ ██████ Claude Sonnet 4.5 │ 48.8% │ ████ Agent S2 │ 20.6% │ █ Agent S1 └─────────────────────────────

五、安装与部署

5.1 环境要求

  • 单显示器:专为单显示器设计
  • 系统支持:Linux、macOS、Windows
  • 依赖:PyTesseract(需额外安装 tesseract OCR)

5.2 安装方式

# 方式一:pip 安装(推荐)pipinstallgui-agents# 方式二:源码安装(开发)gitclone https://github.com/simular-ai/Agent-S.gitcdAgent-S pipinstall-e.# 额外依赖brewinstalltesseract# macOS

5.3 API 配置

# 环境变量exportOPENAI_API_KEY=your_keyexportANTHROPIC_API_KEY=your_keyexportHF_TOKEN=your_key

5.4 推荐配置

agent_s\--provideropenai\--modelgpt-5-2025-08-07\--ground_providerhuggingface\--ground_urlhttp://localhost:8080\--ground_modelui-tars-1.5-7b\--grounding_width1920\--grounding_height1080

5.5 CLI 主要参数

参数说明默认值
--provider主模型提供商openai
--model主模型名称gpt-5-2025-08-07
--ground_provider定位模型提供商必填
--ground_url定位模型 URL必填
--ground_model定位模型名称必填
--grounding_width/height坐标输出分辨率必填
--max_trajectory_length最大图像轨迹长度8
--enable_reflection启用反思 AgentTrue
--enable_local_env启用本地代码执行False
--model_temperature模型温度

5.6 Simular Cloud

不想本地部署?可以使用 Simular Cloud:

  • 免费:公共计算机(排队制)
  • 付费:专用私有计算机($50/月起)
  • 支持实时人工干预,浏览器远程访问

六、支持的模型

主模型(推理/决策)

  • OpenAI(GPT-5, GPT-4o 等)
  • Anthropic(Claude 系列)
  • Google Gemini
  • Azure OpenAI
  • OpenRouter
  • vLLM(本地部署)

定位模型(GUI 元素识别)

  • UI-TARS-1.5-7B(ByteDance/Seed,推荐)
  • UI-TARS-72B(ByteDance/Seed)
  • 支持通过 HuggingFace Inference Endpoints、TGI、vLLM 等部署

七、SDK 与 API

7.1 Python SDK

fromgui_agents.s3.agents.agent_simportAgentS3fromgui_agents.s3.agents.groundingimportOSWorldACIfromgui_agents.s3.utils.local_envimportLocalEnv# 1. 配置引擎参数engine_params={"engine_type":"openai","model":"gpt-5-2025-08-07",}engine_params_for_grounding={"engine_type":"huggingface","model":"ui-tars-1.5-7b","base_url":"http://localhost:8080","grounding_width":1920,"grounding_height":1080,}# 2. 初始化local_env=LocalEnv()# 可选grounding_agent=OSWorldACI(env=local_env,platform="linux",# darwin, windowsengine_params_for_generation=engine_params,engine_params_for_grounding=engine_params_for_grounding,width=1920,height=1080)agent=AgentS3(engine_params,grounding_agent,platform="linux",max_trajectory_length=8,enable_reflection=True)# 3. 执行任务importpyautogui screenshot=pyautogui.screenshot()obs={"screenshot":screenshot}info,action=agent.predict(instruction="Close VS Code",observation=obs)exec(action[0])

7.2 动作空间

Agent S3 通过 PyAutoGUI 执行以下类型操作:

  • 鼠标点击(click、double_click、right_click)
  • 鼠标移动(moveTo、drag)
  • 键盘输入(typewrite、hotkey、press)
  • 截图
  • 代码执行(CodeAgent)

八、与竞品对比

8.1 主要竞品

维度Agent S3(Simular)OpenAI OperatorAnthropic Claude CU
类型开源框架闭源产品闭源产品
OSWorld72.6%(超越人类)~61.4%~61.4%
平台Linux/Mac/Windows云端虚拟浏览器桌面
自定义模型支持(OpenAI/Anthropic/vLLM等)仅 OpenAI仅 Anthropic
本地部署完全支持不支持不支持
bBoN支持不支持不支持
代码执行支持(可选)有限有限
价格免费(开源)订阅制订阅制
研究贡献学术论文 + 开源商业产品商业产品

8.2 Agent S3 的核心优势

  1. 开源透明:完整开源,可审计、可定制
  2. 超越人类性能:72.6% vs 72.36%(人类)
  3. 可扩展性:bBoN 提供可量化的性能提升路径
  4. 多模型支持:不绑定单一 LLM 供应商
  5. 跨平台:支持三大操作系统
  6. 学术研究:顶会论文(ICLR、COLM),有理论支撑

8.3 Agent S3 的局限

  1. 需要 GPU 部署定位模型:UI-TARS 需要单独部署
  2. 单显示器限制:不支持多显示器环境
  3. 安全性:CodeAgent 可执行任意本地代码
  4. API 成本:频繁调用 GPT-5/Claude + 定位模型,token 消耗大
  5. 速度:GUI 操作本质较慢,bBoN 需要 N 倍时间
  6. 无状态保持:每次运行相对独立,依赖外部持久化

九、应用场景

9.1 软件测试自动化

  • UI 测试自动化
  • 跨浏览器/跨平台回归测试
  • 异常界面处理

9.2 RPA(机器人流程自动化)

  • 表单填写
  • 数据录入/导出
  • 跨系统数据同步

9.3 研究与评估

  • GUI Agent 基准测试
  • Agent 行为分析
  • 模型能力评估

9.4 个人助手

  • 日常桌面任务自动化
  • 文件管理与处理
  • 应用操作代劳

9.5 企业应用

  • 工单处理
  • 数据迁移
  • 报告生成

十、团队与公司背景

Simular AI

信息详情
公司全称Simular(The Autonomous Computer Company)
创始人前 Google DeepMind 研究员
产品线Agent S(开源框架)、Sai(商业产品)、Simular Cloud(云服务)
旗舰产品Sai— 始终在线的 AI 同事,运行在私有云桌面

论文作者

Gonzalo Gonzalez-Pumariega, Vincent Tu, Chih-Lun Lee, Jiachen Yang, Ang Li, Xin Eric Wang


十一、技术亮点总结

  1. Behavior Best-of-N (bBoN):首个针对 GUI Agent 的横向扩展框架,通过多 rollout + 行为叙事 + 对比评判实现性能跃升
  2. 首次超越人类:在 OSWorld 基准上达到 72.6%,超过人类基线 72.36%
  3. 简化架构:相比 S2 的复杂层级结构,S3 更简单、更快、更灵活
  4. 原生 CodeAgent:支持在 GUI 操作之外执行 Python/Bash 代码
  5. 强泛化能力:零样本迁移到 WindowsAgentArena(50.2%→56.6%)和 AndroidWorld(68.1%→71.6%)
  6. 评判器高对齐:与人类偏好一致性达 92.8%

十二、论文引用

@misc{Agent-S3, title={Scaling Agents for Computer Use}, author={Gonzalo Gonzalez-Pumariega and Vincent Tu and Chih-Lun Lee and Jiachen Yang and Ang Li and Xin Eric Wang}, year={2025}, eprint={2510.02250}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2510.02250}, }

十三、相关链接

资源链接
GitHub 仓库https://github.com/simular-ai/Agent-S
论文(arXiv)https://arxiv.org/abs/2510.02250
官方博客https://www.simular.ai/articles/agent-s3
官方视频https://www.youtube.com/watch?v=VHr0a3UBsh4
公司产品https://www.simular.ai/
Sai 产品https://www.sai.work/
Simular Cloudhttps://cloud.simular.ai/
PyPI 包https://pypi.org/project/gui-agents/
Discord 社区https://discord.gg/E2XfsK9fPV
DeepWiki 文档https://deepwiki.com/simular-ai/Agent-S
OSWorld 基准https://os-world.github.io/
UI-TARS 模型https://huggingface.co/ByteDance-Seed/UI-TARS-1.5-7B

十四、结论与展望

Agent-S3 代表了 GUI Agent 领域的重大突破。其核心贡献在于:

  1. 证明了 GUI Agent 的扩展定律:与 LLM 类似,GUI Agent 也能通过正确的扩展方式(bBoN)获得显著性能提升
  2. 跨越人类门槛:72.6% vs 72.36%,虽然差距不大,但具有标志性意义
  3. 开源推动进步:完整的开源实现加速了该领域的研究和应用

未来方向

  • bBoN 的 N 越大,性能可能继续提升(理论上限尚不明确)
  • 更高效的评判器设计(降低 bBoN 的额外成本)
  • 多 Agent 协作(多 Agent 在同一个桌面环境协同工作)
  • 更安全的代码执行沙箱
  • 多显示器支持
  • 更低的 API 成本(通过更小的专用模型替代部分大模型调用)

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询