什么是agent-browser?
agent-browser 是一款专为 AI 智能体设计的浏览器自动化命令行工具。它用 100% 原生 Rust 编写,启动快、资源占用低,特别适合在 AI 代理(如 Claude、Copilot、Gemini 等)调用时高效执行网页操作。与传统自动化工具不同,agent-browser 输出的是紧凑的文本格式,大幅减少大语言模型(LLM)处理时所需的上下文 token 数量,让 AI 更快、更准地理解页面内容。
该工具采用“引用(ref)”机制,通过快照(snapshot)生成带唯一标识的可访问性树,让你无需重复查询 DOM 就能精准点击或填写表单。无论你是开发者、AI 工程师,还是构建智能爬虫或自动化工作流,agent-browser 都能提供轻量、稳定且跨平台的解决方案。
agent-browser的核心功能有哪些?
- AI 友好输出:以简洁文本形式返回页面结构,比完整 DOM 节省 80% 以上的 token
- 基于引用(Ref)的操作:每个元素分配唯一 ID(如 @e1),实现确定性交互,避免定位漂移
- 原生 Rust 性能:命令解析和浏览器控制均由高性能 Rust 实现,响应迅速
- 多会话支持:可同时运行多个隔离的浏览器实例,各自保持独立登录状态和 Cookie
- 跨平台兼容:支持 macOS(ARM64/x64)、Linux(ARM64/x64)和 Windows(x64)
- 50+ 内置命令:涵盖导航、表单填写、截图、网络监控、本地存储等完整自动化能力
- 自动守护进程架构:CLI 与后台 daemon 协同工作,复用 Chrome 实例,提升效率
agent-browser的使用案例有哪些?
- 让 AI 编程助手(如 Cursor 或 GitHub Copilot)自动打开网页并提取关键信息
- 构建轻量级智能爬虫,定期抓取动态内容并生成结构化摘要
- 在自动化测试中快速验证页面元素是否存在或可交互
- 为 LLM 提供实时网页上下文,用于问答或决策支持
- 批量执行登录、表单提交、截图等重复性网页任务
- 在无头环境中调试前端行为,配合 CDP(Chrome DevTools Protocol)深度控制
如何使用agent-browser?
- 全局安装:运行
npm install -g agent-browser(或 macOS 上用brew install agent-browser) - 首次使用前执行
agent-browser install自动下载所需 Chrome 版本 - 用
agent-browser open example.com打开目标网站 - 执行
agent-browser snapshot -i获取带 ref 标识的页面结构 - 使用
agent-browser click @e2等命令基于 ref 精准操作元素 - 完成后用
agent-browser close关闭当前会话









