什麼是agent-browser?
agent-browser 是一款專為 AI 智能體(AI agents)打造的瀏覽器自動化命令列工具。它以 Rust 語言原生開發,啟動快速、執行高效,能讓 AI 在操作網頁時大幅減少上下文(context)所需的 token 數量。與傳統 JSON 格式不同,agent-browser 輸出簡潔的文字結構,讓大語言模型(LLM)更容易理解與處理。
這款工具特別適合用於需要模擬人類瀏覽行為的自動化任務,例如填寫表單、截圖、導航或提取網頁內容。透過獨特的「引用標記(ref-based)」機制,AI 可精準點擊或操作特定元素,無需反覆解析整個 DOM 樹,大幅提升效率與穩定性。
agent-browser的特色是什麼?
- AI 優先設計:輸出緊湊文字格式,比完整 DOM 節省 80% 以上 token,極度節省 AI 上下文空間
- 引用標記(Ref-based)選擇:每個元素在快照中擁有唯一 ref(如 @e1),確保操作精準且可重現
- 原生 Rust 架構:100% 以 Rust 開發,命令解析迅速,跨平台支援 macOS、Linux 與 Windows
- 多會話隔離:支援同時運行多個獨立瀏覽器實例,各自保有獨立 Cookie 與登入狀態
- 完整指令集:內建超過 50 種命令,涵蓋導航、表單操作、截圖、網路監控與儲存管理
- 自動守護程序:採用 client-daemon 架構,後台 daemon 自動啟動並持續運作,提升執行效率
agent-browser的使用案例有哪些?
- 讓 GitHub Copilot 或 Claude Code 自動測試網站流程並回報結果
- 在 AI 自動化腳本中填寫註冊表單或登入頁面
- 快速擷取目標網頁的可訪問性樹狀結構,供 LLM 分析內容
- 定期截圖監控網頁變更,搭配 diff 功能偵測 UI 差異
- 在無頭瀏覽器環境中模擬用戶行為進行資料爬取
- 於 iOS 模擬器或 Next.js + Vercel 專案中整合端對端測試
- 使用 CDP(Chrome DevTools Protocol)模式進行深度瀏覽器控制
如何使用agent-browser?
- 全平台安裝:執行
npm install -g agent-browser或 macOS 使用brew install agent-browser - 首次使用前執行
agent-browser install下載內嵌 Chrome 瀏覽器 - 開啟網站:
agent-browser open example.com - 取得簡潔快照:
agent-browser snapshot -i查看帶 ref 標記的元素清單 - 點擊指定元素:使用
agent-browser click @e2(@e2 為快照中的 ref) - 完成後關閉:
agent-browser close釋放資源









