agent-browserとは何ですか?
agent-browser は、AIエージェント向けに設計された高速で軽量なブラウザ自動化ツールです。Rustで100%ネイティブに構築されており、コマンドラインから簡単に操作可能。AIが処理しやすいコンパクトなテキスト出力により、LLMのコンテキスト使用量を大幅に削減します。
このツールは、スナップショットから取得した「ref(参照ID)」を使って要素を確実に操作できるのが特徴。DOM全体を解析する必要がなく、高速かつ決定論的な自動化を実現します。開発者やAIエージェントがウェブページをナビゲート・操作・キャプチャする際に最適です。
agent-browserの特徴は何ですか?
- AIフレンドリーな出力: コンパクトなテキスト形式でトークン使用量を約80%削減(通常のJSON DOMと比較)
- Refベースの操作: 各要素に一意の参照ID(例: @e1)を付与し、再クエリ不要で正確にクリックや入力が可能
- ネイティブRust製: 高速起動・低メモリ使用で、macOS、Linux、Windowsすべてに対応
- セッション分離: 複数の独立したブラウザインスタンスを並行で管理し、認証情報も安全に分離
- 50以上のコマンド: ナビゲーション、フォーム入力、スクリーンショット、ネットワーク監視など幅広い操作をサポート
- CDP直接接続: Chrome DevTools Protocolを直接利用し、安定性とパフォーマンスを確保
agent-browserの使用例は何ですか?
- AIエージェント(Claude、Copilot、Geminiなど)がウェブスクレイピングや自動テストを行う際のバックエンドツールとして
- サイトのUI変更を検出するためのスナップショット差分(Diffing)分析
- 自動ログインやフォーム送信を含む複雑なユーザーフローの自動化
- モバイルシミュレータ(iOS Simulator対応)でのレスポンシブデザイン検証
- Next.jsやVercel環境でのE2Eテスト統合
- ブラウザベースのプロファイリングやネットワークトラフィックの記録
agent-browserの使い方は?
npm install -g agent-browserまたはbrew install agent-browser(macOS)でインストール- 初回は
agent-browser installで内蔵Chromeをダウンロード agent-browser open example.comでサイトを開き、agent-browser snapshot -iで要素一覧を取得- スナップショットに表示されたref(例: @e2)を使って
agent-browser click @e2のように操作 agent-browser screenshot page.pngで画面キャプチャ、agent-browser closeで終了- 複数タスクにはセッションIDを指定して並列実行可能









