Qu'est-ce que agent-browser ?
agent-browser est un outil en ligne de commande conçu spécialement pour les agents d’intelligence artificielle qui ont besoin d’automatiser des tâches dans un navigateur web. Plutôt que de renvoyer des données lourdes en JSON, il génère une sortie texte compacte et lisible, ce qui réduit considérablement la consommation de tokens dans le contexte des grands modèles linguistiques (LLM). Cela permet aux agents IA comme ceux de Claude, Copilot ou Gemini d’interagir efficacement avec des pages web sans se noyer dans du code inutile.
Écrit entièrement en Rust natif, agent-browser allie rapidité, légèreté et fiabilité. Il utilise une architecture client-démon pour gérer plusieurs sessions de navigateur isolées, idéal pour automatiser des scénarios complexes tout en gardant chaque session propre et sécurisée.
Quelles sont les caractéristiques de agent-browser ?
- Sortie texte compacte : Réduit l’utilisation de tokens grâce à un arbre d’accessibilité simplifié, parfait pour les LLM.
- Système de références (refs) : Chaque élément interactif reçoit une référence unique (ex. @e1), ce qui rend les interactions déterministes et rapides.
- Architecture Rust native : Performances optimales avec des binaires légers pour macOS, Linux et Windows.
- Plus de 50 commandes : Navigation, formulaires, captures d’écran, gestion du réseau et du stockage — tout est pris en charge.
- Sessions isolées : Gérez plusieurs instances de navigateur indépendantes, chacune avec ses propres cookies et authentifications.
- Compatibilité étendue : Fonctionne avec tous les agents IA capables d’exécuter des commandes shell (GitHub Copilot, Cursor, etc.).
Quels sont les cas d'utilisation de agent-browser ?
- Automatiser la recherche d’informations sur des sites web pour un agent IA conversationnel.
- Remplir des formulaires ou effectuer des achats en ligne via des scripts pilotés par une IA.
- Capturer des captures d’écran ou extraire du contenu textuel de manière fiable et reproductible.
- Tester des parcours utilisateurs dans des environnements isolés sans interférence entre sessions.
- Intégrer des actions web dans des workflows automatisés sur Vercel, Next.js ou d’autres plateformes.
- Analyser des changements de contenu avec la fonction de diffing entre deux snapshots.
Comment utiliser agent-browser ?
- Installez l’outil avec
npm install -g agent-browser(oubrew install agent-browsersur macOS). - Lancez
agent-browser installpour télécharger Chrome automatiquement lors de la première utilisation. - Ouvrez un site avec
agent-browser open example.com, puis obtenez un snapshot avecagent-browser snapshot -i. - Utilisez les références (@e1, @e2, etc.) retournées pour cliquer, taper ou interagir :
agent-browser click @e2. - Sauvegardez une capture avec
agent-browser screenshot page.pngquand nécessaire. - Fermez proprement la session avec
agent-browser close.









