Что такое agent-browser?
agent-browser — это мощный инструмент для автоматизации браузера, специально созданный для ИИ-агентов. Вместо громоздких JSON-ответов он выдаёт компактный текст с уникальными ссылками на элементы страницы, что экономит контекстные токены и упрощает взаимодействие для языковых моделей. Написанный полностью на Rust, он работает молниеносно и поддерживает все основные платформы: macOS, Linux и Windows.
Главное преимущество agent-browser — его ориентированность на ИИ. Он не просто эмулирует действия пользователя, а предоставляет структурированную, легко читаемую информацию, которую LLM (большие языковые модели) могут сразу использовать без сложной обработки. Это делает его идеальным спутником для таких агентов, как Claude Code, GitHub Copilot, Cursor или Google Gemini.
Какие особенности у agent-browser?
- Компактный текстовый вывод: Использует в 10 раз меньше токенов по сравнению с полным DOM-деревом — всего 200–400 вместо 3000–5000.
- Система ссылок (refs): Каждый элемент в снимке получает уникальный идентификатор (например, @e1), что обеспечивает точное и детерминированное взаимодействие.
- Нативная производительность на Rust: Быстрый запуск команд и минимальное потребление ресурсов благодаря чистой реализации на Rust.
- Поддержка сессий: Возможность запускать несколько изолированных браузерных сессий с разными учётными данными и состояниями.
- Более 50 команд: Полный набор действий — от навигации и заполнения форм до скриншотов, работы с сетью и локальным хранилищем.
- Кроссплатформенность: Готовые бинарники для macOS (ARM64/x64), Linux (ARM64/x64) и Windows (x64).
- Архитектура клиент-демон: CLI взаимодействует с фоновым демоном через CDP (Chrome DevTools Protocol) для максимальной скорости и стабильности.
Какие случаи использования agent-browser?
- Автоматизация задач для ИИ-агентов, которые должны "просматривать" веб-сайты и принимать решения на основе содержимого.
- Интеграция в LLM-приложения для выполнения реальных действий в браузере (например, поиск информации, оформление заказа).
- Тестирование веб-интерфейсов с помощью простых текстовых команд вместо сложных скриптов.
- Сбор данных с сайтов без необходимости парсить HTML — достаточно получить снимок и кликнуть по нужному элементу.
- Создание автономных цифровых ассистентов, способных работать с веб-формами, авторизацией и динамическим контентом.
- Отладка и профилирование веб-страниц через CLI без открытия DevTools вручную.
Как использовать agent-browser?
- Установите через
npm install -g agent-browser(работает на всех платформах) илиbrew install agent-browserна macOS. - При первом запуске выполните
agent-browser install, чтобы автоматически загрузить совместимую версию Chrome. - Откройте сайт:
agent-browser open example.com. - Получите компактный снимок страницы:
agent-browser snapshot -i— вы увидите элементы с метками вроде[ref=e1]. - Взаимодействуйте с элементами по ссылкам:
agent-browser click @e2. - Сохраните результат: сделайте скриншот (
agent-browser screenshot page.png) или закройте сессию (agent-browser close).









