Gemini 2.5 Использование компьютера достигает 79.9% WebVoyager, 69.7% AndroidWorld – предварительный просмотр Browserbase

Stay in the loop

Free daily newsletter & Telegram daily report

Executive Summary

Google DeepMind представила Gemini 2.5 Computer Use в публичном предварительном просмотре, и он действительно работает с реальными браузерами и интерфейсами Android, а не просто предлагает шаги. В внешних оценках он набирает 79.9% на WebVoyager и 69.0% на Online‑Mind2Web, с 69.7% на AndroidWorld — это достаточно, чтобы автоматизированные покупки, заполнение форм и учетные задачи казались практичными, а не демонстрационным ПО. Browserbase, который проводит бесплатный сравнительный предварительный просмотр, также сообщает о меньшей задержке по сравнению с конкурентами.

Разработчики могут вызывать новый API Computer Use из AI Studio или Vertex AI, разрешая определенные действия (клик, ввод, нажатие клавиш, перетаскивание, сочетания клавиш) и требуя подтверждения на каждое рискованное действие. Цикл простой и составной: отправить снимок экрана плюс историю действий, получить структурированное действие, выполнить его, затем повторно наблюдать до завершения — контракт, который легко интегрируется в существующие оркестраторы. ID модели предварительного просмотра, gemini‑2.5‑computer‑use‑preview‑10‑2025, уже появляется в сторонних браузерах, что упрощает подключение тестовых рамок и шлюзов. Контроль на уровне операционной системы пока не поддерживается, но пути работы с Android и вебом охватывают удивительное количество задач для предприятий.

Одно важное замечание: ранние заявления о том, что "он решил CAPTCHA", были неверными — среда Browserbase обработала задачу, а не Gemini — поэтому воспринимайте CAPTCHA как проблемы среды или вмешательства человека, если провайдер не поддерживает соответствующую обработку.

Feature Spotlight

Функция: Публичное использование компьютера Gemini 2.5

Компьютер Google’s Gemini 2.5 поставляется с передовой точностью веб-контроля и низкой задержкой, создавая надежную базу для производственных браузерных агентов и устанавливая новые стандарты для OpenAI/Anthropic.

История между аккаунтами: новая модель использования компьютера Google DeepMind выполняет задачи браузера/Android через циклы клика/прокрутки/ввод текста с внешними измерениями и практическими демонстрациями в ленте.

Jump to Функция: Публичное использование компьютера Gemini 2.5 topics

🖱️ Функция: Публичное использование компьютера Gemini 2.5

Gemini 2.5 Computer Use запускается с высокими показателями браузеров/Android.

Модель использования компьютера Google DeepMind может кликать, печатать, прокручивать и навигировать по реальным пользовательским интерфейсам, демонстрируя 69.0% на Online‑Mind2Web (официальный), 79.9% на WebVoyager (Browserbase) и 69.7% на AndroidWorld; управление ОС пока не поддерживается обсуждение релиза.

По сравнению с альтернативными агентами, Google подчеркивает как более высокую точность, так и более низкую задержку в измерениях Browserbase, рассматривая это как переход от ответных ботов к программным агентам резюме развертывания, анализ темы.

Gemini 2.5 Использование компьютера достигает 79.9% WebVoyager, 69.7% AndroidWorld – предварительный просмотр Browserbase

Executive Summary

Функция: Публичное использование компьютера Gemini 2.5

Table of Contents

🖱️ Функция: Публичное использование компьютера Gemini 2.5

Gemini 2.5 Computer Use запускается с высокими показателями браузеров/Android.

API и документация в режиме онлайн: Создавайте циклы в AI Studio или Vertex AI с системами безопасности

Как работает цикл: скриншот → предложить действие → выполнить → повторно наблюдать

Попробуйте Gemini 2.5 Computer Use бесплатно на Browserbase с тестами в лоб-в-лоб.

Объяснено, как работает CAPTCHA: Это решает браузер, а не Gemini.

Живая демонстрация: агент Gemini находит обувь со скидкой, проверяет срочную доставку, изменяет цвет

Обнаружен идентификатор модели: __MARKER_0__ gemini‑2.5‑computer‑use‑preview‑10‑2025 __MARKER_1__ появляется в инструментах.

🧑‍💻 Рабочие процессы кодирования агентов и инструменты IDE

Droid теперь запускает любую модель с открытым исходным кодом; GLM 4.6 возглавляет Terminal‑Bench

LlamaIndex поставляет LlamaAgents с код‑ориентированным подходом и развертыванием через LlamaCloud

Сервер MCP от Replicate объединяет Codex, Cursor, Claude и Gemini в одном хабе модели.

Codex CLI 0.45.0 выходит с более плавными циклами задач

Imbue’s Sculptor запускает несколько кодирующих агентов в изолированных контейнерах.

Выпуск MCP-сервера Chrome DevTools позволяет агентам по программированию управлять браузером

Использование useCopilotAction в CopilotKit позволяет пользовательским интерфейсам предлагать безопасные, подлежащие одобрению действия.

Совет по Claude Code: выполняйте долгие задачи в отдельном терминале и следите за их выполнением.

ElevenLabs открывает исходный код 22 блоков интерфейса для аудио- и голосовых агентов

Фреймворк Mastra получает In-Playground Agent Builder и чистую ментальную модель

📊 Evals: терминальные агенты и креативные таблицы лидеров

GLM 4.6 занимает первое место среди открытых моделей в Terminal‑Bench в FactoryAI Droid (43.5%)

Claude Opus 4.1 возглавляет ASCII Bench с рейтингом 1,672 Эло (включена расширенная аналитика)

Обновления арены: Sora 2/Pro добавлен в Video Arena; Ling Flash 2.0 вошел в LM Arena на месте #60.

🎬 Слоистые видео/изображения: Sora 2 конвейеры и инструменты для создателей

«Sora Extend» открывает доступ к бесконечным цепочкам длиной более 12 секунд.

ComfyUI поставляет узел API Sora 2/Sora 2 Pro с разрешением 720p/1080p и без водяных знаков

OpenAI публикует руководство по подсказкам Sora 2; сообщество разрабатывает строитель подсказок с стилями

Наблюдение за надежностью: пользователи отмечают регрессии качества Sora 2 и нестабильность API

Opera Neon интегрирует Sora 2 в режиме «Создать» для генерации видео в браузере

Replicate предоставляет точки доступа Sora 2 и Sora 2 Pro, выставляемые по счетам через ключи API OpenAI

Video Arena добавляет Sora 2 и Sora 2 Pro в таблицы лидеров в режиме противостояния

💼 Сигналы использования и привлечения на уровне предприятия

ChatGPT достигает 800M+ пользователей каждую неделю

Deloitte внедрит Claude для ~470,000 сотрудников

GPT‑5 Codex обрабатывает более 40 триллионов токенов менее чем за месяц

Клуб "1T токенов" от OpenAI: 30 клиентов преодолели триллион токенов

Anthropic откроет офис в Бангалоре в начале 2026 года

Hugging Face добавляет 1М новых репозиториев за 90 дней

Anthropic тестирует надстройку Claude Excel для действий в корпоративном сегменте

Perplexity MAX добавит поддержку GPT‑5 Pro

Платформа Google’s Opal Agent Builder запускается в 15 новых странах

⚙️ Вычислительная экономика и ограничения по мощности

Утечка: Oracle теряет ~$100M на аренде Blackwell; рентабельность серверов GPU ~16%

Энергия становится препятствием: «Приносите свою собственную электроэнергию» входит в дизайн-проекты DC

H100 аренда арбитраж: Azure EU ~$9.08/ч, США ~$6.98; Prime Intellect ~$1.89

xAI выделяет ~$18B на суперкомпьютер в Мемфисе, усиливая гонку вычислительных мощностей

🧪 Новое исследование: агенты, законы масштабирования, цели обучения

UMO масштабирует многоидентичную достоверность изображений, повышая однородную идентификацию до 91.6 и сокращая обмены.

Картирование опросов текст-в видео: диффузия с временным вниманием доминирует, остаются пробелы

🛡️ Безопасность, юридические и функциональные разъяснения

US CAISI сообщает, что DeepSeek V3.1 отстает от моделей США в области кибербезопасности/программного обеспечения, с более высоким риском взлома и захвата.

OpenAI подает ходатайство о прекращении иска xAI о торговых секретах, отрицая подстрекательство к похищению кода через наем.

Исследование показывает, что 5–20% токенов и ранние слои способствуют передаче скрытых предвзятостей во время дистилляции

Почему LLM ошибаются: быть оценённым за догадки лучше, чем признать неопределённость

Google запускает Программу вознаграждений за уязвимости в ИИ, чтобы выплачивать награды за особенности уязвимостей ИИ

Исправление возможностей: Gemini 2.5 Компьютерное использование не решило CAPTCHA — это сделала Browserbase.

🤖 Гуманоиды и воплощенные агенты движутся вперёд

Фигура 03 показывает набор для 9 октября, так как тизер демонстрирует новые ноги с индуктивной зарядкой.

Гуманоид Unitree G1 появился на Walmart за ~$21,600 с доставкой в течение 1 недели.

Qwen запускает команду по робототехнике и воплощённому ИИ, чтобы перенести агентов-фундаторов в физический мир

Оптимус от Tesla демонстрирует более плавные и выразительные движения на премьерном показе Tron: ARES

🧩 MCP интеграция и обнаружение инструментов

Replicate запускает сервер MCP для обнаружения и выполнения многоклиентских моделей.

Chrome DevTools поставляет сервер MCP, позволяющий кодовым агентам производить инспекцию и автоматизацию браузера

MCP момент: Ключевая речь OpenAI подчеркивает стандарт, в то время как Groq и Tavily публикуют кулинарную книгу MCP

🎙️ Голосовые агенты и локальный пользовательский интерфейс распознавания речи (STT)

ElevenLabs открывает исходный код 22 UI блоков для голосовых агентов (MIT)

Локальный парикет STT достигает ~2.8× реального времени на ЦП; тихая диктовка работает

On this page

Обнаружен идентификатор модели: __MARKER_0 gemini‑2.5‑computer‑use‑preview‑10‑2025 MARKER_1__ появляется в инструментах.