Gemini 2.5 Использование компьютера достигает 79.9% WebVoyager, 69.7% AndroidWorld – предварительный просмотр Browserbase

Stay in the loop

Get the Daily AI Primer delivered straight to your inbox. One email per day, unsubscribe anytime.

Executive Summary

Google DeepMind представила Gemini 2.5 Computer Use в публичном предварительном просмотре, и он действительно работает с реальными браузерами и интерфейсами Android, а не просто предлагает шаги. В внешних оценках он набирает 79.9% на WebVoyager и 69.0% на Online‑Mind2Web, с 69.7% на AndroidWorld — это достаточно, чтобы автоматизированные покупки, заполнение форм и учетные задачи казались практичными, а не демонстрационным ПО. Browserbase, который проводит бесплатный сравнительный предварительный просмотр, также сообщает о меньшей задержке по сравнению с конкурентами.

Разработчики могут вызывать новый API Computer Use из AI Studio или Vertex AI, разрешая определенные действия (клик, ввод, нажатие клавиш, перетаскивание, сочетания клавиш) и требуя подтверждения на каждое рискованное действие. Цикл простой и составной: отправить снимок экрана плюс историю действий, получить структурированное действие, выполнить его, затем повторно наблюдать до завершения — контракт, который легко интегрируется в существующие оркестраторы. ID модели предварительного просмотра, gemini‑2.5‑computer‑use‑preview‑10‑2025, уже появляется в сторонних браузерах, что упрощает подключение тестовых рамок и шлюзов. Контроль на уровне операционной системы пока не поддерживается, но пути работы с Android и вебом охватывают удивительное количество задач для предприятий.

Одно важное замечание: ранние заявления о том, что "он решил CAPTCHA", были неверными — среда Browserbase обработала задачу, а не Gemini — поэтому воспринимайте CAPTCHA как проблемы среды или вмешательства человека, если провайдер не поддерживает соответствующую обработку.

Feature Spotlight

Функция: Публичное использование компьютера Gemini 2.5

Компьютер Google’s Gemini 2.5 поставляется с передовой точностью веб-контроля и низкой задержкой, создавая надежную базу для производственных браузерных агентов и устанавливая новые стандарты для OpenAI/Anthropic.

История между аккаунтами: новая модель использования компьютера Google DeepMind выполняет задачи браузера/Android через циклы клика/прокрутки/ввод текста с внешними измерениями и практическими демонстрациями в ленте.

Jump to Функция: Публичное использование компьютера Gemini 2.5 topics

📑 Table of Contents

🖱️ Функция: Публичное использование компьютера Gemini 2.5

История между аккаунтами: новая модель использования компьютера Google DeepMind выполняет задачи браузера/Android через циклы клика/прокрутки/ввод текста с внешними измерениями и практическими демонстрациями в ленте.

Gemini 2.5 Computer Use запускается с высокими показателями браузеров/Android.

Модель использования компьютера Google DeepMind может кликать, печатать, прокручивать и навигировать по реальным пользовательским интерфейсам, демонстрируя 69.0% на Online‑Mind2Web (официальный), 79.9% на WebVoyager (Browserbase) и 69.7% на AndroidWorld; управление ОС пока не поддерживается обсуждение релиза.

Таблица производительности бенчмарка

По сравнению с альтернативными агентами, Google подчеркивает как более высокую точность, так и более низкую задержку в измерениях Browserbase, рассматривая это как переход от ответных ботов к программным агентам резюме развертывания, анализ темы.

API и документация в режиме онлайн: Создавайте циклы в AI Studio или Vertex AI с системами безопасности

Разработчики могут вызывать API использования компьютера из Google AI Studio или Vertex AI и контролировать разрешенные действия (клик, нажатие клавиш, перетаскивание, ввод, горячие клавиши) с проверками безопасности на каждом шаге и подтверждением пользователя для рискованных действий пост в блоге Google, документация API. Паттерны API отражают классический цикл агента — отправить скриншот и историю действий, получить структурированное действие, выполнить его, а затем повторить — поэтому он легко вписывается в существующие оркестраторы ссылка на документацию, документация по выполнению..

Как работает цикл: скриншот → предложить действие → выполнить → повторно наблюдать

Под капотом клиент захватывает снимок экрана и предыдущие действия, модель возвращает структурированный шаг (например, клик с координатами, ввод с содержимым), клиент выполняет его, затем отправляет обновленное состояние для итерации, пока задача не будет завершена объяснение потока, документация API. Этот контракт позволяет модели оставаться без состояния на каждом этапе, обеспечивая при этом управление выполнением с помощью инструментов и политик.

Схема потока цикла

Попробуйте Gemini 2.5 Computer Use бесплатно на Browserbase с тестами в лоб-в-лоб.

Browserbase открыла бесплатный публичный просмотр, чтобы команды могли выполнять полные циклы кликов/прокрутки/ввода с Gemini 2.5 в облаке, без необходимости настройки public preview.). Их страница сравнения позволяет вам сравнивать результаты по моделям и задачам для проверки надежности и скорости перед интеграцией head‑to‑head page.). Бенчмарки, опубликованные Google, показывают результаты, измеренные Browserbase, составившие 65.7% (Online‑Mind2Web) и 79.9% (WebVoyager) для Gemini 2.5 release thread.).

Объяснено, как работает CAPTCHA: Это решает браузер, а не Gemini.

Ранние утверждения о том, что Gemini 2.5 сам решает свои CAPTCHA, были скорректированы: за этап CAPTCHA отвечала среда Browserbase, а не модель примечание о корректировке.). Инженеры должны рассматривать CAPTCHA и подобные методы обнаружения ботов как проблемы среды или взаимодействия с человеком, если поставщик явно не поддерживает соответствующую обработку в модели пост в блоге Google.).

Живая демонстрация: агент Gemini находит обувь со скидкой, проверяет срочную доставку, изменяет цвет

Демонстрация в действии показывает, как модель находит розовые туристические ботинки Merrell на распродаже, подтверждает срочную доставку и меняет цвет — иллюстрируя полную работу браузера под контролем shopping demo. Это новый стандарт для UI-агентов: мыслить над пикселями, действовать с структурированными шагами и сохранять состояние при переходах между страницами.

Обнаружен идентификатор модели: MARKER_0 gemini‑2.5‑computer‑use‑preview‑10‑2025 MARKER_1 появляется в инструментах.

Списки браузеров сторонних моделей указывают название предварительного просмотра "gemini‑2.5‑computer‑use‑preview‑10‑2025", помогая командам точно указать ID модели в тестовых каркасах и шлюзах model finder shot.). Это соответствует поэтапному развертыванию Google в Studio и Vertex, где теги предварительного просмотра часто меняются во время публичных испытаний API docs.).

Скриншот поиска модели


🧑💻 Рабочие процессы кодирования агентов и инструменты IDE

Обновления и советы по Cursor, Claude Code, Codex, LlamaIndex, CopilotKit, Sculptor. Исключает использование Gemini Computer (рассмотрено как функция).

Droid теперь запускает любую модель с открытым исходным кодом; GLM 4.6 возглавляет Terminal‑Bench

Фреймворк Droid-агента от Factory добавил широкую поддержку открытых моделей; в их Terminal‑Bench, GLM 4.6 достигает 43.5% с несколькими вариантами Qwen и DeepSeek рядом benchmarks chart. КЛИ-снимок показывает GLM 4.6, подключенный через Factory Core на практике terminal run, в продолжение к Spec mode practice, где команды предпочитали Droid для точных многосStep-edits.

Terminal‑Bench bars

LlamaIndex поставляет LlamaAgents с код‑ориентированным подходом и развертыванием через LlamaCloud

LlamaIndex продвигает код‑центрированный подход к агентным рабочим процессам: создавайте агентов на Python с управлением состоянием, контрольными точками и участием человека, затем разворачивайте завершенные решения на LlamaCloud. Примеры включают обработку юридических документов с gates одобрения и структурированными выходными данными для больших файлов product thread.). Это дополняет низкокодовые инструменты, позволяя командам возвращаться к полной программируемости, когда рабочие процессы становятся сложными.

Диаграмма рабочего процесса

Сервер MCP от Replicate объединяет Codex, Cursor, Claude и Gemini в одном хабе модели.

Replicate выпустила сервер MCP, который открывает свой каталог моделей для популярных клиентов-агентов (Codex CLI, Claude, Cursor, Gemini, VS Code), чтобы команды могли находить, сравнивать и запускать модели через единую точку доступа продуктовый блог, с руководствами по настройке для каждого клиента сервера MCP.. OpenAI также выделила MCP в своей основной речи, подчеркивая активность в создании универсального инструмента/протокольного уровня продуктовый блог.

Слайд MCP с основной речи

Codex CLI 0.45.0 выходит с более плавными циклами задач

CLI Codex от OpenAI обновлён до версии v0.45.0, пользователи отмечают более удобный цикл планирования, утверждения и обзоров в более длительных сессиях кодирования changelog notice.). Рабочие процессы рядом показывают выбор модели, статус, утверждения и обзор в качестве первоклассных команд для агентного кодирования в локальных репозиториях cli screen.)

Обновление баннера

Imbue’s Sculptor запускает несколько кодирующих агентов в изолированных контейнерах.

Скульптор позволяет вам развертывать несколько агентов Claude Code параллельно, каждый в своем контейнере, а затем просматривать и объединять отличия в режиме Pairing Mode — полезно для одновременного изучения множества исправлений без гимнастики с ветками страница продукта.). Команда также выпустила бинарники для старых Mac, расширив охват за пределы Apple Silicon примечание о выпуске.)

Макет ретро Mac

Выпуск MCP-сервера Chrome DevTools позволяет агентам по программированию управлять браузером

Команда Chrome DevTools открыла исходный код сервера MCP, который предоставляет доступ к DevTools для агентов кодирования, что позволяет автоматизированно инспектировать и манипулировать страницами во время отладки и тестов — идеально подходит для агентов рабочего процесса, которым необходимы инструменты, осведомленные о DOM, в CI GitHub репозиторий.). Это хорошо сочетается с агентами и шлюзами IDE, которые уже появляются в экосистеме и поддерживают MCP.

Использование useCopilotAction в CopilotKit позволяет пользовательским интерфейсам предлагать безопасные, подлежащие одобрению действия.

CopilotKit представил useCopilotAction, чтобы фронтенд-приложения могли определять действия, доступные для вызова на естественном языке, которые агент может выполнять программно, с хуком needsApproval для требования человеческого согласия на рискованные вызовы docs link.). Пример с компаньоном показывает, как ограничить выполнение локальных команд оболочки, чтобы только безопасные операции выполнялись без одобрения, согласуя использование инструментов с корпоративными стандартами code example.)
NeedsApproval code

Совет по Claude Code: выполняйте долгие задачи в отдельном терминале и следите за их выполнением.

Практический рабочий процесс Claude Code: позвольте агенту открывать долгосрочные, ресурсоемкие команды в новом окне терминала, затем проверяйте прогресс с помощью скриншота или хука — это позволяет избежать потери видимости, сохраняя интерактивное управление после этого совет по выполнению, заметка-резюме. Эта простая схема уменьшает объем копирования и вставки и помогает держать агентов под ответственностью во время длительных запусков.

Двойной вид терминала

ElevenLabs открывает исходный код 22 блоков интерфейса для аудио- и голосовых агентов

ElevenLabs UI предлагает компоненты с лицензией MIT, которые можно настраивать для чата, транскрипции, музыки и голосовых агентов (включая состоящий блок голосового чата), предоставляя инженерным командам готовые фронтенды для соединения с бэкенд-агентами release note, component demo. Это может сократить путь от прототипа к производству для голосовых помощников.

Фреймворк Mastra получает In-Playground Agent Builder и чистую ментальную модель

Сообщество Mastra поделилось диаграммой ментальной модели для рабочих процессов агентов (этапы, инструменты, MCP, память, оценка) и прототипом конструктора агентов внутри игрового пространства Mastra, вдохновленным недавними канвасами агентов диаграмма структуры, предварительный просмотр конструктора. Это направлено на балансировку декларативной оркестрации с программируемыми выходами.

Диаграмма структуры


📊 Evals: терминальные агенты и креативные таблицы лидеров

Свежие результаты оценки, сосредоточенные на агентных/кодирующих и творческих текстовых задачах. Исключены метрики использования компьютера Gemini (функция).

GLM 4.6 занимает первое место среди открытых моделей в Terminal‑Bench в FactoryAI Droid (43.5%)

Снимок Terminal‑Bench от FactoryAI показывает, что GLM 4.6 занимает первое место среди открытых моделей с 43.5%, опережая Qwen3 Coder 480B A35B (39.0%) и DeepSeek V3.1 (37.2%). Команда добавляет, что GLM 4.6 в Droid "обходит Sonnet 4 в Claude Code" по их метрике, и теперь Droid позволяет интегрировать любую ОС модель график открытых моделей. В продолжение GLM‑4.6 CC‑Bench, где он приблизился к Claude в агентовом кодировании, это укрепляет его полномочия терминального агента во всех системах. Практики уже подключают GLM 4.6 через Factory Core в CLI, подтверждая готовность к работе в реальных процессах демонстрация CLI.

График Terminal‑Bench

Claude Opus 4.1 возглавляет ASCII Bench с рейтингом 1,672 Эло (включена расширенная аналитика)

Снимок лидеров ASCII Bench показывает, что Claude Opus 4.1 от Anthropics занимает 1-е место с Эло 1,672, используя конфигурацию для расширенного мышления, опережая другие передовые модели в структурированных задачах ASCII снимок лидеров.). Результат подчеркивает, как режимы "мышления" или цепочки размышлений могут существенно повлиять на рейтинги креативных форматов, даже без изменения параметров.

ASCII Bench board

Обновления арены: Sora 2/Pro добавлен в Video Arena; Ling Flash 2.0 вошел в LM Arena на месте #60.

Доски арены получили несколько обновлений: Sora 2 и Sora 2 Pro от OpenAI теперь доступны в Видео Арене для сравнений один на один обновление видео арены.) На стороне LM две открытые модели от AntLing заняли прочные позиции — Ling Flash 2.0 на #60 в общем списке (#27 среди открытых) и Ring Flash 2.0 на #85 в общем списке (#44 среди открытых) рейтинги LM Арены,) с быстрым доступом через публичный сайт сайт арены.)

экраны LM Арены


🎬 Слоистые видео/изображения: Sora 2 конвейеры и инструменты для создателей

Большая часть постов охватывает использование Sora 2, интеграции и применение в масштабах; включает обновления Arena и отчеты о надежности.

«Sora Extend» открывает доступ к бесконечным цепочкам длиной более 12 секунд.

Новый инструмент с открытым исходным кодом, Sora Extend, соединяет клипы Sora 2 в по сути бесконечные видео, улучшая подсказки и используя контекст последнего кадра, обходя 12-секундный лимит OpenAI Примечание о выпуске, Тизер запуска. Этот инструмент появился после Слуха о более длинных клипах (предполагаемые 288-секундные расширения), предоставляя командам практичное решение уже сейчас.

ComfyUI поставляет узел API Sora 2/Sora 2 Pro с разрешением 720p/1080p и без водяных знаков

ComfyUI добавил узел API Sora 2 первого лица, который поддерживает разрешения 720×1280 и 1280×720 для Sora‑2, а также 1024×1792 и 1792×1024 для Sora‑2 Pro, с длительностями клипов 4/8/12 секунд и без водяных знаков API node details.). Команда также отмечает доступность для настольных ПК, расширяя локальные рабочие процессы для создателей Desktop note.).

OpenAI публикует руководство по подсказкам Sora 2; сообщество разрабатывает строитель подсказок с стилями

Новое руководство по запросам Sora 2 от OpenAI подробно описывает выбор модели, длину клипа, разрешение и направление на уровне кадра; инструмент сообщества автоматически генерирует запросы с богатым стилем (почти 100 стилей) с вариантами Sora-2 и Sora-2 Pro инструмент для запросов,) с подробностями в официальном руководстве руководство OpenAI.)

Экран руководства по запросам

Это помогает стандартизировать подход "короткого брифа для кинематографистов" для более предсказуемых результатов в различных итерациях.

Наблюдение за надежностью: пользователи отмечают регрессии качества Sora 2 и нестабильность API

Создатели сообщают, что качество вывода Sora, похоже, ухудшается с каждым днем Quality complaint,) , в то время как другие утверждают, что API начал выходить из строя при большинстве попыток — особенно в последовательных запусках API failures.) . Один из пользователей также отмечает, что API в настоящее время блокирует камео, ограничивая некоторые варианты использования мема или семейного видео Cameo limit.) .

Opera Neon интегрирует Sora 2 в режиме «Создать» для генерации видео в браузере

Пользователи Opera Neon теперь могут генерировать видео через Sora 2 непосредственно из интерфейса режима Создания — введите запрос и сделайте рендеринг в браузере Интеграция с браузером.

Интерфейс Sora в Opera Neon

Это добавляет пользовательский интерфейс для рабочих процессов Sora наряду с профессиональными инструментами и конвейерами.

Replicate предоставляет точки доступа Sora 2 и Sora 2 Pro, выставляемые по счетам через ключи API OpenAI

Добавлены Sora 2 и Sora 2 Pro в качестве хостируемых конечных точек; использование оплачивается напрямую OpenAI через ваш API-ключ, что позволяет легко интегрировать Sora в существующие пайплайны Replicate ссылки на Replicate,) с страницами моделей для Sora 2 страница Sora 2) и Sora 2 Pro страница Sora 2 Pro.). Это расширяет доступ вместе с маршрутизаторами моделей на базе MCP и стеками агентов.

Video Arena добавляет Sora 2 и Sora 2 Pro в таблицы лидеров в режиме противостояния

Арена представила Sora 2 и Sora 2 Pro в своей Видео Арене, что позволяет проводить параллельные сравнения с другими современными видео моделями Arena update.). Это дает командам нейтральную площадку для проверки нарративной согласованности, качества движений и верности запросов среди поставщиков.


💼 Сигналы использования и привлечения на уровне предприятия

Уровень принятия клиентами, географическое расширение и объемы использования. Сегодня включает расширение в Индии, массовые развертывания и статистику использования токенов.

ChatGPT достигает 800M+ пользователей каждую неделю

OpenAI объявила о 800M+ еженедельных пользователях ChatGPT на DevDay, что стало революционным изменением в распространении AI приложений внутри ChatGPT и центральным каналом для достижения сторонних приложений DevDay slide.). Это следует за 700M WAU, о которых говорилось ранее, и закрепляет за ChatGPT статус де-факто воронки от потребителя к бизнесу для агентов и рабочих процессов.

DevDay user stats

Deloitte внедрит Claude для ~470,000 сотрудников

Deloitte разворачивает Claude от Anthropic среди своих 470000 сотрудников, что сигнализирует о одном из крупнейших внедрений ИИ в бизнесе на сегодняшний день и подчеркивает быстрое принятие агентов в профессиональных услугах замечание о внедрении.). Этот шаг происходит на фоне того, что компании усиливают инвестиции в агентные рабочие процессы и внутренние инструменты для стандартизации работы с ИИ.

GPT‑5 Codex обрабатывает более 40 триллионов токенов менее чем за месяц

OpenAI сообщает, что gpt‑5‑codex уже обработал более 40T токенов с момента запуска менее месяца назад, что делает его одной из наиболее быстрорастущих моделей по объему использования обновление использования. Этот темп подтверждает растущий интерес разработчиков к длительным кодовым агентам и предполагает увеличение расходов на тяжелое рассуждение при выводе.

40T+ токенов слайд

Клуб "1T токенов" от OpenAI: 30 клиентов преодолели триллион токенов

Новая таблица лидеров выделяет 30 стартапов и крупных клиентов, каждый из которых обработал более 1 трлн токенов на OpenAI, включая такие компании, как Duolingo, Shopify, Notion, Zendesk, Datadog и Perplexity изображение таблицы лидеров. Исправление уточняет одну карту компании, подчеркивая масштабы, тем не менее замечание об исправлении. Для лидеров в AI это конкретный сигнал устойчивого использования на производственном уровне в разных секторах.

таблица клуба 1T токенов

Anthropic откроет офис в Бангалоре в начале 2026 года

Anthropic откроет второй хаб APAC в Бангалоре в начале 2026 года, чтобы использовать экосистему разработчиков и предприятий Индии, ссылаясь на активное использование Claude и внедрения с социальной значимостью в образовании, здравоохранении и сельском хозяйстве анонс.) Компания отмечает, что Индия занимает второе место в мире по потребительскому использованию Claude и подчеркивает быстрый рост принятия Claude Code среди местных предприятий, таких как CRED блог Anthropic.)

Hugging Face добавляет 1М новых репозиториев за 90 дней

Hugging Face Hub за последние 90 дней увидел 1 000 000 новых репозиториев, что составляет один репозиторий примерно каждые 8 секунд — 40% из которых являются приватными, и все они поддерживаются хранилищем Xet; подписки на корпоративный хаб — это линия доходов с самым быстрым ростом growth note.). Для лидеров в области ИИ это является важным индикатором активности разработчиков и внутреннего внедрения.

График репозиториев Xet

Anthropic тестирует надстройку Claude Excel для действий в корпоративном сегменте

Появился процесс авторизации для "Claude Excel Add‑in", показывающий связывание учетных записей и использование подписки — указывая на действия внутри таблицы и сопилоты в Microsoft 365 экран авторизации.). Внедрение Claude в Excel упростит задачи по обработке данных и анализу, где многие предприятия уже работают.

Excel add-in auth

Perplexity MAX добавит поддержку GPT‑5 Pro

Perplexity сигнализировал о предстоящем доступе к GPT‑5 Pro для пользователей MAX, интерфейс уже показывает селектор "Размышление с GPT‑5 Pro..." в тестах модель селектора. Это повышает качество ответов для опытных пользователей и намекает на более широкий переход к уровням размышлений в потребительских исследовательских инструментах.

Выбор модели Perplexity

Платформа Google’s Opal Agent Builder запускается в 15 новых странах

Google расширил доступ к Opal Agent Builder в 15 дополнительных рынках, включая Канаду, Индию, Японию, Бразилию, Сингапур и Аргентину, что расширяет возможности создания и развертывания агентных рабочих процессов список развёртывания.) Для планировщиков платформ это расширяет географическое покрытие для пилотных проектов и раннего использования за пределами США.


⚙️ Вычислительная экономика и ограничения по мощности

Сигналы по аренде GPU, маржам и узким местам с мощностью, влияющим на поставки ИИ. Одна категория исключений, не связанная с ИИ, обоснована прямым влиянием инфраструктуры ИИ.

Утечка: Oracle теряет ~$100M на аренде Blackwell; рентабельность серверов GPU ~16%

Внутренние данные Oracle указывают на то, что их усилия по аренде Nvidia Blackwell находятся под давлением маржи, с квартальным удешевлением около ~$100M и арендными маржами серверов около 16%, что подчеркивает, как конкурентные цены и риски использования сжимают арендаторов GPU скриншот статьи.

графика аренды Oracle

Для создателей ИИ это указывает на нестабильность цен в краткосрочной перспективе (войны скидок, колебания спотовой ёмкости) и на премию за стратегии упаковки рабочих нагрузок и резервирования, чтобы избежать ситуации, когда цены списков оказываются выше эффективных уровней маржи.

Энергия становится препятствием: «Приносите свою собственную электроэнергию» входит в дизайн-проекты DC

Операторы всё чаще утверждают, что новые AI дата-центры должны обеспечить выделенное электроснабжение — "приносите своё электричество" — поскольку очереди на подключение к сети и потребности в мегаваттах превышают местные мощности power bottleneck.). Это продолжает тенденцию карты партнерства, основанную на индивидуальных сделках по вычислениям и дата-центрам, охватывающих гипермасштабные компании, производителей чипов и коммунальные службы partnership map,), следуя за power bottleneck, где руководители отметили электричество как ограничивающий фактор.

Графика карты партнерства

Практический вывод: планируйте на-site генерацию (PPA, термальные источники, накопление) и выбор площадки для роста в масштабе GW, а не только пространство для стоек.

H100 аренда арбитраж: Azure EU ~$9.08/ч, США ~$6.98; Prime Intellect ~$1.89

Свежие выборочные проверки показывают широкое расхождение в ценах на H100: Azure указывает NC40ads в Европе около $9.08/ч и как низко, как ~$6.98/ч в некоторых регионах США, в то время как Prime Intellect рекламирует ~$1.89/ч H100 (вероятно, предконтрактные/спотовые) сравнение цен, цены в США.

Цены Azure против PI

Ожидайте, что команды будут активнее использовать многооблачные шлюзы и устойчивое к предконтрактному использованию обучение/вывод (контрольные точки, эластичная пакетная обработка), чтобы использовать арбитраж, не нарушая SLO.

xAI выделяет ~$18B на суперкомпьютер в Мемфисе, усиливая гонку вычислительных мощностей

Обзор выделяет планы Илона Маска/xAI на финансирование примерно $18 млрд для суперкомпьютера в Мемфисе, что усиливает рост капитальных вложений на одном объекте, направленных на закрепление вычислительных мощностей, электроэнергии и земельных участков для многолетнего масштабирования обзор новостей, краткий обзор новостей.

иллюстрация чипа xAI

Если это реализуется, ожидайте вторичных эффектов на региональном уровне закупок электроэнергии, поставок компонентов (HBM/сеть) и нового раунда долгосрочных предзаказов на емкость, что ужесточит краткосрочные спотовые рынки.


🧪 Новое исследование: агенты, законы масштабирования, цели обучения

Статьи охватывают эволюцию контекста, память, альтернативы масштабирования и кодирование через диффузию. В основном сегодня посты в стиле рецензируемых статей/предварительных публикаций.

UMO масштабирует многоидентичную достоверность изображений, повышая однородную идентификацию до 91.6 и сокращая обмены.

ByteDance переопределяет настройку изображений для нескольких людей как глобальную задачу, добавляя вознаграждения RL как для сходства между лицами, так и для сопоставления между сценами; основанный на OmniGen2, идентичность одного человека улучшается с 62.41 до 91.57, а новая метрика путаницы возрастает с 62.02 до 77.74 в групповых сценах страница статьи.

Название статьи

Совместное сопоставление (не по лицам) вместе с сигналом усиления уменьшает перекрытия идентичностей по мере увеличения количества субъектов страница статьи.

Картирование опросов текст-в видео: диффузия с временным вниманием доминирует, остаются пробелы

Обширное исследование отслеживает сдвиг в области от GAN/VAEs к диффузии с временным вниманием, подчеркивая общие компоненты (автокодировщики, кросс-кадровое внимание, текстовое руководство), практику обучения и оценку (FVD для реализма/движения, CLIP для верности запроса) страница статьи.

Название статьи

Открытые проблемы включают долгосрочную согласованность, сцены с несколькими объектами, сохранение идентичности и стоимость вычислений; практические приемы, такие как пирамидальное снижение шума и ключевые кадры, каталогизируются для практиков страница статьи.


🛡️ Безопасность, юридические и функциональные разъяснения

Политика/юридические меры и оценки рисков злоупотребления. Включены исправления возможностей. Исключает детали запуска использования компьютера Gemini (SOURCELINK_2) (функция).

US CAISI сообщает, что DeepSeek V3.1 отстает от моделей США в области кибербезопасности/программного обеспечения, с более высоким риском взлома и захвата.

Новая оценка Центра стандартов и инноваций в области ИИ (CAISI, в рамках NIST) показывает, что DeepSeek V3.1 отстает от ведущих моделей США по большинству практических задач — особенно в области кибербезопасности и программной инженерии — и более подвержен джейлбрейкам и захвату агентов, при этом демонстрируя более сильные политические предвзятости. Исследование охватывает 19 тестов и сравнивает загруженные веса DeepSeek с моделями США, предоставляемыми через API; также сообщается о более высоком уровне рисков безопасности и отмечаются паттерны усыновления через месяц после выпуска exec summary.

Слайд отчета CAISI

  • В отчете упоминается о большей уязвимости к тактическим подсказкам и слабых защитных механизмах по сравнению с коллегами exec summary.

OpenAI подает ходатайство о прекращении иска xAI о торговых секретах, отрицая подстрекательство к похищению кода через наем.

OpenAI подала свой ответ на обвинения xAI, отвергая утверждения о том, что она способствовала или знала о каком-либо выведении исходного кода бывшими сотрудниками xAI, и попросила суд отклонить иск за недостаточность оснований для иска. В документе утверждается, что обращение рекрутеров было стандартным, xAI не обеспечила разумную защиту конфиденциальности, и использование OpenAI предполагаемых коммерческих тайн не обосновано; также перечисляются несколько положительных защит и запрашиваются судебные издержки обзор юридического документа.)

Исследование показывает, что 5–20% токенов и ранние слои способствуют передаче скрытых предвзятостей во время дистилляции

Новое исследование показывает, что «токены дивергенции» (где учителя выбирают разные слова) и ранние уровни сети несут большую часть подсознательного сигнала предвзятости во время дистилляции знаний. Маскировка или переписывание этих токенов, или смешивание нескольких учителей существенно подавляет передачу предвзятости, сохраняя при этом точность — определяя конкретные рычаги для более безопасной компрессии моделей заголовок статьи.

заголовок статьи

Почему LLM ошибаются: быть оценённым за догадки лучше, чем признать неопределённость

OpenAI и его коллеги утверждают, что тренировочные и оценочные процессы статистически вознаграждают уверенные догадки, а не откалиброванную неуверенность, что делает галлюцинации рациональным исходом текущих целей и таблиц лидеров. В статье призываются к социо-техническим изменениям — изменению оценки на бенчмарках, чтобы предпочтение отдавало неуверенности, когда это уместно, и соответственно выравниванию стимулов — в продолжение работы по аудиту галлюцинаций, которая отметила неподдерживаемые утверждения с аккуратностью ~0.67 обзор статьи.

страница заголовка статьи

Google запускает Программу вознаграждений за уязвимости в ИИ, чтобы выплачивать награды за особенности уязвимостей ИИ

Google представила специальную программу AI VRP для стимулирования выявления уязвимостей, специфичных для ИИ, расширяя баг-баунти за пределы классического программного обеспечения на модели, данные и сбои в безопасности. Эта инициатива формализует экономику красных команд для систем ИИ и соответствует более широкому стремлению к внешнему тестированию безопасности ai vrp note..

Исправление возможностей: Gemini 2.5 Компьютерное использование не решило CAPTCHA — это сделала Browserbase.

После первоначальных заявлений о том, что Gemini 2.5 Computer Use сам решает CAPTCHAs, Симон Уиллисон выпустил опровержение, уточнив, что CAPTCHA на самом деле обрабатывался Browserbase, а не моделью. Это исправляет раннее послепродажное недоразумение и сужает диапазон возможностей для текущих агентов браузерного использования примечание об опровержении пост об опровержении.


🤖 Гуманоиды и воплощенные агенты движутся вперёд

Множественные сигналы о том, что универсальные роботы движутся в сторону коммерческих форм-факторов и инвестиций в организации.

Фигура 03 показывает набор для 9 октября, так как тизер демонстрирует новые ноги с индуктивной зарядкой.

Фигура подтвердила анонс 03 на 9 октября, с трейлером, подчеркивающим артикулированные пальцы и маркировку "индукционная зарядка" на стопе — признаки более готовой к производству формы и возможности дока дата дебюта, трейлер всё ещё. Сообщество сейчас обсуждает, начнутся ли предзаказы на мероприятии разговор о кнопке покупки, вопрос о предзаказе.

тизер ног Figure 03

Гуманоид Unitree G1 появился на Walmart за ~$21,600 с доставкой в течение 1 недели.

Розничное предложение для Unitree G1 доступно на Walmart за $21,600 с бесплатной доставкой и указанным сроком доставки в одну неделю, что знаменует собой значительное расширение канала для общепurpose гуманоидов за пределами прямых корпоративных продаж Walmart listing. Для лидеров в области ИИ этот розничный путь намекает на более широкий доступ для разработчиков и пилоты за пределами традиционных закупок.

Walmart product page

Qwen запускает команду по робототехнике и воплощённому ИИ, чтобы перенести агентов-фундаторов в физический мир

Группа робототехники/ин embodied AI компании Alibaba, названная Qwen, была создана для того, чтобы превратить многомодальные базовые модели в долгосрочные "базовые агенты" с инструментами, памятью и обучением с подкреплением, причем явно с целью перейти от виртуального управления к реальному анонс команды.). Это четкая организационная ставка на то, что развертываемые агенты будут требовать политик, основанных на обучении с подкреплением, связанных с устройствами и сенсорами.

Оптимус от Tesla демонстрирует более плавные и выразительные движения на премьерном показе Tron: ARES

Optimus привлек внимание на премьере Tron: ARES своими плавными жестами в стиле кунг-фу, подчеркивая постепенный прогресс Tesla в качестве движения и надежности на выставке для своей человекоподобной платформы демо резюме. Для аналитиков последовательные публичные демонстрации имеют значение как индикатор контроля активации, баланса и тепловой/энергетической стабильности в неконтролируемых условиях.


🧩 MCP интеграция и обнаружение инструментов

Уровень интероперабельности для агентов через Протокол Контекста Моделей — серверы, клиенты и инструменты разработки. Компактные, но значимые обновления сегодня.

Replicate запускает сервер MCP для обнаружения и выполнения многоклиентских моделей.

Replicate выпустила сервер MCP, который позволяет Codex, Claude, Cursor, Gemini CLI и другим обнаруживать, сравнивать и запускать тысячи моделей через единый конечный пункт, с конфигурацией для каждого клиента в формате копирования и вставки и аутентификацией API-токеном, подробности указаны в документах MCP server) и Home - Replicate MCP server.). Этот шаг соответствует позиции OpenAI по "открытым стандартам [основанным на MCP]", о которой говорилось на сцене, сигнализируя о широком движении к совместимости клиент/сервер MCP server.).

MCP keynote slide

Chrome DevTools поставляет сервер MCP, позволяющий кодовым агентам производить инспекцию и автоматизацию браузера

Команда Chrome DevTools открыла исходный код сервера MCP, который предоставляет возможности DevTools клиентам-агентам, что облегчает работу кодирующих агентов по инспекции страниц и управлению отладочными процессами браузера через стандартизированный интерфейс. Смотрите репозиторий для деталей настройки и API репозиторий GitHub..

MCP момент: Ключевая речь OpenAI подчеркивает стандарт, в то время как Groq и Tavily публикуют кулинарную книгу MCP

Ключевая часть выступления на DevDay от OpenAI многократно упоминала MCP как открытый стандарт для взаимодействия инструментов агентов, в то время как Groq и Tavily опубликовали учебное руководство по веб-поиску в реальном времени, которое реализует MCP от начала до конца — доказательство того, что экосистемы платформы и инструментов конвергируют к этому протоколу Слайд выступления) и Учебное руководство.). Это следует за ранее проявившимися признаками дизайна с приоритетом MCP в грядущем конструкторе агентов OpenAI MCP холст.

Слайд ключевого выступления MCP


🎙️ Голосовые агенты и локальный пользовательский интерфейс распознавания речи (STT)

Блоки построения голосового интерфейса и местная эргономика транскрипции, используемые строителями агентов и командами приложений.

ElevenLabs открывает исходный код 22 UI блоков для голосовых агентов (MIT)

ElevenLabs выпустила UI-кит с лицензией MIT, который включает 22 настраиваемых компонента, охватывающих чат, транскрипцию, музыку и сквозные голосовые агенты release thread.). Блок voice‑chat‑03 добавляет состоящий мультимодальный интерфейс чата, в который вы можете вставить идентификатор агента ElevenLabs, чтобы быстро создать рабочий голосовой опыт component demo,), с подробностями в component docs.).

Для команд AI это сокращает недели на создание согласованных голосовых интерфейсов уровня производства (состояние сеанса, хуки для использования инструментов) и стандартизирует поверхности для передачи агентов и живого аудио.

Локальный парикет STT достигает ~2.8× реального времени на ЦП; тихая диктовка работает

В продолжение Maivi STT, демонстрация практикующего показывает, что Parakeet TDT работает локально на процессорах с производительностью ~2.8× реального времени, точно расшифровывая даже шепотом произнесенную речь с хорошим микрофоном usage notes.). Рабочий процесс передает данные частями для удобства использования; самый приоритетный пункт в списке желаемого — это осведомленность о контексте (видение содержимого на экране), чтобы автоматически исправлять термины в домене, с которым работает пользователь, что повысило бы точность для технической терминологии.

On this page

Executive Summary
🖱️ Функция: Публичное использование компьютера Gemini 2.5
Gemini 2.5 Computer Use запускается с высокими показателями браузеров/Android.
API и документация в режиме онлайн: Создавайте циклы в AI Studio или Vertex AI с системами безопасности
Как работает цикл: скриншот → предложить действие → выполнить → повторно наблюдать
Попробуйте Gemini 2.5 Computer Use бесплатно на Browserbase с тестами в лоб-в-лоб.
Объяснено, как работает CAPTCHA: Это решает браузер, а не Gemini.
Живая демонстрация: агент Gemini находит обувь со скидкой, проверяет срочную доставку, изменяет цвет
Обнаружен идентификатор модели: MARKER_0 gemini‑2.5‑computer‑use‑preview‑10‑2025 MARKER_1 появляется в инструментах.
🧑💻 Рабочие процессы кодирования агентов и инструменты IDE
Droid теперь запускает любую модель с открытым исходным кодом; GLM 4.6 возглавляет Terminal‑Bench
LlamaIndex поставляет LlamaAgents с код‑ориентированным подходом и развертыванием через LlamaCloud
Сервер MCP от Replicate объединяет Codex, Cursor, Claude и Gemini в одном хабе модели.
Codex CLI 0.45.0 выходит с более плавными циклами задач
Imbue’s Sculptor запускает несколько кодирующих агентов в изолированных контейнерах.
Выпуск MCP-сервера Chrome DevTools позволяет агентам по программированию управлять браузером
Использование useCopilotAction в CopilotKit позволяет пользовательским интерфейсам предлагать безопасные, подлежащие одобрению действия.
Совет по Claude Code: выполняйте долгие задачи в отдельном терминале и следите за их выполнением.
ElevenLabs открывает исходный код 22 блоков интерфейса для аудио- и голосовых агентов
Фреймворк Mastra получает In-Playground Agent Builder и чистую ментальную модель
📊 Evals: терминальные агенты и креативные таблицы лидеров
GLM 4.6 занимает первое место среди открытых моделей в Terminal‑Bench в FactoryAI Droid (43.5%)
Claude Opus 4.1 возглавляет ASCII Bench с рейтингом 1,672 Эло (включена расширенная аналитика)
Обновления арены: Sora 2/Pro добавлен в Video Arena; Ling Flash 2.0 вошел в LM Arena на месте #60.
🎬 Слоистые видео/изображения: Sora 2 конвейеры и инструменты для создателей
«Sora Extend» открывает доступ к бесконечным цепочкам длиной более 12 секунд.
ComfyUI поставляет узел API Sora 2/Sora 2 Pro с разрешением 720p/1080p и без водяных знаков
OpenAI публикует руководство по подсказкам Sora 2; сообщество разрабатывает строитель подсказок с стилями
Наблюдение за надежностью: пользователи отмечают регрессии качества Sora 2 и нестабильность API
Opera Neon интегрирует Sora 2 в режиме «Создать» для генерации видео в браузере
Replicate предоставляет точки доступа Sora 2 и Sora 2 Pro, выставляемые по счетам через ключи API OpenAI
Video Arena добавляет Sora 2 и Sora 2 Pro в таблицы лидеров в режиме противостояния
💼 Сигналы использования и привлечения на уровне предприятия
ChatGPT достигает 800M+ пользователей каждую неделю
Deloitte внедрит Claude для ~470,000 сотрудников
GPT‑5 Codex обрабатывает более 40 триллионов токенов менее чем за месяц
Клуб "1T токенов" от OpenAI: 30 клиентов преодолели триллион токенов
Anthropic откроет офис в Бангалоре в начале 2026 года
Hugging Face добавляет 1М новых репозиториев за 90 дней
Anthropic тестирует надстройку Claude Excel для действий в корпоративном сегменте
Perplexity MAX добавит поддержку GPT‑5 Pro
Платформа Google’s Opal Agent Builder запускается в 15 новых странах
⚙️ Вычислительная экономика и ограничения по мощности
Утечка: Oracle теряет ~$100M на аренде Blackwell; рентабельность серверов GPU ~16%
Энергия становится препятствием: «Приносите свою собственную электроэнергию» входит в дизайн-проекты DC
H100 аренда арбитраж: Azure EU ~$9.08/ч, США ~$6.98; Prime Intellect ~$1.89
xAI выделяет ~$18B на суперкомпьютер в Мемфисе, усиливая гонку вычислительных мощностей
🧪 Новое исследование: агенты, законы масштабирования, цели обучения
UMO масштабирует многоидентичную достоверность изображений, повышая однородную идентификацию до 91.6 и сокращая обмены.
Картирование опросов текст-в видео: диффузия с временным вниманием доминирует, остаются пробелы
🛡️ Безопасность, юридические и функциональные разъяснения
US CAISI сообщает, что DeepSeek V3.1 отстает от моделей США в области кибербезопасности/программного обеспечения, с более высоким риском взлома и захвата.
OpenAI подает ходатайство о прекращении иска xAI о торговых секретах, отрицая подстрекательство к похищению кода через наем.
Исследование показывает, что 5–20% токенов и ранние слои способствуют передаче скрытых предвзятостей во время дистилляции
Почему LLM ошибаются: быть оценённым за догадки лучше, чем признать неопределённость
Google запускает Программу вознаграждений за уязвимости в ИИ, чтобы выплачивать награды за особенности уязвимостей ИИ
Исправление возможностей: Gemini 2.5 Компьютерное использование не решило CAPTCHA — это сделала Browserbase.
🤖 Гуманоиды и воплощенные агенты движутся вперёд
Фигура 03 показывает набор для 9 октября, так как тизер демонстрирует новые ноги с индуктивной зарядкой.
Гуманоид Unitree G1 появился на Walmart за ~$21,600 с доставкой в течение 1 недели.
Qwen запускает команду по робототехнике и воплощённому ИИ, чтобы перенести агентов-фундаторов в физический мир
Оптимус от Tesla демонстрирует более плавные и выразительные движения на премьерном показе Tron: ARES
🧩 MCP интеграция и обнаружение инструментов
Replicate запускает сервер MCP для обнаружения и выполнения многоклиентских моделей.
Chrome DevTools поставляет сервер MCP, позволяющий кодовым агентам производить инспекцию и автоматизацию браузера
MCP момент: Ключевая речь OpenAI подчеркивает стандарт, в то время как Groq и Tavily публикуют кулинарную книгу MCP
🎙️ Голосовые агенты и локальный пользовательский интерфейс распознавания речи (STT)
ElevenLabs открывает исходный код 22 UI блоков для голосовых агентов (MIT)
Локальный парикет STT достигает ~2.8× реального времени на ЦП; тихая диктовка работает