Модель изображения Nano Banana Pro 4K — 8% ошибок текста, рендеры за 0,13 доллара

Stay in the loop

Free daily newsletter & Telegram daily report

Join Telegram Channel

Executive Summary

Google quietly turned on Nano Banana Pro, its Gemini 3 Pro Image model, across Gemini web/app, AI Mode in Search, Flow, NotebookLM, AI Studio, and Vertex. You get 1K/2K/4K outputs, a 1M‑token context inherited from Gemini 3 Pro, and pricing around $0.134 per generated image on top of $2/M input and $12/M output tokens. The pitch: a reasoning‑aware image engine that can lay out multilingual text and infographics without looking like your UI was typeset by a blender.

Early benchmarks back that up. Nano Banana Pro tops GPT‑Image 1, Seedream v4 4K, and Flux Pro Kontext Max on text‑to‑image and editing Elo, with ~100‑point leads in several edit categories. A heatmap puts single‑line text errors near 8% versus ~38% for GPT‑Image 1 across languages, including Arabic, Hindi, and Hebrew. The new “Show thinking (Nano Banana Pro)” toggle also hints that chain‑of‑thought is now a thing for pixels, not just prose.

Third‑party support lit up immediately: fal.ai shipped day‑0 text‑to‑image and edit APIs, Higgsfield is dangling “unlimited 4K” Nano Banana Pro with up to 65% off, and Genspark wired it into its all‑in‑one workspace. If your product depends on legible dashboards, posters, or UI mocks, this model is worth a focused weekend of A/B tests.

Feature Spotlight

Особенность: Nano Banana Pro (Gemini 3 Pro Image) запускается во всех сервисах Google и у партнёров

Модель рассуждений по изображениям Google выпускается широко (Gemini web/app, AI Studio, Vertex) с поддержкой 4K, улучшенным текстом и многоступенчатыми правками — сразу доступна через поверхности Google и партнерские API, что ускоряет творческие и продуктовые рабочие процессы.

Подтверждения между аккаунтами о том, что рассуждающая модель изображений Google теперь широко пригодна: Gemini web/app, AI Studio, Vertex docs и сторонние конечные точки. Основное внимание уделяется выводу в 4K, точному мультиязычному тексту, инструментам редактирования.

Jump to Особенность: Nano Banana Pro (Gemini 3 Pro Image) запускается во всех сервисах Google и у партнёров topics

Table of Contents

🍌 Особенность: Nano Banana Pro (Gemini 3 Pro Image) запускается во всех сервисах Google и у партнёров

Подтверждения между аккаунтами о том, что рассуждающая модель изображений Google теперь широко пригодна: Gemini web/app, AI Studio, Vertex docs и сторонние конечные точки. Основное внимание уделяется выводу в 4K, точному мультиязычному тексту, инструментам редактирования.

Nano Banana Pro (изображение Gemini 3 Pro) запускается во всех инструментах Gemini и Google

Google DeepMind официально запустила Nano Banana Pro (Gemini 3 Pro Image), модель генерации и редактирования изображений с учётом рассуждений, которая теперь доступна в приложении Gemini и в вебе, в AI Mode в Search, Flow, NotebookLM и других сервисах, после ранее утечённых тестов 4K вывода и отрисовки текста 4k leak. Модель поддерживает вывод 1K/2K/4K, управление освещением и камерой, изменение соотношения сторон, многоязычную отрисовку текста, композицию нескольких изображений и привязку к Search для визуалов, ориентированных на факты DeepMind feature thread surfaces and getting started.)

Для разработчиков Nano Banana Pro появляется в Google AI Studio как gemini-3-pro-image-preview с ценообразованием $2.00 за 1K входных токенов, $12.00 за 1K выходных токенов и примерно $0.134 за сгенерированное изображение, сохраняя ту же отсечку знаний на январь 2025 года и контекст 1M, как у Gemini 3 Pro текст ai studio pricing.); Платформа Vertex AI Model Garden перечисляет тот же идентификатор модели (publishers/google/models/gemini-3-pro-image-preview), и подчеркивает «рассуждения для генерации изображений», поддержку 4K и опциональное привязку к Search для более фактических изображений vertex docs overview.)

На фронтенде Gemini web теперь показывает переключатель “Show thinking (Nano Banana Pro)” при генерации изображений, что намекает на то, что внутреннее рассуждение в стиле цепочки мышления применяется даже к визуалам и при необходимости становится видимым пользователям show thinking ui. Сообщения сообщества подтверждают успешные запуски в Gemini web («cat shooting power into a wormhole», «minion with nano banana») и в мобильном приложении, что согласуется с заметкой AILeaks о том, что модель широко разворачивается в предложениях Google AI gemini app release rollout confirmation.

Бенчмарки ставят Nano Banana Pro вперед GPT‑Image 1 по качеству и рендерингу текста.

Ранние бенчмарк-чарты, распространяющиеся сегодня, показывают, что Gemini 3 Pro Image (Nano Banana Pro) опережает конкурентов, таких как GPT‑Image 1, Seedream v4 4K и Flux Pro Kontext Max, как в Elo‑оценках для текст‑к‑изображению, так и для редактирования изображений, одновременно значительно сокращая ошибки рендеринга текста image elo scores editing elo chart. В текст‑к‑изображению Gemini 3 Pro Image лидирует по общей предпочтительности и визуальному качеству, а в редактировании побеждает во всех категориях редактирования объектов/окружения, стилизации, едино- и многохарактерной согласованности, а также редактировании текста, при этом разницы Elo достигают ~100 пунктов и более по сравнению с GPT‑Image 1 во многих категориях editing elo chart.

Отдельная тепловая карта по однолинейному текстовому рендерингу показывает, что Nano Banana Pro допускает примерно 8% среднюю ошибку во всех языках, в то время как GPT‑Image 1 — около 38%, особенно заметны различия в скриптах, таких как арабский, хинди и иврит text error heatmap. Примеры outputs, такие как инфографика 4K «Как работают солнечные панели», с чистой типографикой и структурированными элементами диаграмм, иллюстрируют практическое воздействие для продуктовых команд, которым важны читаемые макеты UI и панели инструментов, а не просто концепт‑арт solar infographic sample. DeepMind и комментарии сторонних разработчиков уже рассматривают Nano Banana Pro как «модель изображения, рассуждающую» — идея в том, что её улучшенная фактическая основа и логика построения, а не только качество декодера, поднимают эти значения над старыми моделями reasoning model quote.

fal.ai выпускает на старте Nano Banana Pro API для преобразования текста в изображение и редактирования

Инференс-хост fal.ai запустил Nano Banana Pro на нулевой день, открывая отдельные конечные точки для преобразования текста в изображение и редактирования изображений, чтобы команды могли начать подключать Gemini 3 Pro Image к своим приложениям, не дожидаясь стека Google fal launch. Текстовая модель преобразования текста в изображение предлагает ценообразование за изображение и поддерживает полный процесс творческого промпта, в то время как выделенная конечная точка редактирования позволяет загружать изображение и управлять семантическими редактированиями на естественном языке, а не масками fal text to image fal image editing.

Поскольку fal управляет очередями и масштабированием, это дает небольшим компаниям мгновенный способ прототипирования функций на Nano Banana — маркетинговые пайплайны для изображений, инструменты дизайна, конфигураторы продуктов — без разворачивания Vertex или столкновения с фрикциями по квотам в AI Studio fal endpoints thread. Для AI-инженеров, уже использующих fal для других диффузионных или видеомоделей, замена на Nano Banana Pro в основном должна быть делом смены slug модели и корректировки промптов для более сильной работы с текстом и макетом.

Higgsfield предлагает безлимитный 4K Nano Banana Pro с агрессивной скидкой на Черную пятницу.

Видео‑платформа Higgsfield предлагает необычно агрессивный коммерческий пакет вокруг Nano Banana Pro: неограниченное число 4K‑генераций на год со скидкой до 65% в рамках распродажи к Черной пятнице, плюс краткосрочная промо‑акция 350 бесплатных кредитов за ретвиты и комментарии higgsfield launch promo. Они подчеркивают Gemini‑основанное рассуждение, многоязычное качество текста и точные средства редактирования, позиционируя предложение как способ воспользоваться моделью, не волнуясь о лимитах на изображение или бюджетировании токенов higgsfield feature recap.

Страница Higgsfield усиливает этот посыл, рекламируя планы "Unlimited 4K Nano Banana Pro" и демонстрируя клипы в голливудском стиле и конверсии плюшевых фигур в качестве примеров выходных данных, что нацелено на агентства и крупные сервисы, работающие с социальным контентом, больше чем на хоббистов Higgsfield site. Для лидов в области ИИ основная компромисса по сравнению с прямым выходом к Google очевидна: заплатить фиксированную цену за платформу поверх рабочего интерфейса Higgsfield, или держаться ближе к «железу» с Vertex/AI Studio и самостоятельно управлять квотами и оркестрацией.

тизер Higgsfield нано-банана
Video loads on view

Genspark интегрирует Nano Banana Pro в своё всеобъемлющее AI‑рабочее пространство.

Genspark, инновационное AI‑рабочее пространство «всё в одном», теперь предоставляет изображительную модель Nano Banana от Google наряду с существующим набором инструментов для работы с текстом и видео, чтобы пользователи могли создавать и редактировать изображения, не покидая одно и то же полотно, которое они используют для слайдов, документов и анализа данных genspark overview. В демонстрации команда показывает дизайн‑потоки постеров и редактирования изображений на базе Nano Banana, происходящие непосредственно внутри Genspark, без отдельной настройки API или переключения платформ nano banana in genspark."


🧩 Открытые веса: Olmo 3 (7B/32B базовый, Instruct, Think)

Крупная полностью открытая линейка моделей от Ai2 с обучающими данными, контрольными точками, журналами и подробным отчетом — полезно для команд, которым нужны прозрачные, воспроизводимые стеки. Исключена модель изображения Google (рассматривается как особенность).

Ai2 выпускает полностью открытое семейство Olmo 3 7B/32B

Институт Аллена по искусственному интеллекту выпустил семейство Olmo 3: базовые модели 7B и 32B, а также варианты Instruct, Think и RL Zero, все с открытыми весами, смесью предобучающих данных, наборами данных после обучения, промежуточными контрольными точками и журналами обучения. Они явно позиционируют Olmo 3‑Base 32B как самую сильную полностью открытую базовую модель 32B, а варианты 7B — как лучшие западные модели мышления/инструкций, нацеленные на то, чтобы предложить командам прозрачную альтернативу системам уровня Qwen. сообщение о выпуске Полный пакет доступен на Hugging Face и задокументирован в подробном техническом отчёте, поэтому вы можете просмотреть или воспроизвести каждый этап потока моделей от SFT через DPO и RLVR. коллекция Hugging Face PDF статьи блог AI2

Olmo 3 поставляет 7B RL Zero наборы данных и контрольные точки для математики, кода и инструкций

Помимо базовой и Think-моделей, Ai2 выпускает четыре трека RL Zero для 7B Olmo 3 — сосредоточенные отдельно на математике, коде, следовании инструкциям и смешанном сочетании — каждый с открытыми наборами данных и промежуточными контрольными точками. поток релиза Команда прямо представляет это как лабораторную площадку для изучения того, как запуск RL напрямую из базовой модели (вдохновлено DeepSeek R1) взаимодействует с промежуточными выводами рассуждений во время обучения и насколько прирост по тестам достигается за счет RL по сравнению с SFT или DPO, в тех областях, где запуски RLVR на базе Qwen вызвали вопросы о контаминации. PDF доклада

Olmo 3-Base 32B бросает вызов другим открытым моделям 32B на основных бенчмарках

Бенчмарк-графики, опубликованные вместе с релизом, показывают, что Olmo 3‑Base 32B обходит или сравнивается с сильными открытыми аналогами, такими как Marin 32B, Apertus 70B, Qwen 2.5 32B, Gemma 3 27B и даже Llama 3 170B на задачах вроде HumanEval (66.5), DROP (81.0), SQuAD (94.5) и CoQA (74.1). benchmark charts Для инженеров ИИ это означает, что вы получаете конкурентоспособную, среднюю по размеру базовую модель для кода, чтения и понимания текста, и QA, которая все еще поместится в одном видеокарте на 80 ГБ, но без потери прозрачности и контроля донастройки, которого недостает у большинства закрытых моделей на 30–70B.

Olmo 3-Think 32B приближается к Qwen3 по бенчмаркам в математике и рассуждении.

Модель рассуждений Olmo 3‑Think 32B приближается к Qwen3 32B и Qwen3 VL 32B Thinking на сложных наборах рассуждений на расстоянии 1–2 очка, показывает примерно 89.0 на IFEval, 96.1 на MATH, около 90 на BigBench‑Hard и 89.7 на HumanEvalPlus, при этом обгоняя этих конкурентов по OMEGA. benchmark charts ) Ai2 отмечает трехступенчатый пост‑обучающий конвейер — Dolci‑Think SFT, расширенную конфигурацию DPO, которая использует дельты между ответами Qwen3 32B и 0.6B, и крупномасштабный RLVR — для перевода базовой 32B в высококлассную открытую модель рассуждений, что является хорошей новостью, если вы хотите почти передовую производительность в математике/кодировании в открытой экосистеме.

)

Ai2 и Hugging Face запланировали прямой эфир с подробным разбором Olmo 3.

Ai2 проводит живой технический разбор Olmo 3 вместе с Hugging Face в 9:00 по PT, за которым последует обсуждение в духе «afterparty» в Discord Ai2. livestream invite Для инженеров и исследователей это шанс услышать детали обучения и постобучения непосредственно от авторов, задать вопросы по решениям дизайна, таким как длина контекста, смеси данных, настройка DPO и приемы RLVR, и увидеть, как они видят возможность расширения нового базового и контрольных точек Think.

Команда Olmo 3 намекает на предстоящие материалы о инфраструктуре обучения и выполнении кода

Несколько авторов Olmo 3 делятся за кулисами историями об инфраструктуре и стеке обучения, включая «присмотр» за длительными тренировочными запусками и специализированными настройками NCCL и окружения для выполнения кода, которые обеспечивали стабильность экспериментов по RL с большим масштабом. обслуживание тренировок Один инженер говорит, что у них есть «очень забавные» анекдоты о тренировочных запусках, которые они надеются опубликовать в ближайшие недели, в то время как другой отмечает предстоящую запись об их окружении для выполнения кода в RL, а товарищи по команде отмечают участников, которые отлаживали проблемы на низком уровне NCCL после обучения. заметка по выполнению кода комментарий NCCL Если вам важно воспроизвести обучение Olmo‑класса или адаптировать их RL‑пайплайн, стоит следить за этими углубленными постами как за сопровождение к основному техническому докладу.


🗺️ Дорожные карты моделей и предстоящие релизы

Сигналы, вокруг которых стоит строить планы: подсказки и сроки выпуска высокого качества от крупных поставщиков. Полезно для расчета бюджета времени на оценку и окон интеграции. Исключает сегодняшнее развертывание Google Image (функция).

Сигналы накапливаются в преддверии скорого выпуска Claude Opus 4.5 и Claude Code Desktop

Собственный интерфейс Anthropic и утечки конфигураций теперь сильно намекают на запуск Claude Opus 4.5 и отдельного приложения Claude Code Desktop, которое находится на расстоянии дней или часов, а не кварталов.

Веб-приложение Claude показывает скрытую панель Spotlight с кодовым названием «octopus_owl_obsidian», внутренняя кодовая база React явно прописывает href "/claude-code-desktop", а в режиме отладки утекает идентификатор модели «claude-opus-4-5-20251120» с лимитом в 32k токенов — все это классические признаки того, что производственная проводка выполнена и скоро будет включен переключатель флага функции.

скрытое модальное окно Spotlight ссылка на десктоп кода конфигурация opus 4p5)

В связи с Anthropic funding, которое охватило поддержку Anthropic на сумму более 45 млрд долл. и значительный бюджет вычислений Azure+NVIDIA, это конкретная продуктовая сторона той истории: слухи теперь утверждают, что Opus 4.5 и Claude Code Desktop готовят к выпуску сегодня, поэтому организации, уже инвестировавшиеся в Claude, должны закладывать в бюджеты ближней перспективы время на прямые сравнения и тестирование рабочего процесса IDE.

поток слухов о релизе утечка opus 4p5

Илон Маск нацеливается на обновление Grok 4.20 «крупное улучшение» к Рождеству

xAI уже обсуждает следующую итерацию Grok, и Элон Маск говорит, что обновление Grok 4.20 «которое является значительным улучшением, может быть готово к Рождеству», предоставляя командам приблизительный интервал для планирования оценок и возможных миграций с 4.1 Fast. Это обещание накладывается на текущие сильные показатели, где Grok 4.1 Fast уже обгоняет GPT‑5, Claude 4.5 и Gemini 3 Pro по нескольким агентским бенчмаркам (Reka Research‑Eval, FRAMES, τ²‑Telecom) при меньших расходах, поэтому ожидания от 4.20 сосредоточены на еще лучшем использовании инструментов и автономии в долгом контексте. grok 4p20 tease grok 4p1 benchmarks

Браузер Comet от Perplexity с агентной архитектурой тихо появился в Android Play Store.

Comet от Perplexity, рекламируемый как «агентный AI‑браузер для Android», теперь появляется в списке в Google Play Store с иконкой приложения, описанием и кнопкой «Удалить регистрацию», что обычно видно перед запланированным выпуском. В описании подчеркиваются голосовые команды, ответы в стиле исследований и агентный просмотр, поэтому команды Android должны предполагать скорый запуск, при котором пользователи смогут искать, читать и покупать через слой ИИ вместо традиционного мобильного браузера, и начать думать о том, как их сайты и API будут вести себя под трафиком автономного просмотра. comet android listing


🛠️ Архитектуры агентов: субагенты, контекст и выполнение кода

Практические рекомендации от команд, разворачивающих агентов: ограниченные субагенты, редактирование контекста и когда разделять длинные запуски. Исключены новости о выпуске моделей. Полезно для технических руководителей, работающих над укреплением циклов работы агентов.

Anthropic: выполнение кода и умное редактирование контекста повышают эффективность агентов Claude на 39%.

Команда Anthropic по платформе Claude сообщила, что позволение Claude как писать, так и выполнять код в безопасной среде, в сочетании с явными инструментами управления контекстом (внешняя память плюс усечение контекста), привело к улучшению производительности на 39% по их внутренним бенчмаркам агентов.Claude platform talk Ядро паттерна простое, но мощное: рассматривайте Claude как рабочего, сидящего за компьютером со shell, редактором и инструментами, затем агрессивно сохраняйте долгосрочную информацию вне окна контекста и очищайте устаревшие выводы инструментов, чтобы модель видела только то, что имеет отношение к текущему шагу. Для технических руководителей это сильная точка данных, на которой можно добиться значительных преимуществ за счёт дисциплинированного редактирования контекста и реального выполнения кода, без сложных хостов агентов или чрезмерной оркестрации.

Replit презентует оркестратор субагентов основного цикла как паттерн «Год субагента».

На AIE Code NYC Replit описал архитектуру агента, где единый «основной цикл» динамически разворачивает специализированных подпомогников параллельно, а затем объединяет их работу с использованием декомпозиции задач с учётом конфликтов слияния и этапа синтезатора.Replit slide Доклад охарактеризовал это как часть более широкой тенденции «Год подпомогников», когда команды продакшна сходятся к ограниченной автономии, параллелизму и компактному контексту с низкой энтропией, вместо одного гигантского монолитного запуска агента.subagent patterns Фактически это означает, что ваш основной агент тратит токены на решение того, какие подзадачи порождать и как их согласовать, в то время как человеческие пользователи остаются сфокусированными на высокоуровневом замысле, вместо микроменеджмента вызовов инструментов или длинных чатов.

Sourcegraph предупреждает, что потоки кодирования Amp, выходящие за пределы примерно 350 тысяч токенов, ухудшают качество.

Sourcegraph’s cofounder shared that long‑running coding agent sessions in Amp (beyond roughly 350k tokens) “so rarely yield good results,” especially for exploratory work that accumulates lots of intermediate steps.Amp thread advice Following up on Amp agent model, where Amp switched its default model to Gemini 3 Pro, the team is now steering users toward many smaller, parallel threads for repetitive tasks and is building a subagent to automate that splitting. Amp already surfaces warnings as threads grow and its manual advises users to restart or branch sessions; stronger nudges are under consideration, which is a useful signal for anyone designing their own guardrails around context growth in coding agents.

Kilo Code демонстрирует цикл от подсказки к игре с встроенным развертыванием.

Kilo Code использовал Gemini 3 Pro в качестве двигателяBehind an agentic workflow that generated the full code for a classic platformer (“Kilo Man”) from a single prompt and then shipped it in seconds via Kilo Deploy.Kilo game demo Демонстрация подчеркивает практическую архитектуру: ядро AI, занимающееся кодированием, которое владеет структурой проекта и итерациями, плюс тесно интегрированную поверхность развёртывания, чтобы та же петля могла компилировать, запускать и публиковать без того чтобы люди настраивали CI/CD каждый раз.Kilo Man game Для команд, экспериментов с AI‑построенными приложениями, это конкретный пример того, как далеко можно продвинуть конвейер «prompt → code → живой URL», когда выполнение кода и развёртывание живут внутри одной системы агентов.


🛡️ Безопасность агентов/IDE: утечка через prompt-инъекцию и меры противодействия

Реальные векторы утечки данных из агентных IDE вновь выходят на поверхность, и поступает защитная утилита. Для команд, внедряющих IDE класса Antigravity или приложения MCP. Исключает более широкие изменения в политике.

Ошибка эксфильтрации изображений Markdown снова появляется во многих агентских IDE.

Исследователи по кибербезопасности указывают на то, что тот же баг на основе Markdown-изображений для извлечения данных, который был зарегистрирован и исправлен в GitHub Copilot Chat для VS Code, теперь появился в более новых агентных IDE, таких как Antigravity, и, как сообщается, остаётся неисправленным в Windsurf, подчёркивая повторяющийся класс уязвимостей, а не единичные ошибки. Опираясь на ранее освещение уязвимости Antigravity к паттерну инъекции подсказок «летальная тройка» Antigravity exfil, Саймон Уиллисон отмечает, что Copilot исправил атаку, при которой злонамеренная подсказка репозитория убедила агента построить URL, внедряющий чувствительные данные, и отобразить его как изображение Markdown — что заставляло клиента бесшумно утекать секреты через HTTP-запрос — тогда как Windsurf, по-видимому, сегодня всё ещё допускает ту же схему copilot exfil blog, с полными деталями эксплойта в исходном обзоре security blog post. Для тех, кто выпускает IDE-агенты или инструменты стиля MCP, это явный сигнал к тому, чтобы рассматривать рендеринг Markdown как исходящую сеть: отключайте загрузку удалённых изображений в представлениях агентов, удаляйте или изолируйте ![]() сгенерируемый моделью и добавляйте явные белые списки для URL, созданных инструментами, вместо предположения, что контексты «только для чтения» безопасны.

DSPy Spotlight добавляет защиту в продакшене от косвенной инъекции подсказок

Новый инструмент под названием DSPy Spotlight выпущен для повышения устойчивости приложений на базе DSPy к косвенной инъекции подсказок, предоставляя командам повторяемую защиту вместо хаотичных фильтров на основе регулярных выражений. Эстебан де Саверио описывает Spotlight как «производственно‑готовый» слой для DSPy, который исследует и ограничивает те части полученного или инструментально сгенерированного контента, на которые модель действительно может обращать внимание, цель — блокировать недоверенные инструкции из веб‑страниц, документации или инструментов до того, как они подменят поведение агента dspy spotlight repo, с кодом, эталонами и демонстрацией, доступной на GitHub для немедленной интеграции в существующие конвейеры DSPy github repo. Для инженеров, работающих над собственными агентами на DSPy, это конкретный готовый к применению вариант, чтобы начать решать те же проблемы инъекций и утечки данных, которые сейчас возникают в IDE‑агентах, без необходимости изобретать полноценную модель угроз и систему маскировки с нуля.


⚖️ ЕС смещает акценты в правилах конфиденциальности и в области ИИ, чтобы снизить трение.

Сообщается, что ЕС ослабит отдельные положения GDPR и отложит применение норм в отношении высокорискованного ИИ, чтобы снизить бремя соблюдения требований — материал для выхода на рынок ЕС и стратегии данных. Безопасность агентов/IDE рассмотрена отдельно.

Европейский Союз планирует ослабить требования GDPR и отсрочить введение в силу AI Act, чтобы снизить бремя соблюдения требований.

Европейская комиссия готовит пакет под названием «Digital Omnibus», который смягчает части GDPR и AI Act для снижения затрат на соблюдение и открытия большего объёма данных для ИИ, включая менее строгие правила повторного использования обезличенных данных, управление cookie на уровне браузера и 12–18‑месячную задержку по обязанностям для высокорискованных систем ИИ, с предполагаемыми экономиями на администрировании в размере 5 млрд евро к 2029 году. План позволил бы компаниям обучать модели на персональных данных без согласия каждого пользователя, если они всё ещё соблюдают базовые требования GDPR, снизил бы количество всплывающих окон cookies за счёт признания многих cookies низкорисковыми и централизации согласия в браузере, а строгие требования к высокорискованным системам, таким как кредитный скоринг или полицейское применение, отложили бы до тех пор, пока технические стандарты и инструменты не догонят — критики называют это откатом в области защиты приватности и ИИ, в то время как создателям ИИ предоставляется более ясная, более благоприятная основа для стратегии использования данных ЕС и планирования развертывания обзор европейского права.

)


🗣️ Голосовой ИИ в масштабе: новые рынки и использование в корпоративной среде

Голосовые агенты выходят на международный рынок и показывают конкретные показатели использования в корпоративном сегменте. Актуально для лидеров CX и приложений, чувствительных к задержке. Запуск моделей в рамках данного обсуждения не входит в задачу.

ElevenLabs выходит в Корее с платформой Agent Platform для предприятий со временем отклика менее 0,5 с.

ElevenLabs официально вышла на корейский рынок, объединив новую локальную команду с флагманскими партнёрами MBC, ESTsoft, Krafton и SBS, чтобы сделать Корею центром голосового ИИ в Азии korea launch local partners. В контексте voice roadmap, который зафистировал разделение между Creative Platform и Agent Platform, этот шаг превращает сторону Agent в устойчивое производство: ElevenLabs заявляет, что его платформа уже поддерживает в реальном времени, многоязычную поддержку и другие беседы для крупных предприятий с задержкой менее 500 мс за раунд agent platform.

Для разработчиков агентов, чувствительных к задержкам — телефонная поддержка, встроенные справки, интерактивные персонажи, обещание менее 0,5 с на весь путь имеет большее значение, чем спецификации моделей. Близкое к универсальному покрытию мобильной связи в Корее и лидирующий 5G означают, что пользователи заметят, если агент когда‑либо будет казаться, что «обдумывает» вместо того, чтобы говорить; запуск там станет стресс-тестом для стека в реальном времени так же, как и рыночной стратегией korea context.

Партнерства также намекают на варианты использования помимо поддержки — от развлечений и вещания (MBC, SBS) до игр (Krafton) и программного обеспечения для продуктивности (ESTsoft), которые подвергнут испытанию такие вещи, как обработка нескольких говорящих, межъязыковой диалог и продолжительные сессии внутри существующих приложений, а не демонстрации-игрушки.
Если вы оцениваете голосовую инфраструктуру, посыл ясен: платформы уровня Agent теперь конкурируют по времени отклика менее секунды и региональной глубине, а не только по качеству синтеза.

ElevenLabs обеспечивает 1,5 млн ИИ-мок-интервью для соискателей работы Apna

Apna, крупная индийская платформа по поиску работы с 60 млн пользователей, провела более 1,5 млн AI‑помощниковых имитационных интервью с использованием голосов ElevenLabs, всего 7,5 млн минут устной обратной связи кандидатам, готовящимся к ролям в разных секторах usage stats case study. Для лидеров в области ИИ в CX и образовании это конкретный пункт доказательства того, что низкая задержка, эмоционально выразительный, двуязычный (хинди/английский) TTS может масштабироваться до миллионов взаимодействий в реальном времени, оставаясь достаточно отзывчивым, чтобы ощущаться как живой интервьюер, а не как пакетный инструмент.

Развертывание опирается на стриминговый стек ElevenLabs (время отклика 150–180 мс согласно кейс-стади) чтобы сохранить естественный характер диалога при обмене даже на мобильных устройствах с низким качеством соединения, что в Индии является реальным ограничением, а не нехваткой графического процессора latency details. Для команд найма и L&D интересна не только величина объема, но и детализация: интервью адаптируются по роли, компании и рубрике, с оркестрационным слоем, который объединяет ASR, NLU и огромную графовую сеть примерно из 500 млн микромоделей, чтобы обратная связь была конкретной, а не общим коучингом latency details. Это демонстрирует, как голосовые агенты могут перейти от "FAQ-ботов" к структурированной оценке навыков, и предоставляет четкую архитектуру ссылки для любого, кто пытается внедрить высокопроизводительные, двуязычные голосовые решения на развивающихся рынках.


🎨 Креативный ИИ вне Google

Обновления и демонстрации в области креатива/видения, не связанные с Google, сосредоточены сегодня. Исключение — Nano Banana Pro (функция). Полезно для команд, отслеживающих сегментацию, многофреймовое видео и демонстрации процедурного кодирования.

Dreamina MultiFrames превращает 10 кадров в 54-секундное видео, управляемое подсказками

Новое соединение Dreamina MultiFrames позволяет загрузить около десяти изображений ключевых кадров, задать длительность каждого кадра и движения камеры, а затем связать их с помощью подсказок на естественном языке «между кадрами», чтобы сгенерировать плавное длинное видео одним запуском.

Избранная демонстрация проводит персонажа через 10 000 лет истории — от пещер Каменного века до города ближнего будущего — используя эпохо‑специфические подсказки ключевых кадров в сочетании с переходными подсказками вроде «замки эволюционируют в купола Ренессанса», чтобы создать 54‑секундную последовательность без редактирования, которая ранее требовала бы работы с временной шкалой в видеоредакторе multiframes overview ui walkthrough era keyframes.

Видео про десять эпох путешествия во времени
Video loads on view

SAM3 от Meta демонстрирует надёжную сегментацию видео в реальных условиях в ранних тестах у создателей контента.

Создатели уже проводят стресс-тестирование новой модели Segment Anything Model 3 от Meta на необычных входных данных, например клипах, где кот «играет» на диджериду, оставаясь не выходящими за рамки распределения, в то время как модель чётко сегментирует и отслеживает объект во времени. Опираясь на первоначальный запуск SAM3 и Playground SAM3 release-playground, сегодняшние демонстрации подчеркивают, как текстовые подсказки в сочетании с точкой/прямоугольником могут управлять точными видеомасками для творческих рабочих процессов редактирования и композитинга эффектов в масштабе sam3 cat demo sam3 feature summary Meta sam3 blog.

Демонстрация сегментации кота на диджериду
Video loads on view

ImagineArt 1.5 Preview поднимается до 3-го места в рейтинге ELO за текст‑к‑изображению от Artificial Analysis

Новая модель текст‑в‑изображение 1.5 Preview от ImagineArt поднялась на третье место в глобальном Image Arena по версии Artificial Analysis, с ELO 1187 и более чем 3 000 встреч между конкурентами, обходя только Seedream 4.0 и 3.0 elo leaderboard. Это ставит её вперед над Imagen 4 Ultra Preview и Gemini 2.5 Flash (Nano‑Banana) в этом конкретном ранге, давая командам художников ещё одну сильную не‑Big‑3 альтернативу для A/B тестирования разнообразия стилей и гибкости лицензионного использования.

KAT‑Coder‑Pro автоматически кодирует процедурный рождественский дом в стиле Minecraft в three.js

агент Kwai’s KAT‑Coder‑Pro воссоздал демонстрацию сообщества «дом в стиле Minecraft, снежная зимняя рождественская ночь», генерируя всю сцену three.js процедурно из одного естественно‑язычного запроса kat coder demo. Для творческих программистов, это конкретный пример использования AI‑инженера не только для заготовок кода, но чтобы создавать стилизованные 3D‑среды, которые затем можно вручную подстроить по освещению, материалам или геймплею.

Демонстрация дома в стиле Minecraft с процедурной генерацией
Video loads on view

Tencent заигрывает с HunyuanVideo 1.5 и представляет превью в стиле эскиза, переходящего в 3D.

Команда Hunyuan из Tencent выпустила короткий тизер HunyuanVideo 1.5, показывающий рукописный белый контур лица, который морфируется в вращающуюся 3D-обводку головы, что намекает на более жесткую структуру и работу с геометрией для генерации видео hunyuanvideo teaser. Для небольших студий, уже использующих HunyuanVideo, это указывает на более управляемую анимацию персонажей и предвизуализационные рабочие процессы, когда 1.5 будет полностью доступна через API.

HunyuanVideo 1.5 teaser clip
Video loads on view

💼 Сигналы принятия в коммерции и корпоративном секторе

Ранние данные об агентной коммерции и использовании на уровне предприятий. Исключает капитальные затраты на инфраструктуру. Подходят для GTM‑команд и партнёрских команд.

Flowith предлагает пакеты акций на Черную пятницу, объединяющие Gemini 3 Pro и предстоящий Banana 2, с крупными скидками.

Flowith запускает свою крупнейшую на сегодняшний день акцию на Черную пятницу: годовые планы со скидкой до 80%, покупатели получают в 2 раза больше кредитов и доступ к Gemini 3 Pro прямо сейчас, а Banana 2 — с момента его выхода поток скидки Flowith. Это основано на ранее бесплатном доступе к Gemini 3 для разработчиков Бесплатный план Flowith, но превращает это в долгосрочное обязательство, ориентированное на крупных создателей контента ИИ и агентства.

Для инженеров и лидеров в области ИИ это сигнал о том, что сторонние поставщики «AI workspace» начинают использовать агрессивные годовые пакеты в стиле телекомов, чтобы закрепить использование вокруг конкретных передовых моделей, с явными обещаниями обновлений моделей в будущем, включённых в коммерческое предложение.


📈 Пульс сообщества: усталость от моделей и нарратив конкуренции

Мета‑обсуждение сегодня само по себе новости: серия скоростных запусков вызывает усталость, в то время как наблюдатели пересматривают таблицу лидеров. Это не обновления продуктов.

Сообщество переключается на нарратив «Google против остальных», но гонка по-прежнему открыта.

Комментаторы переосмысляют лидерборд как «скорее Google против всех остальных», указывая на значительный скачок Gemini 3, при этом подчеркивая, что OpenAI, Anthropic и xAI по-прежнему представляют модели высшего уровня, и исход еще не ясен открытое мнение о гонке. Остальные называют Google DeepMind «неприкосновенным» прямо на старте испытаний, даже признавая, что серии GPT‑5, Claude 4.5 и Grok 4.1 Fast конкурентоспособны по многим задачам преимущество Google похвала DeepMind.

Для инженеров и руководителей эта смена настроения имеет значение: результаты оценки теперь интерпретируются как история, где Google немного лидирует в плане рассуждений и видения, но никто не считает вечным победителем, что поощряет многопоставочные стеки и более тонкую маршрутизацию вместо ставки на одного поставщика.

Сообщество связывает временной горизонт METR 2h40 с дорожной картой OpenAI по программе «AI research intern».

Строители начинают связывать оценку METR, что GPT‑5.1‑Codex‑Max может автономно обрабатывать примерно 2ч40м задач экспертного уровня с 50% успеха, с публичной дорожной картой OpenAI о «исследовательском стажёре в области ИИ» к 2026 году и «полностью автоматизированные исследования» к 2028 году резюме дорожной карты metr projection. В контексте Codex horizon, на котором сосредоточены сырые числа временного горизонта, сегодняшнее обсуждение меньше о единственном бенчмарке и больше о том, как быстро автономия может расти от нескольких часов до задач на целый день или несколько дней.

Для аналитиков и руководителей вывод таков: сообщество теперь рассматривает долгосрочные оценки агентов как ведущие индикаторы переработки рабочих мест: как только модели надёжно превысят рабочий день последовательных действий, роли, такие как младший инженер-программист или научный сотрудник, вероятно, будут первыми, кто будет структурно переосмыслен, а не просто «расширены».

Комментаторы отмечают годовое падение примерно в 300 раз «цены за единицу интеллекта» и предупреждают, что спасения не будет.

Один наблюдатель утверждает, что примерно за год «цена за единицу интеллекта» упала примерно в 300 раз, утверждая, что мы всё ещё на very start of that curve 300x cost claim. Еще один вирусный клип подчеркивает, что когда пузырь ИИ в конце концов скорректируется, не будет «предоставления спасения», подчеркивая текущее расходование средств на модели и GPU как чистый рыночный риск, а не что-то, что правительства будут спешить защищать no bailout video.

предупреждение о отсутствии спасательного пакета
Video loads on view

Для лидеров ИИ эта смесь энтузиазма и осторожности формирует представление о капиталовложениях в ИИ: агрессивные инвестиции легче обосновать, когда показатели единицы улучшаются так быстро, но отсутствие явной страховой сетки должно подтолкнуть команды к более устойчивым бизнес-кейсам и к более медленной, более вдумчивой масштабируемости, чем рефлекторная погоня за каждой новой волной возможностей.

Разработчики достигли «100%-ной усталости моделей» после трех дней запусков флагманских моделей.

Один инженер суммировал неделю как «Gemini 3 → GPT‑5.1 Codex Max → Opus 4.5 (скоро)» и сказал, что достиг «100% усталости от AI‑моделей» всего за три дня, отражая, насколько сложно для строителей даже оценить, не говоря уже об одобрении, каждую новую передовую модель fatigue comment. Для команд ИИ такой темп означает постоянное повторное тестирование, изменение передовых практик и реальную когнитивную нагрузку по поводу того, на что инвестировать время.

day off launch joke
Video loads on view

Суть в том, что даже опытные пользователи начинают сопротивляться темпу обновлений, что является полезным сигналом для лидеров, решающих, стремиться ли за каждым обновлением или стандартизировать более медленный, осознанный цикл обновления моделей.

Разработчики отмечают повторяющийся цикл хайпа вокруг каждого запуска крупной модели.

Широко распространённая ветка обсуждений описывает теперь уже знакомый узор: эйфория в день запуска, когда кажется, что AGI близок; через несколько дней люди фиксируют недостатки и галлюцинации, хайп ослабевает, и затем весь цикл начинается заново с следующим релизом hype cycle note. В той же самой фразе люди отмечают, что Gemini 3 Pro по‑прежнему демонстрирует 88% уровня галлюцинаций на одной оценке, идентичный 2.5 Pro, как напоминание о том, что победы в бенчмарках не стирают основные режимы отказов hallucination eval.

ai wake up meme
Video loads on view

Это объясняет, почему многие специалисты становятся более дисциплинированными в отделении хайпа недели запуска от медленного, целевого тестирования и в сопротивлении давлению перенести рабочие нагрузки в продакшн до того, как пост‑медовый период выявит более явные ошибки и регрессии.


🤖 Роботы на заводах и в домохозяйствах

Постоянный импульс: показатели фабрики снова демонстрируются, и появляется недорогой открытый домашний робот. Для команд, ориентирующихся на внедрение воплощённого ИИ.

Figure делится кадрами с линии производства BMW и выделяет уроки для Figure 03

Figure выпустил новое видеоматериалы по линии производства и объяснение, показывающее, как его Figure 02 гуманоид работает сменами по 10 часов на заводе BMW в Spartanburg X3, перемещая более 90 000 деталей за 1 250+ часов и внося вклад в 30 000 автомобилей, с уроками по надёжности и механическому дизайну, которые питают будущую платформу Figure 03. В продолжение BMW deployment KPIs, которая охватывала исходную статистику за 11 месяцев, новый материал даёт инженерам более ясное представление о реальных циклических временах, режимах отказа и типах повторяющихся задач по взятию и размещению, которые уже жизнеспособны для многоцелевых гуманоидов на автомобильных заводах BMW deployment thread Production article Figure BMW article.

BMW line demo
Video loads on view

Sourccey подшучивает над 3’6" открытым исходным кодом домашнего робота, совместимого с LeRobot

Sourccey презентовал примерно 3’6"-высокого личного домашнего робота, который будет недорогим, полностью открытым исходным кодом и совместимым со стеком управления LeRobot, предлагая исследователям и увлеченным домашними роботами готовую платформу для экспериментов по манипуляциям в быту вместо сборок пользовательского оборудования Тизер домашнего робота. Для команд по embodied AI это указывает на растущую экосистему маленьких, доступных роботов, в которые можно перенести те же политики и пайплайны обучения, используемые в симуляции или лабораторных стендах, в реальную бытовую форму факторa.

Демо домашнего робота
Video loads on view

On this page

Executive Summary
Feature Spotlight: Особенность: Nano Banana Pro (Gemini 3 Pro Image) запускается во всех сервисах Google и у партнёров
🍌 Особенность: Nano Banana Pro (Gemini 3 Pro Image) запускается во всех сервисах Google и у партнёров
Nano Banana Pro (изображение Gemini 3 Pro) запускается во всех инструментах Gemini и Google
Бенчмарки ставят Nano Banana Pro вперед GPT‑Image 1 по качеству и рендерингу текста.
fal.ai выпускает на старте Nano Banana Pro API для преобразования текста в изображение и редактирования
Higgsfield предлагает безлимитный 4K Nano Banana Pro с агрессивной скидкой на Черную пятницу.
Genspark интегрирует Nano Banana Pro в своё всеобъемлющее AI‑рабочее пространство.
🧩 Открытые веса: Olmo 3 (7B/32B базовый, Instruct, Think)
Ai2 выпускает полностью открытое семейство Olmo 3 7B/32B
Olmo 3 поставляет 7B RL Zero наборы данных и контрольные точки для математики, кода и инструкций
Olmo 3-Base 32B бросает вызов другим открытым моделям 32B на основных бенчмарках
Olmo 3-Think 32B приближается к Qwen3 по бенчмаркам в математике и рассуждении.
Ai2 и Hugging Face запланировали прямой эфир с подробным разбором Olmo 3.
Команда Olmo 3 намекает на предстоящие материалы о инфраструктуре обучения и выполнении кода
🗺️ Дорожные карты моделей и предстоящие релизы
Сигналы накапливаются в преддверии скорого выпуска Claude Opus 4.5 и Claude Code Desktop
Илон Маск нацеливается на обновление Grok 4.20 «крупное улучшение» к Рождеству
Браузер Comet от Perplexity с агентной архитектурой тихо появился в Android Play Store.
🛠️ Архитектуры агентов: субагенты, контекст и выполнение кода
Anthropic: выполнение кода и умное редактирование контекста повышают эффективность агентов Claude на 39%.
Replit презентует оркестратор субагентов основного цикла как паттерн «Год субагента».
Sourcegraph предупреждает, что потоки кодирования Amp, выходящие за пределы примерно 350 тысяч токенов, ухудшают качество.
Kilo Code демонстрирует цикл от подсказки к игре с встроенным развертыванием.
🛡️ Безопасность агентов/IDE: утечка через prompt-инъекцию и меры противодействия
Ошибка эксфильтрации изображений Markdown снова появляется во многих агентских IDE.
DSPy Spotlight добавляет защиту в продакшене от косвенной инъекции подсказок
⚖️ ЕС смещает акценты в правилах конфиденциальности и в области ИИ, чтобы снизить трение.
Европейский Союз планирует ослабить требования GDPR и отсрочить введение в силу AI Act, чтобы снизить бремя соблюдения требований.
🗣️ Голосовой ИИ в масштабе: новые рынки и использование в корпоративной среде
ElevenLabs выходит в Корее с платформой Agent Platform для предприятий со временем отклика менее 0,5 с.
ElevenLabs обеспечивает 1,5 млн ИИ-мок-интервью для соискателей работы Apna
🎨 Креативный ИИ вне Google
Dreamina MultiFrames превращает 10 кадров в 54-секундное видео, управляемое подсказками
SAM3 от Meta демонстрирует надёжную сегментацию видео в реальных условиях в ранних тестах у создателей контента.
ImagineArt 1.5 Preview поднимается до 3-го места в рейтинге ELO за текст‑к‑изображению от Artificial Analysis
KAT‑Coder‑Pro автоматически кодирует процедурный рождественский дом в стиле Minecraft в three.js
Tencent заигрывает с HunyuanVideo 1.5 и представляет превью в стиле эскиза, переходящего в 3D.
💼 Сигналы принятия в коммерции и корпоративном секторе
Flowith предлагает пакеты акций на Черную пятницу, объединяющие Gemini 3 Pro и предстоящий Banana 2, с крупными скидками.
📈 Пульс сообщества: усталость от моделей и нарратив конкуренции
Сообщество переключается на нарратив «Google против остальных», но гонка по-прежнему открыта.
Сообщество связывает временной горизонт METR 2h40 с дорожной картой OpenAI по программе «AI research intern».
Комментаторы отмечают годовое падение примерно в 300 раз «цены за единицу интеллекта» и предупреждают, что спасения не будет.
Разработчики достигли «100%-ной усталости моделей» после трех дней запусков флагманских моделей.
Разработчики отмечают повторяющийся цикл хайпа вокруг каждого запуска крупной модели.
🤖 Роботы на заводах и в домохозяйствах
Figure делится кадрами с линии производства BMW и выделяет уроки для Figure 03
Sourccey подшучивает над 3’6" открытым исходным кодом домашнего робота, совместимого с LeRobot