Модель изображения Nano Banana Pro 4K — 8% ошибок текста, рендеры за 0,13 доллара

Executive Summary

Google quietly turned on Nano Banana Pro, its Gemini 3 Pro Image model, across Gemini web/app, AI Mode in Search, Flow, NotebookLM, AI Studio, and Vertex. You get 1K/2K/4K outputs, a 1M‑token context inherited from Gemini 3 Pro, and pricing around $0.134 per generated image on top of $2/M input and $12/M output tokens. The pitch: a reasoning‑aware image engine that can lay out multilingual text and infographics without looking like your UI was typeset by a blender.

Early benchmarks back that up. Nano Banana Pro tops GPT‑Image 1, Seedream v4 4K, and Flux Pro Kontext Max on text‑to‑image and editing Elo, with ~100‑point leads in several edit categories. A heatmap puts single‑line text errors near 8% versus ~38% for GPT‑Image 1 across languages, including Arabic, Hindi, and Hebrew. The new “Show thinking (Nano Banana Pro)” toggle also hints that chain‑of‑thought is now a thing for pixels, not just prose.

Third‑party support lit up immediately: fal.ai shipped day‑0 text‑to‑image and edit APIs, Higgsfield is dangling “unlimited 4K” Nano Banana Pro with up to 65% off, and Genspark wired it into its all‑in‑one workspace. If your product depends on legible dashboards, posters, or UI mocks, this model is worth a focused weekend of A/B tests.

Feature Spotlight

Особенность: Nano Banana Pro (Gemini 3 Pro Image) запускается во всех сервисах Google и у партнёров

Модель рассуждений по изображениям Google выпускается широко (Gemini web/app, AI Studio, Vertex) с поддержкой 4K, улучшенным текстом и многоступенчатыми правками — сразу доступна через поверхности Google и партнерские API, что ускоряет творческие и продуктовые рабочие процессы.

Подтверждения между аккаунтами о том, что рассуждающая модель изображений Google теперь широко пригодна: Gemini web/app, AI Studio, Vertex docs и сторонние конечные точки. Основное внимание уделяется выводу в 4K, точному мультиязычному тексту, инструментам редактирования.

Jump to Особенность: Nano Banana Pro (Gemini 3 Pro Image) запускается во всех сервисах Google и у партнёров topics

Table of Contents

Stay in the loop

Get the Daily AI Primer delivered straight to your inbox. One email per day, unsubscribe anytime.

Особенность: Nano Banana Pro (Gemini 3 Pro Image) запускается во всех сервисах Google и у партнёров

Подтверждения между аккаунтами о том, что рассуждающая модель изображений Google теперь широко пригодна: Gemini web/app, AI Studio, Vertex docs и сторонние конечные точки. Основное внимание уделяется выводу в 4K, точному мультиязычному тексту, инструментам редактирования.

Nano Banana Pro (изображение Gemini 3 Pro) запускается во всех инструментах Gemini и Google

Google DeepMind официально запустила Nano Banana Pro (Gemini 3 Pro Image), модель генерации и редактирования изображений с учётом рассуждений, которая теперь доступна в приложении Gemini и в вебе, в AI Mode в Search, Flow, NotebookLM и других сервисах, после ранее утечённых тестов 4K вывода и отрисовки текста 4k leak. Модель поддерживает вывод 1K/2K/4K, управление освещением и камерой, изменение соотношения сторон, многоязычную отрисовку текста, композицию нескольких изображений и привязку к Search для визуалов, ориентированных на факты DeepMind feature thread surfaces and getting started.)

Для разработчиков Nano Banana Pro появляется в Google AI Studio как gemini-3-pro-image-preview с ценообразованием $2.00 за 1K входных токенов, $12.00 за 1K выходных токенов и примерно $0.134 за сгенерированное изображение, сохраняя ту же отсечку знаний на январь 2025 года и контекст 1M, как у Gemini 3 Pro текст ai studio pricing.); Платформа Vertex AI Model Garden перечисляет тот же идентификатор модели (publishers/google/models/gemini-3-pro-image-preview), и подчеркивает «рассуждения для генерации изображений», поддержку 4K и опциональное привязку к Search для более фактических изображений vertex docs overview.)

На фронтенде Gemini web теперь показывает переключатель “Show thinking (Nano Banana Pro)” при генерации изображений, что намекает на то, что внутреннее рассуждение в стиле цепочки мышления применяется даже к визуалам и при необходимости становится видимым пользователям show thinking ui. Сообщения сообщества подтверждают успешные запуски в Gemini web («cat shooting power into a wormhole», «minion with nano banana») и в мобильном приложении, что согласуется с заметкой AILeaks о том, что модель широко разворачивается в предложениях Google AI gemini app release rollout confirmation.

Бенчмарки ставят Nano Banana Pro вперед GPT‑Image 1 по качеству и рендерингу текста.

Ранние бенчмарк-чарты, распространяющиеся сегодня, показывают, что Gemini 3 Pro Image (Nano Banana Pro) опережает конкурентов, таких как GPT‑Image 1, Seedream v4 4K и Flux Pro Kontext Max, как в Elo‑оценках для текст‑к‑изображению, так и для редактирования изображений, одновременно значительно сокращая ошибки рендеринга текста image elo scores editing elo chart. В текст‑к‑изображению Gemini 3 Pro Image лидирует по общей предпочтительности и визуальному качеству, а в редактировании побеждает во всех категориях редактирования объектов/окружения, стилизации, едино- и многохарактерной согласованности, а также редактировании текста, при этом разницы Elo достигают ~100 пунктов и более по сравнению с GPT‑Image 1 во многих категориях editing elo chart.

Отдельная тепловая карта по однолинейному текстовому рендерингу показывает, что Nano Banana Pro допускает примерно 8% среднюю ошибку во всех языках, в то время как GPT‑Image 1 — около 38%, особенно заметны различия в скриптах, таких как арабский, хинди и иврит text error heatmap. Примеры outputs, такие как инфографика 4K «Как работают солнечные панели», с чистой типографикой и структурированными элементами диаграмм, иллюстрируют практическое воздействие для продуктовых команд, которым важны читаемые макеты UI и панели инструментов, а не просто концепт‑арт solar infographic sample. DeepMind и комментарии сторонних разработчиков уже рассматривают Nano Banana Pro как «модель изображения, рассуждающую» — идея в том, что её улучшенная фактическая основа и логика построения, а не только качество декодера, поднимают эти значения над старыми моделями reasoning model quote.

fal.ai выпускает на старте Nano Banana Pro API для преобразования текста в изображение и редактирования

Инференс-хост fal.ai запустил Nano Banana Pro на нулевой день, открывая отдельные конечные точки для преобразования текста в изображение и редактирования изображений, чтобы команды могли начать подключать Gemini 3 Pro Image к своим приложениям, не дожидаясь стека Google fal launch. Текстовая модель преобразования текста в изображение предлагает ценообразование за изображение и поддерживает полный процесс творческого промпта, в то время как выделенная конечная точка редактирования позволяет загружать изображение и управлять семантическими редактированиями на естественном языке, а не масками fal text to image fal image editing.

Поскольку fal управляет очередями и масштабированием, это дает небольшим компаниям мгновенный способ прототипирования функций на Nano Banana — маркетинговые пайплайны для изображений, инструменты дизайна, конфигураторы продуктов — без разворачивания Vertex или столкновения с фрикциями по квотам в AI Studio fal endpoints thread. Для AI-инженеров, уже использующих fal для других диффузионных или видеомоделей, замена на Nano Banana Pro в основном должна быть делом смены slug модели и корректировки промптов для более сильной работы с текстом и макетом.

Higgsfield предлагает безлимитный 4K Nano Banana Pro с агрессивной скидкой на Черную пятницу.

Видео‑платформа Higgsfield предлагает необычно агрессивный коммерческий пакет вокруг Nano Banana Pro: неограниченное число 4K‑генераций на год со скидкой до 65% в рамках распродажи к Черной пятнице, плюс краткосрочная промо‑акция 350 бесплатных кредитов за ретвиты и комментарии higgsfield launch promo. Они подчеркивают Gemini‑основанное рассуждение, многоязычное качество текста и точные средства редактирования, позиционируя предложение как способ воспользоваться моделью, не волнуясь о лимитах на изображение или бюджетировании токенов higgsfield feature recap.

Страница Higgsfield усиливает этот посыл, рекламируя планы "Unlimited 4K Nano Banana Pro" и демонстрируя клипы в голливудском стиле и конверсии плюшевых фигур в качестве примеров выходных данных, что нацелено на агентства и крупные сервисы, работающие с социальным контентом, больше чем на хоббистов Higgsfield site. Для лидов в области ИИ основная компромисса по сравнению с прямым выходом к Google очевидна: заплатить фиксированную цену за платформу поверх рабочего интерфейса Higgsfield, или держаться ближе к «железу» с Vertex/AI Studio и самостоятельно управлять квотами и оркестрацией.

Genspark интегрирует Nano Banana Pro в своё всеобъемлющее AI‑рабочее пространство.

Genspark, инновационное AI‑рабочее пространство «всё в одном», теперь предоставляет изображительную модель Nano Banana от Google наряду с существующим набором инструментов для работы с текстом и видео, чтобы пользователи могли создавать и редактировать изображения, не покидая одно и то же полотно, которое они используют для слайдов, документов и анализа данных genspark overview. В демонстрации команда показывает дизайн‑потоки постеров и редактирования изображений на базе Nano Banana, происходящие непосредственно внутри Genspark, без отдельной настройки API или переключения платформ nano banana in genspark."


Открытые веса: Olmo 3 (7B/32B базовый, Instruct, Think)

Крупная полностью открытая линейка моделей от Ai2 с обучающими данными, контрольными точками, журналами и подробным отчетом — полезно для команд, которым нужны прозрачные, воспроизводимые стеки. Исключена модель изображения Google (рассматривается как особенность).

Ai2 выпускает полностью открытое семейство Olmo 3 7B/32B

Институт Аллена по искусственному интеллекту выпустил семейство Olmo 3: базовые модели 7B и 32B, а также варианты Instruct, Think и RL Zero, все с открытыми весами, смесью предобучающих данных, наборами данных после обучения, промежуточными контрольными точками и журналами обучения. Они явно позиционируют Olmo 3‑Base 32B как самую сильную полностью открытую базовую модель 32B, а варианты 7B — как лучшие западные модели мышления/инструкций, нацеленные на то, чтобы предложить командам прозрачную альтернативу системам уровня Qwen. сообщение о выпуске Полный пакет доступен на Hugging Face и задокументирован в подробном техническом отчёте, поэтому вы можете просмотреть или воспроизвести каждый этап потока моделей от SFT через DPO и RLVR. коллекция Hugging Face PDF статьи блог AI2

Olmo 3 поставляет 7B RL Zero наборы данных и контрольные точки для математики, кода и инструкций

Помимо базовой и Think-моделей, Ai2 выпускает четыре трека RL Zero для 7B Olmo 3 — сосредоточенные отдельно на математике, коде, следовании инструкциям и смешанном сочетании — каждый с открытыми наборами данных и промежуточными контрольными точками. поток релиза Команда прямо представляет это как лабораторную площадку для изучения того, как запуск RL напрямую из базовой модели (вдохновлено DeepSeek R1) взаимодействует с промежуточными выводами рассуждений во время обучения и насколько прирост по тестам достигается за счет RL по сравнению с SFT или DPO, в тех областях, где запуски RLVR на базе Qwen вызвали вопросы о контаминации. PDF доклада

Olmo 3-Base 32B бросает вызов другим открытым моделям 32B на основных бенчмарках

Бенчмарк-графики, опубликованные вместе с релизом, показывают, что Olmo 3‑Base 32B обходит или сравнивается с сильными открытыми аналогами, такими как Marin 32B, Apertus 70B, Qwen 2.5 32B, Gemma 3 27B и даже Llama 3 170B на задачах вроде HumanEval (66.5), DROP (81.0), SQuAD (94.5) и CoQA (74.1). benchmark charts Для инженеров ИИ это означает, что вы получаете конкурентоспособную, среднюю по размеру базовую модель для кода, чтения и понимания текста, и QA, которая все еще поместится в одном видеокарте на 80 ГБ, но без потери прозрачности и контроля донастройки, которого недостает у большинства закрытых моделей на 30–70B.

Olmo 3-Think 32B приближается к Qwen3 по бенчмаркам в математике и рассуждении.

Модель рассуждений Olmo 3‑Think 32B приближается к Qwen3 32B и Qwen3 VL 32B Thinking на сложных наборах рассуждений на расстоянии 1–2 очка, показывает примерно 89.0 на IFEval, 96.1 на MATH, около 90 на BigBench‑Hard и 89.7 на HumanEvalPlus, при этом обгоняя этих конкурентов по OMEGA. benchmark charts ) Ai2 отмечает трехступенчатый пост‑обучающий конвейер — Dolci‑Think SFT, расширенную конфигурацию DPO, которая использует дельты между ответами Qwen3 32B и 0.6B, и крупномасштабный RLVR — для перевода базовой 32B в высококлассную открытую модель рассуждений, что является хорошей новостью, если вы хотите почти передовую производительность в математике/кодировании в открытой экосистеме.

)

Ai2 и Hugging Face запланировали прямой эфир с подробным разбором Olmo 3.

Ai2 проводит живой технический разбор Olmo 3 вместе с Hugging Face в 9:00 по PT, за которым последует обсуждение в духе «afterparty» в Discord Ai2. livestream invite Для инженеров и исследователей это шанс услышать детали обучения и постобучения непосредственно от авторов, задать вопросы по решениям дизайна, таким как длина контекста, смеси данных, настройка DPO и приемы RLVR, и увидеть, как они видят возможность расширения нового базового и контрольных точек Think.

Команда Olmo 3 намекает на предстоящие материалы о инфраструктуре обучения и выполнении кода

Несколько авторов Olmo 3 делятся за кулисами историями об инфраструктуре и стеке обучения, включая «присмотр» за длительными тренировочными запусками и специализированными настройками NCCL и окружения для выполнения кода, которые обеспечивали стабильность экспериментов по RL с большим масштабом. обслуживание тренировок Один инженер говорит, что у них есть «очень забавные» анекдоты о тренировочных запусках, которые они надеются опубликовать в ближайшие недели, в то время как другой отмечает предстоящую запись об их окружении для выполнения кода в RL, а товарищи по команде отмечают участников, которые отлаживали проблемы на низком уровне NCCL после обучения. заметка по выполнению кода комментарий NCCL Если вам важно воспроизвести обучение Olmo‑класса или адаптировать их RL‑пайплайн, стоит следить за этими углубленными постами как за сопровождение к основному техническому докладу.


Stay first in your field.

No more doomscrolling X. A crisp morning report for entrepreneurs, AI creators, and engineers. Clear updates, time-sensitive offers, and working pipelines that keep you on the cutting edge. We read the firehose and hand-pick what matters so you can act today.

I don’t have time to scroll X all day. Primer does it, filters it, done.

Renee J.

Startup Founder

The fastest way to stay professionally expensive.

Felix B.

AI Animator

AI moves at ‘blink and it’s gone’. Primer is how I don’t blink.

Alex T.

Creative Technologist

Best ROI on ten minutes of my day. I’ve shipped two features purely from their daily prompts.

Marta S.

Product Designer

From release noise to a working workflow in 15 minutes.

Viktor H

AI Artist

It’s the only digest that explains why a release matters and shows how to use it—same page, same morning.

Priya R.

Startup Founder

Stay professionally expensive

Make the right move sooner

Ship a product

WebEmailTelegram

On this page

Executive Summary
Feature Spotlight: Особенность: Nano Banana Pro (Gemini 3 Pro Image) запускается во всех сервисах Google и у партнёров
🍌 Особенность: Nano Banana Pro (Gemini 3 Pro Image) запускается во всех сервисах Google и у партнёров
Nano Banana Pro (изображение Gemini 3 Pro) запускается во всех инструментах Gemini и Google
Бенчмарки ставят Nano Banana Pro вперед GPT‑Image 1 по качеству и рендерингу текста.
fal.ai выпускает на старте Nano Banana Pro API для преобразования текста в изображение и редактирования
Higgsfield предлагает безлимитный 4K Nano Banana Pro с агрессивной скидкой на Черную пятницу.
Genspark интегрирует Nano Banana Pro в своё всеобъемлющее AI‑рабочее пространство.
🧩 Открытые веса: Olmo 3 (7B/32B базовый, Instruct, Think)
Ai2 выпускает полностью открытое семейство Olmo 3 7B/32B
Olmo 3 поставляет 7B RL Zero наборы данных и контрольные точки для математики, кода и инструкций
Olmo 3-Base 32B бросает вызов другим открытым моделям 32B на основных бенчмарках
Olmo 3-Think 32B приближается к Qwen3 по бенчмаркам в математике и рассуждении.
Ai2 и Hugging Face запланировали прямой эфир с подробным разбором Olmo 3.
Команда Olmo 3 намекает на предстоящие материалы о инфраструктуре обучения и выполнении кода
🗺️ Дорожные карты моделей и предстоящие релизы
Сигналы накапливаются в преддверии скорого выпуска Claude Opus 4.5 и Claude Code Desktop
Илон Маск нацеливается на обновление Grok 4.20 «крупное улучшение» к Рождеству
Браузер Comet от Perplexity с агентной архитектурой тихо появился в Android Play Store.
🛠️ Архитектуры агентов: субагенты, контекст и выполнение кода
Anthropic: выполнение кода и умное редактирование контекста повышают эффективность агентов Claude на 39%.
Replit презентует оркестратор субагентов основного цикла как паттерн «Год субагента».
Sourcegraph предупреждает, что потоки кодирования Amp, выходящие за пределы примерно 350 тысяч токенов, ухудшают качество.
Kilo Code демонстрирует цикл от подсказки к игре с встроенным развертыванием.
🛡️ Безопасность агентов/IDE: утечка через prompt-инъекцию и меры противодействия
Ошибка эксфильтрации изображений Markdown снова появляется во многих агентских IDE.
DSPy Spotlight добавляет защиту в продакшене от косвенной инъекции подсказок
⚖️ ЕС смещает акценты в правилах конфиденциальности и в области ИИ, чтобы снизить трение.
Европейский Союз планирует ослабить требования GDPR и отсрочить введение в силу AI Act, чтобы снизить бремя соблюдения требований.
🗣️ Голосовой ИИ в масштабе: новые рынки и использование в корпоративной среде
ElevenLabs выходит в Корее с платформой Agent Platform для предприятий со временем отклика менее 0,5 с.
ElevenLabs обеспечивает 1,5 млн ИИ-мок-интервью для соискателей работы Apna
🎨 Креативный ИИ вне Google
Dreamina MultiFrames превращает 10 кадров в 54-секундное видео, управляемое подсказками
SAM3 от Meta демонстрирует надёжную сегментацию видео в реальных условиях в ранних тестах у создателей контента.
ImagineArt 1.5 Preview поднимается до 3-го места в рейтинге ELO за текст‑к‑изображению от Artificial Analysis
KAT‑Coder‑Pro автоматически кодирует процедурный рождественский дом в стиле Minecraft в three.js
Tencent заигрывает с HunyuanVideo 1.5 и представляет превью в стиле эскиза, переходящего в 3D.
💼 Сигналы принятия в коммерции и корпоративном секторе
Flowith предлагает пакеты акций на Черную пятницу, объединяющие Gemini 3 Pro и предстоящий Banana 2, с крупными скидками.
📈 Пульс сообщества: усталость от моделей и нарратив конкуренции
Сообщество переключается на нарратив «Google против остальных», но гонка по-прежнему открыта.
Сообщество связывает временной горизонт METR 2h40 с дорожной картой OpenAI по программе «AI research intern».
Комментаторы отмечают годовое падение примерно в 300 раз «цены за единицу интеллекта» и предупреждают, что спасения не будет.
Разработчики достигли «100%-ной усталости моделей» после трех дней запусков флагманских моделей.
Разработчики отмечают повторяющийся цикл хайпа вокруг каждого запуска крупной модели.
🤖 Роботы на заводах и в домохозяйствах
Figure делится кадрами с линии производства BMW и выделяет уроки для Figure 03
Sourccey подшучивает над 3’6" открытым исходным кодом домашнего робота, совместимого с LeRobot