
Nano Banana Pro выходит на 12 платформ для создателей — 65% скидка на безлимитное 4K
Stay in the loop
Free daily newsletter & Telegram daily report
Executive Summary
Nano Banana Pro проскочила от «новой модели» к стандартному движку изображений почти за ночь, заняв как минимум 12 инструментов для создателей с агрессивными фиксированными тарифами. Higgsfield предлагает 12 месяцев безлиминованного 4K по скидке 65%, если присоединиться в окно в 3 дня, в то время как Freepik и Lovart проводят безлимитные спринты 1K–2K и 4K на неделю и на выходные соответственно.
После победы во вторник в системе identity‑lock с Nano Banana 2, обновление Pro на базе Gemini‑3 явно нацелено на реальные кампании, а не на посты для галочки.
Самая интересная история — где она прячется: в стеках, которые вы уже используете. Adobe тихо подключила Pro к Firefly и настольному Photoshop с безлимитными запусками до 1 декабря, ElevenLabs встроила это в вкладку Image & Video и предлагает скидку 22% по плану, а Leonardo использует рассуждения Gemini 3 и поиск Google, чтобы выдавать точные инфографики и панели мониторинга.
Со стороны инфраструктуры Replicate, fal, Runware (около $0.134 за изображение при 1K–4K), OpenArt, Hedra и Flowith включили концевые точки Pro, поэтому интеграция его в существующий API‑пайплайн фактически является изменением конфигурации.
Тем временем Tencent выпустил в открытый доступ HunyuanVideo 1.5, модель текст‑в‑видео на 8.3 млрд параметров, которая воспроизводит 5–10‑секундные клипы на 14‑ГБ видеокартах — удобна, если вы хотите, чтобы ваш бюджет previs выжил в Q1.
Feature Spotlight
Nano Banana Pro выходит на все платформы
Nano Banana Pro выходит на ведущие платформы с 4K, точными монтажами, чистым текстом и последовательностью — плюс агрессивные промо-акции (неограниченный доступ на Higgsfield, неделя Freepik, доступ Firefly/PS). Новая базовая линия для рабочих процессов в дизайне и кинопроизводстве.
Сегодняшняя главная история: Nano Banana Pro на базе Gemini распространяется по основным платформам для создателей контента с поддержкой 4K, точными правками, объединением нескольких изображений, чистым многоязычным текстом и безупречной согласованностью персонажей. Масштабные промо-акции запуска нацелены на творцов контента.
Jump to Nano Banana Pro выходит на все платформы topicsTable of Contents
🍌 Nano Banana Pro выходит на все платформы
Сегодняшняя главная история: Nano Banana Pro на базе Gemini распространяется по основным платформам для создателей контента с поддержкой 4K, точными правками, объединением нескольких изображений, чистым многоязычным текстом и безупречной согласованностью персонажей. Масштабные промо-акции запуска нацелены на творцов контента.
Adobe интегрирует Gemini 3 / Nano Banana Pro в Firefly и Photoshop
Adobe тихо внедрила Gemini 3 Pro Image (Nano Banana Pro) в Firefly Text‑to‑Image, Firefly Boards и Generative Fill в настольном приложении Photoshop, и позволяет пользователям Creative Cloud Pro и платного Firefly работать с ним без ограничений генераций до 1 декабря. Это на практике означает: теперь вы можете генерировать и итеративно редактировать референсы, мудборды, кадры сториборда и моки интерфейса внутри Firefly, затем перейти прямо в Photoshop и использовать ту же модель для генеративных заполнений на холсте и локализованных правок с корректной поддержкой слоёв. По сравнению с ранними моделями Firefly пользователи сообщают о гораздо более чистой типографике (даже в не‑латинских скриптах), лучшем контроле соотношения сторон и меньшем количестве странных швов при наложении AI‑патчей на отснятые пластины. Если ваша студия уже работает с Adobe, это может сэкономить вам целый круг поездок к отдельным AI‑инструментам для концептуирования, а затем обратно в Photoshop для компинга и очистки. adobe firefly brief)
Freepik делает Nano Banana Pro без ограничений в разрешении 1K/2K на одну неделю.
Freepik переключил свой стек ИИ‑изображений на Nano Banana Pro и запустил недельный промежуток, в течение которого пользователи Premium+ и годовые Pro‑пользователи могут генерировать неограниченное количество изображений 1K и 2K, при этом 4K всё ещё доступен за кредиты. Для креаторов, работающих в Freepik Spaces или Image Generator, это означает, что можно создавать постеры, миниатюры, карточки персонажей и макеты в рабочих разрешениях без «счетчика» использования, а затем платить кредиты только тогда, когда понадобятся финальные экспорты 4K или материалы для печати. Они также выпустили более 20 готовых Spaces, созданных на Nano Banana Pro (изменения выражений, макеты инфографики, генераторы персонажей, эскиз→сцена), которые можно дублировать и настраивать вместо написания подсказок с нуля. Если ваш пайплайн уже живёт в Freepik — наборы для соцсетей, слайды, лёгкие концепты рекламы — это минимально усложняющий способ опробовать на практике Pro‑уровень текстовой визуализации и согласованности, прежде чем решать, перенести ли более серьёзную работу. freepik rollout)
fal запускает Nano Banana Pro: конечные точки для преобразования текста в изображение и редактирования, а также купон
Inference host fal.ai запустил две Nano Banana Pro endpoints — один для text‑to‑image, один для редактирования изображений — с простым ценообразованием за изображение и промокодом (NANOBANANAPRO2), который даёт новым пользователям $5 кредитов. Текстовый endpoint позволяет перейти к Pro через их Playground или API с одним JSON‑payload, в то время как вариант для редактирования принимает исходное изображение и промпт редактирования, обрабатывая региональные правки и множественные ссылки на изображения внутри. Для разработчиков, создающих творческие инструменты — веб‑баннеры, обложки, генераторы раскадровок — это интегрирует Nano Banana Pro в ту же инфраструктуру, которую вы, возможно, уже используете для Flux или SDXL, чтобы можно было сравнивать вывод и задержку модель‑за‑модель. Окно купона — это также простой повод провести стресс‑тест редактирования на реальных клиент‑платформах перед принятием решения. fal model page)
Runware добавляет Nano Banana Pro в качестве помощника по дизайну, ориентированного на макеты
Страница Google‑моделей Runware теперь включает Nano Banana Pro с генерацией 1K–4K и ориентировочной стартовой стоимостью около $0.134 за изображение, которая специально позиционируется как «помощник по дизайну» для инфографики, слайдов, панелей и визуалов продукта. Их подход заключается в том, что рассуждения Nano Banana Pro о макете и тексте позволяют ему рассматривать запрос вроде «объяснить трансформеры» или «подытожить этот запуск» как художественно выстроенное полотно, а не как одну иллюстрацию, что важно, если вы автоматически генерируете обложки отчетов, маркетинговые памятки или посты с большим количеством данных. Поскольку Runware уже предоставляет несколько моделей изображений за единым API, творческие команды могут подключить Pro к существующим конвейерам и направлять определённые типы запросов (разъяснение в длинной форме, композиции, похожие на UI) к нему выборочно. Для тех, кто запускает собственный творческий бэкэнд, это ещё одна серьёзная опция размещения наряду с Vertex и Replicate. объявление Runware)
Воспроизведите хосты google/nano-banana-pro для мгновенного использования Playground и API.
Replicate добавил официальную модель Google google/nano-banana-pro, поэтому вы можете вызывать Nano Banana Pro через их веб‑Playground, Python SDK или простой HTTP‑запрос без обращения к Google Cloud. Для отдельных художников и небольших команд инструментов это удобно, если вы хотите прототипировать макеты пользовательского интерфейса, инфографику или рабочие процессы стиль‑переноса вокруг Nano Banana Pro, но не хотите изучать Vertex AI или управлять собственной квотой. Карточка модели подчеркивает как текст‑к‑изображению, так и редактирование на месте, включая многокартинковую настройку и многоязычный текст, что привлекательно, если вы строите внутренние инструменты для маркетинга или образования. Если вы уже используете Replicate для других моделей, это превращает Nano Banana Pro в готовый вариант, который можно использовать в А/Б тестировании против вашей текущей стек изображений. replicate launch)
ElevenLabs Image & Video добавляет Nano Banana Pro со скидкой 22%.
Голосо‑ориентированная ElevenLabs тихо обновила вкладку Image & Video, чтобы использовать Nano Banana Pro для визуального создания и редактирования, и сейчас предлагает 22% скидку на планы Starter–Scale до понедельника. Это значит, что вы можете теперь делать раскадровку, генерировать героические статичные кадры или лёгкие мотивы движения внутри того же инструмента, который вы уже используете для многоязычных голосов и звукового дизайна, с доступом до 4K кадров. Для сольных авторов и небольших студий это упрощает стек технологий: проводите визуальную идею с Pro, затем сразу накладывайте на неё озвучку или SFX, используя аудиомодели ElevenLabs — всё экспортируется из одного места. Распродажа подталкивает к принятию решения, если вы сомневались по поводу объединения изображения и аудио в одной подписке. elevenlabs rollout)
Hedra интегрирует Nano Banana Pro в партии изображений и рабочие процессы брендинга.
Хедра внедрила Nano Banana Pro в свой инструмент для работы с изображениями в качестве движка по умолчанию для безопасных для бренда, последовательных результатов, и выделяет три вещи для создателей: изображения высокого качества с контролем выражения, наложения логотипов/бренда на произвольные поверхности и "batches", которые позволяют сгенерировать до восьми вариантов за раз. Для людей, использующих Hedra для прототипирования кампаний или упаковки, это значит, что можно запустить целые наборы — разные модели, позы или композиции — по одному брифу и при этом сохранить типографику и логотипы заблокированными на всем пакете. Они также раздают промо‑кредиты к запуску Nano Banana Pro, так что если вы хотите увидеть, насколько далеко можно продвинуть итерации в духе бренда без ручного Photoshop, Hedra — одна из более отточенных фронтендов поверх Pro.
Lovart предлагает бесплатный уикенд с Nano Banana Pro и год на Basic+
Lovart включил Nano Banana Pro в качестве основной модели изображений и запустил две накладывающиеся промо‑акции: выходные «Banana‑On‑Us» (с 21 по 23 ноября), когда каждый получает неограниченное количество Pro‑генераций бесплатно, и неделя «Banana 365» (до 30 ноября), когда переход на тариф Basic+ открывает целый год неограниченного Nano Banana Pro. Для иллюстраций и дизайнеров, экспериментирующих с рабочим процессом дизайн‑агента Lovart, это снимает ограничения; вы можете исследовать новые визуальные направления, бренд‑киты и идеи компоновки без беспокойства о кредитах как минимум на выходные, а затем поддерживать такое поведение, если выберете Basic+. Это один из более щедрых Pro‑пакетов, если вам нужен легковесный, браузер‑ориентированный помощник к таким инструментам как Photoshop. lovart promo)
OpenArt представляет Nano Banana Pro для своего инструмента создания изображений с моделью начисления кредитов
OpenArt теперь рекламирует поддержку Nano Banana Pro в своем интерфейсе создания изображений, предоставляя пользователям еще один фронтенд к Pro наряду с моделями в стиле SDXL и существующей поддержкой Nano Banana 2. Их позиционирование направлено прямо на AI‑художников и дизайнеров подсказок: вы можете выбрать Nano Banana Pro из выпадающего списка моделей, подавать более длинные, сложные по разметке запросы и получать изображения, настроенные для макетов, постеров и социальных материалов, все в обычной системе кредитов OpenArt. Для тех, кто привык просматривать модельный зоопарк OpenArt и сообщество‑галерею, это способ встроить Pro в ваш существующий рабочий процесс — избранное, история подсказок, ссылки стилей — не переходя к инструментам Google.
Flowith делает Nano Banana Pro бесплатным внутри своего инструмента управления рабочими процессами.
Flowith, меньшая платформа для креативного рабочего процесса, рекламирует доступ к Nano Banana Pro как бесплатный для своих пользователей, фактически объединяя генерацию изображений Pro‑уровня в рамках более широкой автоматизации и инструментов рабочего процесса без дополнительной строки в счёте. Для режиссеров, маркетологов и команд по созданию контента, которые уже используют Flowith для пайплайнов, это означает, что вы можете добавить шаги с изображениями на базе Pro — например мудборды, ключевые кадры или исследование миниатюр — прямо в существующие потоки вместо того, чтобы подключать отдельный сервис изображений и аутентификацию. Движение скорее про удобство, чем про масштаб: если ваши коллеги работают внутри Flowith, это превращает сложные визуальные подсказки в ещё один узел вашего процесса, оплаченный подпиской, на которую вы и так подписаны. flowith note)
🎬 Видео за один дубль: ключевые кадры, рельсы и потоки
Инструменты проектирования кадров для кинематографистов: Dreamina’s Multi‑Frames объединяет 10 изображений с переходами по запросам для серий продолжительностью примерно 54 секунды. Этот раздел сосредоточен на управляемом потоке видео (за исключением функции развёртывания Nano Banana Pro).
Dreamina Multi-Frames получает богатые рецепты промптов для 10‑кадровых видео в одном дубле
Создатели Dreamina превращают Multi-Frames из сырого инструмента ключевых кадров в практичный инструмент кинематографии, публикуя полные разборы подсказок для 10‑кадровых, примерно 54‑секундных однокадровых последовательностей, которые проводят персонажа через эпохи — от Каменного века до города ближайшего будущего.демо путешествия во времени на основе оригинального запуска 10‑ключевых кадров первый запуск, Эшутуш проходит через подсказки по кадрам и специальные подсказки движения «movement» между кадрами, чтобы мужчина продолжал идти вперед, пока окружение меняется (Каменный век → Египет → Греция → Рим → средневековье → Ренессанс → индустриализация → начало XX века → современность → будущее), что как раз то, что нужно режиссерам, чтобы рассматривать Multi-Frames как инструмент траектории камеры, а не как слайд-шоу.поток подсказок Dreamina также демонстрирует более короткие однокадровые варианты, например одиночный кадр, «езды» по сцене через рельсытизер демонстрации рельсов и более легкие примеры, такие как последовательность персонажа в духе Doris Day из 10 кадров,пример Doris Day, чтобы вы могли увидеть, как та же механика применяется к музыкальным клипам, моде или настроениям — не только к крупным историческим объяснителям.

Dreamina’s Banana Frame Challenge превращает четыре кадра в последовательность, снятую за один дубль.
Dreamina запустила #BananaFrameChallenge вокруг идеи Multi-Frames, предлагая людям ответить четырьмя изображениями Nano Banana Pro, которые ощущаются как моменты одной и той же сцены, затем пообещав сшить наиболее понравившиеся наборы в единую кинематографическую непрерывную съемку.объявление челленджа Команда пояснила, что означает «визуально связанный» — один и тот же персонаж с разных ракурсов, прогулка по пространству, эволюция существа или прохождение дня от рассвета до ночи — таким образом участники фактически создают раскадровку передвижения камеры или трансформацию, между которыми Multi-Frames затем будет анимировать в между ними между этими четырьмя моментами.объяснение того, что считается Для создателей ИИ-фильмов это полезная схема: создавайте ключевые кадры в выбранной вами модели изображений, но проектируйте их как непрерывную съемку, и позвольте инструменту видеомонтажа с ключевыми кадрами обрабатывать движение и тайминг между ними.
🧩 HunyuanVideo 1.5: открытая генерация видео для всех
HunyuanVideo 1.5 от Tencent выпускает легковесную открытую модель (8.3 млрд параметров), которая работает на потребительском уровне (~14 ГБ VRAM) с нативными разрешениями 480/720p и SR 1080p — полезна для быстрого previs и концептуальных роликов.
Tencent выпустил открытый исходный код HunyuanVideo 1.5, видеомодель на 8,3 млрд параметров, которая работает на 14‑ГБ видеокартах.
Tencent выпустил HunyuanVideo 1.5, легковесную модель текст‑к‑видео на 8.3 млрд параметров, которая нативно генерирует клипы продолжительностью 5–10 секунд в 480p/720p и может быть масштабирована до 1080p, при этом укладывается на потребительские GPU с примерно 14 ГБ VRAM. Модель, код и демонстрации доступны на Hugging Face и GitHub, предоставляя создателям открытую, продакшн‑качества альтернативу для previs, концепт‑роликов и стилизованных кадров без аренды больших облачных мощностей model launch hugging face release hugging face model hugging face model.

Для режиссеров и дизайнеров привлекательность состоит в сочетании согласованности движений, киношного кадрирования и доступности аппаратного обеспечения: можно прототипировать локально 5–10 секундные сцены, затем пропустить их через встроенный конвейер супер‑разрешения для доставки в 1080p model launch. Официальный монтаж и тизер с звуком Фоли демонстрируют стабильные движения камеры, согласованных персонажей и относительно чистую временную динамику, сигнализируя, что открытые модели стремительно догоняют закрытые системы для сторибордов, mood pieces и тестов блокинга foley teaser. Потому что она открыта и скриптована, команды могут подключить HunyuanVideo 1.5 к существующим ComfyUI или пользовательским Python‑пайплайнам для пакетной генерации кадров, поэкспериментировать с библиотеками подсказок и валидацию или LoRA под конкретные визуальные стили без проблем с лицензиями hugging face release.
🧠 Агентные помощники для креативщиков
Инструменты агента выпускаются для планирования, действий и сборки: Gemini Agent появляется в Labs и на рабочем столе для Ultra (США), браузер Comet выходит на Android, а IDE агентов созревают. Исключена функция Nano Banana Pro.
Gemini Agent выходит на настольной версии для пользователей Ultra с потоками входящих сообщений и бронирования.
Google начал развертывать Gemini Agent на настольном компьютере для подписчиков Gemini Ultra из США, превращая чат-бота в помощника для выполнения задач: он может читать ваш почтовый ящик, расставлять письма по приоритету, составлять ответы и даже исследовать и помогать бронировать такие вещи, как арендованные автомобили, при этом всегда запрашивая подтверждение перед тем, как отправлять или покупать что-либо Gemini Agent thread. В то же время некоторые пользователи видят новые переключатели Labs как для «Visual layout» и для «Agent» внутри веб-приложения Gemini, что наталкивает на мысль, что эти помощники в стиле рабочих процессов и панели генеративного интерфейса скоро станут полноценной частью повседневного опыта Gemini, а не отдельным продуктом Labs toggle screenshot.
IDE Antigravity от Google выходит на публичный предварительный просмотр с потоками кодирования для нескольких агентов
Google’s Antigravity IDE, созданная бывшей командой Windsurf, сейчас находится на стадии публичного превью на macOS, Windows и Linux, позволяя координировать нескольких агентов в редакторе, терминале и встроенном браузере, чтобы они реализовывали функции, запускали тесты и Inspect web output под вашим надзором Antigravity IDE clip.). В продолжение демо-IDE с агентной архитектурой, новая сборка может маршрутизировать работу между Gemini 3 Pro, Claude 4.5 Sonnet и GPT‑OSS, включает менеджер агентов для надзора за рабочими процессами и предлагает неограниченное автодополнение вкладок и запросы команд с щедрыми ограничениями по скорости — делая её одной из первых серьёзных агент-ориентированных сред для повседневного кодирования, а не игрушечных демо.
ChatGPT запускает групповые чаты, чтобы команды могли сотрудничать с моделями.
OpenAI начал разворачивать групповые чаты внутри ChatGPT для всех вошедших пользователей, позволяя нескольким людям делиться цепочкой разговоров с моделью и друг с другом в интерфейсе, похожем на Slack

. Для творческих команд это превращает ChatGPT из соло-ассистента в общую комнату, где писатели, дизайнеры и продюсеры могут проводить мозговой штурм, работать над сценариями и поддерживать синхронизацию контекста модели вместо того, чтобы передавать между собой скопированные подсказки и скриншоты.
Агент BeatBandit’s Trailer Wizard составляет списки кадров для трейлеров к фильмам в стиле Sora.
BeatBandit представил «Trailer Wizard», который считывает историю, написанную вами в его системе, а затем автоматически генерирует концепцию трейлера: он предлагает стиль трейлера (например, «Blockbuster Action»), пишет сценарий и выводит подробный список кадров, который можно вставить напрямую в видеомодель, такую как Sora 2

. В реальном примере создатель за примерно 15 минут собрал экшн‑трейлер с героиней‑бобрового типа и соответствующими визуальными материалами, демонстрируя, как кинематографисты и шоураннеры могут перейти от логлайна к раскадровке трейлеров без ручного сторйбординга каждого удара Trailer type followup.)
Браузер Comet AI от Perplexity тихо появляется на Android-телефонах
Новый браузер Comet от Perplexity, задуманный как AI‑родной способ просмотра и поиска, начал появляться на Android с процессом onboarding, который подаёт его как «браузер, который работает за вас», предполагая глубокую интеграцию между поиском, чтением и действиями агента Comet onboarding screen. Для творческих это означает одну мобильную поверхность, на которой можно исследовать, суммировать и, возможно, напрямую скриптовать контент в браузере, вместо постоянного переключения между стандартным браузером и приложением AI‑чата Comet Android promo.
Genspark представляет себя как все‑в‑одном AI‑рабочее пространство и центр агентов.
Genspark представляется как «AI‑рабочее пространство», которое на самом деле выполняет работу за вас: одна подписка даёт доступ к топ-моделям и агентам, которые управляют электронной почтой, суммируют ветки переписки, черновики ответов, превращают входящие в слайды и даже генерируют JSON‑промпты Veo 3.1 или постеры ко Дню благодарения по одному запросу

. Для команд по контенту и видео привлекательность в том, что слайды, документы, таблицы, дизайн и видеомонтаж все живут в общих проектах, где коллеги могут совместно редактировать, в то время как агенты продолжают выполнять повторяющиеся задачи, такие как исследования, структурирование и создание активов в фоновом режиме Genspark feature thread.
Интеграция Gemini 3 Pro от Cursor получает похвалу по сравнению с реализацией Antigravity.
Разработчик Мэтт Шумер сообщает, что реализация Gemini 3 Pro в Cursor заметно стабильнее и сосредоточеннее, чем собственная IDE Antigravity от Google, с меньшим количеством повторных попыток и лучшим поведением в ходе реальной сборки бэкенда Cursor stability comment. Для строителей, выбирающих агентную среду кодирования, это ранний сигнал того, что сторонние IDE, вроде Cursor, в настоящее время могут предлагать более плавный рабочий процесс Gemini с поддержкой, чем первый инструмент Google, несмотря на более богатую интеграцию Antigravity с браузером и терминалом.
🎨 Переиспользуемая эстетика: Создатель стилей и наборы
Системы стиля для единообразного внешнего вида: Midjourney дебютирует ранний Style Creator для эстетического исследования без слов; авторы делятся наборами prompts, таких как ручная нарезка бумаги и ксерографическая анимация, для повторяемого результата.
Midjourney выпускает раннюю версию Style Creator, чтобы вы могли задавать образы без слов.
Midjourney тихо запустил раннюю версию «Style Creator» в Labs, позволяя вам исследовать и закреплять визуальные эстетики, смешивая абстрактные образцы цветов вместо написания подсказок, чтобы вы могли сохранять и повторно использовать эти образы на протяжении поколений.Style Creator announcement

Для художников и режиссеров по ИИ это большое изменение по сравнению с однокодовыми --sref кодами к более визуальной, бесслатной системе стилей: вы просматриваете сетку развивающихся цветовых/текстурных плиток, кликаете, чтобы уточнить под индивидуальную эстетику, а затем применяете этот стиль к новым подсказкам для согласованного вывода. Продолжая тему paper style, которая показывала рецепты с единым кодом, например «бумажная скульптура», этот инструмент переносит контроль стилей в UI, чтобы вы могли коллективно (клиенты, члены команды) итеративно работать над образами, не споря о формулировке подсказок, и намекает на будущее, где Midjourney станет скорее библиотекой стилей, чем пустым полем подсказок.
Ксерографический стиль анимации 60-х/70-х годов, запечатлённый в одной референсной ссылке в стиле MJ
Artedeingenio поделился справочной ссылкой в стиле Midjourney V7 (--sref 2461064987), которая воспроизводит классную атмосферу ксерографической анимации конца 60‑х — начала 70‑х годов — грубые линии туши, пл flat colors? и слегка зернистый эффект целевого кадра, чтобы вы могли добиваться того же ретро-образа по требованию.Поток стиля ксерографического)
)
Пакет включает четыре примера (величавная женщина, усатый писатель за столом, городская собака на балконе и выразительный кролик), которые все разделяют одно и то же качество линий и работу с цветом, демонстрируя, что sref обобщается на персонажей и сцены. Для тех, кто делает ностальгические титры, поддельно‑винтажные мультфильмы или музыкальные клипы, это дает единый способов держать каждый кадр в той же эпохе без ручной подгонки подсказок для каждого кадра.
Набор подсказок из бумаги, вырезанной вручную, создаёт эффект многослойной бумажной диорамы.
Создатель azed_ai опубликовал повторно используемый шаблон подсказок для вида «ручной резки бумаги» — слоистые, в стиле теневой коробки сцены с ясной темой, двухтональными слоями цвета и мягким направленным освещением, чтобы вы могли подставлять любую тему и каждый раз получать тот же тактильный эстетический эффект.Hand-cut paper prompt
The shared prompt uses slots like [subject], [color1], and [color2] plus aspect ratio and version flags (for example --ar 3:2 --v 7) to standardize things like depth, folds, and lighting, and comes with four example renders (koi pond, fox in forest, astronaut in space, balloon over paper hills) that show how consistent the style stays as you swap subjects.Prompt pack reshare For illustrators, motion designers, or children’s media teams, this is effectively a free “paper craft” style pack you can adopt as a house look across storyboards, covers, and light animation.
✂️ Сегментация по тексту и отслеживание для поста
Производственные утилиты для редакторов и VFX: SAM 3 поступает с текстовыми подсказками, полным обнаружением экземпляров и видеотрекингом; fal предоставляет точки доступа SAM 3 для изображений и видео. Исключает функцию Nano Banana Pro.
Meta выпускает SAM 3 с сегментацией на основе текста и отслеживанием в видео.
Meta выпустила Segment Anything Model 3 (SAM 3), новую модель компьютерного зрения, которая может сегментировать и отслеживать объекты на изображениях и в видео по запросам на естественном языке (например «все красные автомобили»), по точкам/прямоугольникам или по существующим маскам, и обучалась на 4 миллиона аннотированных концепций, охватывающих примерно 270 000 уникальных категорий — более чем в 50 раз больше предыдущих наборов тестов. SAM 3 поддерживает исчерпывающее обнаружение экземпляров (оно находит каждый совпадающий объект, а не только одну область) и распространяет это на видео, отслеживая указанные текстом объекты между кадрами, что именно roto, cleanup и команды композитинга раньше делали вручную кадр за кадром Sam 3 overview. Meta reports roughly 2× better performance on the new SA‑Co benchmark versus prior models and near real‑time throughput on H200s (≈30 ms per image with 100+ objects, and interactive video tracking for about five objects at once), making it usable inside editing and review loops rather than as an offline batch job Sam 3 overview. Code, weights, and the SA‑Co dataset are open on GitHub and the Segment Anything Playground, so tool builders can start wiring SAM 3 into NLE plugins, review tools, or custom pipelines today rather than waiting for a hosted product Sam 3 blog.

Fal добавляет API SAM 3 для изображений и видео с текстовыми подсказками и низкой стоимостью за кадр.
Хост инференса fal.ai выпустил производственные конечные точки для SAM 3 от Meta, предоставив инструментам VFX и редактирования готовое API для сегментации на основе текста как для неподвижных изображений, так и для видео, а также примеры подсказок и ограничительных рамок для более тонкого контроля Fal Sam 3 launch. The image endpoint handles promptable segmentation on single frames, while the video endpoint tracks selected objects across clips; pricing on fal’s model cards starts around $0.005 per image or per 16 video frames (roughly $0.0003 per frame), which keeps full‑sequence tracking cheap enough for batch pre‑processing or automated roto passes Sam 3 image docs Sam 3 video docs. For AI editors and post tools that don’t want to self‑host GPUs, this means you can now add features like “remove every red car”, “track this logo across the shot”, or “isolate all people in blue jackets” with a single API call instead of maintaining your own segmentation stack Fal Sam 3 launch.
🔊 Звук, озвучивание и корпоративные голосовые каналы
Аудио для рассказчиков: Runway добавляет аудио-узлы (TTS, SFX, озвучивание, изоляция) к рабочим процессам; ElevenLabs подробно рассказывает о корпоративных внедрениях и кейс-исследовании агента, проводившего интервью, продолжительностью 7,5 млн минут.
ElevenLabs запускает команду инженеров по прямому развёртыванию для выпуска в продакшн голосовых агентов.
ElevenLabs формализует свою программу «Forward Deployed Engineers»: специализированные команды, которые внедряются в предприятия, чтобы определить объём работ, построить и запустить голосовых агентов, привязанных к конкретным KPI, таким как время разрешения и коэффициент локализации (containment rate). Суть предложения в том, что они не просто продают API, они совместно несут ответственность за проектирование системы, интеграцию, масштабирование, управление изменениями и комплаенс до тех пор, пока агент не станет стабильным в эксплуатации. fde overview

Эти FDE-ы сосредоточены на развертываниях, построенных на ElevenLabs Agents и инфраструктуре, решая сложные задачи, такие как маршрутизация в существующие CRM или контакт-центры, ведение журналов и аудита, а также правила безопасной эскалации, которые многие внутренние команды недооценивают. ElevenLabs подчёркивает, что каждое взаимодействие ориентировано на результат, а не на открытый консалтинг, и позиционирует это как пропавший звено между отличными моделями TTS и фактической обработкой миллионов реальных звонков клиентов. fde value pitch kpi focused framing fde program page
Runway добавляет аудио‑узлы в рабочие процессы для синтеза речи (TTS), звуковых эффектов (SFX), дубляжа и изоляции.
Runway обновил систему Workflows четырьмя аудио-узлами — Text to Speech, Text to SFX, Voice Dubbing и Voice Isolation — теперь вы можете проектировать полный звуковой проход внутри той же самой графа узлов, что и для видео. Для редакторов и моушн-дизайнеров это означает, что вы можете держать озвучивание VO, звукорежиссуру, языковые версии и очистку в одной автоматически управляемой конвейерной цепочке, вместо переключения между DAW и онлайн-инструментами. поток аудио-узлов
Workflows теперь могут инициировать озвучку из сценария, автоматически генерировать звуковые эффекты по текстовым описаниям, менять диалоги на новые языки с сохранением тайминга и выделять или изолировать голоса из зашумленных стемов, все в виде повторно используемых блоков, которые можно соединять и версионировать. Это большой шаг к тому, чтобы звук рассматривался как полноценная часть шаблонных видео workflow, а не как запоздалое дополнение, прикрепляемое в отдельном ПО. рабочие процессы Runway
Apna проводит 1,5 млн репетиционных интервью и 7,5 млн голосовых минут на ElevenLabs
Индийская платформа для поиска работы apna тихо масштабировала ИИ-наставник по собеседованиям до 1,5 миллиона имитационных интервью, что в сумме составляет 7,5 миллиона минут устной обратной связи, все голоса записаны ElevenLabs и скоординированы партнером Blue Machines. Задержка составляет примерно 150–180 мс за раунд, что достаточно быстро, чтобы разговор казался живым, а не «ботоподобным», что важно при моделировании интервью с высоким риском для 60 миллионов пользователей. apna headline latency and stack
Под капотом apna использует ASR + NLU для анализа ответов, график рубрики в стиле RAG, настроенный под роль/компанию, и голоса ElevenLabs для передачи нюансированной обратной связи на английском и хинди с соответствующим тоном. Это хорошая примерная архитектура, если вы строите продукты для коучинга, обучения или оценки: она показывает, что долгосрочные, эмоционально чувствительные голосовые агенты могут работать на масштабе без того, чтобы пользователи уходили из-за задержки или «неестественной» подачи. apna case study)
ElevenLabs выходит на рынок Южной Кореи с местной командой и медиа-партнёрами
ElevenLabs открывает локальное присутствие в Южной Корее, привнося свой голосовой ИИ и платформу агентов в один из самых требовательных рынков медиа в мире с высокой степенью подключения. Новая команда в Сеуле будет сотрудничать с вещателями и игровыми студиями, включая MBC, ESTsoft, Krafton и SBS, чтобы локализовать голоса и внедрять агентов в режиме реального времени с минимальной задержкой для корейской аудитории. korea launch thread
Ключевые характеристики Кореи — почти всеобъемлющий мобильный доступ и сильное покрытие 5G — делают её естественной тестовой площадкой для голосовых体验 с высокой частотой обновления и высоким качеством звука — например, интерактивные шоу, NPC в играх и боты поддержки, которые переключаются между корейским и английским в середине разговора. ElevenLabs представляет это как долгосрочную ставку на Азию как на основной рынок для голосового ИИ, а не просто как дополнение к переводу для западных продуктов. список партнеров примечание к платформе агентов
📐 Библиотеки шаблонов для быстрой доставки креатива
Freepik выпускает более 20 редактируемых шаблонов (изменения выражения, инфографика, генератор персонажей, эскиз→реальная сцена), чтобы ускорить творческие процессы. За исключением более широкого релиза Nano Banana Pro, освещённого как функция.
Freepik выпускает более 20 редактируемых шаблонов Nano Banana Pro для ускорения производства
Freepik запустила библиотеку из более чем 20 шаблонов, питаемых Nano Banana Pro, в Spaces и Image Generator, призванную позволить создателям редактировать, а не писать подсказки с нуля. Шаблоны охватывают типичные производственные задачи, такие как тонкие или яркие изменения выражения лица, макеты инфографики, обход персонажей в ракурсе и рендеры «набросок → финальная сцена», все разработаны так, чтобы дублировать и настраивать их для новых проектов Template launch thread Expression edit template Infographic template Character generator Sketch to scene template Templates explorer.

Для креаторов это означает, что можно начать с рабочей раскладки — заменить текст и данные в инфографике, подстроить ползунки, чтобы изменить настроение портрета, поэкспериментировать с особенностями персонажа, сохраняя позу и стиль заблокированными, или подать линейное изображение в шаблон sketch→scene, чтобы получить готовый к производству рендер за один проход. Так как эти шаблоны живут внутри Spaces, вы можете сохранить домашние варианты каждого шаблона для вашей студии (цвета бренда, системы типов, соотношения сторон) и передать их коллегам, которым не хочется возиться с подсказками, но которым всё ещё нужны отполированные результаты в срок.
🧪 Исследование к просмотру: видео, текстура и агенты
Компактный набор статей, относящихся к творческому ИИ: мультимодальная диффузия с маршрутизацией токенов, разбиение длинного видео на главы, бесшовные текстуры с учётом 3D, генерация видео по следующему событию, масштабируемый пространственный интеллект и разнообразие идей.
ARC‑Chapter структурирует видео продолжительностью час на главы с использованием новой метрики GRACE.
ARC‑Chapter из лаборатории ARC Tencent исследует лекции продолжительностью около часа и документальные фильмы, обучаясь на более чем миллионе двуязычных аннотаций глав (EN/ZH) и генерируя как заголовки, так и иерархические резюме для каждого сегмента. Команда также предлагает GRACE, метрику, которая оценивает много‑к‑одному перекрытию плюс семантическую схожесть между предсказанными и человеческими главами, и сообщает о примерно 14‑пунктовом приросте F1 по сравнению с предыдущими системами — полезно, если вы редактируете длинное видео, подкасты или стримы и хотите, чтобы ИИ автоматически разбивал черновые версии на главы перед тем, как вы доведете темп до нужного уровня. paper page
SenseNova‑SI масштабирует пространственный интеллект для визуально‑языковых моделей (VLMs) на основе набора данных из 8 миллионов примеров.
SenseNova‑SI добавляет слой пространственной интеллекции поверх сильных мультимодальных базовых сетей (например, Qwen3‑VL, InternVL3, Bagel) и обучается на SenseNova‑SI‑8M, курируемом наборе из 8M примеров пространственного рассуждения. Полученная модель достигает 68.7% на VSI‑Bench, 85.6% на MindCube и 50.1% на SITE, при этом сохраняет 84.9% на MMBench‑En, что указывает на то, что будущие творческие инструменты будут лучше понимать компоновку сцен, геометрию камеры, положения объектов и 3D‑отношения вместо того, чтобы рассматривать сцены как плоские изображения. paper link
Смесь состояний направляет токены через модальности для более сильной диффузии на масштабе 3–5 млрд.
Фреймворк Mixture of States (MoS) вводит маршрутизатор на уровне токенов, который объединяет текстовые и визуальные состояния внутри диффузионных моделей, позволяя относительно небольшим моделям объемом 3–5 млрд параметров соперничать с намного более крупными базами по задачам текст‑к‑изображению и редактирования с умеренными накладными расходами. Обучаемый маршрутизатор разреженно выбирает top‑k скрытых состояний для каждого токена, используя ε‑жадную стратегию, чтобы модель могла адаптировать, на какую модальность или слой полагаться по мере продвижения денойзинга, что особенно актуально для генераций, требующих точной раскладки или типографики, где слова должны оставаться привязанными к визуальным элементам. обзор статьи
NaTex превращает скрытую цветовую диффузию в бесшовные, геометрически ориентированные текстуры
NaTex переосмысливает генерацию текстур как «латентное цветовое диффузионное распространение» над плотными 3D‑точечными облаками, сочетая геометрически осведомлённый цветовой VAE с мультконтрольным диффузионным трансформером, чтобы окрашивать ассеты напрямую в 3D, а не стыковать многовидовые 2D рендеры. Поскольку модель обучается от начала до конца на 3D‑данных с нативным управлением геометрией, она выдаёт бесшовные, UV‑выравненные текстуры, которые плавно оборачиваются вокруг сложных мешей — что обещает быть полезным для игрового искусства, реквизита и работы с окружением, где сегодня часто приходится вручную исправлять швы или запекать из многовидовых выходных данных. paper summary
Видео в качестве ответа использует Joint‑GRPO для обучения предикторов следующего события по видео.
Подход Video‑as‑Answer преобразует видеQA‑задачу в прямую генерацию следующего видео‑события, а затем оптимизирует этот генератор с помощью обучения с подкреплением Joint‑GRPO, чтобы лучше соответствовать будущим данным из истинной совокупности. Вместо того чтобы ранжировать заготовленные варианты, модель воображает правдоподобные следующие кадры или исходы и получает вознаграждение, когда эти генерации совпадают с фактическим видеоматериалом, что имеет большое значение для раскадровки и previs — ваша система может учиться тому, «что, скорее всего, произойдет дальше» в кадре, а не только маркировать его. paper thread
Мета-исследование показывает, что разнообразие идей — это ключ к созданию мощных исследовательских агентов ИИ.
Публикация Meta FAIR о исследовательских агентах ИИ показывает, что «идеационная диверсификация» — насколько разнообразны траектории мышления агента — стабильно предсказывает результаты на MLE-бенч, даже если учитывать размер модели и scaffold. Начиная с инструментирования и варьирования разнообразия сгенерированных идей, они находят агентов, которые исследуют более разные пути решения, решают больше задач и лучше обобщают, что имеет значение, если вы создаете помощников, помогающих с подсказками, битами сюжета или исследованиями дизайна, а не просто выдавать одну лучшую догадку. обзор статьи