LongCat‑Video 13.6B генерирует 15‑минутные клипы 720p — вычисления с открытым исходным кодом достигают 90% feature image for Mon, Nov 3, 2025

LongCat‑Video 13.6B генерирует 15‑минутные клипы 720p — вычисления с открытым исходным кодом достигают 90%

Executive Summary

Meituan выпустила в открытый доступ LongCat‑Video, генератор на 13.6 млрд параметров, который наконец-то рассматривает длинные формы как полноценного гражданина.

Одна модель обрабатывает текст→видео, изображение→видео и продолжение, и генерирует связное видео за считанные минуты.

Заголовок: однопроходная генерация обеспечивает примерно 15 минут непрерывной истории, а не монтирование клипов.

Под капотом: иерархическое временное моделирование, рендеринг от крупного к детальному, блочная разбивка с разреженным вниманием (Block Sparse Attention) и RLHF с несколькими наградами выполняют основную работу.

Независимый анализ сообщает об экономии вычислительных ресурсов более чем на 90% по сравнению с наивными подходами, и проект выпускается с коммерческой лицензией — что значит, что независимые короткометражки, музыкальные клипы и команды превью могут стандартизироваться на открытом стеке без ожидания закрытых API.

Ранние тестеры говорят, что качество лучше Wan 2.2 и приближается к Veo 3, вывод подходит для бордов и социальных резок в 720p/30fps.

Настоящий трюк — в консистентности: персонажи, реквизит и движения сохраняются в рамках одной модели на протяжении длинных сюжетных арок за один временной проход, что именно то, что режиссеры хотят для итерации сцен, а не отдельных кадров.

Если сообщество настройкой лиц и темпа движения расширит, закрытые модели потеряют монополию на длину.

И при этом Sora 2 Pro на этой неделе снизила стоимость веб-генерации вдвое, кривая цена-производительность для виде AI премиум уровня быстро изгибается в пользу создателей.

Feature Spotlight

15‑минутное видео с открытым исходным кодом (LongCat‑Video)

Open-source LongCat-Video (13.6B) генерирует до 15 минут связного видео в разрешении 720p/30fps с нативным продолжением и RLHF с несколькими вознаграждениями — что приносит длинноформатное, последовательное повествование создателям без привязки к закрытой модели.

Шум вокруг межаккаунтных обсуждений: LongCat‑Video от Meituan обещает многоминутную непрерывную генерацию с использованием текста → видео, изображения → видео и продолжение в одной модели — большие перспективы для независимых фильмов, музыкальных клипов и превизуализации.

Jump to 15‑минутное видео с открытым исходным кодом (LongCat‑Video) topics

📑 Table of Contents

🎬 15‑минутное видео с открытым исходным кодом (LongCat‑Video)

Шум вокруг межаккаунтных обсуждений: LongCat‑Video от Meituan обещает многоминутную непрерывную генерацию с использованием текста → видео, изображения → видео и продолжение в одной модели — большие перспективы для независимых фильмов, музыкальных клипов и превизуализации.

Дебют LongCat‑Video от Meituan: несколько минут связного T2V/I2V/продолжения при 720p/30fps

Meituan представила LongCat‑Video (13.6B параметров), унифицированную модель для преобразования текста в видео, изображений в видео и продолжения видео, которая может генерировать когерентные клипы длительностью несколько минут в «минуты» при частоте 720p/30fps. Она сочетает рендеринг от общего к деталям с блоковым разреженным вниманием (Block Sparse Attention) и RLHF с множественной наградой, при этом создатели отмечают, что она превосходит Wan 2.2 и почти сравнима с Veo 3 по качеству Обзор запуска,) с более подробной информацией и галереями на официальном сайте Страница проекта.). Этот релиз с открытым исходным кодом ориентирован на независимое кино, музыкальные видео и превиз между кадрами с сохранением длинной последовательности между кадрами Итоги запуска.).

Унифицированная генерация видео за 15 минут с экономией вычислительных мощностей более 90%, с открытым исходным кодом для коммерческого использования

Независимый анализ подчеркивает иерархическое временное моделирование LongCat‑Video, сохраняющее локальную плавность и глобальную согласованность сюжета в последовательностях до приблизительно 15 минут — это не склейка клипов, а один непрерывный временной проход. Эффективность достигается за счет рендеринга от грубого к детальному и Block Sparse Attention, сообщается, что вычисления снижаются более чем на 90%, а модель поставляется с открытым исходным кодом и коммерческой лицензией, что расширяет применение для длиннометражных шортов, музыкальных клипов и превиз Creator analysis, with a deeper breakdown here Model analysis.

Model overview art


🧩 Управляемые миры с элементами LTX

LTX выпускает Elements — помечайте, сохраняйте и повторно используйте персонажей, реквизит и локации с назначением голоса и кадровой точностью; плюс 20-секундные съемки LTX-2 в один дубль с синхронизированным аудио. Функция LongCat-Video не входит.

LTX Elements поставляет: повторно используемых персонажей, реквизит и локации, обеспечивая единообразие озвучивания и согласованность между кадрами.

LTXStudio представил Elements, систему для тегирования, сохранения и повторного использования персонажей, реквизита, окружения и гардероба — при желании с назначенными голосами — чтобы они сохраняли одинаковый внешний вид и масштаб на ваших досках и правках, и она доступна всем пользователям сегодня раздел релиза, уведомление о доступности, с подробностями о рабочем процессе на официальной странице страница продукта.

  • Процесс сохранения и повторного использования: создать или загрузить, Save as Element, дать имя, назначить голос для персонажей, затем пометить его в кадрах, чтобы поддержать непрерывность шаги как делать.
  • Непрерывность и контроль: Elements сохраняют масштаб и внешний вид в Storyboard и поддерживают добавление/удаление/смешанное композитинг для точной настройки сцен непрерывность раскадровки, советы по композитингу.
  • Встроенная анимация: сочетайте Elements с LTX‑2 Fast/Pro, чтобы анимировать статичные изображения с нативной синхронизацией губ и мимикой, не покидая ваш проект анимация внутри LTX.

LTX‑2 обеспечивает 20‑секундные одно‑кадровые съемки с синхронизированным звуком; API Playground готов к использованию.

LTX‑2 теперь генерирует единый 20‑секундный кинематографический дубль с синхронизированным аудио из одного промпта, и вы можете попробовать его прямо сейчас в API Playground с открытым демо и руководством — переходя от вчерашнего 18‑секундного oner, который демонстрировал непрерывные кадры из статического how‑to guide, sample prompt, API playground.

  • Demo scene: a frog yoga class plays out in one shot—camera pan, chants, and comedic beat are paced by a single prompt, illustrating timing‑aware A/V sync sample prompt.

🎛️ Все в одном: креативные хабы

Платформы консолидируют лучшие видеомодели в единых рабочих пространствах, чтобы ускорить пайплайны и сотрудничество. Исключена функция LongCat‑Video.

Adobe Firefly Boards позволяет создателям опробовать лучшие модели ИИ на одном холсте.

Adobe презентует Firefly Boards как творческий «бог-режим», который объединяет несколько ведущих моделей ИИ в одной рабочей среде для параллельного исследования и итераций, ориентированный на пользователей эпохи MAX, работающих с изображениями и видео feature thread. Шире окно промо Creative Cloud (с 28 октября по 1 декабря) также стимулирует практическое взаимодействие со стеком ИИ Adobe, что может усилить ценность многомодальной доски free access window.

fal добавляет Reve Fast Edit & Remix с 4‑изображениями в качестве ссылок по $0.01 за изображение

Inference hub fal rolled out Reve Fast Edit & Remix, обещая реалистичные локализованные правки, сохраняющие идентичность и связность сцены, с возможностью использования до четырех эталонных изображений для формирования целевого образа всего за ~$0.01 за изображение model launch. Команда поделилась до/после примерами, которые меняют настроение и небо, сохраняя геометрию и отражения — полезно для lookbooks, замен продуктов и социальных ремиксов sample gallery.

горная правка до/после

Sora 2 запускается на Pollo AI, расширяя центр создателей.

Pollo AI добавил Sora 2, предоставив своему сообществу прямой доступ к последней видеомодели OpenAI внутри более широкого творческого центра, который уже направляет вызовы и вознаграждения к создателям availability note, following up on CPP sponsorship который детализировал финансирование/мероприятия для создателей. Для AI‑кинематографистов это централизует генератор высшего уровня наряду с существующими рабочими процессами и активацией сообщества в одном месте.

Vidu App запускает креативную версию с режимами со‑создания и библиотекой стилей

Vidu выпустила свою Creative версию, ориентированную на « effortless »-workflow по созданию AI‑видео, добавив встроенную библиотеку тем/стилей и интерактивные режимы совместного создания, чтобы упростить переход от концепции к монтажу для одиноких авторов и команд release note. Ожидайте более быструю разработку образа и меньшее число возвратов между инструментами для стилизованных шортов и брендированных объясняющих роликов.


🖼️ КРИТИЧЕСКИЕ ПРАВИЛА:

  1. Сохраняйте ВСЕ заполнители точно так же, как они выглядят (например, MARKER_0, URL_1, SOURCELINK_2)
  2. НЕ переводите ни один заполнитель
  3. Переводите только текст между заполнителями, который читается человеком
  4. Сохраняйте ту же структуру, тон и форматирование
  5. Сохраняйте технические термины, соответствующие аудитории в области ИИ/технологий
  6. Сохраняйте форматирование markdown (жирный шрифт, курсив, списки и т. п.)

Пояснение к заполнителям:

  • MARKER_X: Маркеры цитирования с ярлыками, встроенными в текст
  • URL_X: Веб-адреса, которые не следует переводить
  • SOURCELINK_X: Компоненты React, которые не следует переводить

Переводите естественно, сохраняя все заполнители в их точных позициях.

Новые редакторы изображений делают упор на реалистичность, последовательность и низкую цену за каждое изображение для продукции, бренда и дизайна. Не включает функцию LongCat‑Video.

Fal запускает Reve Fast Edit & Remix по цене примерно 0,01 доллара за изображение, с поддержкой до четырех опорных изображений.

Fal внедрил Reve Fast Edit & Remix для точечного редактирования изображений, сохраняя согласованность сцены, в то время как вы можете композитировать до четырех эталонных изображений — цена около $0.01 за изображение, что ориентировано на крупномасштабные рабочие процессы по продукту и брендам Model launch. Дальнейшая тизерная запись подчеркиваетSelective edits («редактируйте то, что имеет значение, оставляйте всё остальное без изменений»), что укрепляет объектно‑ориентированный конвейер, рассчитанный на реалистичные локальные изменения Feature brief.

Adobe представляет Firefly 5: многослойное редактирование изображений для контекстуальных, ориентированных на объекты корректировок.

Короткий взгляд на следующую модель изображений Firefly подчеркивает многоуровневое редактирование изображений и контекстуальное восприятие объектов, указывая на более глубокий контроль над композитингом и селективной доработкой без сопутствующих изменений — позиционируя Firefly как прецизионный редактор для брендовых активов и съемок продуктов Примечание к предпросмотру.

Riverflow 1.1 от Runware демонстрирует готовые к производству правки продукта и настраиваемый Playground

Riverflow 1.1 демонстрирует чистые, коммерческого уровня редактирования изображений (например, студийный снимок духов, адаптированный плавно к пляжу на рассвете), которые сохраняют ярлыки, материалы и непрерывность освещения — полезно для каталогов и обновления соцсетей в масштабе Demo возможностей. Новая Playground предлагает управляемые подсказками задачи, такие как превращение брони в золото, преобразование персонажа в форму грузовика или размещение баночки с кремом на водной лилии, сигнализируя о контролируемых на уровне объекта трансформациях для брендового сторителлинга и сцен CPG Примеры задач и Редактирование трансформера;) попробовать прямо через размещённый интерфейс Runware playground.)

[изображение:https://pbs.twimg.com/media/G42I36XWMAA4kWz.jpg|Редактирование флакона духов]


💳 Доступ и кредиты: более дешёвые генераторы, промо-ускорители

Снижение затрат на генерацию и кредитные промо-акции расширяют доступ для создателей во всех инструментах. Исключена функция LongCat‑Video.

Sora 2 Pro в веб-версии снижает стоимость генерации на 50%.

OpenAI вдвое снижает стоимость веб-генерации для Sora 2 Pro, при этом команда заявляет, что пересмотрит ценообразование после первоначального снижения обновление цены. Это существенно понижает порог входа для кинематографистов и моушн-дизайнеров, экспериментирующих с высококлассным ИИ‑видео.

fal представляет Reve Fast Edit & Remix по цене примерно $0.01 за изображение

fal’s новое Reve Fast Edit & Remix обещает реалистичные, последовательные редактирования изображений примерно за один цент за изображение и поддерживает до четырех эталонных изображений для управления композитом — полезно для дизайна и съемок продукции в масштабе model pricing. Дальнейшее обновление демонстрирует точные правки сцены до/после, сохраняющие композицию при изменении неба, атмосферы или объекта съемки before/after demo.

Баннер модели

ChatGPT Go бесплатно на год в Индии, затем ₹399 в месяц

OpenAI предлагает индийским пользователям 12 месяцев бесплатного использования ChatGPT Go, после чего цены указаны как ₹399/месяц согласно модальному окну акции (отмена в любое время, условия акции применимы) offer screenshot. Для писателей и команд рассказов это снижает стоимость генерации идей, составления контура и подготовки активов.

Offer modal

PixVerse запускает Remix и предлагает 300 кредитов за ретвит

PixVerse запустил Remix одним нажатием, который заменяет персонажей в любом клипе ленты, и обещает 300 бесплатных кредитов каждому, кто ретвитнет, доставка через личные сообщения feature and promo. For creators, это одновременно новый инструмент быстрого редактирования и быстрый способ пополнить кредиты.

Higgsfield дебютирует на YouTube-канале с 200 бесплатными кредитами (код на 12 часов)

Higgsfield запустил канал на YouTube, демонстрирующий Sketch‑to‑Video — превращение детских рисунков в анимационные истории — и предоставляет 200 бесплатных кредитов по коду в описании к видео на следующие 12 часов запуск канала, с демонстрацией, доступной для немедленного просмотра показ на YouTube.

InVideo открывает набор в программу Creative Ambassador с ранним доступом и кредитами

Invideo набирает первую группу Creative Ambassador, предлагая ранний доступ, кредиты и возможность совместно разрабатывать функции с командой — путь к доступному масштабированию конвейеров контента для продвинутых пользователей приглашение когорты.)


🎥 Премьеры создателя, шоу и моменты сообщества

Заметные релизы контента и события сообщества: коллективные короткометражки, прямые трансляции и встречи, которые формируют творческие тренды. Исключает функцию LongCat‑Video.

«Enter The Closet» премьера: 23+ художников совместно создают ИИ‑короткометражку, теперь в 4K.

Сообщество-создатель AI-короткометражного фильма Enter The Closet дебютировало с участием 23+ художников, использовавших арсенал инструментов (Veo 3.1, Sora 2 Pro, Hailuo 2.3, Nano Banana, Firefly, Luma, Kling, ElevenLabs, Topaz). Смотрите его в 4K и просмотрите полные кредиты и список инструментов, чтобы изучить реальные мультимодальные рабочие процессы film thread и YouTube 4K. film poster Благодарности проекта и последующие посты показывают скоординированный консорциум творцов, сигнализируя о том, как развиваются совместные конвейеры в сообществе AI-фильмов creator repost.)

GLIF запускает прямую трансляцию «The AI Slop Review»; Эпизод 1 выйдет 4 ноября, гостем будет человек с 1 млрд просмотров

GLIF дебютирует новую серию прямых трансляций, The AI Slop Review, чтобы распаковать тенденции, мемы и выдающиеся работы в видео на основе ИИ; Эпизод 1 представляет создателя Bennett Waisbren (первого создателя на базе ИИ, достигшего 1 млрд просмотров) и выйдет в прямой эфир 4 ноября в 13:00 PST объявление шоу и прямой эфир на YouTube. Для кинематографистов и монтажёров, работающих с ИИ, это полезная проверка того, что резонирует на масштабе.

Freepik проводит очную встречу AI Partners Meetup для согласования интересов создателей и дорожной карты платформы.

Freepik открыл свою штаб‑квартиру для AI Partners Meetup, собрав творцов и лидеров продуктов на круглый стол по потребностям в рабочих процессах и тому, что дальше в творческом стеке платформы event recap.). Фото-поток передаёт энергетику сообщества и сигнализирует о более тесных циклах обратной связи между создателями инструментов и опытными пользователями community photos.)

meetup photos

Докладчики отметили ценность очного мозгового штурма для формирования будущих функций и сотрудничества roundtable shots.

Инструмент OpenArt Music Video распространяется: создатели тестируют полноформатные видеоклипы из любой песни за считанные минуты.

OpenArt’s новая возможность создания музыкального видеоклипа циркулирует, обещая сквозной монтаж видео из одной песни за считанные минуты — заманчивый рабочий процесс для музыкантов и монтажёров, ищущих быстрые концепт‑материалы tool drop. Ранниe испытания свидетельствуют о быстрых нарезках, подходящих для соцсетей и итеративной доработки.

Хайлуо на Upscale Conf Málaga: практический мастер‑класс 4 ноября и ключевой доклад 5 ноября

Hailuo AI проведет мастерскую по кинематографическому мастерству от запроса к восприятию видео (4 нояб. 16:35) и проведет keynote (5 нояб. 13:15) о влиянии Hailuo 2.3 и Audio 2.6 на движение и сотрудничество agenda details.)

  • Мастерская: Хорхе Кабальеро и Анна Гиральт Гриз (Artefacto Films)
  • Ключевая речь: Мерон Яо (руководитель сообщества Hailuo)

workshop poster

Для режиссеров и продюсеров, работающих с ИИ, это редкая возможность увидеть техники движения студийного уровня вживую.

Higgsfield запускает на YouTube‑канале Sketch‑to‑Video промо‑акцию на 200 бесплатных кредитов.

Higgsfield открыл канал на YouTube, посвящённый Sketch‑to‑Video — превращению детских рисунков в анимационные истории — и предлагает 200 бесплатных кредитов через код в описании к видео (срок действия — 12 часов) channel launch и YouTube demo. Для педагогов и семейных создателей, это своевременный вход в нарративную анимацию с ручными набросками.

Короткометражка на базе Vidu «Memento Mori» выходит с кинематографическим тоном в эпоху Q2.

Создатель Dinda поделилась Memento Mori, поэтичным научно‑фантастическим короткометражным фильмом, созданным на базе Vidu Q2, который исследует смертность и любовь через сновидческое испытание и пробуждение матери‑астронавтки короткометражный пост. Это компактная демонстрация эстетики и ритма эпохи Q2 для рассказчиков на базе ИИ, желающих изучать сдержанность повествования.


🎚️ 48‑часовой хаос загрузок от Udio (уже запущено)

Продолжение к предыдущему уведомлению: окно загрузок открыто с ограничениями форматов и без отпечатков — музыканты спешат архивировать каталоги. Исключает функцию LongCat‑Video.

Udio открывает 48-часовое окно загрузки; создатели спешат сохранить каталоги без отпечатков пальцев

Удио активировал окно загрузок на 48 часов (11:00 по восточному времени 3 ноября → 10:59 по восточному времени 5 ноября), следуя деталям окна (ограничения WAV/MP3) и подтверждая срочность для музыкантов, архивирующих архивы. Файлы заметок сообщества до 29 октября не имеют отпечатков, подписчики могут скачивать WAV и stems, бесплатные пользователи получают MP3 и видео, а массовые загрузки работают через папки — слухи о массовом загрузчике все еще не подтверждены. Смотрите конкретику по времени и допускам в window timing, — размещение в теме мобилизации с ссылкой на Reddit Udio в reddit announcement,), формат и пометки «no fingerprinting» в download details,) и сигнал о загрузке создателя («две ночи, посвященные загрузкам») в creator note.)

  • Free vs. paid: MP3/video для бесплатных пользователей; WAV + stems для подписчиков download details.
  • Bulk options: Folder-based bulk MP3; stems/WAV bulk unclear; third‑party bulk rumor circulating window timing.
  • No second window promised: «No plans» to reopen, so this 48h window is critical download details.)
  • Account control: Bulk delete (50 at a time) или full account delete offered download details.)

downloads timing note


🎨 Свежие наборы стилей и srefs (MJ и многое другое)

День публикаций в практическом стиле — рецепты Midjourney v7, уютная векторная клипарт, готическое аниме и сюрреалистичные эскизы. Исключает функцию LongCat‑Video.

Рецепт Midjourney v7: хаос 22 + sref 2690871695 обеспечивает чёткую драму в формате 3:4

Свежая настройка MJ v7 — --chaos 22 --ar 3:4 --sref 2690871695 --sw 500 --stylize 500 — генерирует поразительные, высококонтрастные кадры на разных объектах, следуя рецепту v7, который выделял другой набор sref/chaos. Посмотрите коллаж и параметры в посте автора с рецептом пост с рецептом.

коллаж v7

Зимняя прихоть: повторно используемый векторный акварельный промпт для сезонного клипарта

Компактный шаблон подсказки с заполнением пропусков даёт чистый, плоский векторный акварельный клипарт (объекты, аксессуары, обстановка, однотонные фоны) с чётким отделением краёв и путями обрезки — идеально для паков и маркетплейсов prompt blueprint.

clipart set

Кинематографический стиль аниме 1980-х годов через sref 3413445974

Справка в стиле MJ —sref 3413445974, ориентированная на 1980-е готическое фэнтези‑аниме (атмосфера Vampire Hunter D, Lodoss War), с указаниями по грамматике движения при анимации: медленные панорамы, ветер, взгляд и свет поверх чистого действия разбор стиля.

портреты аниме 1980‑х годов

Наивный сюрреалистический стиль дудла sref 136643823 сочетает фото и эскиз

Этот детский экспрессионистский эскиз sref сочетает наивную иллюстрацию с цифровым коллажем, часто смешивая реальные фотографии с нарисованными элементами, создавая игривые, слегка меланхоличные результаты — отлично подходит для эксцентричных редакционных или постерных образов style share.

doodle collage

Шаблон промптов хоррора «production still» для кинематографической симметрии

Универсальный шаблон подсказки — “[Subject], symmetry, production still, horror, soft lighting, cinematic, [Color]-core, 35mm, visible film grain, highly detailed” — даёт мрачные, симметричные кадры, читающиеся как кадры с площадки съёмок prompt template.

horror prompt examples

Нулевой промпт: силуэт sref для эффектных чёрно-белых кадров

Черно-белый силуэт с ярко выраженной текстурой sref призывает к экспериментам без подсказок — вставьте его, чтобы получить графические, морозоподобные исследования форм, которые выделяются на белых фонах sref share.

silhouette figure

Чистый мультяшный стиль с srefs 2844626811 и 2431575232

Парные MJ srefs (2844626811, 2431575232) задают аккуратную мультяшную эстетику повседневных сцен — подумайте о минималистичных линиях, мягких палитрах и доступном дизайне персонажей sref examples.

cartoon style set

Размышления Midjourney становятся пугающе точными.

Создатели отмечают, как хорошо MJ теперь обрабатывает отражения — полезно для композиций с водой, стеклом и зеркалами без обширной постобработки заметка создателя.


🏗️ Крупные контракты на ИИ и выравнивание вычислительных мощностей

Одно крупное инфраструктурное соглашение формирует предложение в сфере креативного ИИ со стороны поставок; может повлиять на доступ к моделям и ценообразование в дальнейшем. Исключена функция LongCat‑Video.

OpenAI подписывает сделку с AWS на 38 млрд долларов сроком на семь лет для выполнения передовых задач искусственного интеллекта.

OpenAI объявил о стратегическом партнёрстве на 38 миллиардов долларов сроком на семь лет с AWS для размещения его передовых AI‑нагрузок на инфраструктуре AWS, операции начинаются немедленно deal graphic. Масштаб и срок сигнализируют о многоклаудной, многопоставщической позиции, которая может стабилизировать ёмкость и ценообразование для востребованных творческих моделей, используемых режиссёрами, дизайнерами и музыкантами.

графика партнерства

  • Что входит в область действия: «передовые AI‑нагрузки» на AWS в течение семи лет, что предполагает значительный новый пик мощности для обучения и вывода deal graphic.
  • Почему это важно для творческих специалистов: больше мощности и резервирования обычно сокращают очереди и дают возможность снижения цен; создатели уже видят сокращения, такие как 50% снижение себестоимости генерации для Sora 2 Pro в сети pricing update.
  • Чтение ситуации: высказывания сообщества о том, что OpenAI сотрудничает с каждым поставщиком графических процессоров подчёркивают агрессивную стратегию агрегации поставок для удовлетворения спроса GPU partner quip.

🗣️ Цифровые люди и ансамблевый диалог

Инструменты, ориентированные на предприятия, объединяют диалог между несколькими персонажами и производительность, учитывающую идентичность, в одном кадре. Исключена функция LongCat-Video.

OmniHuman 1.5 добавляет синхронизированный диалог между несколькими персонажами с автоматической маршрутизацией голоса

BytePlus’ OmniHuman 1.5 позволяет проводить ансамблевые выступления в одном кадре, умно направляя отдельные аудиодорожки к нужному персонажу, выравнивая жесты, взгляды и реплики для естественного группового диалога Feature brief. Команды могут связаться с отделом продаж для пилотных проектов или развёртывания через официальный канал Contact page.

BytePlus объединяет Seedream 4.0, Seedance 1.0 и OmniHuman 1.5 для корпоративных цифровых презентаторов

BytePlus позиционирует сквозной стек создания — Seedream 4.0 (визуальные идеи), Seedance 1.0 (анимация), и OmniHuman 1.5 (диалогово‑готовые цифровые люди) — чтобы быстрее выпускать объяснения, обучающие симуляторы и интерактивных ведущих с качеством, соответствующим бренду Обзор набора. Потенциальные клиенты направляются к отделу продаж для уточнения объема работ и цены Связаться с отделом продаж.


🧠 Обзор исследований в области креативного ИИ

В основном методы моделей/агентов, относящиеся к мультимодальному созданию и безопасности; целесообразно отслеживать их для будущих инструментов. Исключает функцию LongCat‑Video.

Визуальные бэкдоры против воплощённых мультимодальных LLM достигают до 80% ASR

BEAT показывает, как объектно‑ориентированные визуальные триггеры могут внедрять бэкдор в воплощённых MLLM‑агентов с успешностью атаки до 80%, при этом сохраняя безвредную производительность задач — срочное предупреждение по безопасности для помощников‑творцов, использующих инструменты, и агентов на устройстве. Обзор в Paper brief,) с методами и метриками в Paper page.)

Онлайн-обучение с подкреплением точно настраивает поточно-ориентированные модели VLA до 97,6% на LIBERO

π_RL представляет онлайн-обучение с подкреплением для моделей Flow‑Based Vision‑Language‑Action, повышая успех LIBERO до 97,6% и улучшая показатели ManiSkill — что обещает для физически обоснованных творческих агентов и роботов. Смотрите обзор в Paper thread и подробности в Paper page.

Paper header

  • Два пути обучения: Flow‑Noise (денойзинг как MDP с обучаемым шумом) и Flow‑SDE (ODE→SDE для исследования), оба предназначены для параллельной симуляционной донастройки Paper page.

OS‑Sentinel сочетает формальные проверки и контекст VLM для контроля за мобильными агентами

OS‑Sentinel сочетает формальную верификацию с контекстной оценкой на основе VLM, чтобы выявлять небезопасные действия в мобильных GUI‑агентах в рамках реалистичных рабочих процессов — актуально для со‑пилотов креативного набора, автоматизирующих последовательности приложений. См. обзор статьи Paper card) и сопутствующее резюме в Paper summary.

Paper card

Варианты RoPE, готовые к использованию, повышают согласованность VLM в разных задачах

Пересматривая мультимодальную позиционную кодировку, авторы предлагают Multi‑Head RoPE и MRoPE‑Interleave — простые, готовые к внедрению схемы, которые сохраняют текстовые априорные предпосылки, используют полный диапазон частот и улучшают согласованность компоновки — что обеспечивает последовательные улучшения на общих и детализированных бенчмарках VLM. Это хорошо подходит для инструментов работы с изображениями/видео, которые сочетают плотные пространственные текстовые подсказки, в продолжение исследования Сетка модальностей, отображающего покрытие модальностей в крупных технологических компаниях. Прочитайте исследование Paper page и ответы авторов на вопросы в Author discussion.

Заголовок статьи }

Непрерывные авторрегрессионные языковые модели преобразуют токены в векторы с точностью 99,9%.

CALM заменяет предсказание следующего вектора вместо следующего токена через автоэнкодер высокой точности, восстанавливая текст с точностью >99.9% и уменьшая количество шагов генерации — полезно для более быстрых инструментов рассказа, более длинных черновиков и интерактивных творческих помощников. См. обзор Paper page и обсуждение Author discussion.

Схема модели

Тонкое исследование квантования: MXINT8 обходит FP на уровне 8 бит; NVINT4 выделяется благодаря преобразованию Хадамарда

Комплексное сравнение форматов с малым количеством битов обнаруживает точку пересечения: грубое зерно предпочитает числа с плавающей запятой, но на тонком зерне целочисленные форматы (MXINT8) опережают по точности и эффективности; с вращением Хадамарда NVINT4 может превзойти 4‑бит FP. Авторы также исправляют смещение градиента с помощью симметричного отсечения — хорошие новости для творческих приложений на устройстве. Краткое содержание в Paper thread и подробное рассмотрение в Paper page.

Форматы квантования

  • MXINT8: почти без потерь обучение и аппаратно-эффективная инференс на 8‑битном тонком зерне.
  • 4‑бит: FP часто опережает, но NVINT4 + вращение превосходит FP по ключевым задачам Обсуждение авторов.

NeuroAda сокращает использование памяти PEFT за счет выборочной адаптации нейронов с обходными связями.

NeuroAda сочетает селективную адаптацию с обходными связями, чтобы обеспечить мощную параметрически эффективную настройку с гораздо меньшим количеством обучаемых параметров и меньшим расходом памяти — удобно для внедрения адаптеров стиля/персонажа в ограниченные творческие стеки. Образец статьи на странице Страница статьи.

Заголовок статьи


⚖️ Политика и сигналы доверия

Авторские права и ясность политики влияют на то, как создатели публикуют материалы и дают советы аудитории. Исключена функция LongCat‑Video.

Суд удовлетворяет претензии авторов по авторскому праву против OpenAI; резюме ChatGPT могут нарушать авторские права

Как сообщается, федеральный судья отклонил попытку OpenAI отклонить иски авторов по основным положениям авторского права, сигнализируя о том, что такие результаты ChatGPT, как обзоры книг, могут составлять нарушение, если они замещают оригиналы court ruling. Для творческих людей и студий, использующих LLMs для генерации синопсисов, конспектов или рекламного текста, это повышает необходимость проверки прав и лицензирования, когда произведения всё ещё находятся под защитой авторского права.

Загрузки Udio на 48 часов начинаются с устаревших условий использования и без отслеживания отпечатков, по словам пользователей.

Окно загрузок активно для работ, созданных до 29 октября, при этом пользователи сообщают, что полученные файлы подпадают под старую Условия использования и не идентифицируются по отпечаткам; Udio также описывает метод с папками для пакетных загрузок MP3 и не предлагает немедленного плана для еще одного окна downloads live. Окно работает с 3 ноября, 11:00 ET до 5 ноября, 10:59 ET согласно опубликованной заметке window timing,, сообщества делятся Reddit-объявлением, чтобы мобилизовать архивные загрузки reddit link,), в продолжение 48‑hour downloads.

download steps

Нет, ChatGPT не прекратил давать советы по здоровью; политика OpenAI в отношении профессиональных рекомендаций не изменилась.

Вирусное утверждение о том, что ChatGPT перестанет давать медицинские советы, ложно; политика использования OpenAI сохраняет, что ИИ не заменяет лицензированных специалистов, и индивидуальные медицинские/юридические консультации требуют надлежащего участия профессионала скриншот политики. Создатели могут продолжать публиковать разъяснения по здоровью и общие рекомендации, но должны сохранять оговорки и избегать выдачи себя за лицензированного специалиста.

отрывок политики

Разработчики призывают к внедрению водяного знака в звонки по мере того, как Sonic‑3 достигает задержки голоса в 90 мс, близкой к человеческой.

По мере того как модели голоса в реальном времени приближаются к человеческому темпу — Sonic‑3 приводится в пример примерно 90 мс с естественным смехом — создатели призывают к водяным знакам для телефонных звонков, чтобы предотвратить подмену личности и формировать ожидания аудитории watermark call. Актёры озвучивания, подкастерoы и бренды должны рассмотреть аудиальные подсказки, скрипты раскрытия информации и ярлыки платформ, пока не появится стандартная проверка происхождения на уровне звонков.

On this page

Executive Summary
🎬 15‑минутное видео с открытым исходным кодом (LongCat‑Video)
Дебют LongCat‑Video от Meituan: несколько минут связного T2V/I2V/продолжения при 720p/30fps
Унифицированная генерация видео за 15 минут с экономией вычислительных мощностей более 90%, с открытым исходным кодом для коммерческого использования
🧩 Управляемые миры с элементами LTX
LTX Elements поставляет: повторно используемых персонажей, реквизит и локации, обеспечивая единообразие озвучивания и согласованность между кадрами.
LTX‑2 обеспечивает 20‑секундные одно‑кадровые съемки с синхронизированным звуком; API Playground готов к использованию.
🎛️ Все в одном: креативные хабы
Adobe Firefly Boards позволяет создателям опробовать лучшие модели ИИ на одном холсте.
fal добавляет Reve Fast Edit & Remix с 4‑изображениями в качестве ссылок по $0.01 за изображение
Sora 2 запускается на Pollo AI, расширяя центр создателей.
Vidu App запускает креативную версию с режимами со‑создания и библиотекой стилей
🖼️ КРИТИЧЕСКИЕ ПРАВИЛА:
Fal запускает Reve Fast Edit & Remix по цене примерно 0,01 доллара за изображение, с поддержкой до четырех опорных изображений.
Adobe представляет Firefly 5: многослойное редактирование изображений для контекстуальных, ориентированных на объекты корректировок.
Riverflow 1.1 от Runware демонстрирует готовые к производству правки продукта и настраиваемый Playground
💳 Доступ и кредиты: более дешёвые генераторы, промо-ускорители
Sora 2 Pro в веб-версии снижает стоимость генерации на 50%.
fal представляет Reve Fast Edit & Remix по цене примерно $0.01 за изображение
ChatGPT Go бесплатно на год в Индии, затем ₹399 в месяц
PixVerse запускает Remix и предлагает 300 кредитов за ретвит
Higgsfield дебютирует на YouTube-канале с 200 бесплатными кредитами (код на 12 часов)
InVideo открывает набор в программу Creative Ambassador с ранним доступом и кредитами
🎥 Премьеры создателя, шоу и моменты сообщества
«Enter The Closet» премьера: 23+ художников совместно создают ИИ‑короткометражку, теперь в 4K.
GLIF запускает прямую трансляцию «The AI Slop Review»; Эпизод 1 выйдет 4 ноября, гостем будет человек с 1 млрд просмотров
Freepik проводит очную встречу AI Partners Meetup для согласования интересов создателей и дорожной карты платформы.
Инструмент OpenArt Music Video распространяется: создатели тестируют полноформатные видеоклипы из любой песни за считанные минуты.
Хайлуо на Upscale Conf Málaga: практический мастер‑класс 4 ноября и ключевой доклад 5 ноября
Higgsfield запускает на YouTube‑канале Sketch‑to‑Video промо‑акцию на 200 бесплатных кредитов.
Короткометражка на базе Vidu «Memento Mori» выходит с кинематографическим тоном в эпоху Q2.
🎚️ 48‑часовой хаос загрузок от Udio (уже запущено)
Udio открывает 48-часовое окно загрузки; создатели спешат сохранить каталоги без отпечатков пальцев
🎨 Свежие наборы стилей и srefs (MJ и многое другое)
Рецепт Midjourney v7: хаос 22 + sref 2690871695 обеспечивает чёткую драму в формате 3:4
Зимняя прихоть: повторно используемый векторный акварельный промпт для сезонного клипарта
Кинематографический стиль аниме 1980-х годов через sref 3413445974
Наивный сюрреалистический стиль дудла sref 136643823 сочетает фото и эскиз
Шаблон промптов хоррора «production still» для кинематографической симметрии
Нулевой промпт: силуэт sref для эффектных чёрно-белых кадров
Чистый мультяшный стиль с srefs 2844626811 и 2431575232
Размышления Midjourney становятся пугающе точными.
🏗️ Крупные контракты на ИИ и выравнивание вычислительных мощностей
OpenAI подписывает сделку с AWS на 38 млрд долларов сроком на семь лет для выполнения передовых задач искусственного интеллекта.
🗣️ Цифровые люди и ансамблевый диалог
OmniHuman 1.5 добавляет синхронизированный диалог между несколькими персонажами с автоматической маршрутизацией голоса
BytePlus объединяет Seedream 4.0, Seedance 1.0 и OmniHuman 1.5 для корпоративных цифровых презентаторов
🧠 Обзор исследований в области креативного ИИ
Визуальные бэкдоры против воплощённых мультимодальных LLM достигают до 80% ASR
Онлайн-обучение с подкреплением точно настраивает поточно-ориентированные модели VLA до 97,6% на LIBERO
OS‑Sentinel сочетает формальные проверки и контекст VLM для контроля за мобильными агентами
Варианты RoPE, готовые к использованию, повышают согласованность VLM в разных задачах
Непрерывные авторрегрессионные языковые модели преобразуют токены в векторы с точностью 99,9%.
Тонкое исследование квантования: MXINT8 обходит FP на уровне 8 бит; NVINT4 выделяется благодаря преобразованию Хадамарда
NeuroAda сокращает использование памяти PEFT за счет выборочной адаптации нейронов с обходными связями.
⚖️ Политика и сигналы доверия
Суд удовлетворяет претензии авторов по авторскому праву против OpenAI; резюме ChatGPT могут нарушать авторские права
Загрузки Udio на 48 часов начинаются с устаревших условий использования и без отслеживания отпечатков, по словам пользователей.
Нет, ChatGPT не прекратил давать советы по здоровью; политика OpenAI в отношении профессиональных рекомендаций не изменилась.
Разработчики призывают к внедрению водяного знака в звонки по мере того, как Sonic‑3 достигает задержки голоса в 90 мс, близкой к человеческой.