LongCat‑Video 13.6B генерирует 15‑минутные клипы 720p — вычисления с открытым исходным кодом достигают 90%

Stay in the loop

Free daily newsletter & Telegram daily report

Executive Summary

Meituan выпустила в открытый доступ LongCat‑Video, генератор на 13.6 млрд параметров, который наконец-то рассматривает длинные формы как полноценного гражданина.

Одна модель обрабатывает текст→видео, изображение→видео и продолжение, и генерирует связное видео за считанные минуты.

Заголовок: однопроходная генерация обеспечивает примерно 15 минут непрерывной истории, а не монтирование клипов.

Под капотом: иерархическое временное моделирование, рендеринг от крупного к детальному, блочная разбивка с разреженным вниманием (Block Sparse Attention) и RLHF с несколькими наградами выполняют основную работу.

Независимый анализ сообщает об экономии вычислительных ресурсов более чем на 90% по сравнению с наивными подходами, и проект выпускается с коммерческой лицензией — что значит, что независимые короткометражки, музыкальные клипы и команды превью могут стандартизироваться на открытом стеке без ожидания закрытых API.

Ранние тестеры говорят, что качество лучше Wan 2.2 и приближается к Veo 3, вывод подходит для бордов и социальных резок в 720p/30fps.

Настоящий трюк — в консистентности: персонажи, реквизит и движения сохраняются в рамках одной модели на протяжении длинных сюжетных арок за один временной проход, что именно то, что режиссеры хотят для итерации сцен, а не отдельных кадров.

Если сообщество настройкой лиц и темпа движения расширит, закрытые модели потеряют монополию на длину.

И при этом Sora 2 Pro на этой неделе снизила стоимость веб-генерации вдвое, кривая цена-производительность для виде AI премиум уровня быстро изгибается в пользу создателей.

While you're reading this, something just shipped.

New models, tools, and workflows drop daily. The creators who win are the ones who know first.

Last week: 47 releases tracked · 12 breaking changes flagged · 3 pricing drops caught

Feature Spotlight

15‑минутное видео с открытым исходным кодом (LongCat‑Video)

Open-source LongCat-Video (13.6B) генерирует до 15 минут связного видео в разрешении 720p/30fps с нативным продолжением и RLHF с несколькими вознаграждениями — что приносит длинноформатное, последовательное повествование создателям без привязки к закрытой модели.

Шум вокруг межаккаунтных обсуждений: LongCat‑Video от Meituan обещает многоминутную непрерывную генерацию с использованием текста → видео, изображения → видео и продолжение в одной модели — большие перспективы для независимых фильмов, музыкальных клипов и превизуализации.

Jump to 15‑минутное видео с открытым исходным кодом (LongCat‑Video) topics

🎬 15‑минутное видео с открытым исходным кодом (LongCat‑Video)

Дебют LongCat‑Video от Meituan: несколько минут связного T2V/I2V/продолжения при 720p/30fps

Meituan представила LongCat‑Video (13.6B параметров), унифицированную модель для преобразования текста в видео, изображений в видео и продолжения видео, которая может генерировать когерентные клипы длительностью несколько минут в «минуты» при частоте 720p/30fps. Она сочетает рендеринг от общего к деталям с блоковым разреженным вниманием (Block Sparse Attention) и RLHF с множественной наградой, при этом создатели отмечают, что она превосходит Wan 2.2 и почти сравнима с Veo 3 по качеству Обзор запуска,) с более подробной информацией и галереями на официальном сайте Страница проекта.). Этот релиз с открытым исходным кодом ориентирован на независимое кино, музыкальные видео и превиз между кадрами с сохранением длинной последовательности между кадрами Итоги запуска.).

LongCat‑Video 13.6B генерирует 15‑минутные клипы 720p — вычисления с открытым исходным кодом достигают 90%

Executive Summary

While you're reading this, something just shipped.

15‑минутное видео с открытым исходным кодом (LongCat‑Video)

Table of Contents

🎬 15‑минутное видео с открытым исходным кодом (LongCat‑Video)

Дебют LongCat‑Video от Meituan: несколько минут связного T2V/I2V/продолжения при 720p/30fps

Унифицированная генерация видео за 15 минут с экономией вычислительных мощностей более 90%, с открытым исходным кодом для коммерческого использования

🧩 Управляемые миры с элементами LTX

LTX Elements поставляет: повторно используемых персонажей, реквизит и локации, обеспечивая единообразие озвучивания и согласованность между кадрами.

LTX‑2 обеспечивает 20‑секундные одно‑кадровые съемки с синхронизированным звуком; API Playground готов к использованию.

🎛️ Все в одном: креативные хабы

Adobe Firefly Boards позволяет создателям опробовать лучшие модели ИИ на одном холсте.

fal добавляет Reve Fast Edit & Remix с 4‑изображениями в качестве ссылок по $0.01 за изображение

Sora 2 запускается на Pollo AI, расширяя центр создателей.

Vidu App запускает креативную версию с режимами со‑создания и библиотекой стилей

Fal запускает Reve Fast Edit & Remix по цене примерно 0,01 доллара за изображение, с поддержкой до четырех опорных изображений.

Adobe представляет Firefly 5: многослойное редактирование изображений для контекстуальных, ориентированных на объекты корректировок.

Riverflow 1.1 от Runware демонстрирует готовые к производству правки продукта и настраиваемый Playground

💳 Доступ и кредиты: более дешёвые генераторы, промо-ускорители

Sora 2 Pro в веб-версии снижает стоимость генерации на 50%.

fal представляет Reve Fast Edit & Remix по цене примерно $0.01 за изображение

ChatGPT Go бесплатно на год в Индии, затем ₹399 в месяц

PixVerse запускает Remix и предлагает 300 кредитов за ретвит

Higgsfield дебютирует на YouTube-канале с 200 бесплатными кредитами (код на 12 часов)

InVideo открывает набор в программу Creative Ambassador с ранним доступом и кредитами

🎥 Премьеры создателя, шоу и моменты сообщества

«Enter The Closet» премьера: 23+ художников совместно создают ИИ‑короткометражку, теперь в 4K.

GLIF запускает прямую трансляцию «The AI Slop Review»; Эпизод 1 выйдет 4 ноября, гостем будет человек с 1 млрд просмотров

Freepik проводит очную встречу AI Partners Meetup для согласования интересов создателей и дорожной карты платформы.

Инструмент OpenArt Music Video распространяется: создатели тестируют полноформатные видеоклипы из любой песни за считанные минуты.

Хайлуо на Upscale Conf Málaga: практический мастер‑класс 4 ноября и ключевой доклад 5 ноября

Higgsfield запускает на YouTube‑канале Sketch‑to‑Video промо‑акцию на 200 бесплатных кредитов.

Короткометражка на базе Vidu «Memento Mori» выходит с кинематографическим тоном в эпоху Q2.

🎚️ 48‑часовой хаос загрузок от Udio (уже запущено)

Udio открывает 48-часовое окно загрузки; создатели спешат сохранить каталоги без отпечатков пальцев

🎨 Свежие наборы стилей и srefs (MJ и многое другое)

Рецепт Midjourney v7: хаос 22 + sref 2690871695 обеспечивает чёткую драму в формате 3:4

Зимняя прихоть: повторно используемый векторный акварельный промпт для сезонного клипарта

Кинематографический стиль аниме 1980-х годов через sref 3413445974

Наивный сюрреалистический стиль дудла sref 136643823 сочетает фото и эскиз

Шаблон промптов хоррора «production still» для кинематографической симметрии

Нулевой промпт: силуэт sref для эффектных чёрно-белых кадров

Чистый мультяшный стиль с srefs 2844626811 и 2431575232

Размышления Midjourney становятся пугающе точными.

🏗️ Крупные контракты на ИИ и выравнивание вычислительных мощностей

OpenAI подписывает сделку с AWS на 38 млрд долларов сроком на семь лет для выполнения передовых задач искусственного интеллекта.

🗣️ Цифровые люди и ансамблевый диалог

OmniHuman 1.5 добавляет синхронизированный диалог между несколькими персонажами с автоматической маршрутизацией голоса

BytePlus объединяет Seedream 4.0, Seedance 1.0 и OmniHuman 1.5 для корпоративных цифровых презентаторов

🧠 Обзор исследований в области креативного ИИ

Визуальные бэкдоры против воплощённых мультимодальных LLM достигают до 80% ASR

Онлайн-обучение с подкреплением точно настраивает поточно-ориентированные модели VLA до 97,6% на LIBERO

OS‑Sentinel сочетает формальные проверки и контекст VLM для контроля за мобильными агентами

Варианты RoPE, готовые к использованию, повышают согласованность VLM в разных задачах

Непрерывные авторрегрессионные языковые модели преобразуют токены в векторы с точностью 99,9%.

Тонкое исследование квантования: MXINT8 обходит FP на уровне 8 бит; NVINT4 выделяется благодаря преобразованию Хадамарда

NeuroAda сокращает использование памяти PEFT за счет выборочной адаптации нейронов с обходными связями.

⚖️ Политика и сигналы доверия

Суд удовлетворяет претензии авторов по авторскому праву против OpenAI; резюме ChatGPT могут нарушать авторские права

Загрузки Udio на 48 часов начинаются с устаревших условий использования и без отслеживания отпечатков, по словам пользователей.

Нет, ChatGPT не прекратил давать советы по здоровью; политика OpenAI в отношении профессиональных рекомендаций не изменилась.

Разработчики призывают к внедрению водяного знака в звонки по мере того, как Sonic‑3 достигает задержки голоса в 90 мс, близкой к человеческой.

While you're reading this, something just shipped.

On this page