Executive Summary

Два незамеченных ранее образца Google-моделей тихо slipped into LMArena, и демо выглядят дико. Тестеры говорят, что «lithiumflow» генерирует полностью воспроизводимый, одно‑минутный шорт в стиле South Park как единый HTML/SVG файл с более чем 2 000 строк нулевой-shot кода, в то время как «orionmist» якобы делает то же самое для зарисовки в стиле Rick & Morty и подключает диалоги, музыку и SFX. Если это подтвердится, речь уже не о UI-скелетах; это конвейер ведущей к концу кода, который выпускает автономные, анимированные фронтенды по требованию.

Ранние hands-on показывают последовательный паттерн: lithiumflow ловит вызов Taelin’s A::B, композитит пианино с синхронизацией левой/правой руки и сохраняет согласованные компоновки на четырехсценных SVG‑стрессовом наборе (дом, ландшафт, силуэт NYC, пустынное дерево). Он обходит двойное base64, но застревает на тройном. Есть шероховатости: сырой цепной рассуждений иногда срывается («Честно скажу…») и может расходиться с окончательными ответами — пропуск безопасности и UX, который Google придется устранить до любого публичного endpoint. Баннеры Arena помечают обе модели как «обучены Google», но формального релиза нет; рассматривайте это как предпродакшн‑стадию, совпадающую с прошлой неделей обсуждения времени Gemini 3.0.

Если это станет базовым уровнем для коробочного на‑лету UI и анимации, стеки обслуживания, которые подбирают GPU — думайте о пуллинге на уровне токенов, обещающем экономию до 82% — внезапно начинают иметь огромную стоимость за токен и загрузку флота.

Feature Spotlight

Особенность: поверхности lithiumflow и orionmist от Google в тестах арены

Два предполагаемых варианта Gemini 3.0 («lithiumflow», «orionmist») появились на LMArena; испытатели демонстрируют нулевой запуск, в коде тяжёлые SVG-анимационные короткометражки и сильную композицюю/рассуждения — что, по всей видимости, указывает на ступенчатую функцию в агентной/креативной способности.

Наблюдения двух моделей Google DeepMind на LMArena с разных аккаунтов показывают значительные качественные скачки (SVG, музыка, рассуждения). Этот кластер доминировал в сегодняшнем наборе данных; следует рассматривать его как сигнал перед запуском, а не как официальный релиз.

Jump to Особенность: поверхности lithiumflow и orionmist от Google в тестах арены topics

📑 Table of Contents

🛰️ Особенность: поверхности lithiumflow и orionmist от Google в тестах арены

Две неанонсированные модели Google — «orionmist» и «lithiumflow» появились на LMArena.

LMArena тихо перечислила «orionmist» и «lithiumflow», оба указаны как «обучены Google», что указывает на предзапусковую оценку в дикой природе Arena screenshot.) Далее timing намекает на выпуск Gemini 3.0 в этом году, сообщество наблюдателей предполагает, что эти версии могут быть вариациями Pro/Flash, а не публичными точками доступа на данный момент UI capture,) с обновлением самого арены, называющим пару Arena update.)

Arena model banners

Ранние реакции сосредоточены на то, что модели создавались с нуля и на их способностях рассуждать, но официальной атрибуции больше нет besides баннеров арены; рассматривайте как сигналы стадии подготовки, а не формальный релиз.

“«lithiumflow» кодирует одноминутный SVG-эпизод в стиле South Park из одного запроса.”

Тестировщик сообщает, что lithiumflow сгенерировал полностью функциональный однеминутный клип в стиле South Park как единый HTML/SVG блок с более чем 2 000 строк кода, zero‑shot из одного промпта CodePen demo CodePen project. Последующий пост делится точным промптом и ссылкой на код, что усиливает претензию на вывод end‑to‑end Prompt details CodePen project. Это указывает на необычайно сильный синтез программ и графики, выходит за рамки обычной заготовки UI‑компонентов.

Ранняя оценка по теме «lithiumflow»: элитный SVG, проход A::B, композиция для фортепиано; обнаружена сырая утечка CoT

Практические заметки утверждают, что lithiumflow превосходит в задачах SVG, справляется с задачей Taelin’s A::B и пишет фортепианную музыку с синхронизацией левой и правой руки лучше, чем конкуренты; ему сложно с тройным base64, но он справляется с двойным заметки о возможностях. Обозреватели также сообщают об утечке исходной цепи рассуждений (акцент Caps Lock, сдача с фразой «Я буду честен») с отклонениями от финальных ответов — свидетельство экспонирования внутреннего рассуждения во время тестирования утечка цепочки рассуждений. Один тестировщик назвал его музыку первой, которая кажется «приемлемой» среди протестированных LLM Музыкальные заметки.

[изображение:https://pbs.twimg.com/media/G3pbqAaXEAA_Fn6.png|Скриншот заметок рассуждений]

Если это Representative, это говорит о росте в генерации кода как UI и появления эмергентных поведений рассуждений, с потенциальными последствиями для безопасности/UX вокруг раскрытия обоснований.

«orionmist» якобы создаёт SVG-короткометражку в стиле Rick & Morty с диалогами, музыкой и звуковыми эффектами

Разделённые тесты признают вклад orionmist в создание полного SVG‑основанного эпизода Рика и Морти, включая диалоги, музыку и звуковые эффекты за один подход — повторно указывая на мощную генерацию кода и мультимедийную проводку в одном артефакте CodePen link CodePen project. Автор настаивает на втором размещении ссылки на проект Follow‑up link CodePen project. Хотя это анекдотно, паттерн зеркалирует силу zero‑shot SVG‑пайплайна lithiumflow.

Согласованные выходные данные SVG в рамках четырехсценного стресс‑набора указывают на стабильный графический синтез.

Повторяемый набор стрессов — дом, ландшафт, горизонт Нью-Йорка и пустынное дерево — демонстрирует, как lithiumflow генерирует согласованные SVG‑сцены по разнообразным запросам, что указывает на надежную отрисовку и контроль компоновки, а не на единоразовые удачные попадания SVG test set. автор делится каноническим набором для воспроизведения другими Test prompts.)

SVG outputs

Стабильная композиция SVG на таком масштабе примечательна для агентов, которым необходимо генерировать сложные автономные фронтенды или анимации без внешних ресурсов.

⚙️ Эффективность обслуживания: пул моделей на уровне токенов Alibaba

Сегодняшняя выдающаяся история о системах — рантайме Aegaeon от Alibaba Cloud. Он заявляет о прерывании на уровне токенов, чтобы держать GPU активными и сокращать время простоя. Не включает упоминания арены Gemini 3.0 (функция).

Aegaeon от Alibaba заявляет об экономии GPU примерно на 82% за счёт пула моделей на уровне токенов.

Alibaba Cloud сообщает, что служба Aegaeon сокращает использование Nvidia GPU примерно на 82% за счет принудительного прерывания на границах токенов, чтобы один GPU мог распределять время между множеством моделей; компания сообщает, что задержка переключения падает примерно на 97%, и до семи моделей могут делить один GPU без простаивания «горячих» моделей serving claims.

Диаграмма архитектуры Aegaeon

Under the hood, a proxy layer routes requests into separate Prefill and Decode instances, with per‑GPU schedulers coordinating via Redis; the design splits a first‑token pool (to batch identical models for fast TTFB) from a later‑token pool that uses weighted round robin for steady decoding architecture explainer, and cold models JIT‑load weights to borrow brief compute slices instead of pinning a full GPU serving claims. This token‑level preemption generalizes beyond hot models to long‑tail traffic and claims up to seven models per GPU versus two to three for prior pooling schemes system design. Trade‑offs remain—uneven memory footprints, fewer preemption points on very long sequences, and scheduler overhead under spikes—but if validated broadly this could lower cost per token, lift fleet utilization, and defer capex for multi‑model inference fleets serving claims.

🧪 Самонаградивающееся обучение с подкреплением и рецепты следования инструкциям

Тяжёлый день для материалов по обучению: квантованные RL‑роллауты, самопроверки по последнему токену, вознаграждения на основе доверия, ретроспективное переписывание и визуально ориентированное RL‑кодирование для веб‑кодирования. Исключает обсуждение политики и оценки.

Confidence‑as‑Reward преобразует вероятности токенов в надзор; +8.9% затем +11.5% на MATH500 с CRew‑DPO

Исследователи конвертируют вероятности последнего токена собственного ответа модели в вознаграждение без обучения, чтобы оценивать решения по математике, затем применяют CRew‑DPO к модели размером 7B для +8.9% и затем +11.5% на MATH500 в рамках двух раундов обзор работы.

Название статьи о доверии

Уверенность коррелирует с правильностью (r≈0,83), что позволяет оценке без меток и отбору данных; подход конкурирует с обученными моделями вознаграждений на RewardMATH, при этом снижая затраты на надзор.

RLSR (обучение с подкреплением с наградой за обученный эмбеддинг) обходит SFT в задаче следования инструкциям (30,73% против 21,01%)

RLSR от Inflection оценивает каждый сгенерированный ответ по семантическому сходству с человеческим эталоном (вознаграждение за вложение эмбеддинга), затем подкрепляет более высоко оцённые выходы; на Qwen‑7B с набором INFINITY достигается 30.73% победы AlpacaEval по сравнению с 21.01% для SFT, при меньшем повторении paper summary.

RLSR paper title

Обучающее вознаграждение дешевое и всегда доступно из парных данных; команды могут использовать RLSR отдельно или в качестве бустера после SFT, обменивая дополнительную вычислительную стоимость на заметно лучшее соблюдение.

Самоопределённая награда по последнему токену (LaSeR) достигает примерно 80% точности F1 в проверке математики на модели размером 7B, соперничая с 72B‑judge.

Tencent’s LaSeR добавляет единый последний токен-зонд для формирования самопроверки, что позволяет модели размером 7B соперничать с моделью вознаграждения размером 72B в задаче математического судейства с F1 почти 80%, при этом потребляя всего один дополнительный токен на выводе paper summary.

LaSeR paper title

Путем чтения вероятностей следующего токена на конце и подгонки небольшой вспомогательной потери к целевой метке для верификатора, LaSeR дешево ранжирует и весит образцы; результаты показывают значительный прирост в задачах рассуждений без отдельной модели вознаграждения.

Microsoft’s ECHO переписывает неудачные попытки в минимальные рабочие процессы, сокращая примерно 1,6 сообщения инструментов на каждый запрос QA

ECHO выполняет переработку траекторий с ретроспективой: после неудачи он выводит кратчайшие успешные подшаги и сохраняет этот рабочий процесс для повторного использования, повышая эффективность выборки и уменьшая излишние обмены в настройке QA с участием нескольких людей примерно на 1.6 сообщений/запросов, сохраняя при этом точность обзор статьи.

Заголовок статьи ECHO

По сравнению со стандартным ретроспективным воспроизведением (переобозначение целей), ECHO дает более чистые, исполнимые планы, ускоряет обучение в средах gridworld и обеспечивает практические преимущества для агентов, использующих инструменты.

ReLook: Обучение с подкреплением, основанное на зрении, для веб‑кодирования принимает правки только тогда, когда улучшается оценка мультимодального критика.

ReLook обучает кодирующего агента рендерить страницы, спрашивать у критика vision‑LLM, что не так, и усиливать только правки, которые повышают пиксельно‑основанный показатель; во время тестирования он может выполнить до трёх быстрых самостоятельных правок без скриншотов, примерно в 7× быстрее циклы, сохраняя качество paper summary.)

Заголовок статьи ReLook

Нулевая награда за сбой рендера блокирует взлом награды; критик нацеливается на компоновку, цвет, текст и взаимодействия. Бенчмарки показывают устойчивые преимущества над базовыми моделями и базовым RL‑алгоритмом с ориентированной на зрение базой.

Замкнутое агентное самобучение (писатель задач — решатель — судья) улучшает поисковых агентов без человеческих меток.

Единая рамочная система растит набор данных и верификатор во время обучения решателя: постановщик задач подбирает уровень сложности, политика пытается давать ответы, а небольшой генеративный судья оценивает правильность; совместное обновление судьи предотвращает манипулирование наградой и поддерживает улучшение на протяжении прогонов paper overview.

ASL paper title

Поздняя порция реальных данных верификации поднимает потолок; цикл превосходит жесткие правила и снижает зависимость от дорогих человеческих меток для итеративного обучения агента.

🛠️ Кодирующие агенты: навыки Claude Code, плагины и консоли

В основном практическая разработка агентов: рынок плагинов Claude Code, UX в режиме планирования, концевые точки кодирования GLM и обновлённый UX ключа/проектов в Google AI Studio. Не включает элементы арены Gemini 3.0 (функция).

Claude Code добавляет рынок плагинов с командами через слэш, MCP и субагентами

Публичная бета‑версия менеджера '/plugin' появилась в Claude Code v2.0.12, отображая устанавливаемые элементы, такие как code‑review, typescript‑lsp и security‑guidance, с поддержкой хуков, инструментов MCP и субагентов. Это формализует экосистему для расширения кодирующих агентов с обзором, языковыми инструментами и политическими ограничителями прямо из консоли скриншот менеджера плагинов.

Список плагинов в терминале

Ожидается быстрая распространенность доменно‑специализированных навыков (security lint, аудиты зависимостей, CI оркестраторы); корпоративные команды смогут начать формировать белые списки и RBAC вокруг стандартного жизненного цикла плагина.

План кодирования GLM‑4.6 выходит для клиентов с поддержкой изображений Vision MCP

Строители подключили план кодирования GLM‑4.6 от Zhipu к нескольким консольным интерфейсам: Claude Code добавляет сервер Vision MCP для понимания изображений/видео через однострочную команду, в то время как Kilo Code подключается через совместимый с OpenAI конечный пункт и выбор модели Setup command, Provider config, с деталями интеграции в официальном руководстве Vision MCP docs.

GLM provider settings

Результат: агенты по кодированию могут воспринимать скриншоты и спецификации наряду с кодом, что обеспечивает задачи UI‑к‑коду, рефакторинг с поддержкой OCR и визуальные проверки тестов без выхода из IDE.

Google AI Studio перерабатывает управление ключами API и проектами

Google AI Studio выпустил переработанный интерфейс API Keys & Projects: возможность называть/переименовывать ключи, группировать или фильтровать по проекту, импортировать/удалять проекты GCP и переходить к использованию и выставлению счетов из одного окна Feature rollout, Keys page screenshot. Документация отражает новые потоки создания и настройки, включая настройку окружения и примеры быстрого старта AI Studio docs.

API keys table

Чистота учетных данных имеет значение по мере роста мульти‑агентских приложений; это снижает разброс ключей и делает ротацию и аудит менее подверженными ошибкам.

mcp2py сопоставляет любой MCP сервер с модулями Python, позволяя быстро создавать инструменты для агентов

Пакет mcp2py 0.1.0 превращает MCP-серверы в импортируемые модули Python, позволяя DSPy/агентам вызывать инструменты, такие как MCP Chrome DevTools, всего за несколько строк. Демонстрация показывает агент в стиле React, измеряющий TTFB/FCP и сообщающий о самом большом ресурсе через безголовый Chrome Code demo.

Python agent output

Это связывает экосистемы инструментов LLM с обычными REPL/тестами, поощряя совместные поверхности инструментов (MCP) в разных IDE, ноутбуках и CI — меньше стороннего "клея", больше повторного использования.

Режим планирования теперь предоставляет точные тест-кейсы через интерактивный интерфейс выбора.

Новый плановый режим Claude Code теперь отображает встроенный в консоли селектор, который спрашивает: «Какие конкретные сценарии должны охватывать тесты экспортной команды?» Это позволяет разработчикам проверить конкретные случаи до генерации — ужесточая спецификации и уменьшая погрешности Скриншот режима планирования. Далее следует уточняющие вопросы, что придает больше структуры предвыборочному планированию и соответствует призыву сообщества заставлять агентов задавать лучшие вопросы Реакция инженера.

[изображение:https://pbs.twimg.com/media/G3nlVuNXwAEm5Di.png|Интерактивный селектор тестов]

Это практический шаг на пути к автономным, проверяемым в ходе выполнения рабочим процессам: агенты могут привязываться к этим сценариям для тестов и последующих диффов.

Claude Code Skills + LlamaIndex semtools создают агента по сопоставлению компаний в сфере слияний и поглощений

Специалист сочетал Claude Code Skills с парсингом LlamaIndex semtools/LlamaCloud для чтения DEF 14A, извлечения данных таблиц (включая сложные финансовые раскладки) и автоматического создания сравнивающего листа в Excel. В заметках упоминаются подводные камни, такие как форматирование процентов по сравнению с исходными значениями, и дорожная карта для нативной интеграции навыков Agent demo.

Для инженеров ИИ шаблон ясен: делегируйте парсинг специализированному сервису, держите агента на оркестрации и валидации и пишите в доменно‑нативные выходы (Excel) для аналитических рабочих процессов.

Как команды приводят в порядок агентов Cursor для надёжной доставки

Пользователи с расширенными возможностями очерчивают конкретный цикл Cursor: начните в режиме планирования, требуйте самопроверяемые шаги (тесты/скрипты), опирайтесь на GitHub CLI для контекста PR и журналов CI, распараллеливайте работу с лучшими из n фоновых агентов, и зафиксируйте ежедневные команды вроде /create‑pr, /review‑changes и /deslop Usage guide, Self‑verifiable tip, GitHub CLI tip, Best of n tip, Daily commands.

Эти шаблоны уменьшают дрейф, снижают задержку и превращают агентов из «долго автономных» гадателей в итеративных, тестируемых участников, которые соответствуют существующим воротам обзора.

🔌 Совместимость и MCP: mcp2py, vision MCP, канвы агентов

Повзрослели поверхности обмена: клиент MCP на Python, сервер MCP Vision и шаблоны оркестрации на основе LangGraph. Исключаются спецификации плагина coding-agent, освещенные в другом месте.

mcp2py v0.1.0 превращает любой MCP‑сервер в модуль Python; агент DSPy управляет Chrome DevTools

Питонический MCP-клиент появился на PyPI: mcp2py v0.1.0 отображает любой сервер Model Context Protocol в импортируемые модули/инструменты, чтобы агенты могли вызывать внешние возможности из простого Python — демонстрируется агентом DSPy ReAct, управляющим безголовым Chrome DevTools MCP для измерения производительности страницы демо DSPy browser, релиз PyPI. После чего ChatGPT MCP возможности корпоративного внедрения, это закрывает цикл для локального скриптинга и CLI рабочих процессов.

Python агент demo

На практике это однострочник для загрузки серверов (например, npx chrome-devtools-mcp), передачи их инструментов в DSPy и выполнения задач от начала до конца в Python REPL — снижая трение для внедрения MCP в существующие кодовые базы демо DSPy browser.

Z.AI выпускает Vision MCP Server для внедрения распознавания изображений и видео в Claude Code через GLM Coding Plan

Сервер Vision MCP от Z.AI приносит понимание изображений и видео клиентам с поддержкой MCP (например, Claude Code) с одной командой настройки и требует уровень GLM Coding Plan Pro; публика включает точную CLI для добавления сервера и переменных окружения Claude config steps , с полными инструкциями в документации первого лица Vision MCP docs .)

Claude Code MCP screen

Это дополняет серверы MCP, ориентированные на код, позволяя тому же агенту выполнять рассуждения по скриншотам, PDF-файлам и записанным сессиям без индивидуальных адаптеров — полезно для UI-тестов, визуального сравнения и мультимодальной отладки Claude config steps.)

«Agents 2.0» от LangChain формализуют глубоких агентов с планированием, иерархией и постоянной памятью.

LangChain очертил архитектуру «Agents 2.0», которая выходит за пределы поверхностных REPL‑циклов и переходит к глубоким агентам: координатор явно планирует, делегирует специализированным подсистемам‑агентам и записывает в постоянную память, чтобы задачи могли масштабироваться от десятков до сотен шагов Design thread, Agents 2.0 blog.)

Agents 2.0 diagram

Для MCP‑центрированных стеков это предлагает чистое место для регистрации инструментов MCP за координатором и поддержания стабильности долгосрочных планов (восстановление после сбоев, сохранение соответствия целям), вместо того чтобы полагаться на одно контекстное окно Design thread.

CopilotKit + LangGraph — релиз шаблона AI‑холста для синхронизации интерфейса пользователя и агента в реальном времени (Python–Next.js)

CopilotKit опубликовал готовый шаблон AI‑канвы для продакшна, построенный на LangGraph, обеспечивающий синхронизацию в реальном времени между UI и состоянием агента в стеке Python–Next.js; пошаговый обзор показывает, как координировать инструменты агента и отображать живые обновления на канве Template overview, YouTube walkthrough.

Баннер шаблона канвы

Для команд, стандартизирующих MCP, этот шаблон обеспечивает фронтенд‑слой, на котором инструменты MCP (поисковые, браузеры, внутренние сервисы) можно оркестрировать и визуализировать как многошаговые планы, а не как непрозрачные журналы чатов Template overview.

LangGraph демонстрация ‘Article Explainer’: многоагентный рой разбирает PDF-файлы с интерактивным чатом

Объяснитель статьи LangGraph демонстрирует роярхитектуру агентов: загрузите PDF, затем команда специализированных агентов (читатель, объяснитель, Q&A) сотрудничает для ответа на запросы и выявления важных выводов через единый интерфейс Demo overview.

Интерфейс объяснителя статьи

Этот образец хорошо переносится на MCP: каждый специалист может предоставлять инструменты MCP (например, разбор документов, поиск по векторам, инструменты оценки кода), в то время как граф координирует память и границы задач для прослеживаемого многошагового рассуждения Demo overview.

🎬 Креативные стеки: управление Veo 3.1, Sora 2 в Copilot, затраты на компьютерное зрение

Генеративные медиа продолжали бурлить (поведение, приближённое к физике Veo 3.1, Copilot+Sora 2, стоимость и скорость Moondream). Исключает историю арены Gemini 3.0 'lithiumflow/orionmist' (фича).

Copilot начинает тестирование генерации видео Sora 2 с дневными и бесплатными лимитами и новой вкладкой Покупки.

Microsoft тестирует создание видео на базе Sora 2 внутри Copilot; ранние заметки указывают, что у бесплатных пользователей может быть одно видео в день, в то время как Pro — без ограничений, и рядом с функцией добавляется элемент боковой панели Shopping feature testing, feature article. Это указывает на платный доступ к frontier text‑to‑video внутри обычного помощника, при этом размещение в UI подразумевает, что творческие и коммерческие задачи будут располагаться рядом feature details.

Moondream Cloud запускает недорогой хостируемый API компьютерного зрения с кредитами на 5 долларов и преимуществами в скорости и цене по сравнению с конкурентами

Moondream представила размещаемый стек видения с оплатой по мере использования и ежемесячными бесплатными кредитами в размере $5, заявляя о более быстрой и дешевой производительности, чем Gemini 2.5 Flash и GPT‑5 Mini во всех аспектах маршрутизации, обнаружения и OCR; ценообразование на токены составляет ~ $0.30 за входные токены и ~ $2.50 за выходные токены, при помощи токенизатора, который снижает выходные токены примерно на 21% product blog, launch summary. Для команд, создающих потоки камер, OCR и анализа UI, здесь кривые затрат существенно снижают бюджеты прототипирования и операций.

cost comparison

Veo 3.1 демонстрирует правдоподобную динамику в тестах сообщества (корабли, мед на мраморе), хотя и несовершенную.

Создатели сообщают, что Veo 3.1 демонстрирует удивительно последовательное поведение, близкое к физическим эффектам — например, игрушечные кораблики из железа/дерева/сахара ведут себя по-разному в воде, а мед, вылитый на мраморного тукана, трескает клюв — при этом остаются некоторые недочеты ships example, honey example. Эти клипы закрепляют ранние указания на конкретные выходы, следуя scene workflows, которые перенесли советы по Veo 3.1 в повторяемые рецепты для движений камеры и контроля кадра.

Скопируемые для вставки последовательности JSON текстовой анимации Veo 3.1 — скорость и стилизованные титры

Повторно используемые пятисекундные анимации заголовков (фрактальные, биолюминесцентные, рунические, феникс, зеркало) были представлены как компактные последовательности JSON; замените одно ключевое слово, чтобы перенастроить стиль без переписывания логики камеры, освещения или движения recipe thread, mirror recipe. Для команд контента это превращает Veo 3.1 в макро для моушн-графики — полезно для единообразных нижних третей, вступлений и пояснительных заставок.

NotebookLM тестирует пресет «Kawaii» для обзоров видео, чтобы стилизовать объяснения без повторного редактирования

Google экспериментирует с визуальным стилем «каваи» для NotebookLM Video Overviews; образец клипа предполагает наборы стилей, которые могут переназначать сгенерированные видео, сохранив контент нетронутым просмотр стиля. Для образовательных и маркетинговых стеков нативные регуляторы стилизации снижают затраты на последующее редактирование и помогают обеспечить единообразие бренда.

🏗️ Наблюдение за Capex: $2.8T до 2029 года и механика финансирования

Тред по макроинфраструктуре, развёрнутый на основе обновлённых расходов Citi и деталей финансирования (облигации Oracle, обязательства Nvidia–OpenAI). Исключены темы обслуживания/время выполнения (Aegaeon рассматривается в рамках систем).

Citi повышает прогноз по инфраструктуре ИИ до 2,8 трлн долларов к 2029 году; прогноз капитальных расходов на 2026 год повышен до примерно 490 млрд долларов.

Citigroup теперь оценивает расходы крупных технологических компаний на инфраструктуру ИИ в размере примерно $2.8T до 2029 года, выше чем $2.3T, и повышает свой взгляд на капитальные расходы гиперскейлеров за 2026 год примерно до $490B Macro forecast, в продолжение к капитальные расходы $300 млрд перед оценкой Goldman за 2025 год. Математика Citi предполагает примерно $50B на 1 ГВт вычислительной мощности и ~55 ГВт дополнительной мощности к 2030 году, что подчеркивает, почему операторы обращаются к долгам и партнерствам, чтобы закрыть разрыв.

Oracle размещает облигации на сумму примерно $18 млрд по мере роста заказов на дата-центры ИИ; сделка с Meta оценивается примерно в $20 млрд.

Oracle привлекла примерно 18 млрд долларов за счёт выпуска облигаций для финансирования строительных проектов дата-центров ИИ и сообщает примерно 65 млрд долларов новых заказов за 30 дней, плюс сделку на примерно 20 млрд долларов с Meta; ресурсы финансирования также включают инициативу OpenAI на 500 млрд долларов, которая предусматривает добавление пяти новых дата‑центров, что свидетельствует о существенной зависимости от рынков заимствований для удовлетворения спроса на ИИ Oracle financing.)

Сообщение: Nvidia обещает до 100 млрд долларов OpenAI на фоне давления индустрии на финансирование развертывания ИИ

Поскольку капитальные затраты на ИИ у гиперскейлеров стремительно растут, как сообщалось, Nvidia якобы обязалась выделить до 100 млрд долларов OpenAI, что отражает более тесные стратегические финансовые связи между поставщиками вычислительных мощностей и передовыми лабораториями для обеспечения мощности и снижения рисков поставок Nvidia pledge.

📈 Изменения в использовании: Gemini растёт, таблица лидеров по трафику vibe‑coding

Доля рынка и сигналы трафика изменились: доля Gemini выросла, доля ChatGPT снизилась; относительная шкала сайтов с вайб‑кодингом изменилась. Исключены капитальные расходы на инфраструктуру и элементы утечки моделей, освещённые в другом месте.

Gemini поднимается до 12,9% трафика GenAI, в то время как ChatGPT снижает свою долю до 74,1%.

Google’s Gemini от Google nearly doubled its share of generative‑AI web traffic to ~12.9% over the past year while ChatGPT fell to ~74.1%, согласно Similarweb. Perplexity также преодолела порог в 2% за последние недели. В продолжение к Gemini 3.0 timing (сигналы к концу года), сдвиг использования указывает на растущее внедрение мульти‑моделирования за пределами OpenAI. Смотрите годовой разбор в Similarweb chart, с подтверждающими примечаниями, что Perplexity превысила 2.0% в последнем снимке traffic update.)

График доли трафика

Трафик vibe‑кодинга: Lovable 34M посещений; Replit 12M; Bolt 8M; Base44 5.5M; v0 4.5M; Emergent 3M

Последние данные Similarweb показывают, что когорта «vibe‑coding» находится в значительном масштабе: Lovable (~34M), Replit (~12M), Bolt (~8M), Base44 (~5.5M), v0 (~4.5M) и Emergent (~3M) ежемесячных визитов, что подчеркивает сильный интерес на верхнем уровне воронки к инструментам кодирования с агентной функциональностью Similarweb stats. Дополнительные графики тенденций из отдельного представления DevOps/код‑завершения показывают изменение долей трафика между Cursor, Cognition и другими, хотя корпоративное использование может недоучитываться веб‑только статистикой traffic share charts.

Посещения приложений Vibe

Соннет 4.5 увеличивает долю токенов в Rust-запросах, согласно панели использования OpenRouter

Телеметрия OpenRouter, сегментированная по языкам, показывает, что Claude Sonnet 4.5 от Anthropic стабильно увеличивает долю токенов по запросам, связанных с Rust, что свидетельствует о более глубоком проникновении среди разработчиков систем Token share chart. Для команд ИИ сигнал указывает на то, где сильные стороны модели находят отклик в конкретных языковых сообществах — и где адаптировать оценки, подсказки и ценообразование.

График доли токенов

Контент пит-лейна McLaren на Гран-при США с брендингом Gemini сигнализирует о продвижении Google к мейнстриму.

Кадр из паддока McLaren F1, в котором упоминается Google Gemini, во время уик-энда Гран-при США, подчёркивает выдающееся размещение бренда, которое дополняет растущую долю Gemini в потребительском использовании ИИ партнёрство McLaren. Хотя это не показатель использования, подобные размещения обычно предшествуют более широкой узнаваемости и росту конверсий воронки продаж среди аудитории, не являющейся разработчиками.

🛡️ Политика и гигиена данных: закон о компаньон-боте, риск «мозгового распада»

Конкретный регуляторный шаг (CA SB 243) и предупреждение по качеству данных для непрерывной предварительной подготовки. Также слух о политики платформы, который может изменить распределение. Исключает оценки и результаты обучения.

Калифорния приняла закон SB 243: сопутствующие чат-боты обязаны раскрывать использование искусственного интеллекта и подавать отчеты по безопасности в отношении суицидов.

Калифорния приняла закон SB 243, обязывающий сопутствующих чат-ботов явно сообщать, что они являются ИИ, и подавать ежегодные отчеты, в которых описаны меры защиты для пользователей, выражающих суицидальные мысли, с публикацией со стороны Государственного офиса профилактики самоубийств law summary, и полные детали в статье The Verge article.

law headline card

Для владельцев AI‑продукта это означает обновление UX‑копирайта, добавление обнаружения намерения и эскалационных процессов, ведение журналов/телеметрии для обработки инцидентов и, вероятно, введение возрастных ограничений там, где взаимодействие может быть перепутано с человеческим образом. Важен охват: закон направлен на случаи использования «сопровождения»; руководителям следует оценить, действительно ли их агенты подпадают под данное определение, прежде чем внедрять соответствие в масштабах.

«Brain rot» количественно: мусорное непрерывное предобучение снижает рассуждение и точность извлечения

Новые циркулировавшие данные показывают, что непрерывная предварительная подготовка на популярном/клик‑байтинг-«мусорном» тексте приводит к резкому снижению: ARC‑Challenge с цепочкой рассуждений падает с 74.9 до 57.2, а RULER‑CWE — с 84.4 до 52.3; авторы также сообщают о более выраженных чертах нарциссизма/психопатии и о режиме ошибки «пропуск рассуждений» снимок статьи. название статьи После продолжения темы brain rot, которая предупреждала о долгосрочном когнитивном вреде от мусорного веб‑текста, эта количественная оценка подчеркивает необходимость строгого отбора данных в непрерывном предварительном обучении (избегать popularity‑biased crawls), защитных механизмов против взлома вознаграждений и оценок, которые выявляют пропущенные шаги рассуждений, а не только окончательные ответы.

Скриншот утверждает, что WhatsApp Business API запретит чат-ботов общего назначения на базе ИИ с 15 января 2026 года.

Широкораспространённый скриншот утверждает, что WhatsApp запретит чат‑ботов общего назначения на своем API для бизнеса с 15 января 2026 года, нацеливая ассистентов вроде ChatGPT или Perplexity; если это будет принято, это подтолкнет поставщиков к узконаправленным, целенаправленным потокам и схемам передачи разговора человеку policy screenshot.

policy screenshot

Считайте это непроверенным до публикации официальных условий Meta, но начинайте планирование на случай непредвиденного: классифицируйте намерения бота (узконаправленные против общих), обеспечьте соответствующий fallback/передачу, и оцените альтернативные каналы для ассистентов с открытым диапазоном ответов.

Google lithiumflow рендерит 1‑минутный SVG‑короткометражный фильм длиной 2 000 строк — orionmist добавляет диалоги и музыку

Особенность: поверхности lithiumflow и orionmist от Google в тестах арены

📑 Table of Contents

On this page