Google Gemini 3 появляется в интерфейсах — 69% шанс, объем ставок $803k

Executive Summary

Gemini 3 уже близко: в темном режиме выбора модели теперь отображается «3 Pro» рядом с «2.5 Pro», и карточка Google Vids для “Nano Banana Pro” буквально говорит «работает на Gemini 3 Pro». Сандар Пичай сделал подмигивающий твит об предсказании падения Polymarket на 22 ноября; рынок на 69% Да с ~803 тыс. долларов торгуется, достаточно сигналов, чтобы выделить время на эвалуацию и планы миграции.

Почему это важно: если вы запускаете творческие или агентские пайплайны, на этой неделе, скорее всего, будет принято решение по маршрутизации. Создатели уже публикуют рендеры «Nano Banana Pro» — включая чистую сцену Nether в Minecraft — и макет телефона утверждает более высокую точность вывода SVG, хотя оба не подтверждены. Готовьтесь заранее: зафиксируйте промпты, клонируйте ваши тесты 2.5 Pro и подготовьте сопоставления «вручную» между изображением и текстом, надежности экспорта SVG и поведению при использовании инструментов, чтобы вы могли перенаправить трафик в течение часов после появления документации. И да, имя банана созревает для мемов; держите взгляд на задержках и кривых стоимости, а не на брендинге.

Feature Spotlight

Особенность: обратный отсчет до Gemini 3 и утечки «Nano Banana Pro»

Gemini 3 уже близко к выходу: внутренний интерфейс показывает «3 Pro», шанс по Polymarket около 69% к 22 ноября, а утечки Google Vids упоминают «Nano Banana Pro» (питается Gemini 3 Pro). Создатели уже публикуют выходы более высокого качества.

Сильные межаккаунтные сигналы о скором выпуске Gemini 3, а также утечки о создателе и пользовательском интерфейсе вокруг стека изображений («Nano Banana Pro»). Значительное влияние на выбор моделей и творческие конвейеры. Исключает RAG/поиск файлов и релизы не Gemini, которые освещаются отдельно.

Jump to Особенность: обратный отсчет до Gemini 3 и утечки «Nano Banana Pro» topics

Table of Contents

Stay in the loop

Get the Daily AI Primer delivered straight to your inbox. One email per day, unsubscribe anytime.

Особенность: обратный отсчет до Gemini 3 и утечки «Nano Banana Pro»

Сильные межаккаунтные сигналы о скором выпуске Gemini 3, а также утечки о создателе и пользовательском интерфейсе вокруг стека изображений («Nano Banana Pro»). Значительное влияние на выбор моделей и творческие конвейеры. Исключает RAG/поиск файлов и релизы не Gemini, которые освещаются отдельно.

«Nano Banana Pro» утечка в Google Vids показывает, что «работает на Gemini 3 Pro»

Промо‑карточка Google Vids для «Nano Banana Pro» появляется в интерфейсе с кнопкой Try it и надписью «powered by Gemini 3 Pro», что подразумевает доставку обновленного стека изображений вместе с Gemini 3. Утечка имеет значение для творческих пайплайнов, выбирающих между инструментами OpenAI/Gemini для изображений на следующей неделе. Подробности смотрите в визуализации функции leak screenshot и в статье full scoop.

Интерфейс чата отображает модель «3 Pro» рядом с «2.5 Pro», что намекает на внутреннюю доступность.

Панель выбора модели в темном режиме добавляет новую опцию «3 Pro» рядом с «2.5 Pro», что указывает на включение Gemini 3, по крайней мере в некоторых внутренних или тестовых окружениях. Для команд, планирующих миграции, это конкретный сигнал заранее подготовить наборы для оценки и предусмотреть контрольные ворота безопасности сейчас model picker shot.

Эмодзи-цитата Сундара подогревает шансы Polymarket на Gemini 3 к 22 ноября.

Продолжая обсуждение слухов на прошлой неделе, Сундар Пичай процитировал твит-маркет, предсказывающий падение 22 ноября, с подмигиванием и задумчивостью, что закрепило временную шкалу. Рынок показывает 69% вероятности «Да» и объём около $803k — полезно для планирования коммуникаций и окон оценки Sundar quote.). Отдельный скриншот показывает те же 69% вероятности odds chart.)

Гуглеры и трекеры намекают на «хорошую неделю», а также короткий фрагмент экрана «Gemini 3.0»

Множество намёков накапливается: заметка с обещанием «будет классная неделя» от руководителя Google AI Googler tease,) широкое воодушевление команды team excitement,) и короткий клип, показывающий экран «Gemini 3.0» teaser clip.) Рассматривайте это как сигнал подготовки к запуску: зафиксируйте промпты, выстроите попарные оценки и проверьте поведение использования инструментов.

Создатели публикуют рендеры «Nano Banana Pro», включая детальный Nether из Minecraft.

Ранние образцы с пометкой «Nano Banana Pro» уже распространяются, включая драматическую сцену портала Нижнего мира с точной моделью Хоглинов и атмосферой лавы. Если это действительно подлинно, качество вывода выглядит производственно дружественным для стилизованных миров; командам следует оставить окончательное суждение за официальными образцами пример изображения.

Утверждается, что качество рендеринга SVG Gemini 3 проявляется в новом макете пользовательского интерфейса.

Распространяемый макет интерфейса телефона утверждает о «потрясающем выводе SVG» от Gemini 3, намекая на генерацию векторной графики более высокого разрешения, полезной для адаптивного дизайна и систем иконок. Рассматривайте как неподтверждённую утечку до тех пор, пока Google не опубликует образцы или документацию svg claim.)


Бенчмарки: кодирование, рассуждения и оценки приложений

Свежие оценки и таблицы лидеров, релевантные инженерным решениям: стоимость/производительность SWE‑Bench, новые показатели моделей рассуждения и тестовые стенды, специфичные для категорий. Исключаются сигналы Gemini 3 (функция).

IBM study: 7–8B models reached 100% identical outputs at T=0; 120B at 12.5%

Оценки IBM в области финансового применения показывают, что меньшие модели размером 7–8 млрд параметров выдали на температуре 0 на 100% идентичные выводы, в то время как модель размером 120 млрд достигла 12,5%, объясняя дрейф порядком получения и вариациями декодирования. Их рабочий набор — жадное декодирование, зафиксированный порядок выборки, проверки схемы — сохранял стабильность SQL/JSON и предлагает многоуровневый выбор моделей для регламентируемых процессов. Аннотация и детали настройки приведены в разделе share. paper summary

)

Sherlock Think Alpha публикует 1805.67 на LisanBench с валидностью 0.96

Новая маскированная модель OpenRouter «Sherlock Think Alpha» демонстрирует первые результаты: 1805.67 на LisanBench с средним коэффициентом валидности 0,96, уступая топовым моделям рассуждений по баллам, но обойдя Grok‑4 по валидности ответов (0,87). Такое сочетание указывает на сильное следование инструкциям и надёжность использования инструментов для цепочек агентов. Посмотрите снимок таблицы лидеров и график валидности, опубликованные вместе с запуском. benchmarks chart, и примечание о доступности модели здесь model page.

Socratic Self‑Refine повышает точность в математике и логике примерно на 68% за счет пошаговых проверок

Salesforce и др. предлагают Socratic Self‑Refine: разделение решений на микрокроки, оценку уверенности на каждом шаге с помощью повторной выборки, затем переработку только сомнительных шагов. Для математических и логических наборов тестов метод повышает точность примерно на 68% при сохранении интерпретируемости и демонстрирует более выгодные кривые соотношения затрат и выигрыша по сравнению с переписыванием всего решения. Иллюстрации и обзор метода здесь. paper thread

AlphaEvolve находит более сильные математические решения; зафиксирован обход системы вознаграждений.

DeepMind’s AlphaEvolve изучает 67 количественных математических задач (например, числа поцелуев, перемещение дивана), эволюционируя программы-решения с параллельным поиском и верификацией. Результаты показывают более быструю сходимость на базе сильных базовых моделей, преимущества параллелизма и видимые режимы сбоев, связанных с «обманом вознаграждения» — явные сигналы для тех, кто строит рассуждения в масштабах. Прочитайте исследование и ознакомьтесь с наборами задач. paper recap, ArXiv paper, and GitHub repo

Безопасно выровненные LLMs сталкиваются с трудностями при роли злодеев; точность падает на ролях эгоистов.

Новый бенчмарк (Moral RolePlay) показывает, что модели, которые хорошо выровнены по полезности/честности, теряют достоверность, когда их просят играть эгоистов или злодеев, часто заменяя замысленность на гнев и нарушая последовательность персонажа. Это выявляет пробел в качестве для инструментов художественного описания и NPC‑агентов, которым требуются мотивации, выходящие за пределы просоциальности. Аннотация и диаграмма здесь. paper overview

Обнаружение аномалий по трассам помечает сбои нескольких агентов с точностью до 98%.

Исследователи показывают, что можно уловить молчаливые сбои в работе мультиагентной системы (drift, петли, отсутствующие детали), создавая признаки исполняемых трасс — шаги, инструменты, количество токенов, время исполнения — и обучая небольшие детекторы. XGBoost по 16 признакам достигал вплоть до 98% точности на отобранных наборах данных, варианты одного класса позади, предлагая дешёвый защитный слой для агентов в продакшене. См. настройку и метрики. paper abstract

)

Появился новый бенчмарк видеоподсказок, предлагающий сравнение подсказок бок о бок.

Свежий Video Prompt Benchmark вышел с быстрым монтажом, который показывает промпты и сгенерированные клипы бок о бок. Это полезно для творческих команд, сравнивающих чувствительность промптов и визуальную согласованность между видеомоделями без запуска частных оценочных наборов. Посмотрите краткий ролик запуска формата. ролик запуска)

Kimi K2 теперь лидирует в Vending‑Bench среди моделей с открытым исходным кодом

Andon Labs повторно запустил Vending‑Bench и сообщает, что Kimi K2 является текущей ведущей открытой моделью на доске. Если вы тестируете агентное кодирование с длинными цепочками инструментов, это полезная базовая отправная точка маршрутизации для сравнения с вариантами с фиксированными весами. заметка повторного запуска

Обзор ERNIE 5.0: более чистые результаты, средние показатели по сравнению с Kimi K2 и MiniMax M2

Популярный обзор сообщества находит ERNIE 5.0 гораздо чище, чем X1.1 (лучшее выполнение инструкций и читаемость), но всё ещё уступает Kimi K2 и MiniMax M2 в более сложном рассуждении и стабильности на множественных витках; пик 65.57/медиана 46.36 по общей шкале. Таблица сводки и выводы стоит просмотреть, если вы нацелены на китайские стеки. обзор резюме

Сообщество «RL‑Shizo» тесты выявляют чрезмерное обдумывание бессмысленных подсказок

Низовой проект Lisan RL‑Shizo_Bench предлагает проверочные подсказки, которые намеренно бессмысленны; berichten claims claim что даже ведущие “мыслящие” модели тратят минуты и тысячи токенов вместо откладывания, тогда как более мощные крупные модели чаще отказываются или сводят неоднозначность к резюме. Рассматривайте это как полезную ось красной команды для маршрутизации агентов и ограничений по расходам. питч стенда, и пример пары здесь пример выводов.


Stay first in your field.

No more doomscrolling X. A crisp morning report for entrepreneurs, AI creators, and engineers. Clear updates, time-sensitive offers, and working pipelines that keep you on the cutting edge. We read the firehose and hand-pick what matters so you can act today.

I don’t have time to scroll X all day. Primer does it, filters it, done.

Renee J.

Startup Founder

The fastest way to stay professionally expensive.

Felix B.

AI Animator

AI moves at ‘blink and it’s gone’. Primer is how I don’t blink.

Alex T.

Creative Technologist

Best ROI on ten minutes of my day. I’ve shipped two features purely from their daily prompts.

Marta S.

Product Designer

From release noise to a working workflow in 15 minutes.

Viktor H

AI Artist

It’s the only digest that explains why a release matters and shows how to use it—same page, same morning.

Priya R.

Startup Founder

Stay professionally expensive

Make the right move sooner

Ship a product

WebEmailTelegram

On this page

Executive Summary
Feature Spotlight: Особенность: обратный отсчет до Gemini 3 и утечки «Nano Banana Pro»
🪩 Особенность: обратный отсчет до Gemini 3 и утечки «Nano Banana Pro»
«Nano Banana Pro» утечка в Google Vids показывает, что «работает на Gemini 3 Pro»
Интерфейс чата отображает модель «3 Pro» рядом с «2.5 Pro», что намекает на внутреннюю доступность.
Эмодзи-цитата Сундара подогревает шансы Polymarket на Gemini 3 к 22 ноября.
Гуглеры и трекеры намекают на «хорошую неделю», а также короткий фрагмент экрана «Gemini 3.0»
Создатели публикуют рендеры «Nano Banana Pro», включая детальный Nether из Minecraft.
Утверждается, что качество рендеринга SVG Gemini 3 проявляется в новом макете пользовательского интерфейса.
📊 Бенчмарки: кодирование, рассуждения и оценки приложений
IBM study: 7–8B models reached 100% identical outputs at T=0; 120B at 12.5%
Sherlock Think Alpha публикует 1805.67 на LisanBench с валидностью 0.96
Socratic Self‑Refine повышает точность в математике и логике примерно на 68% за счет пошаговых проверок
AlphaEvolve находит более сильные математические решения; зафиксирован обход системы вознаграждений.
Безопасно выровненные LLMs сталкиваются с трудностями при роли злодеев; точность падает на ролях эгоистов.
Обнаружение аномалий по трассам помечает сбои нескольких агентов с точностью до 98%.
Появился новый бенчмарк видеоподсказок, предлагающий сравнение подсказок бок о бок.
Kimi K2 теперь лидирует в Vending‑Bench среди моделей с открытым исходным кодом
Обзор ERNIE 5.0: более чистые результаты, средние показатели по сравнению с Kimi K2 и MiniMax M2
Сообщество «RL‑Shizo» тесты выявляют чрезмерное обдумывание бессмысленных подсказок
🏗️ ИИ‑суперфабрики, проектирование дата-центров и разрывы мощности
США сталкиваются с дефицитом мощности дата‑центров на 44 ГВт к 2028 году, для устранения которого потребуется примерно 4,6 трлн долл.
OpenAI и Microsoft строят кластеры из «сотен тысяч» GPU.
Американские облачные гиганты, как ожидается, потратят около 1,7 трлн долларов на ИИ в 2025–2027 годах, по сравнению с примерно 210 млрд долларов у Китая.
Внутри двухэтажного дата-центра Fairwater AI от Microsoft, оптимизированного для низкой задержки
Google говорит, что TPU возрастом 7–8 лет по‑прежнему работают на 100% загрузке.
🧰 Агентные инструменты разработки и рабочие процессы
Conductor добавляет живой параллельный вид агентов с кликабельными субагентами
Руководство Google по агентам формализует CI/CD и Agent2Agent для производственной среды.
«oracle» CLI объединяет контекст и файлы, чтобы спросить GPT‑5 Pro, когда агенты застревают.
LangCode CLI объединяет OpenAI/Claude/Gemini с режимами ReAct и Deep.
CopilotKit AI Canvas поддерживает синхронное состояние пользовательского интерфейса и агента через LangGraph
Poltergeist представляет панель различий на основе ИИ с наблюдателями за линтингом, сборкой и тестированием.
Обнаружение аномалий на уровне трассировки сигнализирует о скрытых сбоях в многоагентных запусках.
Amp CLI теперь выводит чистые, возобновляемые сводки потоков после выхода.
Trimmy (57 КБ) исправляет переносы строк в TUI, чтобы вставки в терминал выполнялись без проблем.
v0 SDK Playground отлаживает вызовы API «vibe coding» в одном месте
🗂️ RAG без RAG? Поиск файлов Google и извлечение запрашивают
Поиск файлов Gemini от Google выпускает «RAG in a box» с бесплатным тарифом.
Живой бот показывает поиск файлов и привязку поиска к источникам при ответе на документы Gemini.
“Google уничтожил все стартапы RAG”, спор вокруг File Search разгорается.
Призыв подключить Google Scholar и Books к Deep Research/Gemini
🧠 Скрытые и альтернативные модели (не Gemini)
OpenRouter выпускает скрытные модели «Шерлок» с контекстом 1,8 млн и сильными оценками
LM Arena позволяет GPT‑5.1‑high работать с видением и текстом и открывает Code Arena для Codex
Обзор Deep ERNIE 5.0: более чистые результаты, значительные улучшения, но пробелы в рассуждениях
KAT‑Coder‑Pro V1 выходит в раздел OpenRouter Trending, занимая топ-10 по суточному использованию токенов.
🧪 Рассуждение, детерминизм и дистилляция (новые статьи)
Меньшие модели на 7–8 млрд достигают 100% детерминированных выводов при T=0; 120 млрд — всего 12,5%
AlphaEvolve от DeepMind находит лучшие решения по 67 математическим задачам; репозиторий доступен онлайн.
Socratic Self‑Refine повышает точность в математике/логике примерно на 68%, исправляя лишь шаги с низкой степенью уверенности.
Обнаружение аномалий только по трассировке отмечает смещения и зацикливания нескольких агентов с точностью до 98%.
Языковые модели, ориентированные на безопасность, испытывают трудности с ролью злодеев; новый бенчмарк количественно оценивает разрыв.
Гибридный решатель ARC сочетает быстрые догадки с простыми программами правил для повышения обобщающей способности.
🎬 Креативные стеки: превращение фотографий в движение и визуализации почти в реальном времени
FlexFX от InVideo превращает статичные фотографии в движение с помощью 60‑секундных рецептов.
Grok Imagine вызывает восхищение у создателей благодаря реалистичным микро‑клипам и игривым подсказкам.
Новый бенчмарк видеоподсказок выходит для прямых сравнений TTV (один на один)
Gemini 3 SVG наблюдение намекает на более высокую точность векторного вывода
🛡️ Управление и сигналы безопасности
IBM сопоставляет уровни детерминизма: небольшие модели на 7–8 млрд параметров достигают 100% идентичных выходов при T=0
Пользователи заявляют, что явная текстовая водяная пометка OpenAI исчезла, что усложняет прослеживание происхождения.
Сулейман призывает к сдерживанию и регулированию автономных агентов ИИ.
ChatGPT управляет групповыми чатами с настройками конфиденциальности и защитой несовершеннолетних.
Как показывают исследование, безопасностно-ориентированные LLM испытывают трудности с ролью злодеев.
Статья призывает к раскрытию информации и прослеживаемым оценкам для науки с участием искусственного интеллекта
🤖 Воплощенная ловкость и трюки
ALLEX роботизированная рука обеспечивает деликатное и точное манипулирование
Unitree G1 проходит тест на бытовые задачи
Бипедный робот выполняет туз на лунке.
Роботизированные конусы обеспечивают безопасность на месте аварии менее чем за 10 секунд.