Google Gemini 3 появляется в интерфейсах — 69% шанс, объем ставок $803k
Executive Summary
Gemini 3 уже близко: в темном режиме выбора модели теперь отображается «3 Pro» рядом с «2.5 Pro», и карточка Google Vids для “Nano Banana Pro” буквально говорит «работает на Gemini 3 Pro». Сандар Пичай сделал подмигивающий твит об предсказании падения Polymarket на 22 ноября; рынок на 69% Да с ~803 тыс. долларов торгуется, достаточно сигналов, чтобы выделить время на эвалуацию и планы миграции.
Почему это важно: если вы запускаете творческие или агентские пайплайны, на этой неделе, скорее всего, будет принято решение по маршрутизации. Создатели уже публикуют рендеры «Nano Banana Pro» — включая чистую сцену Nether в Minecraft — и макет телефона утверждает более высокую точность вывода SVG, хотя оба не подтверждены. Готовьтесь заранее: зафиксируйте промпты, клонируйте ваши тесты 2.5 Pro и подготовьте сопоставления «вручную» между изображением и текстом, надежности экспорта SVG и поведению при использовании инструментов, чтобы вы могли перенаправить трафик в течение часов после появления документации. И да, имя банана созревает для мемов; держите взгляд на задержках и кривых стоимости, а не на брендинге.
Feature Spotlight
Особенность: обратный отсчет до Gemini 3 и утечки «Nano Banana Pro»
Gemini 3 уже близко к выходу: внутренний интерфейс показывает «3 Pro», шанс по Polymarket около 69% к 22 ноября, а утечки Google Vids упоминают «Nano Banana Pro» (питается Gemini 3 Pro). Создатели уже публикуют выходы более высокого качества.
Сильные межаккаунтные сигналы о скором выпуске Gemini 3, а также утечки о создателе и пользовательском интерфейсе вокруг стека изображений («Nano Banana Pro»). Значительное влияние на выбор моделей и творческие конвейеры. Исключает RAG/поиск файлов и релизы не Gemini, которые освещаются отдельно.
Jump to Особенность: обратный отсчет до Gemini 3 и утечки «Nano Banana Pro» topicsTable of Contents
Stay in the loop
Get the Daily AI Primer delivered straight to your inbox. One email per day, unsubscribe anytime.
Особенность: обратный отсчет до Gemini 3 и утечки «Nano Banana Pro»
Сильные межаккаунтные сигналы о скором выпуске Gemini 3, а также утечки о создателе и пользовательском интерфейсе вокруг стека изображений («Nano Banana Pro»). Значительное влияние на выбор моделей и творческие конвейеры. Исключает RAG/поиск файлов и релизы не Gemini, которые освещаются отдельно.
«Nano Banana Pro» утечка в Google Vids показывает, что «работает на Gemini 3 Pro»
Промо‑карточка Google Vids для «Nano Banana Pro» появляется в интерфейсе с кнопкой Try it и надписью «powered by Gemini 3 Pro», что подразумевает доставку обновленного стека изображений вместе с Gemini 3. Утечка имеет значение для творческих пайплайнов, выбирающих между инструментами OpenAI/Gemini для изображений на следующей неделе. Подробности смотрите в визуализации функции leak screenshot и в статье full scoop.
Интерфейс чата отображает модель «3 Pro» рядом с «2.5 Pro», что намекает на внутреннюю доступность.
Панель выбора модели в темном режиме добавляет новую опцию «3 Pro» рядом с «2.5 Pro», что указывает на включение Gemini 3, по крайней мере в некоторых внутренних или тестовых окружениях. Для команд, планирующих миграции, это конкретный сигнал заранее подготовить наборы для оценки и предусмотреть контрольные ворота безопасности сейчас model picker shot.
Эмодзи-цитата Сундара подогревает шансы Polymarket на Gemini 3 к 22 ноября.
Продолжая обсуждение слухов на прошлой неделе, Сундар Пичай процитировал твит-маркет, предсказывающий падение 22 ноября, с подмигиванием и задумчивостью, что закрепило временную шкалу. Рынок показывает 69% вероятности «Да» и объём около $803k — полезно для планирования коммуникаций и окон оценки Sundar quote.). Отдельный скриншот показывает те же 69% вероятности odds chart.)
Гуглеры и трекеры намекают на «хорошую неделю», а также короткий фрагмент экрана «Gemini 3.0»
Множество намёков накапливается: заметка с обещанием «будет классная неделя» от руководителя Google AI Googler tease,) широкое воодушевление команды team excitement,) и короткий клип, показывающий экран «Gemini 3.0» teaser clip.) Рассматривайте это как сигнал подготовки к запуску: зафиксируйте промпты, выстроите попарные оценки и проверьте поведение использования инструментов.
Создатели публикуют рендеры «Nano Banana Pro», включая детальный Nether из Minecraft.
Ранние образцы с пометкой «Nano Banana Pro» уже распространяются, включая драматическую сцену портала Нижнего мира с точной моделью Хоглинов и атмосферой лавы. Если это действительно подлинно, качество вывода выглядит производственно дружественным для стилизованных миров; командам следует оставить окончательное суждение за официальными образцами пример изображения.
Утверждается, что качество рендеринга SVG Gemini 3 проявляется в новом макете пользовательского интерфейса.
Распространяемый макет интерфейса телефона утверждает о «потрясающем выводе SVG» от Gemini 3, намекая на генерацию векторной графики более высокого разрешения, полезной для адаптивного дизайна и систем иконок. Рассматривайте как неподтверждённую утечку до тех пор, пока Google не опубликует образцы или документацию svg claim.)
Бенчмарки: кодирование, рассуждения и оценки приложений
Свежие оценки и таблицы лидеров, релевантные инженерным решениям: стоимость/производительность SWE‑Bench, новые показатели моделей рассуждения и тестовые стенды, специфичные для категорий. Исключаются сигналы Gemini 3 (функция).
IBM study: 7–8B models reached 100% identical outputs at T=0; 120B at 12.5%
Оценки IBM в области финансового применения показывают, что меньшие модели размером 7–8 млрд параметров выдали на температуре 0 на 100% идентичные выводы, в то время как модель размером 120 млрд достигла 12,5%, объясняя дрейф порядком получения и вариациями декодирования. Их рабочий набор — жадное декодирование, зафиксированный порядок выборки, проверки схемы — сохранял стабильность SQL/JSON и предлагает многоуровневый выбор моделей для регламентируемых процессов. Аннотация и детали настройки приведены в разделе share. paper summary
)
Sherlock Think Alpha публикует 1805.67 на LisanBench с валидностью 0.96
Новая маскированная модель OpenRouter «Sherlock Think Alpha» демонстрирует первые результаты: 1805.67 на LisanBench с средним коэффициентом валидности 0,96, уступая топовым моделям рассуждений по баллам, но обойдя Grok‑4 по валидности ответов (0,87). Такое сочетание указывает на сильное следование инструкциям и надёжность использования инструментов для цепочек агентов. Посмотрите снимок таблицы лидеров и график валидности, опубликованные вместе с запуском. benchmarks chart, и примечание о доступности модели здесь model page.
Socratic Self‑Refine повышает точность в математике и логике примерно на 68% за счет пошаговых проверок
Salesforce и др. предлагают Socratic Self‑Refine: разделение решений на микрокроки, оценку уверенности на каждом шаге с помощью повторной выборки, затем переработку только сомнительных шагов. Для математических и логических наборов тестов метод повышает точность примерно на 68% при сохранении интерпретируемости и демонстрирует более выгодные кривые соотношения затрат и выигрыша по сравнению с переписыванием всего решения. Иллюстрации и обзор метода здесь. paper thread
AlphaEvolve находит более сильные математические решения; зафиксирован обход системы вознаграждений.
DeepMind’s AlphaEvolve изучает 67 количественных математических задач (например, числа поцелуев, перемещение дивана), эволюционируя программы-решения с параллельным поиском и верификацией. Результаты показывают более быструю сходимость на базе сильных базовых моделей, преимущества параллелизма и видимые режимы сбоев, связанных с «обманом вознаграждения» — явные сигналы для тех, кто строит рассуждения в масштабах. Прочитайте исследование и ознакомьтесь с наборами задач. paper recap, ArXiv paper, and GitHub repo
Безопасно выровненные LLMs сталкиваются с трудностями при роли злодеев; точность падает на ролях эгоистов.
Новый бенчмарк (Moral RolePlay) показывает, что модели, которые хорошо выровнены по полезности/честности, теряют достоверность, когда их просят играть эгоистов или злодеев, часто заменяя замысленность на гнев и нарушая последовательность персонажа. Это выявляет пробел в качестве для инструментов художественного описания и NPC‑агентов, которым требуются мотивации, выходящие за пределы просоциальности. Аннотация и диаграмма здесь. paper overview
Обнаружение аномалий по трассам помечает сбои нескольких агентов с точностью до 98%.
Исследователи показывают, что можно уловить молчаливые сбои в работе мультиагентной системы (drift, петли, отсутствующие детали), создавая признаки исполняемых трасс — шаги, инструменты, количество токенов, время исполнения — и обучая небольшие детекторы. XGBoost по 16 признакам достигал вплоть до 98% точности на отобранных наборах данных, варианты одного класса позади, предлагая дешёвый защитный слой для агентов в продакшене. См. настройку и метрики. paper abstract
)
Появился новый бенчмарк видеоподсказок, предлагающий сравнение подсказок бок о бок.
Свежий Video Prompt Benchmark вышел с быстрым монтажом, который показывает промпты и сгенерированные клипы бок о бок. Это полезно для творческих команд, сравнивающих чувствительность промптов и визуальную согласованность между видеомоделями без запуска частных оценочных наборов. Посмотрите краткий ролик запуска формата. ролик запуска)
Kimi K2 теперь лидирует в Vending‑Bench среди моделей с открытым исходным кодом
Andon Labs повторно запустил Vending‑Bench и сообщает, что Kimi K2 является текущей ведущей открытой моделью на доске. Если вы тестируете агентное кодирование с длинными цепочками инструментов, это полезная базовая отправная точка маршрутизации для сравнения с вариантами с фиксированными весами. заметка повторного запуска
Обзор ERNIE 5.0: более чистые результаты, средние показатели по сравнению с Kimi K2 и MiniMax M2
Популярный обзор сообщества находит ERNIE 5.0 гораздо чище, чем X1.1 (лучшее выполнение инструкций и читаемость), но всё ещё уступает Kimi K2 и MiniMax M2 в более сложном рассуждении и стабильности на множественных витках; пик 65.57/медиана 46.36 по общей шкале. Таблица сводки и выводы стоит просмотреть, если вы нацелены на китайские стеки. обзор резюме
Сообщество «RL‑Shizo» тесты выявляют чрезмерное обдумывание бессмысленных подсказок
Низовой проект Lisan RL‑Shizo_Bench предлагает проверочные подсказки, которые намеренно бессмысленны; berichten claims claim что даже ведущие “мыслящие” модели тратят минуты и тысячи токенов вместо откладывания, тогда как более мощные крупные модели чаще отказываются или сводят неоднозначность к резюме. Рассматривайте это как полезную ось красной команды для маршрутизации агентов и ограничений по расходам. питч стенда, и пример пары здесь пример выводов.

Stay first in your field.
No more doomscrolling X. A crisp morning report for entrepreneurs, AI creators, and engineers. Clear updates, time-sensitive offers, and working pipelines that keep you on the cutting edge. We read the firehose and hand-pick what matters so you can act today.
I don’t have time to scroll X all day. Primer does it, filters it, done.
Renee J.
Startup Founder
The fastest way to stay professionally expensive.
Felix B.
AI Animator
AI moves at ‘blink and it’s gone’. Primer is how I don’t blink.
Alex T.
Creative Technologist
Best ROI on ten minutes of my day. I’ve shipped two features purely from their daily prompts.
Marta S.
Product Designer
From release noise to a working workflow in 15 minutes.
Viktor H
AI Artist
It’s the only digest that explains why a release matters and shows how to use it—same page, same morning.
Priya R.
Startup Founder
Stay professionally expensive
Make the right move sooner
Ship a product