GPT‑5.1 Codex достигает 70.4% на SWE‑Bench – примерно в 26 раз дешевле
Executive Summary
Бенчмарки снова сдвинулись: Codex GPT‑5.1 занял лидирующее место в SWE‑Bench с 70.4%, обогнав Claude Sonnet 4.5 (Thinking) с 69.8%, при этом стоимостью около $0.31 за тест против $8.26 — примерно в 26 раз дешевле. Vals AI также сообщает, что GPT‑5.1 обгоняет свой бенчмарк Finance Agent на 0.6%, а производительность LiveCodeBench поднялась с 12-го места до 2-го.
Если вы чините реальные репозитории или подключаете финтех‑потоки, такая комбинация стоимость/производительность аргументирует направлять больший трафик к Codex 5.1 и позволять поведению, задержке и цене управлять остальным. Последний прогон Artificial Analysis подталкивает GPT‑5.1 к 70 в Интеллектуальном Индексе и показывает 81 млн выходных токенов против 85 млн для GPT‑5, что сокращает предполагаемую стоимость выполнения до ~$859 с ~$913.
Но не отдавайте ему ключи к низкоуровневой оптимизации. Новая таблица лидеров ML/HPC ставит передовыми экспертами скорости 1.00×, тогда как текущие системы LLM‑агентов справляются ≤0.15×, поэтому держите людей в цикле для настройки производительности. И если задержка важна, пайплайны извлечения+классификации побеждают: DeReC обходит генераторы обоснований LLM для фактчекинга с примерно на 95% меньшим временем выполнения.
Feature Spotlight
Особенность: сигналы Gemini 3 достигли критической массы
Gemini 3 приближается: Сундар Пичай закидывает намек на окно до 22 ноября; строки “Gemini 3.0 Pro” появляются в селекторах моделей Enterprise; “Riftrunner” появляется в арenaх. Если подтвердится, распределение Google может изменить выбор моделей для многих команд.
Несколько независимых наблюдений и намеки генерального директора указывают на скорый выпуск Gemini 3; сегодняшний пример сосредоточен на строках в корпоративных пользовательских интерфейсах, ярлыке «Riftrunner» в аренах и шуме на рынке. Другие новости о моделях здесь не рассматриваются и освещаются отдельно.
Jump to Особенность: сигналы Gemini 3 достигли критической массы topicsTable of Contents
Stay in the loop
Get the Daily AI Primer delivered straight to your inbox. One email per day, unsubscribe anytime.
Особенность: сигналы Gemini 3 достигли критической массы
Несколько независимых наблюдений и намеки генерального директора указывают на скорый выпуск Gemini 3; сегодняшний пример сосредоточен на строках в корпоративных пользовательских интерфейсах, ярлыке «Riftrunner» в аренах и шуме на рынке. Другие новости о моделях здесь не рассматриваются и освещаются отдельно.
“Gemini 3.0 Pro” обнаружено внутри селектора агентов Enterprise.
Несколько скриншотов показывают ярлык «Gemini 3.0 Pro» в выборе модели агента Gemini Enterprise, хотя доступ для обычных пользователей остается заблокированным обзор наблюдений. Строки Devtools совпадают с опцией модели, привязанной к production‑bound model option, что укрепляет версию о том, что финальная проводка уже идёт Devtools строки, с записями, документирующими повторяющиеся появления в разных билдах пост TestingCatalog.
Для владельцев AI‑платформ это самый явный признак уровня enterprise: начинайте проектировать маршрутизацию и резервные варианты, чтобы можно было проводить A/B 3.0 Pro против ваших текущих настроек с самого первого дня.
Сундар повышает до 69% шансы Polymarket на Gemini 3 к 22 ноября
Генеральный директор Google усилил влияние контракта Polymarket, показывающего 69% вероятность того, что Gemini 3.0 выйдет к 22 ноября, что сообщество трактует как явный сигнал ожидать скорый запуск CEO hint. Разделный обзор повторяет ту же трактовку, представляя пост Сундара как мягкое подтверждение сроков market odds.
И что дальше? Руководители и PMs могут подготовить песочницы для оценки и планировать коммуникации по развёртыванию прямо сейчас, особенно если вы планируете объявления на или сразу после недели AIE Code.
«Riftrunner» вновь появляется на аренах и в инструментах как вероятный тег Gemini 3.
«Riftrunner» идентификатор модели продолжает появляться в зонах дизайна и в консоли разработчика, тестировщики описывают его как более крупный, более мощный вариант, который соответствует ожидаемому поведению Gemini 3.0 Pro devtools console) и опережает сверстников в сравнении рендеринга SVG в тестах создателей svg comparison,) в продолжение к Riftrunner ранних строк и аренных зондов.
Если запустите eval-хранилища, добавьте запасной канал для Riftrunner, чтобы вы могли вставить идентификатор модели в момент, когда он станет доступен для маршрутизации.
Разговоры о сроках сходятся на следующей неделе, скорее всего во время AIE Code
Несколько популярных аккаунтов утверждают, что Gemini 3 выйдет на следующей неделе, и один связывает раскрытие с мероприятием AI Engineer Code, на котором Google дебютировала на сцене ранее timing claim. Посты сужают сроки до начала недели, даже “вероятно во вторник,” подчеркивая срочность расписания next week call tuesday hint, в то время как более широкие ветки наблюдений продолжают подогревать отсчет speculation post.\n\nПрактический ход: выстраивать промпты бок о бок и настройку трафика таким образом, чтобы переключение части пользовательских потоков на 3.0 занимало минуты, а не дни.
Шум вокруг Nano‑Banana 2 намекает на обновлённый стек изображений наряду с Gemini 3
Создатели сообщают о значительных результатах от «Nano‑Banana 2», отмечая более реалистичные изображения, лучшую отрисовку текста и точные отражения — что указывает на переработанную стековую структуру изображений Google, которая могла бы выйти вместе с Gemini 3 creator take.)
ОTHERS явно сочетают упоминания Nano‑Banana 2 с обсуждением сроков выпуска Gemini 3 paired mention,) с большим количеством циркулирующих дампов вывода outputs thread) и сторонние рабочие процессы уже подключают «nano banana» как настраиваемый узел workflow example.)
)
Если ваш продукт опирается на генеративные визуальные материалы, заложите время на повторную съемку руководств по стилю и обновление фильтров безопасности — распределение выходных данных может измениться.
Бенчмарки: GPT‑5.1 Codex лидирует в SWE‑Bench; финансовый агент — передовые достижения.
Сильный день для публичных оценок: GPT‑5.1 Codex обходит Sonnet 4.5 (Thinking) на SWE‑Bench за долю стоимости; GPT‑5.1 лидирует в бенчмарке по финансовому агенту; мета‑анализ добавляет дельты по токенам и ценам. Исключает охват Gemini 3 (см. Feature).
GPT‑5.1 Codex возглавляет SWE‑Bench с показателем 70,4% и примерно в 26 раз дешевле Sonnet 4.5
OpenAI’s GPT‑5.1 Codex возглавляет SWE‑Bench с точностью 70.4% против Claude Sonnet 4.5 (Thinking) на 69.8%, при стоимости ~$0.31 за тест против ~$8.26 (~26× дешевле) benchmarks table. Продолжая тему launch-top5, где появились новые таблицы лидеров по коду, этот прогон подтверждает Codex 5.1 как лучший выбор по соотношению цена‑качество для исправления ошибок на уровне репозитория, с задержками, приведенными рядом с изменениями стоимости SWE‑Bench note, и открытая доска теперь отражается на страницах Vals AI benchmarks page.
GPT‑5.1 возглавляет бенчмарк искусственного интеллекта финансового агента Vals на 0,6 процентного пункта.
Vals AI сообщает, что GPT‑5.1 устанавливает новый уровень в своем Finance Agent Benchmark, обогнав Claude Sonnet 4.5 (Thinking) на 0.6% по завершению целей, с дополнительными выигрышами на LiveCodeBench (переместились с 12‑го на 2‑е место) и небольшими улучшениями на MMMU/GPQA/IOI пост о финансовом бенчмарке, детали последующего обсуждения. Для команд, прототипирующих агентские финтех‑рабочие процессы, это сужает верхний уровень до 5.1 против Sonnet 4.5, и указывает на то, что маршрутизация по поведению использования инструментов и стоимость могут играть большую роль, чем небольшие заголовочные разрывы.
Искусственный анализ: GPT‑5.1 +2 по Индексу интеллекта; 81 млн против 85 млн выходных токенов
Последний прогон Artificial Analysis дает GPT‑5.1 оценку 70, на +2 выше GPT‑5 при аналогичных усилиях по рассуждению, во многом благодаря улучшениям TerminalBench; также использовано 81 млн выходных токенов против 85 млн для GPT‑5, что снизило стоимость прогона примерно с ~$913 до ~$859 обзор индекса. Динамическая панель в реальном времени разбивает по‑оценочные дельты и компромиссы по стоимости/задержке, полезные для маршрутизации и бюджета сайт анализа.\n\n\n)
AIA-прогнозист Bridgewater достигает экспертного уровня на ForecastBench с агентным поиском.
Bridgewater’s AIA Forecaster объединяет агентский поиск по высококачественным новостям, супервайзера, который согласует разнородные прогнозы, и калибровку (например, Platt scaling), чтобы соответствовать точности суперпрогнозиста на ForecastBench, обходя прежние базы LLM; на наборе ликвидных рынков рынки всё ещё лидируют, но ансамбли с моделью улучшают точность paper abstract. Для операций это аргумент в пользу управляемых многогентных пайплайнов вместо одиночных суждений.
Бенчмарк BEAM достигает чатов на 10 млн токенов; стек памяти LIGHT превосходит длинный контекст
BEAM представляет ультра‑длинные оценки диалогов до 10M токенов и демонстрирует LIGHT — гибрид эпизодического извлечения, рабочей памяти и scratchpad — который последовательно превосходит зависимость от огромных окон контекста в одиночку, с отмеченными в среднем приростами по моделям и явным снижением эффективности долгcontext‑моделей по мере роста длины paper abstract. Для агентов, которым необходимо сохранять состояние на протяжении нескольких дней, это отдаёт предпочтение явным стекам памяти перед большими окнами.)
Модель вознаграждения за краткость урезает токены примерно на 20% и повышает точность 7B на 8,1%.
Модель вознаграждения за краткость, которая предоставляет бонусы за краткость только тогда, когда финальные ответы верны, предотвращает сокращение длины/обучения, достигая точности на +8.1% при примерно на 19.9% меньшем количестве токенов на базе 7B для задач по математике; бонус затухает по мере обучения и масштабируется по сложности paper abstract. Это практический рецепт снижения затрат на вывод в рассуждающих агентах без ущерба для качества.
Новый лидерборд по ML/HPC показывает, что агенты на базе LLM медленнее опытных людей.
Новый рейтинг SWE/ML оптимизации с человеческой базовой линией показывает, что эксперты-человеки достигают ускорения 1.00×, в то время как топовые системы на базе LLM достигают ≤0.15× на задачах ML/HPC, что подразумевает, что текущие агенты замедляют практиков для настройки производительности, несмотря на сильные баллы по кодированию в других местах leaderboard post. Используйте это как сигнал маршрутизации: сохраняйте участие человека на низовом уровне оптимизации и резервируйте агентов для скелетной работы, поиска и glue-кода.
Плотное извлечение + классификатор обогнали рационализации LLM для фактчекинга со временем выполнения на 95% меньше.
DeReC (Dense Retrieval Classification) заменяет конвейеры LLM, генерирующие обоснования, на плотный поиск доказательств и классификатор, что приводит к улучшению RAWFC F1 до 65.58% (с 61.20%), при этом время выполнения сокращается примерно на 95% (454м → 23м). Аналогичные ускорения наблюдаются на LIAR‑RAW paper abstract. Если вам нужны масштабируемые проверки правдивости, retrieval+classifier — прочная базовая линия перед разворачиванием дорогостоящей генерации.
Рубриковый бенчмарк для следования инструкциям и RL‑рецепт для агентов
Новый рубрикаторный бенчмарк и подход на основе обучения с подкреплением к выполнению инструкций выпущены, обеспечивая повторяемый способ оценки выходов агентов и обучения к соблюдению рубрики — полезно там, где субъективное соблюдение спецификаций имеет значение (например, тональность, структура) paper thread. Ожидайте больше оценок агентов, чтобы стандартизировать оценку по рубрикам с проверяемыми критериями.

Stay first in your field.
No more doomscrolling X. A crisp morning report for entrepreneurs, AI creators, and engineers. Clear updates, time-sensitive offers, and working pipelines that keep you on the cutting edge. We read the firehose and hand-pick what matters so you can act today.
I don’t have time to scroll X all day. Primer does it, filters it, done.
Renee J.
Startup Founder
The fastest way to stay professionally expensive.
Felix B.
AI Animator
AI moves at ‘blink and it’s gone’. Primer is how I don’t blink.
Alex T.
Creative Technologist
Best ROI on ten minutes of my day. I’ve shipped two features purely from their daily prompts.
Marta S.
Product Designer
From release noise to a working workflow in 15 minutes.
Viktor H
AI Artist
It’s the only digest that explains why a release matters and shows how to use it—same page, same morning.
Priya R.
Startup Founder
Stay professionally expensive
Make the right move sooner
Ship a product