GPT‑5.1 Codex достигает 70.4% на SWE‑Bench – примерно в 26 раз дешевле

Executive Summary

Бенчмарки снова сдвинулись: Codex GPT‑5.1 занял лидирующее место в SWE‑Bench с 70.4%, обогнав Claude Sonnet 4.5 (Thinking) с 69.8%, при этом стоимостью около $0.31 за тест против $8.26 — примерно в 26 раз дешевле. Vals AI также сообщает, что GPT‑5.1 обгоняет свой бенчмарк Finance Agent на 0.6%, а производительность LiveCodeBench поднялась с 12-го места до 2-го.

Если вы чините реальные репозитории или подключаете финтех‑потоки, такая комбинация стоимость/производительность аргументирует направлять больший трафик к Codex 5.1 и позволять поведению, задержке и цене управлять остальным. Последний прогон Artificial Analysis подталкивает GPT‑5.1 к 70 в Интеллектуальном Индексе и показывает 81 млн выходных токенов против 85 млн для GPT‑5, что сокращает предполагаемую стоимость выполнения до ~$859 с ~$913.

Но не отдавайте ему ключи к низкоуровневой оптимизации. Новая таблица лидеров ML/HPC ставит передовыми экспертами скорости 1.00×, тогда как текущие системы LLM‑агентов справляются ≤0.15×, поэтому держите людей в цикле для настройки производительности. И если задержка важна, пайплайны извлечения+классификации побеждают: DeReC обходит генераторы обоснований LLM для фактчекинга с примерно на 95% меньшим временем выполнения.

Feature Spotlight

Особенность: сигналы Gemini 3 достигли критической массы

Gemini 3 приближается: Сундар Пичай закидывает намек на окно до 22 ноября; строки “Gemini 3.0 Pro” появляются в селекторах моделей Enterprise; “Riftrunner” появляется в арenaх. Если подтвердится, распределение Google может изменить выбор моделей для многих команд.

Несколько независимых наблюдений и намеки генерального директора указывают на скорый выпуск Gemini 3; сегодняшний пример сосредоточен на строках в корпоративных пользовательских интерфейсах, ярлыке «Riftrunner» в аренах и шуме на рынке. Другие новости о моделях здесь не рассматриваются и освещаются отдельно.

Jump to Особенность: сигналы Gemini 3 достигли критической массы topics

Table of Contents

Stay in the loop

Get the Daily AI Primer delivered straight to your inbox. One email per day, unsubscribe anytime.

Особенность: сигналы Gemini 3 достигли критической массы

Несколько независимых наблюдений и намеки генерального директора указывают на скорый выпуск Gemini 3; сегодняшний пример сосредоточен на строках в корпоративных пользовательских интерфейсах, ярлыке «Riftrunner» в аренах и шуме на рынке. Другие новости о моделях здесь не рассматриваются и освещаются отдельно.

“Gemini 3.0 Pro” обнаружено внутри селектора агентов Enterprise.

Несколько скриншотов показывают ярлык «Gemini 3.0 Pro» в выборе модели агента Gemini Enterprise, хотя доступ для обычных пользователей остается заблокированным обзор наблюдений. Строки Devtools совпадают с опцией модели, привязанной к production‑bound model option, что укрепляет версию о том, что финальная проводка уже идёт Devtools строки, с записями, документирующими повторяющиеся появления в разных билдах пост TestingCatalog.

Для владельцев AI‑платформ это самый явный признак уровня enterprise: начинайте проектировать маршрутизацию и резервные варианты, чтобы можно было проводить A/B 3.0 Pro против ваших текущих настроек с самого первого дня.

Сундар повышает до 69% шансы Polymarket на Gemini 3 к 22 ноября

Генеральный директор Google усилил влияние контракта Polymarket, показывающего 69% вероятность того, что Gemini 3.0 выйдет к 22 ноября, что сообщество трактует как явный сигнал ожидать скорый запуск CEO hint. Разделный обзор повторяет ту же трактовку, представляя пост Сундара как мягкое подтверждение сроков market odds.

И что дальше? Руководители и PMs могут подготовить песочницы для оценки и планировать коммуникации по развёртыванию прямо сейчас, особенно если вы планируете объявления на или сразу после недели AIE Code.

«Riftrunner» вновь появляется на аренах и в инструментах как вероятный тег Gemini 3.

«Riftrunner» идентификатор модели продолжает появляться в зонах дизайна и в консоли разработчика, тестировщики описывают его как более крупный, более мощный вариант, который соответствует ожидаемому поведению Gemini 3.0 Pro devtools console) и опережает сверстников в сравнении рендеринга SVG в тестах создателей svg comparison,) в продолжение к Riftrunner ранних строк и аренных зондов.

Если запустите eval-хранилища, добавьте запасной канал для Riftrunner, чтобы вы могли вставить идентификатор модели в момент, когда он станет доступен для маршрутизации.

Разговоры о сроках сходятся на следующей неделе, скорее всего во время AIE Code

Несколько популярных аккаунтов утверждают, что Gemini 3 выйдет на следующей неделе, и один связывает раскрытие с мероприятием AI Engineer Code, на котором Google дебютировала на сцене ранее timing claim. Посты сужают сроки до начала недели, даже “вероятно во вторник,” подчеркивая срочность расписания next week call tuesday hint, в то время как более широкие ветки наблюдений продолжают подогревать отсчет speculation post.\n\nПрактический ход: выстраивать промпты бок о бок и настройку трафика таким образом, чтобы переключение части пользовательских потоков на 3.0 занимало минуты, а не дни.

Шум вокруг Nano‑Banana 2 намекает на обновлённый стек изображений наряду с Gemini 3

Создатели сообщают о значительных результатах от «Nano‑Banana 2», отмечая более реалистичные изображения, лучшую отрисовку текста и точные отражения — что указывает на переработанную стековую структуру изображений Google, которая могла бы выйти вместе с Gemini 3 creator take.)
ОTHERS явно сочетают упоминания Nano‑Banana 2 с обсуждением сроков выпуска Gemini 3 paired mention,) с большим количеством циркулирующих дампов вывода outputs thread) и сторонние рабочие процессы уже подключают «nano banana» как настраиваемый узел workflow example.)

)

Если ваш продукт опирается на генеративные визуальные материалы, заложите время на повторную съемку руководств по стилю и обновление фильтров безопасности — распределение выходных данных может измениться.


Бенчмарки: GPT‑5.1 Codex лидирует в SWE‑Bench; финансовый агент — передовые достижения.

Сильный день для публичных оценок: GPT‑5.1 Codex обходит Sonnet 4.5 (Thinking) на SWE‑Bench за долю стоимости; GPT‑5.1 лидирует в бенчмарке по финансовому агенту; мета‑анализ добавляет дельты по токенам и ценам. Исключает охват Gemini 3 (см. Feature).

GPT‑5.1 Codex возглавляет SWE‑Bench с показателем 70,4% и примерно в 26 раз дешевле Sonnet 4.5

OpenAI’s GPT‑5.1 Codex возглавляет SWE‑Bench с точностью 70.4% против Claude Sonnet 4.5 (Thinking) на 69.8%, при стоимости ~$0.31 за тест против ~$8.26 (~26× дешевле) benchmarks table. Продолжая тему launch-top5, где появились новые таблицы лидеров по коду, этот прогон подтверждает Codex 5.1 как лучший выбор по соотношению цена‑качество для исправления ошибок на уровне репозитория, с задержками, приведенными рядом с изменениями стоимости SWE‑Bench note, и открытая доска теперь отражается на страницах Vals AI benchmarks page.

GPT‑5.1 возглавляет бенчмарк искусственного интеллекта финансового агента Vals на 0,6 процентного пункта.

Vals AI сообщает, что GPT‑5.1 устанавливает новый уровень в своем Finance Agent Benchmark, обогнав Claude Sonnet 4.5 (Thinking) на 0.6% по завершению целей, с дополнительными выигрышами на LiveCodeBench (переместились с 12‑го на 2‑е место) и небольшими улучшениями на MMMU/GPQA/IOI пост о финансовом бенчмарке, детали последующего обсуждения. Для команд, прототипирующих агентские финтех‑рабочие процессы, это сужает верхний уровень до 5.1 против Sonnet 4.5, и указывает на то, что маршрутизация по поведению использования инструментов и стоимость могут играть большую роль, чем небольшие заголовочные разрывы.

Искусственный анализ: GPT‑5.1 +2 по Индексу интеллекта; 81 млн против 85 млн выходных токенов

Последний прогон Artificial Analysis дает GPT‑5.1 оценку 70, на +2 выше GPT‑5 при аналогичных усилиях по рассуждению, во многом благодаря улучшениям TerminalBench; также использовано 81 млн выходных токенов против 85 млн для GPT‑5, что снизило стоимость прогона примерно с ~$913 до ~$859 обзор индекса. Динамическая панель в реальном времени разбивает по‑оценочные дельты и компромиссы по стоимости/задержке, полезные для маршрутизации и бюджета сайт анализа.\n\n\n)

AIA-прогнозист Bridgewater достигает экспертного уровня на ForecastBench с агентным поиском.

Bridgewater’s AIA Forecaster объединяет агентский поиск по высококачественным новостям, супервайзера, который согласует разнородные прогнозы, и калибровку (например, Platt scaling), чтобы соответствовать точности суперпрогнозиста на ForecastBench, обходя прежние базы LLM; на наборе ликвидных рынков рынки всё ещё лидируют, но ансамбли с моделью улучшают точность paper abstract. Для операций это аргумент в пользу управляемых многогентных пайплайнов вместо одиночных суждений.

Бенчмарк BEAM достигает чатов на 10 млн токенов; стек памяти LIGHT превосходит длинный контекст

BEAM представляет ультра‑длинные оценки диалогов до 10M токенов и демонстрирует LIGHT — гибрид эпизодического извлечения, рабочей памяти и scratchpad — который последовательно превосходит зависимость от огромных окон контекста в одиночку, с отмеченными в среднем приростами по моделям и явным снижением эффективности долгcontext‑моделей по мере роста длины paper abstract. Для агентов, которым необходимо сохранять состояние на протяжении нескольких дней, это отдаёт предпочтение явным стекам памяти перед большими окнами.)

Модель вознаграждения за краткость урезает токены примерно на 20% и повышает точность 7B на 8,1%.

Модель вознаграждения за краткость, которая предоставляет бонусы за краткость только тогда, когда финальные ответы верны, предотвращает сокращение длины/обучения, достигая точности на +8.1% при примерно на 19.9% меньшем количестве токенов на базе 7B для задач по математике; бонус затухает по мере обучения и масштабируется по сложности paper abstract. Это практический рецепт снижения затрат на вывод в рассуждающих агентах без ущерба для качества.

Новый лидерборд по ML/HPC показывает, что агенты на базе LLM медленнее опытных людей.

Новый рейтинг SWE/ML оптимизации с человеческой базовой линией показывает, что эксперты-человеки достигают ускорения 1.00×, в то время как топовые системы на базе LLM достигают ≤0.15× на задачах ML/HPC, что подразумевает, что текущие агенты замедляют практиков для настройки производительности, несмотря на сильные баллы по кодированию в других местах leaderboard post. Используйте это как сигнал маршрутизации: сохраняйте участие человека на низовом уровне оптимизации и резервируйте агентов для скелетной работы, поиска и glue-кода.

Плотное извлечение + классификатор обогнали рационализации LLM для фактчекинга со временем выполнения на 95% меньше.

DeReC (Dense Retrieval Classification) заменяет конвейеры LLM, генерирующие обоснования, на плотный поиск доказательств и классификатор, что приводит к улучшению RAWFC F1 до 65.58% (с 61.20%), при этом время выполнения сокращается примерно на 95% (454м → 23м). Аналогичные ускорения наблюдаются на LIAR‑RAW paper abstract. Если вам нужны масштабируемые проверки правдивости, retrieval+classifier — прочная базовая линия перед разворачиванием дорогостоящей генерации.

Рубриковый бенчмарк для следования инструкциям и RL‑рецепт для агентов

Новый рубрикаторный бенчмарк и подход на основе обучения с подкреплением к выполнению инструкций выпущены, обеспечивая повторяемый способ оценки выходов агентов и обучения к соблюдению рубрики — полезно там, где субъективное соблюдение спецификаций имеет значение (например, тональность, структура) paper thread. Ожидайте больше оценок агентов, чтобы стандартизировать оценку по рубрикам с проверяемыми критериями.


Stay first in your field.

No more doomscrolling X. A crisp morning report for entrepreneurs, AI creators, and engineers. Clear updates, time-sensitive offers, and working pipelines that keep you on the cutting edge. We read the firehose and hand-pick what matters so you can act today.

I don’t have time to scroll X all day. Primer does it, filters it, done.

Renee J.

Startup Founder

The fastest way to stay professionally expensive.

Felix B.

AI Animator

AI moves at ‘blink and it’s gone’. Primer is how I don’t blink.

Alex T.

Creative Technologist

Best ROI on ten minutes of my day. I’ve shipped two features purely from their daily prompts.

Marta S.

Product Designer

From release noise to a working workflow in 15 minutes.

Viktor H

AI Artist

It’s the only digest that explains why a release matters and shows how to use it—same page, same morning.

Priya R.

Startup Founder

Stay professionally expensive

Make the right move sooner

Ship a product

WebEmailTelegram

On this page

Executive Summary
Feature Spotlight: Особенность: сигналы Gemini 3 достигли критической массы
✨ Особенность: сигналы Gemini 3 достигли критической массы
“Gemini 3.0 Pro” обнаружено внутри селектора агентов Enterprise.
Сундар повышает до 69% шансы Polymarket на Gemini 3 к 22 ноября
«Riftrunner» вновь появляется на аренах и в инструментах как вероятный тег Gemini 3.
Разговоры о сроках сходятся на следующей неделе, скорее всего во время AIE Code
Шум вокруг Nano‑Banana 2 намекает на обновлённый стек изображений наряду с Gemini 3
📊 Бенчмарки: GPT‑5.1 Codex лидирует в SWE‑Bench; финансовый агент — передовые достижения.
GPT‑5.1 Codex возглавляет SWE‑Bench с показателем 70,4% и примерно в 26 раз дешевле Sonnet 4.5
GPT‑5.1 возглавляет бенчмарк искусственного интеллекта финансового агента Vals на 0,6 процентного пункта.
Искусственный анализ: GPT‑5.1 +2 по Индексу интеллекта; 81 млн против 85 млн выходных токенов
AIA-прогнозист Bridgewater достигает экспертного уровня на ForecastBench с агентным поиском.
Бенчмарк BEAM достигает чатов на 10 млн токенов; стек памяти LIGHT превосходит длинный контекст
Модель вознаграждения за краткость урезает токены примерно на 20% и повышает точность 7B на 8,1%.
Новый лидерборд по ML/HPC показывает, что агенты на базе LLM медленнее опытных людей.
Плотное извлечение + классификатор обогнали рационализации LLM для фактчекинга со временем выполнения на 95% меньше.
Рубриковый бенчмарк для следования инструкциям и RL‑рецепт для агентов
🧰 Агентские стеки кодирования и улучшение опыта разработчика
Evalite добавляет агрессивное кеширование моделей, чтобы снизить затраты на оценку и время итераций.
Qwen Code v0.2.1: веб‑поиск, нечеткие правки кода, поддержка Zed, инструменты для обычного текста
Vercel публикует практическое руководство по развертыванию внутренних агентов
Amp Free соединяет цепочку ad→search→playground в запускаемое демо RF‑DETR примерно за 30 секунд
Cline обеспечивает Hermes‑4 70B/405B на VS Code, JetBrains и через CLI
Обзор крупных AI‑диффов с помощью стека PR Graphite для вывода Claude Code
Поваренная книга OpenAI GPT‑5.1 систематизирует инструменты планирования и шаблоны сохранения
Amp публикует практическое руководство по управлению контекстом для программных агентов
Memex desktop добавляет просмотрщик кода для проверки изменений, внесённых агентом.
v0 теперь сообщает время, файлы, LOC и кредиты после каждого поколения
🕸️ Совместимость: MCP в реальном мире
Groq напрямую подключает удалённый MCP-сервер Box к своему API Responses.
rtrvr.ai превращает расширение Chrome в удалённый MCP-сервер, которым может управлять любой агент.
MCP отмечает год: Anthropic × Gradio запускают общественный хакатон
AITinkerers Web Agents Hackathon освещает прагматичный MCP-совместимый стек.
🛡️ Безопасность: вторжения, управляемые ИИ, и более безопасные помощники
Anthropic: участник, связанный с Китаем, автоматизировал 80–90% шпионажа с помощью Claude Code
OpenAI сопротивляется требованию NYT о 20 млн чатов, ускоряет шифрование на стороне клиента
Perplexity Comet добавляет запросы на разрешение и прозрачный просмотр для рискованных действий
APIs не являются защитой от злоупотреблений, утверждают лидеры открытого ПО.
🏗️ ИИ-датцентры, энергопотребление и ограничения памяти
Google выделяет 40 миллиардов долларов на три техасских дата-центра ИИ с соглашениями по мощности 6,2 ГВт.
Samsung повышает контракты на DDR5 на 30–60%, поскольку спрос на ИИ сжимает предложение.
Местное противодействие дата-центрам ускоряется; проекты на сумму 98 млрд долларов заблокированы или задержаны.
💼 Внедрение на предприятиях и сигналы выхода на рынок
Темп OpenAI: доход примерно $6 млрд за первое полугодие, ARR около $13 млрд к июню; цель — около $20 млрд к концу года.
Meta будет оценивать «влияние, управляемое ИИ» в обзорах 2026 года; помощник помогает писать самооценки.
OpenAI будет деидентифицировать выборку из 20 млн чатов под протест и ускорит клиентское шифрование на стороне клиента.
Беркшир увеличивает свою долю в Alphabet примерно на $4,3 млрд, сокращает долю в Apple на 15%; рассматривайте это как ставку на распространение ИИ
Comet от Perplexity добавляет ворота разрешений для входа и покупок и отображает все действия при просмотре.
Genspark сообщает, что стек AWS снизил затраты на GPU на 60–70% и снизил инференс на 72% благодаря кэшированию подсказок.
OpenRouter добавляет резервные способы оплаты, чтобы предотвратить простои при автоматическом пополнении.
🧠 Обновления моделей и API (не Gemini)
Anthropic приносит структурированные выходные данные (публичная бета-версия) в Claude API
Дорожная карта Grok‑5: параметры 6T, мультимодальность, цель на Q1’26
GPT‑5.1 выходит на Replicate с интерфейсом быстрого старта.
Qwen Code v0.2.1 поставляется с бесплатным веб-поиском и более умным редактированием.
Claude Opus 4.5 появляется в метаданных CLI
Cline интегрирует Hermes‑4 70B/405B по агрессивным ценам на токены
OpenAI публикует руководство по подсказкам GPT‑5.1 и оптимизатор
🎬 Creative AI: реклама, редизайн и инструменты для видео
Higgsfield запускает Click‑To‑Ad и проводит Черную пятницу с неограниченным количеством моделей изображений
NotebookLM добавляет изображения в качестве источников; Veo 3.1 поддерживает несколько эталонных изображений
ElevenLabs обновляет мобильное приложение для создания и клонирования голосов на устройстве
LSD v2 обеспечивает стилизацию видео в реальном времени с большей временной согласованностью
Рабочий процесс Higgsfield Recast + Face Swap распространяется для быстрой замены персонажей.
Grok Imagine: преобразование текста в видео вызывает новую похвалу со стороны создателей и тесты состояния потока
ImagineArt показывает узловые рабочие пространства для последовательных циклов изображения→видео
Совет по локальному TTS: mlx_audio быстро запускает голоса Kokoro на Mac через CLI
🦾 Воплощённый ИИ: роботизированная ловкость и агентное игровое поведение
SIMA 2 от DeepMind использует Gemini для планирования и действий в ранее неведанных 3D-играх.
Клип Unitree G1 помечен как не дистанционно управляемый, вызывает спор об автономии.
UBTech Walker S2 выходит на масштабное внедрение на заводах с автоматической сменой батарей; запланировано 500 единиц.
MindOn тестирует Unitree G1 для бытовых задач с новым аппаратно-программным стеком
Роботизированные руки ALLEX демонстрируют точный микроподбор и крепление с безопасным взаимодействием человека и робота.
Китай проводит испытания роботизированных дорожных конусов, которые автоматически ограждают место ДТП менее чем за 10 секунд.
📚 Исследования: саморазвивающиеся агенты, память и эффективное рассуждение
Плотное извлечение + классификатор (DeReC) превосходит рассуждения LLM и сокращает время выполнения примерно на 95%.
Крошечный кэш для Agent‑RAG обслуживает ответы из примерно 0,015% корпуса
Открытый мир с множеством агентов ‘Station’ устанавливает SOTA по упаковке кругов и Sokoban
По принципу on-policy, дистилляция «чёрного ящика» (GAD) толкает модель размером 14 млрд параметров к GPT‑5‑Chat
Следование инструкциям против функциональности: больше инструкций — больше регрессии.
Умная маршрутизация инструментов повышает показатель recall в топ‑5 на 19,4% на LiveMCPBench
Agent‑RAG для финтеха повышает точность ответов за счёт расширения аббревиатур и усовершенствованного поиска
DreamGym использует среды, смоделированные с помощью LLM, чтобы масштабировать обучение с подкреплением и ускорить перенос из симуляции в реальный мир
Доктор MAMR рассматривает проблемы ленивых мультиагентных сбоев с причинным влиянием и перезапуском.
Решатель векторной символьной алгебры достигает 83,1% на 1D‑ARC и 94,5% на Sort‑of‑ARC