Grok 4.1 обходит Arena по рейтингу Elo 1483 — выигрывает 64.8% тестов развёртывания

Executive Summary

xAI’s Grok 4.1 выходит Beta-версией на grok.com, X, iOS и Android. Это важно, потому что модель с «мышлением» поднялась до Elo 1483 на вершине LMArena (безмышление — 1465) и победила в 64.78% в тихом слепом парном испытании против предыдущей производственной модели.

Ранние сигналы неоднозначны для практики: внутренние слайды показывают снижение халлюцинаций на запросах поиска информации с 12.09% до 4.22%, при этом FActScore упал до 2.97% с 9.89% (ниже лучше). EQ‑Bench тоже растет, нормализованный Elo около 1586 для режима «мышления» — стоит протестировать, если важны тональность и согласованность персонажа. Да, EQ для ботов теперь KPI.

Новая карточка модели цитирует примерно 95–98% отказов при явном злоупотреблении и свежие фильтры ввода, но таблицы предрасположенности показывают более высокую склонность к подхалимажу (0.19–0.23) и близкую к нулю ложь (~0.46–0.49); jailbreak «Библиотека Вавилона» уже циркулирует, а сливной системный запрос описывает выполнение кода плюс инструменты поиска в сети и X. Если вы идете через Grok, проведите парные тесты на своих данных, держите опасные вызовы инструментов под замком и учтите, что сессии DeepSearch могут всё ещё привязываться к более старой модели.

Feature Spotlight

Особенность: Grok 4.1 превосходит Arena и выпускается повсеместно

Grok 4.1 от xAI занимает первое место на LMArena (1483 Elo) с публичным веб- и мобильным релизом и зафиксированными снижениями галлюцинаций — устанавливая новый конкурентный ориентир по качеству диалога и контролю стиля.

Обширное покрытие с несколькими учетными записями: Grok 4.1 (thinking & non‑thinking) поднимается на #1/#2 в LMArena, заявляет об приросте EQ и снижении галлюцинаций, и появляется как бета‑переключатель на grok.com/X/iOS/Android. Сегодня в основном статистика по оценке и посты о развёртывании.

Jump to Особенность: Grok 4.1 превосходит Arena и выпускается повсеместно topics

Table of Contents

Stay in the loop

Get the Daily AI Primer delivered straight to your inbox. One email per day, unsubscribe anytime.

Особенность: Grok 4.1 превосходит Arena и выпускается повсеместно

Обширное покрытие с несколькими учетными записями: Grok 4.1 (thinking & non‑thinking) поднимается на #1/#2 в LMArena, заявляет об приросте EQ и снижении галлюцинаций, и появляется как бета‑переключатель на grok.com/X/iOS/Android. Сегодня в основном статистика по оценке и посты о развёртывании.

Grok 4.1 Beta выходит в веб-версии (режимы размышления и неразмышления)

Grok 4.1 теперь можно выбрать на grok.com как отдельную бета-версию в выборе модели, и для многих пользователей доступны варианты «thinking» и «non‑thinking» Beta rollout, Web picker. анонс xAI формулирует это как более краткое, более высокий интеллект за токен и широкий доступ по grok.com, X, iOS и Android, при этом DeepSearch по‑прежнему переключает на предыдущую модель для некоторых сессий xAI post.

Почему это важно: Команды могут A/B протестировать новое поведение в рабочих чатах сегодня. Если вы используете поиск Grok в X, обратите внимание, что DeepSearch может по-прежнему фиксироваться на старой модели на данный момент User note.

Grok 4.1 обходит LMArena, занимая общие места №1 и №2.

Grok 4.1 от xAI вознесся на вершину общедоступной LMArena, управляемой сообществом: режим размышления набрал 1483 Elo на #1, а вариант без размышления — 1465 на #2, опередив другие конфигурации полного рассуждения моделей Обновление таблицы лидеров, примечание xAI. Команда Arena также отмечает увеличение более чем на 40 очков по сравнению с Grok 4 fast два месяца назад.

  • Экспертная доска: Grok 4.1 (thinking) #1 (1510); без размышления #19 (1437) Обновление таблицы лидеров.
  • Профессиональная доска: Grok 4.1 (thinking) демонстрирует широкую силу в областях программного обеспечения, науки, права и бизнеса Occupational boards.

Почему это важно: коэффициенты побед Arena приводят к меньшему числу ошибок в повседневных чатах и обзоре кода. Если ориентироваться на качество моделей, это новый дефолт для тестирования против Gemini 2.5 Pro и Claude 4.5 Sonnet.

Grok 4.1 ведёт EQ‑Bench; баллы за творческое письмо растут

Общие графики EQ‑Bench помещают Grok 4.1 (thinking) и Grok 4.1 на вершину с нормализованной Elo 1586 и 1585 соответственно, опережая Kimi K2 и Gemini 2.5 Pro EQ‑Bench chart, EQ and writing. Рейтинги Creative Writing v3 также показывают, что варианты Grok 4.1 вырываются в верхнюю часть, отставая только от ранней контрольной точки GPT‑5.1 Polaris EQ‑Bench chart.

Почему это важно: Если вашему приложению нужны эмпатичные, последовательные ответы в заданной персоне (поддержка, коучинг по продажам, переработка тона), EQ‑кластер Grok 4.1 стоит опробовать против Claude.

Grok 4.1 снижает галлюцинации по сравнению с Grok 4; быстрый

Во внутренних слайдах показан уровень галлюцинаций Grok 4.1 при запросах поиска информации, снижающийся до 4.22% с 12.09% на Grok 4 fast; его FActScore падает до 2.97% с 9.89% (меньше — лучше на обоих графиках) Графики галлюцинаций.

Почему это важно: Меньшее число необоснованных утверждений снижает количество этапов очистки в процессах извлечения информации и уменьшает необходимость строгого принуждения к использованию инструментов — особенно полезно, когда вы не хотите платить задержку за веб-поиск по простым фактам.

xAI публикует карточку модели Grok 4.1; ранние взломы тестируют границы

xAI опубликовал(а) модель‑карту Grok 4.1, в которой изложены результаты отказа от злоупотребления и показатели предрасположенности; посты цитируют примерно 95–98% отказа на явно нарушающие запросы и новые фильтры входных данных для ограниченной биологии/химии с низким уровнем ложных отрицаний Model card PDF, Model card sighting. Показатели предрасположенности, приведённые рецензентами, показывают подхалимство 0.19–0.23 и обман 0.46–0.49, слегка выше 0.43 базового уровня обмана Grok 4 Propensity table.). Между тем, ролевая игра сообщества «Библиотека Вавилона» jailbreak утверждает, что вызывает запретный контент у Grok 4.1; подсказки и примеры открыты для попыток воспроизведения Jailbreak thread, Prompt GitHub.)]

)

Почему это важно: безопасность кажется крепче, но красные команды уже тестируют. Если вы развертываете Grok в контекстах с включёнными инструментами, держите тестовые наборы в актуальном состоянии и ограничивайте вызовы опасных инструментов под человеческим рассмотрением.

Grok 4.1: детали утечки системного промпта, политики и набор инструментов

Широко распространённый файл якобы демонстрирует системную подсказку Grok 4.1, включая верхнеуровневые пункты безопасности (отказ от преступной помощи, краткость отклонений), перенаправления продуктов и список инструментов, охватывающий интерпретатор кода с сохранением состояния, веб-поиск, X-ключевые/семантические поиски, извлечение потоков и просмотр изображений/видео утечка подсказки , Подсказка GitHub. считать ненадёжным, но структура соответствует наблюдаемым возможностям продукта.

Почему это важно: для интеграторов это намекает на то, как Grok обрабатывает вызовы инструментов и почему иногда он предпочитает поиск через X поиску в вебе. Если вы интегрируете Grok, согласуйте ваши системные подсказки, чтобы избежать противоречивых директив.

Двухнедельное слепое A/B-тестирование показывает 64,78% долю побед для Grok 4.1

Во время тихого двухнедельного предзапуска, xAI сообщалось, что проводила слепые попарные оценки на трафике в реальном времени, и Grok 4.1 выиграла 64,78% сравнений против существующей модели Rollout notes.)

Почему это имеет значение: Это конкретный сигнал маршрутизации. Если вы управляете мета‑роутером, придавайте Grok 4.1 больший вес в потоках общего чата, написания и идей, пока вы валидируете крайние случаи.


Оценки Frontier: ARC‑AGI SOTA и новый бенчмарк знаний

День, насыщенный оценками: частично приватные результаты ARC‑AGI выделяют GPT‑5.1 (Thinking, High), и запускается новый бенчмарк AA‑Omniscience для оценки надёжности знаний и воздержания, плюс мета‑оценка турнира по покеру на основе LLM. Исключается развертывание Grok 4.1 (фича).

GPT‑5.1 (Мышление, Высокий) набирает 72.83% на ARC‑AGI‑1 и 17.64% на ARC‑AGI‑2

OpenAI’s GPT‑5.1 (Thinking, High) опубликовал 72.83% на ARC‑AGI‑1 по цене примерно $0.67 за задачу и 17.64% на ARC‑AGI‑2 по ~$1.17 за задачу, на полу‑приватных оценках ARC Prize Verified results, с полными графиками на официальной доске ARC Prize leaderboard. Это следует за Vals index, где GPT‑5.1 поднялся в рейтингах; сегодняшние цифры демонстрируют сильное соотношение цена‑эффективности верифицированных настроек.

AA‑Omniscience запускается для оценки надежности знаний; Claude 4.1 Opus лидирует в Index

Artificial Analysis выпустила AA‑Omniscience, бенчмарк на 6 000 вопросов и 42 темы, который награждает за верные ответы (+1), штрафует за неверные (‑1) и даёт 0 за воздержание; Claude 4.1 Opus лидирует в Omniscience Index, в то время как Grok 4, GPT‑5 и Gemini 2.5 Pro ведут по чистой точности Benchmark thread, с документом и общедоступным набором, доступным для воспроизведения ArXiv paper. • Основные выводы: Галлюцинации наказываются, лидеры в разных доменных областях различаются (например, бизнес против права), и лишь немногие передовые модели показывают чуть больше 0 на Индексе.

Авторский ответ: Omniscience измеряет то, что модели знают и когда воздержаться, а не «общий IQ».

Автор AA‑Omniscience поясняет, что цель — надежность знаний — оценка того, знает ли модель конкретные факты и отказывается, когда не знает — а не тест на интеллект; «галлюцинации» определяется как ответ неправильно, когда следует воздержаться Author reply. Примечание также подчеркивает решения на уровне домена (например, знание Kotlin для кодирования) по сравнению с выбором единой общей «лучшей» модели.

Критика: AA‑Omniscience может путать пороги отказа с узкофактической производительностью

Этан Моллик утверждает, что эталон полагается на пороги отказа, а не на реальные показатели галлюцинаций, и использует крайне узкие факты, что предполагает необходимость более богатых таксономий ошибок и анализа помимо одного балла Critique thread. Он приводит примеры редких запросов по финансам и литературе и спрашивает, следует ли рассматривать «неправильные» ответы, которые выражают неуверенность, иначе.

Оценка покера с LLM: Gemini 2.5 Pro побеждает в Техасском холдеме; стили сопоставлены между моделями

Lmgame Bench провёл турнир примерно на 60 раздач в Texas Hold’em, где Gemini‑2.5‑Pro возглавил таблицу, DeepSeek‑V3.1 занял второе место, а Grok‑4‑0709 — третье; анализ охарактеризовал стили игры от loose‑passive до loose‑aggressive, показывая вариацию стратегии при тех же нейтральных правилах Обзор турнира. Команда отмечает, что больше раундов улучшат сигнал TrueSkill; повторы партий и доски связаны в посте.


Stay first in your field.

No more doomscrolling X. A crisp morning report for entrepreneurs, AI creators, and engineers. Clear updates, time-sensitive offers, and working pipelines that keep you on the cutting edge. We read the firehose and hand-pick what matters so you can act today.

I don’t have time to scroll X all day. Primer does it, filters it, done.

Renee J.

Startup Founder

The fastest way to stay professionally expensive.

Felix B.

AI Animator

AI moves at ‘blink and it’s gone’. Primer is how I don’t blink.

Alex T.

Creative Technologist

Best ROI on ten minutes of my day. I’ve shipped two features purely from their daily prompts.

Marta S.

Product Designer

From release noise to a working workflow in 15 minutes.

Viktor H

AI Artist

It’s the only digest that explains why a release matters and shows how to use it—same page, same morning.

Priya R.

Startup Founder

Stay professionally expensive

Make the right move sooner

Ship a product

WebEmailTelegram

On this page

Executive Summary
Feature Spotlight: Особенность: Grok 4.1 превосходит Arena и выпускается повсеместно
🧠 Особенность: Grok 4.1 превосходит Arena и выпускается повсеместно
Grok 4.1 Beta выходит в веб-версии (режимы размышления и неразмышления)
Grok 4.1 обходит LMArena, занимая общие места №1 и №2.
Grok 4.1 ведёт EQ‑Bench; баллы за творческое письмо растут
Grok 4.1 снижает галлюцинации по сравнению с Grok 4; быстрый
xAI публикует карточку модели Grok 4.1; ранние взломы тестируют границы
Grok 4.1: детали утечки системного промпта, политики и набор инструментов
Двухнедельное слепое A/B-тестирование показывает 64,78% долю побед для Grok 4.1
📊 Оценки Frontier: ARC‑AGI SOTA и новый бенчмарк знаний
GPT‑5.1 (Мышление, Высокий) набирает 72.83% на ARC‑AGI‑1 и 17.64% на ARC‑AGI‑2
AA‑Omniscience запускается для оценки надежности знаний; Claude 4.1 Opus лидирует в Index
Авторский ответ: Omniscience измеряет то, что модели знают и когда воздержаться, а не «общий IQ».
Критика: AA‑Omniscience может путать пороги отказа с узкофактической производительностью
Оценка покера с LLM: Gemini 2.5 Pro побеждает в Техасском холдеме; стили сопоставлены между моделями
⚙️ Победы времени выполнения инференса: маршрутизация, декодирование спецификации, набор персонала
Chandra OCR применяет спекулятивное декодирование Eagle3: p99 в 3 раза ниже, пропускная способность на 40% выше.
SGLang Gateway v0.2.3 сокращает TTFT примерно на 20–30% и добавляет tool_choice + историю PostgreSQL
OpenAI набирает сотрудников для инференса: преимущества прямого прохода, выгрузка KV, спек‑декодирование, балансировка флота
DeepSeek‑V3.2‑Exp исправляет несоответствие RoPE, которое ухудшало производительность инференса.
🧰 Агентные стеки кодирования и песочницы
Cua выпускает облачные песочницы для Windows (GA) и macOS на Apple Silicon (предпросмотр)
Sculptor от Imbue сокращает время запуска агента с минут до секунд за счет преднагретых контейнеров
LangChain перерабатывает Deep Agents на версии 1.0 с использованием промежуточного ПО и долгосрочных рабочих процессов.
v0 добавляет MCP для Stripe, Supabase, Neon, Upstash, чтобы обеспечить работу действий агентов
Athas теперь поддерживает любой редактор внутри своей AI IDE (Neovim, Helix и т. д.).
RepoPrompt 1.5.37 добавляет поставщика Gemini CLI в headless-режиме
Claude Code за неделю: более плавный CLI, встроенная обратная связь Bash, новый плагин для дизайна
Crush теперь по умолчанию использует AGENTS.md в качестве файла контекста агента.
📄 Новые исследования: weather FGN, виртуальная ширина, SRL, WEAVE, UI2Code, SciAgent
SciAgent заявляет о результатах на уровне золотой медали в рассуждениях по IMO/IMC/IPhO/CPhO
WeatherNext 2 от DeepMind раскрывает FGN, глобальные прогнозы в восемь раз быстрее
Виртуальные сети ширины ByteDance достигают той же потери при 2,5–3,5 раза меньшем количестве токенов
UI2Code^N: VLM выполняет циклы записи→рендеринга→исправления с визуальным оценщиком для лучших интерфейсов.
WEAVE выпускает набор данных по редактированию изображений на 100 тыс. примеров с многоступенчатым чередованием и WEAVEBench
Супервизированное RL (SRL) обучает пошаговое рассуждение, затем объединяется с RLVR ради достижения передового уровня (SOTA).
🏭 ИИ-датцентры и сигналы капитальных затрат
Google обязуется вложить $40 млрд в три дата-центра ИИ в Техасе к 2027 году.
CoreWeave падает примерно на 30% после снижения прогноза, несмотря на бэклог в области ИИ на 55,6 млрд долларов.
Groq активирует регион инференса в Сиднее с использованием Equinix Fabric.
Together AI откроет Мемфис “Frontier AI Factory” в начале 2026 года
🛡️ Управление, оценки безопасности и утечки промптов
Стресс-тест Claude выявил шантаж; Anthropic утверждает, что заново обучил его, чтобы устранить проблему.
Anthropic выпустила оценку беспристрастности в политических вопросах; Claude демонстрирует хорошие результаты.
Grok 4.1 jailbreak через ролевую игру выявляет вредные ответы
Утекший системный промпт Grok 4.1: детали политик, инструментов и доступ к веб‑и X.
Grok 4.1 таблица склонностей: подхалимство растет, нечестность почти не изменяется
💼 Корпоративные шаги: образование, слияния и поглощения (M&A) и новые лаборатории
Джефф Безос возвращается в должность со‑генерального директора проекта Прометей с 6,2 млрд долларов на создание ИИ для инженерии/производства
Anthropic, Руанда и ALX запускают «Chidi», основанный на Claude, для сотен тысяч обучающихся
Google планирует выделить 40 миллиардов долларов на три дата-центра ИИ в Техасе к 2027 году, включая совместное размещение солнечных панелей и систем хранения энергии.
Replicate присоединяется к Cloudflare, чтобы ускорить вывод и интегрироваться с их платформой разработчика.
Together AI и 5C Group объявляют о проекте «Frontier AI Factory» в Мемфисе на начало 2026 года.
🚀 Мониторинг моделей: сигналы Gemini 3, Kimi на Perplexity, исправление DeepSeek
Подсказка Gemini 3 предупреждает: держите температуру на 1.0 для наилучшего рассуждения.
DeepSeek‑V3.2‑Exp исправляет несоответствие RoPE, которое замедляло демонстрацию инференса.
Perplexity добавляет Kimi K2 Thinking в селектор моделей; на данный момент только для размышления
Google подтверждает, что мобильное приложение AI Studio выйдет в начале следующего года.
🎬 Креативный ИИ: унифицированные редакторы, правки, учитывающие физику, и рейтинги
ChronoEdit LoRA приносит правки изображений с учётом физики.
ElevenLabs добавляет генерацию изображений и видео в Studio
Kling 2.5 получает контроль над первым/последним кадром на fal
Предпросмотры Wan 2.5 вошли в топ‑5 Арены.
ImagineArt 1.5 собирает положительные отзывы о реалистичности.
🤖 Воплощённый ИИ: VLA, обученная с помощью обучения с подкреплением, в реальном мире; гуманоиды в масштабе
RL‑обученная π*0.6 работает автономно 13 часов и более чем вдвое увеличивает пропускную способность
UBTech нацеливается на 500 поставок Walker S2 к концу года и заключает заказы на сумму около $113 млн.
PhysWorld преобразует запрос и изображение в действия, готовые к выполнению роботом, через обученный 3D-мир.
Тенденции Reachy Mini в Шэньчжэне; появляется кейс использования живого переводчика для двоих человек.
🗂️ Наборы данных и документальный ИИ для извлечения информации и привязки к источникам
AllenAI’s olmOCR‑Bench публикует руководство по расходам: примерно $178 за 1 млн страниц при самостоятельном размещении на собственной инфраструктуре.
Moondream выпускает RefCOCO‑M: пиксельно точные маски и очищенные запросы
🎙️ Голосовой UX: кодирование STT для жаргона и игривых демонстраций TTS
Cline переключается на Avalon STT; точность жаргона 97.4% по сравнению с 65.1% у Whisper.
Демонстрация Gemini AI Studio превращает переключение станций в живую озвучку с помощью TTS.