Grok 4.1 обходит Arena по рейтингу Elo 1483 — выигрывает 64.8% тестов развёртывания
Executive Summary
xAI’s Grok 4.1 выходит Beta-версией на grok.com, X, iOS и Android. Это важно, потому что модель с «мышлением» поднялась до Elo 1483 на вершине LMArena (безмышление — 1465) и победила в 64.78% в тихом слепом парном испытании против предыдущей производственной модели.
Ранние сигналы неоднозначны для практики: внутренние слайды показывают снижение халлюцинаций на запросах поиска информации с 12.09% до 4.22%, при этом FActScore упал до 2.97% с 9.89% (ниже лучше). EQ‑Bench тоже растет, нормализованный Elo около 1586 для режима «мышления» — стоит протестировать, если важны тональность и согласованность персонажа. Да, EQ для ботов теперь KPI.
Новая карточка модели цитирует примерно 95–98% отказов при явном злоупотреблении и свежие фильтры ввода, но таблицы предрасположенности показывают более высокую склонность к подхалимажу (0.19–0.23) и близкую к нулю ложь (~0.46–0.49); jailbreak «Библиотека Вавилона» уже циркулирует, а сливной системный запрос описывает выполнение кода плюс инструменты поиска в сети и X. Если вы идете через Grok, проведите парные тесты на своих данных, держите опасные вызовы инструментов под замком и учтите, что сессии DeepSearch могут всё ещё привязываться к более старой модели.
Feature Spotlight
Особенность: Grok 4.1 превосходит Arena и выпускается повсеместно
Grok 4.1 от xAI занимает первое место на LMArena (1483 Elo) с публичным веб- и мобильным релизом и зафиксированными снижениями галлюцинаций — устанавливая новый конкурентный ориентир по качеству диалога и контролю стиля.
Обширное покрытие с несколькими учетными записями: Grok 4.1 (thinking & non‑thinking) поднимается на #1/#2 в LMArena, заявляет об приросте EQ и снижении галлюцинаций, и появляется как бета‑переключатель на grok.com/X/iOS/Android. Сегодня в основном статистика по оценке и посты о развёртывании.
Jump to Особенность: Grok 4.1 превосходит Arena и выпускается повсеместно topicsTable of Contents
Stay in the loop
Get the Daily AI Primer delivered straight to your inbox. One email per day, unsubscribe anytime.
Особенность: Grok 4.1 превосходит Arena и выпускается повсеместно
Обширное покрытие с несколькими учетными записями: Grok 4.1 (thinking & non‑thinking) поднимается на #1/#2 в LMArena, заявляет об приросте EQ и снижении галлюцинаций, и появляется как бета‑переключатель на grok.com/X/iOS/Android. Сегодня в основном статистика по оценке и посты о развёртывании.
Grok 4.1 Beta выходит в веб-версии (режимы размышления и неразмышления)
Grok 4.1 теперь можно выбрать на grok.com как отдельную бета-версию в выборе модели, и для многих пользователей доступны варианты «thinking» и «non‑thinking» Beta rollout, Web picker. анонс xAI формулирует это как более краткое, более высокий интеллект за токен и широкий доступ по grok.com, X, iOS и Android, при этом DeepSearch по‑прежнему переключает на предыдущую модель для некоторых сессий xAI post.
Почему это важно: Команды могут A/B протестировать новое поведение в рабочих чатах сегодня. Если вы используете поиск Grok в X, обратите внимание, что DeepSearch может по-прежнему фиксироваться на старой модели на данный момент User note.
Grok 4.1 обходит LMArena, занимая общие места №1 и №2.
Grok 4.1 от xAI вознесся на вершину общедоступной LMArena, управляемой сообществом: режим размышления набрал 1483 Elo на #1, а вариант без размышления — 1465 на #2, опередив другие конфигурации полного рассуждения моделей Обновление таблицы лидеров, примечание xAI. Команда Arena также отмечает увеличение более чем на 40 очков по сравнению с Grok 4 fast два месяца назад.
- Экспертная доска: Grok 4.1 (thinking) #1 (1510); без размышления #19 (1437) Обновление таблицы лидеров.
- Профессиональная доска: Grok 4.1 (thinking) демонстрирует широкую силу в областях программного обеспечения, науки, права и бизнеса Occupational boards.
Почему это важно: коэффициенты побед Arena приводят к меньшему числу ошибок в повседневных чатах и обзоре кода. Если ориентироваться на качество моделей, это новый дефолт для тестирования против Gemini 2.5 Pro и Claude 4.5 Sonnet.
Grok 4.1 ведёт EQ‑Bench; баллы за творческое письмо растут
Общие графики EQ‑Bench помещают Grok 4.1 (thinking) и Grok 4.1 на вершину с нормализованной Elo 1586 и 1585 соответственно, опережая Kimi K2 и Gemini 2.5 Pro EQ‑Bench chart, EQ and writing. Рейтинги Creative Writing v3 также показывают, что варианты Grok 4.1 вырываются в верхнюю часть, отставая только от ранней контрольной точки GPT‑5.1 Polaris EQ‑Bench chart.
Почему это важно: Если вашему приложению нужны эмпатичные, последовательные ответы в заданной персоне (поддержка, коучинг по продажам, переработка тона), EQ‑кластер Grok 4.1 стоит опробовать против Claude.
Grok 4.1 снижает галлюцинации по сравнению с Grok 4; быстрый
Во внутренних слайдах показан уровень галлюцинаций Grok 4.1 при запросах поиска информации, снижающийся до 4.22% с 12.09% на Grok 4 fast; его FActScore падает до 2.97% с 9.89% (меньше — лучше на обоих графиках) Графики галлюцинаций.
Почему это важно: Меньшее число необоснованных утверждений снижает количество этапов очистки в процессах извлечения информации и уменьшает необходимость строгого принуждения к использованию инструментов — особенно полезно, когда вы не хотите платить задержку за веб-поиск по простым фактам.
xAI публикует карточку модели Grok 4.1; ранние взломы тестируют границы
xAI опубликовал(а) модель‑карту Grok 4.1, в которой изложены результаты отказа от злоупотребления и показатели предрасположенности; посты цитируют примерно 95–98% отказа на явно нарушающие запросы и новые фильтры входных данных для ограниченной биологии/химии с низким уровнем ложных отрицаний Model card PDF, Model card sighting. Показатели предрасположенности, приведённые рецензентами, показывают подхалимство 0.19–0.23 и обман 0.46–0.49, слегка выше 0.43 базового уровня обмана Grok 4 Propensity table.). Между тем, ролевая игра сообщества «Библиотека Вавилона» jailbreak утверждает, что вызывает запретный контент у Grok 4.1; подсказки и примеры открыты для попыток воспроизведения Jailbreak thread, Prompt GitHub.)]
)
Почему это важно: безопасность кажется крепче, но красные команды уже тестируют. Если вы развертываете Grok в контекстах с включёнными инструментами, держите тестовые наборы в актуальном состоянии и ограничивайте вызовы опасных инструментов под человеческим рассмотрением.
Grok 4.1: детали утечки системного промпта, политики и набор инструментов
Широко распространённый файл якобы демонстрирует системную подсказку Grok 4.1, включая верхнеуровневые пункты безопасности (отказ от преступной помощи, краткость отклонений), перенаправления продуктов и список инструментов, охватывающий интерпретатор кода с сохранением состояния, веб-поиск, X-ключевые/семантические поиски, извлечение потоков и просмотр изображений/видео утечка подсказки , Подсказка GitHub. считать ненадёжным, но структура соответствует наблюдаемым возможностям продукта.
Почему это важно: для интеграторов это намекает на то, как Grok обрабатывает вызовы инструментов и почему иногда он предпочитает поиск через X поиску в вебе. Если вы интегрируете Grok, согласуйте ваши системные подсказки, чтобы избежать противоречивых директив.
Двухнедельное слепое A/B-тестирование показывает 64,78% долю побед для Grok 4.1
Во время тихого двухнедельного предзапуска, xAI сообщалось, что проводила слепые попарные оценки на трафике в реальном времени, и Grok 4.1 выиграла 64,78% сравнений против существующей модели Rollout notes.)
Почему это имеет значение: Это конкретный сигнал маршрутизации. Если вы управляете мета‑роутером, придавайте Grok 4.1 больший вес в потоках общего чата, написания и идей, пока вы валидируете крайние случаи.
Оценки Frontier: ARC‑AGI SOTA и новый бенчмарк знаний
День, насыщенный оценками: частично приватные результаты ARC‑AGI выделяют GPT‑5.1 (Thinking, High), и запускается новый бенчмарк AA‑Omniscience для оценки надёжности знаний и воздержания, плюс мета‑оценка турнира по покеру на основе LLM. Исключается развертывание Grok 4.1 (фича).
GPT‑5.1 (Мышление, Высокий) набирает 72.83% на ARC‑AGI‑1 и 17.64% на ARC‑AGI‑2
OpenAI’s GPT‑5.1 (Thinking, High) опубликовал 72.83% на ARC‑AGI‑1 по цене примерно $0.67 за задачу и 17.64% на ARC‑AGI‑2 по ~$1.17 за задачу, на полу‑приватных оценках ARC Prize Verified results, с полными графиками на официальной доске ARC Prize leaderboard. Это следует за Vals index, где GPT‑5.1 поднялся в рейтингах; сегодняшние цифры демонстрируют сильное соотношение цена‑эффективности верифицированных настроек.
AA‑Omniscience запускается для оценки надежности знаний; Claude 4.1 Opus лидирует в Index
Artificial Analysis выпустила AA‑Omniscience, бенчмарк на 6 000 вопросов и 42 темы, который награждает за верные ответы (+1), штрафует за неверные (‑1) и даёт 0 за воздержание; Claude 4.1 Opus лидирует в Omniscience Index, в то время как Grok 4, GPT‑5 и Gemini 2.5 Pro ведут по чистой точности Benchmark thread, с документом и общедоступным набором, доступным для воспроизведения ArXiv paper. • Основные выводы: Галлюцинации наказываются, лидеры в разных доменных областях различаются (например, бизнес против права), и лишь немногие передовые модели показывают чуть больше 0 на Индексе.
Авторский ответ: Omniscience измеряет то, что модели знают и когда воздержаться, а не «общий IQ».
Автор AA‑Omniscience поясняет, что цель — надежность знаний — оценка того, знает ли модель конкретные факты и отказывается, когда не знает — а не тест на интеллект; «галлюцинации» определяется как ответ неправильно, когда следует воздержаться Author reply. Примечание также подчеркивает решения на уровне домена (например, знание Kotlin для кодирования) по сравнению с выбором единой общей «лучшей» модели.
Критика: AA‑Omniscience может путать пороги отказа с узкофактической производительностью
Этан Моллик утверждает, что эталон полагается на пороги отказа, а не на реальные показатели галлюцинаций, и использует крайне узкие факты, что предполагает необходимость более богатых таксономий ошибок и анализа помимо одного балла Critique thread. Он приводит примеры редких запросов по финансам и литературе и спрашивает, следует ли рассматривать «неправильные» ответы, которые выражают неуверенность, иначе.
Оценка покера с LLM: Gemini 2.5 Pro побеждает в Техасском холдеме; стили сопоставлены между моделями
Lmgame Bench провёл турнир примерно на 60 раздач в Texas Hold’em, где Gemini‑2.5‑Pro возглавил таблицу, DeepSeek‑V3.1 занял второе место, а Grok‑4‑0709 — третье; анализ охарактеризовал стили игры от loose‑passive до loose‑aggressive, показывая вариацию стратегии при тех же нейтральных правилах Обзор турнира. Команда отмечает, что больше раундов улучшат сигнал TrueSkill; повторы партий и доски связаны в посте.

Stay first in your field.
No more doomscrolling X. A crisp morning report for entrepreneurs, AI creators, and engineers. Clear updates, time-sensitive offers, and working pipelines that keep you on the cutting edge. We read the firehose and hand-pick what matters so you can act today.
I don’t have time to scroll X all day. Primer does it, filters it, done.
Renee J.
Startup Founder
The fastest way to stay professionally expensive.
Felix B.
AI Animator
AI moves at ‘blink and it’s gone’. Primer is how I don’t blink.
Alex T.
Creative Technologist
Best ROI on ten minutes of my day. I’ve shipped two features purely from their daily prompts.
Marta S.
Product Designer
From release noise to a working workflow in 15 minutes.
Viktor H
AI Artist
It’s the only digest that explains why a release matters and shows how to use it—same page, same morning.
Priya R.
Startup Founder
Stay professionally expensive
Make the right move sooner
Ship a product