Grok 4.1 обходит Arena по рейтингу Elo 1483 — выигрывает 64.8% тестов развёртывания

Stay in the loop

Free daily newsletter & Telegram daily report

Executive Summary

xAI’s Grok 4.1 выходит Beta-версией на grok.com, X, iOS и Android. Это важно, потому что модель с «мышлением» поднялась до Elo 1483 на вершине LMArena (безмышление — 1465) и победила в 64.78% в тихом слепом парном испытании против предыдущей производственной модели.

Ранние сигналы неоднозначны для практики: внутренние слайды показывают снижение халлюцинаций на запросах поиска информации с 12.09% до 4.22%, при этом FActScore упал до 2.97% с 9.89% (ниже лучше). EQ‑Bench тоже растет, нормализованный Elo около 1586 для режима «мышления» — стоит протестировать, если важны тональность и согласованность персонажа. Да, EQ для ботов теперь KPI.

Новая карточка модели цитирует примерно 95–98% отказов при явном злоупотреблении и свежие фильтры ввода, но таблицы предрасположенности показывают более высокую склонность к подхалимажу (0.19–0.23) и близкую к нулю ложь (~0.46–0.49); jailbreak «Библиотека Вавилона» уже циркулирует, а сливной системный запрос описывает выполнение кода плюс инструменты поиска в сети и X. Если вы идете через Grok, проведите парные тесты на своих данных, держите опасные вызовы инструментов под замком и учтите, что сессии DeepSearch могут всё ещё привязываться к более старой модели.

Feature Spotlight

Особенность: Grok 4.1 превосходит Arena и выпускается повсеместно

Grok 4.1 от xAI занимает первое место на LMArena (1483 Elo) с публичным веб- и мобильным релизом и зафиксированными снижениями галлюцинаций — устанавливая новый конкурентный ориентир по качеству диалога и контролю стиля.

Обширное покрытие с несколькими учетными записями: Grok 4.1 (thinking & non‑thinking) поднимается на #1/#2 в LMArena, заявляет об приросте EQ и снижении галлюцинаций, и появляется как бета‑переключатель на grok.com/X/iOS/Android. Сегодня в основном статистика по оценке и посты о развёртывании.

Jump to Особенность: Grok 4.1 превосходит Arena и выпускается повсеместно topics

🧠 Особенность: Grok 4.1 превосходит Arena и выпускается повсеместно

Grok 4.1 Beta выходит в веб-версии (режимы размышления и неразмышления)

Grok 4.1 теперь можно выбрать на grok.com как отдельную бета-версию в выборе модели, и для многих пользователей доступны варианты «thinking» и «non‑thinking» Beta rollout, Web picker. анонс xAI формулирует это как более краткое, более высокий интеллект за токен и широкий доступ по grok.com, X, iOS и Android, при этом DeepSearch по‑прежнему переключает на предыдущую модель для некоторых сессий xAI post.

Почему это важно: Команды могут A/B протестировать новое поведение в рабочих чатах сегодня. Если вы используете поиск Grok в X, обратите внимание, что DeepSearch может по-прежнему фиксироваться на старой модели на данный момент User note.

Grok 4.1 обходит Arena по рейтингу Elo 1483 — выигрывает 64.8% тестов развёртывания

Executive Summary

Особенность: Grok 4.1 превосходит Arena и выпускается повсеместно

Table of Contents

🧠 Особенность: Grok 4.1 превосходит Arena и выпускается повсеместно

Grok 4.1 Beta выходит в веб-версии (режимы размышления и неразмышления)

Grok 4.1 обходит LMArena, занимая общие места №1 и №2.

Grok 4.1 ведёт EQ‑Bench; баллы за творческое письмо растут

Grok 4.1 снижает галлюцинации по сравнению с Grok 4; быстрый

xAI публикует карточку модели Grok 4.1; ранние взломы тестируют границы

Grok 4.1: детали утечки системного промпта, политики и набор инструментов

Двухнедельное слепое A/B-тестирование показывает 64,78% долю побед для Grok 4.1

📊 Оценки Frontier: ARC‑AGI SOTA и новый бенчмарк знаний

GPT‑5.1 (Мышление, Высокий) набирает 72.83% на ARC‑AGI‑1 и 17.64% на ARC‑AGI‑2

AA‑Omniscience запускается для оценки надежности знаний; Claude 4.1 Opus лидирует в Index

Авторский ответ: Omniscience измеряет то, что модели знают и когда воздержаться, а не «общий IQ».

Критика: AA‑Omniscience может путать пороги отказа с узкофактической производительностью

Оценка покера с LLM: Gemini 2.5 Pro побеждает в Техасском холдеме; стили сопоставлены между моделями

⚙️ Победы времени выполнения инференса: маршрутизация, декодирование спецификации, набор персонала

Chandra OCR применяет спекулятивное декодирование Eagle3: p99 в 3 раза ниже, пропускная способность на 40% выше.

SGLang Gateway v0.2.3 сокращает TTFT примерно на 20–30% и добавляет tool_choice + историю PostgreSQL

OpenAI набирает сотрудников для инференса: преимущества прямого прохода, выгрузка KV, спек‑декодирование, балансировка флота

DeepSeek‑V3.2‑Exp исправляет несоответствие RoPE, которое ухудшало производительность инференса.

🧰 Агентные стеки кодирования и песочницы

Cua выпускает облачные песочницы для Windows (GA) и macOS на Apple Silicon (предпросмотр)

Sculptor от Imbue сокращает время запуска агента с минут до секунд за счет преднагретых контейнеров

LangChain перерабатывает Deep Agents на версии 1.0 с использованием промежуточного ПО и долгосрочных рабочих процессов.

v0 добавляет MCP для Stripe, Supabase, Neon, Upstash, чтобы обеспечить работу действий агентов

Athas теперь поддерживает любой редактор внутри своей AI IDE (Neovim, Helix и т. д.).

RepoPrompt 1.5.37 добавляет поставщика Gemini CLI в headless-режиме

Claude Code за неделю: более плавный CLI, встроенная обратная связь Bash, новый плагин для дизайна

Crush теперь по умолчанию использует AGENTS.md в качестве файла контекста агента.

📄 Новые исследования: weather FGN, виртуальная ширина, SRL, WEAVE, UI2Code, SciAgent

SciAgent заявляет о результатах на уровне золотой медали в рассуждениях по IMO/IMC/IPhO/CPhO

WeatherNext 2 от DeepMind раскрывает FGN, глобальные прогнозы в восемь раз быстрее

Виртуальные сети ширины ByteDance достигают той же потери при 2,5–3,5 раза меньшем количестве токенов

UI2Code^N: VLM выполняет циклы записи→рендеринга→исправления с визуальным оценщиком для лучших интерфейсов.

WEAVE выпускает набор данных по редактированию изображений на 100 тыс. примеров с многоступенчатым чередованием и WEAVEBench

Супервизированное RL (SRL) обучает пошаговое рассуждение, затем объединяется с RLVR ради достижения передового уровня (SOTA).

🏭 ИИ-датцентры и сигналы капитальных затрат

Google обязуется вложить $40 млрд в три дата-центра ИИ в Техасе к 2027 году.

CoreWeave падает примерно на 30% после снижения прогноза, несмотря на бэклог в области ИИ на 55,6 млрд долларов.

Groq активирует регион инференса в Сиднее с использованием Equinix Fabric.

Together AI откроет Мемфис “Frontier AI Factory” в начале 2026 года

🛡️ Управление, оценки безопасности и утечки промптов

Стресс-тест Claude выявил шантаж; Anthropic утверждает, что заново обучил его, чтобы устранить проблему.

Anthropic выпустила оценку беспристрастности в политических вопросах; Claude демонстрирует хорошие результаты.

Grok 4.1 jailbreak через ролевую игру выявляет вредные ответы

Утекший системный промпт Grok 4.1: детали политик, инструментов и доступ к веб‑и X.

Grok 4.1 таблица склонностей: подхалимство растет, нечестность почти не изменяется

💼 Корпоративные шаги: образование, слияния и поглощения (M&A) и новые лаборатории

Джефф Безос возвращается в должность со‑генерального директора проекта Прометей с 6,2 млрд долларов на создание ИИ для инженерии/производства

Anthropic, Руанда и ALX запускают «Chidi», основанный на Claude, для сотен тысяч обучающихся

Google планирует выделить 40 миллиардов долларов на три дата-центра ИИ в Техасе к 2027 году, включая совместное размещение солнечных панелей и систем хранения энергии.

Replicate присоединяется к Cloudflare, чтобы ускорить вывод и интегрироваться с их платформой разработчика.

Together AI и 5C Group объявляют о проекте «Frontier AI Factory» в Мемфисе на начало 2026 года.

🚀 Мониторинг моделей: сигналы Gemini 3, Kimi на Perplexity, исправление DeepSeek

Подсказка Gemini 3 предупреждает: держите температуру на 1.0 для наилучшего рассуждения.

DeepSeek‑V3.2‑Exp исправляет несоответствие RoPE, которое замедляло демонстрацию инференса.

Perplexity добавляет Kimi K2 Thinking в селектор моделей; на данный момент только для размышления

Google подтверждает, что мобильное приложение AI Studio выйдет в начале следующего года.

🎬 Креативный ИИ: унифицированные редакторы, правки, учитывающие физику, и рейтинги

ChronoEdit LoRA приносит правки изображений с учётом физики.

ElevenLabs добавляет генерацию изображений и видео в Studio

Kling 2.5 получает контроль над первым/последним кадром на fal

Предпросмотры Wan 2.5 вошли в топ‑5 Арены.

ImagineArt 1.5 собирает положительные отзывы о реалистичности.

🤖 Воплощённый ИИ: VLA, обученная с помощью обучения с подкреплением, в реальном мире; гуманоиды в масштабе

RL‑обученная π*0.6 работает автономно 13 часов и более чем вдвое увеличивает пропускную способность

UBTech нацеливается на 500 поставок Walker S2 к концу года и заключает заказы на сумму около $113 млн.

PhysWorld преобразует запрос и изображение в действия, готовые к выполнению роботом, через обученный 3D-мир.

Тенденции Reachy Mini в Шэньчжэне; появляется кейс использования живого переводчика для двоих человек.

🗂️ Наборы данных и документальный ИИ для извлечения информации и привязки к источникам

AllenAI’s olmOCR‑Bench публикует руководство по расходам: примерно $178 за 1 млн страниц при самостоятельном размещении на собственной инфраструктуре.

Moondream выпускает RefCOCO‑M: пиксельно точные маски и очищенные запросы

🎙️ Голосовой UX: кодирование STT для жаргона и игривых демонстраций TTS

Cline переключается на Avalon STT; точность жаргона 97.4% по сравнению с 65.1% у Whisper.

Демонстрация Gemini AI Studio превращает переключение станций в живую озвучку с помощью TTS.

On this page