Kosmos AI Scientist достигает 79,4% точности, на 1 500 статьях — Google тестирует Co‑Scientist

Executive Summary

Эдисон Сайентифик запустила Kosmos, автономного «ИИ‑ученого», который превращает исследования на основе длинной горизонтовой литературы в воспроизводимые запуски, привязанные к коду и источникам. Он обеспечивает 79,4% проверяемой точности выводов — тот уровень пропускной способности, который превращает вычисления в публикационную работу.

Бета‑пользователи говорят, что 20‑шаговый прогон заменил месяцы труда экспертов, линейно масштабируясь с глубиной. И Google продвигает тот же шаблон: Gemini Enterprise тестирует «Со‑ученого», который турнир‑ранжирует ~100 идей за ~40 минут по явной рубрике, тогда как новый Deep Research NotebookLM просматривает сотни страниц и составляет цитируемый отчет.

Своевременный 94‑страничный обзор аргументирует необходимость агентов с замкнутым циклом, которые планируют эксперименты, вызывают инструменты и оценивают свои собственные шаги. Если вы занимаетеесь этой волной, установите бюджетные рамки и фиксируйте каждый шаг.

Feature Spotlight

Особенность: ИИ‑ускоренные агенты для науки и исследований

ИИ-исследовательские агенты появляются: Kosmos утверждает синтез за один запуск примерно 1,5 тыс. статей и 42 тыс. LOC с проверяемыми выводами, в то время как Google тестирует 40‑минутного многоагентного Co‑Scientist, который за один прогон ранжирует около 100 идей; NotebookLM добавляет отчеты Deep Research.

Рост межаккаунтной активности в области автономных исследований: Kosmos “AI Scientist,” Gemini Enterprise Co‑Scientist от Google и Deep Research от NotebookLM. Инженерам важно это, потому что эти системы реализуют долгосрочные рабочие процессы с аудируемыми следами и отбором идей в формате турнира.

Jump to Особенность: ИИ‑ускоренные агенты для науки и исследований topics

Table of Contents

Stay in the loop

Get the Daily AI Primer delivered straight to your inbox. One email per day, unsubscribe anytime.

Особенность: ИИ‑ускоренные агенты для науки и исследований

Рост межаккаунтной активности в области автономных исследований: Kosmos “AI Scientist,” Gemini Enterprise Co‑Scientist от Google и Deep Research от NotebookLM. Инженерам важно это, потому что эти системы реализуют долгосрочные рабочие процессы с аудируемыми следами и отбором идей в формате турнира.

Kosmos «ИИ‑учёный» дебютирует с проверяемыми результатами и пропускной способностью уровня эксперта

Edison Scientific представила Kosmos, автономную исследовательскую систему, способную синтезировать около 1 500 статей и писать около 42 000 строк аналитического кода за один запуск, с точностью выводов 79,4% и полной прослеживаемостью к коду и цитированиям Altman endorsement, Launch article. Команда выделяет семь примеров открытий и структурированный подход к глобальной модели, который позволяет агенту оставаться на цели на протяжении миллионов токенов.

  • Бета‑пользователи сообщили, что один 20‑шаговый запуск заменил примерно 6,14 месяцев экспертной работы, при этом восприятие масштаба работы линейно зависит от глубины выполнения scaling chart.

Почему это важно: Kosmos упаковывает долгосрочные исследования в повторяемые, поддающиеся аудиту рабочие процессы. Это тот самый элемент, который руководители лабораторий и руководители НИОКТ должны обосновывать расходованием вычислительных ресурсов и соблюдением требований одновременно.

Gemini Enterprise «Co‑Scientist» запускает турнирные рейтинги для уточнения исследовательских идей

Внутренние строки и демонстрации показывают, что Google тестирует два потока с несколькими агентами внутри Gemini Enterprise: Генерация идей и Со‑учёный, который за один запуск тратит примерно 40 минут на генерацию и турнирную ранговку примерно 100 идей по критериям, заданным пользователем утечка функционала, Краткое описание функции. Трёхшаговый цикл использует исследовательскую цель + данные, запускает специализированных агентов для исследования, затем оценивает и ранжирует на основе явного рубрикователя.

Почему это важно: Команды получают воспроизводимый интерфейс для целенаправленного формирования идей с встроенной оценкой, что является узким местом при масштабировании отбора литературы и проверки гипотез по организациям.

NotebookLM “Deep Research” превращает широкие веб-обзоры в структурированные, цитируемые отчеты

Google анонсировала режим Deep Research в NotebookLM, который может автономно просматривать сотни страниц, синтезировать выводы в структурированный отчет и прикреплять аннотированный список источников; он также расширяет поддерживаемые типы источников (например, Drive URL-адреса, Sheets, изображения) для наборов исследований с мультимедийным контентом демонстрация возможностей, сообщение в блоге Google. Ранние тесты пользователей называют его «выдающимся инструментом для обучения», отмечая интегрированные майндмапы, флеш-карты и викторины для последующего изучения заметки из практики.

Почему это важно: Это готовый к применению исследовательский помощник с длительным режимом извлечения информации и поддающимися аудиту выводами — полезен для обзоров продуктов, сканирования политик и бэкграундов, которые ранее занимали дни.

Обзор каталогизирует научные языковые модели большого масштаба (LLMs) и аргументирует в пользу петлей агентов, привязанных к реальным доказательствам.

Комплексный обзор научных LLMs объединяет 270 наборов данных и 190 бенчмарков, предлагает таксономию, охватывающую переход от сырых наблюдений к теории, и отслеживает смещение от одношаговых викторин к оценке по процессу: этапы, инструменты и промежуточные результаты поток статьи, ArXiv paper. Авторы выступают за замкнутые контуры агентов, которые планируют эксперименты, вызывают симуляторы или лаборатории, валидируют результаты и обновляют общие знания — формируя подход к обучению и оценке систем за пределами статических корпусов.

Почему это важно: Это дорожная карта для инженеров, которые соединяют модели, инструменты и оценщиков в надёжные конвейеры для научной работы, с бенчмарками, которые поощряют процесс — а не только итоговый ответ.


ИИ-фабрики, дата-центры и победы в операциях

Инфраструктура остаётся горячей: Дженсен Хуанг из NVIDIA расставил акценты в пользу кастомных ASIC против «AI-фабрик», Groq открыл площадку в Сиднее мощностью 4,5 МВт, а OpenAI вернула примерно 30 тысяч CPU-ядер благодаря настройке журналирования. Также опубликовано: ценовые тренды на H200/B200 и дефицит DRAM/VRAM. Исключаются запуски исследовательских агентов (освещаются как функция).

Дженсен Хуанг из NVIDIA отвергает кастомные ASIC как «научные проекты», хвалит фабрики ИИ

На UBS Q&A во время GTC Дженсен Хуанг заявил, что пользовательские ASIC не смогут повторить полный стек «AI‑фабрики» NVIDIA, ссылаясь на внутреннюю дорожную карту, утверждающую примерно до ~40× впереди Hopper и возможность размещать POs масштаба $100 млрд с полностью интегрированными системами и уверенностью в цепочке поставок transcript highlights. Для инфраструктурных лидеров сообщение ясно: покупатели будут подведены к времени выхода на выручку, а не к спискам чипов.

Это формирует закупки вокруг уверенности в платформе и рисков выполнения. Если вы моделируете долгосрочные ставки на дата‑центры, создавайте сценарии, в которых варианты ASIC не существенно снижают TCO после учета программного обеспечения, сетевых решений, энергопотребления и сроков поставки.

OpenAI освобождает примерно 30 000 ядер процессора, отключив дорогостоящий путь Fluent Bit.

Команда наблюдаемости OpenAI профилировала узловой Fluent Bit и обнаружила вызовы fstatat64 (запускаемые inotify), которые занимали примерно 35% CPU; отключение этого пути вернуло примерно 30 000 CPU-ядер Kubernetes кластерам, обрабатывающим почти 10 PB логов в сутки talk recap, with methodology and impact shared in the KubeCon session KubeCon talk. Это большой операционный выигрыш: та же нагрузка, половина CPU.

Если вы используете Fluent Bit, воспроизводите трассировку perf, протестируйте поведение inotify под сильной нагрузкой аппендеров и разверните выпуск за фич-флагах. Экономия масштаба может сразу увеличить мощность для инференса.

Groq открывает площадку в Сиднее мощностью 4,5 МВт для обслуживания региона APAC с локальным выводом.

Groq запустила дата-центр мощностью 4,5 МВт в Сиднее в партнёрстве с Equinix Fabric, обеспечив обслуживание токенов с низкой задержкой для Австралии и более широкого региона APAC launch note, с деталями в пресс‑релизе компании press post. Для команд в Австралии это сокращает межокеанальную задержку и может снизить стоимость за запрос при маршрутизации к ближайшим узлам.

Ожидайте, что региональные политики маршрутизации и резервирование мощности будут иметь значение. Если вы проводите пилотирование Groq, протестируйте разницу задержки между Сиднеем и регионами США/ЕС и соответствующим образом скорректируйте управление трафиком.

Цены на H200 и B200 достигают пиков на запуске, затем снижаются, но остаются на повышенном уровне.

Morgan Stanley демонстрирует циркулирующие сегодня данные о цене аренды для 8× H200 и ранних B200 узлах, резко растущие при запуске, затем снижаются по мере наращивания предложения — но не возвращаются к прежним базовым уровням chart thread. Вывод для планировщиков мощности: дефицитные надбавки смягчаются, но структурный спрос поддерживает минимальные цены выше, чем у прошлой генерации.

Разрабатывайте бюджеты моделей с учетом поэтапного снижения цен, а не полного возвращения. Зафиксируйте короткие сроки для пикового окна; пересмотрите условия по мере поступления дополнительной мощности.

По сообщениям, цены на RAM/VRAM утроились за считанные месяцы на фоне спроса на серверы для искусственного интеллекта.

Широков распространённый разбор Gamers Nexus сообщает, что цены на DRAM выросли примерно в 3 раза за последние месяцы, что повлекло за собой последствия для NAND и VRAM GPU по мере того, как AI-серверы занимают доступное предложение; предыдущие меры по снижению перепроизводства и возможная координация производителей приводятся в качестве драйверов video note, , озвученные сообществом, указывающим на привязку к лабораторной инфраструктуре market note. . Это затрагивает как сборку серверов, так и планы по локальному краю AI.

YouTube analysis)

Бюджетные резервы на память следует увеличить. При спецификации кластеров или локальных узлов инференса следите за сроками поставки и рассматривайте предварительные закупки DIMM/VRAM‑heavy SKU до следующего повышения лимита выделений.


Stay first in your field.

No more doomscrolling X. A crisp morning report for entrepreneurs, AI creators, and engineers. Clear updates, time-sensitive offers, and working pipelines that keep you on the cutting edge. We read the firehose and hand-pick what matters so you can act today.

I don’t have time to scroll X all day. Primer does it, filters it, done.

Renee J.

Startup Founder

The fastest way to stay professionally expensive.

Felix B.

AI Animator

AI moves at ‘blink and it’s gone’. Primer is how I don’t blink.

Alex T.

Creative Technologist

Best ROI on ten minutes of my day. I’ve shipped two features purely from their daily prompts.

Marta S.

Product Designer

From release noise to a working workflow in 15 minutes.

Viktor H

AI Artist

It’s the only digest that explains why a release matters and shows how to use it—same page, same morning.

Priya R.

Startup Founder

Stay professionally expensive

Make the right move sooner

Ship a product

WebEmailTelegram

On this page

Executive Summary
Feature Spotlight: Особенность: ИИ‑ускоренные агенты для науки и исследований
🔬 Особенность: ИИ‑ускоренные агенты для науки и исследований
Kosmos «ИИ‑учёный» дебютирует с проверяемыми результатами и пропускной способностью уровня эксперта
Gemini Enterprise «Co‑Scientist» запускает турнирные рейтинги для уточнения исследовательских идей
NotebookLM “Deep Research” превращает широкие веб-обзоры в структурированные, цитируемые отчеты
Обзор каталогизирует научные языковые модели большого масштаба (LLMs) и аргументирует в пользу петлей агентов, привязанных к реальным доказательствам.
🏭 ИИ-фабрики, дата-центры и победы в операциях
Дженсен Хуанг из NVIDIA отвергает кастомные ASIC как «научные проекты», хвалит фабрики ИИ
OpenAI освобождает примерно 30 000 ядер процессора, отключив дорогостоящий путь Fluent Bit.
Groq открывает площадку в Сиднее мощностью 4,5 МВт для обслуживания региона APAC с локальным выводом.
Цены на H200 и B200 достигают пиков на запуске, затем снижаются, но остаются на повышенном уровне.
По сообщениям, цены на RAM/VRAM утроились за считанные месяцы на фоне спроса на серверы для искусственного интеллекта.
🛠️ Агентные инструменты разработки и процессы кодирования
Claude Code получает однострочный установщик для Windows (без WSL)
LangChain формализует «Deep Agents» с планированием, субагентами и памятью
Amp CLI добавляет параметр --mode, чтобы управлять тем, как агент выполняется.
mcporter компилирует удалённый MCP-сервер в готовый к запуску CLI
NVIDIA демонстрирует Bash‑агента для использования компьютера, созданного с помощью LangGraph.
OpenCode демонстрирует полнофункциональный TUI агента с плагинами и веб-консолью.
LangGraph «Swarm» демонстрирует многоагентный инструмент Article Explainer
🔭 Часы Gemini 3: сигналы и строки предварительной версии
Строки приложения связывают создание изображений Gemini 3 Pro с Nano Banana 2.
Сигналы сходятся к Gemini 3 на следующей неделе; gemini‑cli обновляется ежедневно
Ранний тестировщик: Gemini 3 связывает «идеальный» YouTube Short с ответом на запрос.
Сообщество спрашивает, чем объясняется хайп вокруг Gemini 3 по сравнению с GPT‑5 Pro
📊 Эталонные показатели и как измерять работу агента
Количество обращений к бенчмаркингу агентов растёт для оценки хрупкости, пессимистичных петель и использования инструментов
Варианты GPT‑5.1 свергли Claude на Design Arena
Практический рецепт оценки: критерии, применение и автоматизация для проверяемости
🔋 Локальная эффективность инференса: интеллект на ватт
Исследование IPW: локальные LLM покрывают 88,7% запросов; увеличение эффективности в 5,3 раза, гибрид экономит ~60%
🗂️ Извлечение и конвейеры обработки документов в ИИ
OlmOCR‑2 использует детерминированные модульные тесты (RLVR) для оценки результатов парсинга в масштабе
Документация по Gemini File Search появилась вместе с кодом для хранилищ, загрузок и обоснованных ответов.
Агентный RAG TeaRAG сохраняет точность, сокращая количество токенов примерно на 60%.
Руководство HF по OCR добавляет новые модели и рекомендации по тому, когда проводить тонкую настройку для документного ИИ.
💼 Внедрение на предприятиях, ценообразование и ROI
OpenAI освободила примерно 30 000 ядер процессора, отключив горячий путь Fluent Bit.
Локально‑облачная маршрутизация обеспечивает экономию затрат на вычисления до ~74% и экономию энергии до ~80%.
Исследование: предложения, созданные ИИ, размывают сигналы; заработная плата подрядчиков падает примерно на 5%
Обращения растут к оценке агентной работы, а не к одностадийным ответам.
Ценообразование на основе ИИ-агентов должно учитывать ROI, а не лимиты на количество пользователей в SaaS.
Gmail добавляет контекстно‑ориентированное планирование, которое предлагает варианты времени и автоматически бронирует.
🧠 Динамика рассуждений и проверяемость
RL для рассуждений: энтропия схлопывается; 600 подобранных задач могут сопоставлять примерно 17 тыс.
Карпатхи: Программное обеспечение 2.0 автоматизирует то, что можно проверить, а не то, что можно задать.
OlmOCR2 превращает разбор в RLVR, используя модульные тесты, сгенерированные LLM, в качестве вознаграждений
TeaRAG сокращает примерно 60% токенов, подталкивая EM вверх через факт‑граф и процесс DPO
Практическая рамка: проверяемость = критерии оценки, применение, автоматизация
Разрыв в оценке агента: призыв к диагностике причин неудачи WHY за пределами баллов за один ответ.
Опрос: масштабирование агентов за счет увеличения объема задач, инструментов и проверяющих в одной петле G‑E‑F
🎨 Креативные медиа: перенастройка освещения, стилизованные LoRA и демо
LoRA ChronoEdit‑14B «Paint‑Brush» от NVIDIA выходит с быстрыми кинематографическими рестайлами.
Qwen‑Edit Multi‑Angle Lighting LoRA выпускает управляемые предустановки повторного освещения
Выпуск ImagineArt версии 1.5 получил похвалу за более чётких и более реалистичных людей.
Демонстрация игры с поддержкой ИИ: одна мировая модель управляет ассетами, освещением и камерой.
Grok Imagine микро‑клип демонстрирует высокую точность макро‑деталей на опаловом пауке
🛡️ Сигналы безопасности, идентичности и управления
Сообщение: Ян ЛеКю́н уйдёт из Meta; называет LLMs тупиком, поддерживает мировые модели
Moonshot AI предупреждает о подделках под именем Кими; подтверждает официальные аккаунты
Фэй-Фэй Ли говорит, что AGI — больше маркетинг, чем наука; части существуют, целого — нет.
🤖 Воплощённый ИИ: дебаты о манёвренности двуногих и подлинности
Гуманоид UBTech: клип «складская армия» назван критиками CGI; сообщество требует доказательств.
LimX TRON 1-бипед демонстрирует ловкую подвижность; сообщество просит голосовой ввод/вывод и ассистента