Kosmos AI Scientist достигает 79,4% точности, на 1 500 статьях — Google тестирует Co‑Scientist
Executive Summary
Эдисон Сайентифик запустила Kosmos, автономного «ИИ‑ученого», который превращает исследования на основе длинной горизонтовой литературы в воспроизводимые запуски, привязанные к коду и источникам. Он обеспечивает 79,4% проверяемой точности выводов — тот уровень пропускной способности, который превращает вычисления в публикационную работу.
Бета‑пользователи говорят, что 20‑шаговый прогон заменил месяцы труда экспертов, линейно масштабируясь с глубиной. И Google продвигает тот же шаблон: Gemini Enterprise тестирует «Со‑ученого», который турнир‑ранжирует ~100 идей за ~40 минут по явной рубрике, тогда как новый Deep Research NotebookLM просматривает сотни страниц и составляет цитируемый отчет.
Своевременный 94‑страничный обзор аргументирует необходимость агентов с замкнутым циклом, которые планируют эксперименты, вызывают инструменты и оценивают свои собственные шаги. Если вы занимаетеесь этой волной, установите бюджетные рамки и фиксируйте каждый шаг.
Feature Spotlight
Особенность: ИИ‑ускоренные агенты для науки и исследований
ИИ-исследовательские агенты появляются: Kosmos утверждает синтез за один запуск примерно 1,5 тыс. статей и 42 тыс. LOC с проверяемыми выводами, в то время как Google тестирует 40‑минутного многоагентного Co‑Scientist, который за один прогон ранжирует около 100 идей; NotebookLM добавляет отчеты Deep Research.
Рост межаккаунтной активности в области автономных исследований: Kosmos “AI Scientist,” Gemini Enterprise Co‑Scientist от Google и Deep Research от NotebookLM. Инженерам важно это, потому что эти системы реализуют долгосрочные рабочие процессы с аудируемыми следами и отбором идей в формате турнира.
Jump to Особенность: ИИ‑ускоренные агенты для науки и исследований topicsTable of Contents
Stay in the loop
Get the Daily AI Primer delivered straight to your inbox. One email per day, unsubscribe anytime.
Особенность: ИИ‑ускоренные агенты для науки и исследований
Рост межаккаунтной активности в области автономных исследований: Kosmos “AI Scientist,” Gemini Enterprise Co‑Scientist от Google и Deep Research от NotebookLM. Инженерам важно это, потому что эти системы реализуют долгосрочные рабочие процессы с аудируемыми следами и отбором идей в формате турнира.
Kosmos «ИИ‑учёный» дебютирует с проверяемыми результатами и пропускной способностью уровня эксперта
Edison Scientific представила Kosmos, автономную исследовательскую систему, способную синтезировать около 1 500 статей и писать около 42 000 строк аналитического кода за один запуск, с точностью выводов 79,4% и полной прослеживаемостью к коду и цитированиям Altman endorsement, Launch article. Команда выделяет семь примеров открытий и структурированный подход к глобальной модели, который позволяет агенту оставаться на цели на протяжении миллионов токенов.
- Бета‑пользователи сообщили, что один 20‑шаговый запуск заменил примерно 6,14 месяцев экспертной работы, при этом восприятие масштаба работы линейно зависит от глубины выполнения scaling chart.
Почему это важно: Kosmos упаковывает долгосрочные исследования в повторяемые, поддающиеся аудиту рабочие процессы. Это тот самый элемент, который руководители лабораторий и руководители НИОКТ должны обосновывать расходованием вычислительных ресурсов и соблюдением требований одновременно.
Gemini Enterprise «Co‑Scientist» запускает турнирные рейтинги для уточнения исследовательских идей
Внутренние строки и демонстрации показывают, что Google тестирует два потока с несколькими агентами внутри Gemini Enterprise: Генерация идей и Со‑учёный, который за один запуск тратит примерно 40 минут на генерацию и турнирную ранговку примерно 100 идей по критериям, заданным пользователем утечка функционала, Краткое описание функции. Трёхшаговый цикл использует исследовательскую цель + данные, запускает специализированных агентов для исследования, затем оценивает и ранжирует на основе явного рубрикователя.
Почему это важно: Команды получают воспроизводимый интерфейс для целенаправленного формирования идей с встроенной оценкой, что является узким местом при масштабировании отбора литературы и проверки гипотез по организациям.
NotebookLM “Deep Research” превращает широкие веб-обзоры в структурированные, цитируемые отчеты
Google анонсировала режим Deep Research в NotebookLM, который может автономно просматривать сотни страниц, синтезировать выводы в структурированный отчет и прикреплять аннотированный список источников; он также расширяет поддерживаемые типы источников (например, Drive URL-адреса, Sheets, изображения) для наборов исследований с мультимедийным контентом демонстрация возможностей, сообщение в блоге Google. Ранние тесты пользователей называют его «выдающимся инструментом для обучения», отмечая интегрированные майндмапы, флеш-карты и викторины для последующего изучения заметки из практики.
Почему это важно: Это готовый к применению исследовательский помощник с длительным режимом извлечения информации и поддающимися аудиту выводами — полезен для обзоров продуктов, сканирования политик и бэкграундов, которые ранее занимали дни.
Обзор каталогизирует научные языковые модели большого масштаба (LLMs) и аргументирует в пользу петлей агентов, привязанных к реальным доказательствам.
Комплексный обзор научных LLMs объединяет 270 наборов данных и 190 бенчмарков, предлагает таксономию, охватывающую переход от сырых наблюдений к теории, и отслеживает смещение от одношаговых викторин к оценке по процессу: этапы, инструменты и промежуточные результаты поток статьи, ArXiv paper. Авторы выступают за замкнутые контуры агентов, которые планируют эксперименты, вызывают симуляторы или лаборатории, валидируют результаты и обновляют общие знания — формируя подход к обучению и оценке систем за пределами статических корпусов.
Почему это важно: Это дорожная карта для инженеров, которые соединяют модели, инструменты и оценщиков в надёжные конвейеры для научной работы, с бенчмарками, которые поощряют процесс — а не только итоговый ответ.
ИИ-фабрики, дата-центры и победы в операциях
Инфраструктура остаётся горячей: Дженсен Хуанг из NVIDIA расставил акценты в пользу кастомных ASIC против «AI-фабрик», Groq открыл площадку в Сиднее мощностью 4,5 МВт, а OpenAI вернула примерно 30 тысяч CPU-ядер благодаря настройке журналирования. Также опубликовано: ценовые тренды на H200/B200 и дефицит DRAM/VRAM. Исключаются запуски исследовательских агентов (освещаются как функция).
Дженсен Хуанг из NVIDIA отвергает кастомные ASIC как «научные проекты», хвалит фабрики ИИ
На UBS Q&A во время GTC Дженсен Хуанг заявил, что пользовательские ASIC не смогут повторить полный стек «AI‑фабрики» NVIDIA, ссылаясь на внутреннюю дорожную карту, утверждающую примерно до ~40× впереди Hopper и возможность размещать POs масштаба $100 млрд с полностью интегрированными системами и уверенностью в цепочке поставок transcript highlights. Для инфраструктурных лидеров сообщение ясно: покупатели будут подведены к времени выхода на выручку, а не к спискам чипов.
Это формирует закупки вокруг уверенности в платформе и рисков выполнения. Если вы моделируете долгосрочные ставки на дата‑центры, создавайте сценарии, в которых варианты ASIC не существенно снижают TCO после учета программного обеспечения, сетевых решений, энергопотребления и сроков поставки.
OpenAI освобождает примерно 30 000 ядер процессора, отключив дорогостоящий путь Fluent Bit.
Команда наблюдаемости OpenAI профилировала узловой Fluent Bit и обнаружила вызовы fstatat64 (запускаемые inotify), которые занимали примерно 35% CPU; отключение этого пути вернуло примерно 30 000 CPU-ядер Kubernetes кластерам, обрабатывающим почти 10 PB логов в сутки talk recap, with methodology and impact shared in the KubeCon session KubeCon talk. Это большой операционный выигрыш: та же нагрузка, половина CPU.
Если вы используете Fluent Bit, воспроизводите трассировку perf, протестируйте поведение inotify под сильной нагрузкой аппендеров и разверните выпуск за фич-флагах. Экономия масштаба может сразу увеличить мощность для инференса.
Groq открывает площадку в Сиднее мощностью 4,5 МВт для обслуживания региона APAC с локальным выводом.
Groq запустила дата-центр мощностью 4,5 МВт в Сиднее в партнёрстве с Equinix Fabric, обеспечив обслуживание токенов с низкой задержкой для Австралии и более широкого региона APAC launch note, с деталями в пресс‑релизе компании press post. Для команд в Австралии это сокращает межокеанальную задержку и может снизить стоимость за запрос при маршрутизации к ближайшим узлам.
Ожидайте, что региональные политики маршрутизации и резервирование мощности будут иметь значение. Если вы проводите пилотирование Groq, протестируйте разницу задержки между Сиднеем и регионами США/ЕС и соответствующим образом скорректируйте управление трафиком.
Цены на H200 и B200 достигают пиков на запуске, затем снижаются, но остаются на повышенном уровне.
Morgan Stanley демонстрирует циркулирующие сегодня данные о цене аренды для 8× H200 и ранних B200 узлах, резко растущие при запуске, затем снижаются по мере наращивания предложения — но не возвращаются к прежним базовым уровням chart thread. Вывод для планировщиков мощности: дефицитные надбавки смягчаются, но структурный спрос поддерживает минимальные цены выше, чем у прошлой генерации.
Разрабатывайте бюджеты моделей с учетом поэтапного снижения цен, а не полного возвращения. Зафиксируйте короткие сроки для пикового окна; пересмотрите условия по мере поступления дополнительной мощности.
По сообщениям, цены на RAM/VRAM утроились за считанные месяцы на фоне спроса на серверы для искусственного интеллекта.
Широков распространённый разбор Gamers Nexus сообщает, что цены на DRAM выросли примерно в 3 раза за последние месяцы, что повлекло за собой последствия для NAND и VRAM GPU по мере того, как AI-серверы занимают доступное предложение; предыдущие меры по снижению перепроизводства и возможная координация производителей приводятся в качестве драйверов video note, , озвученные сообществом, указывающим на привязку к лабораторной инфраструктуре market note. . Это затрагивает как сборку серверов, так и планы по локальному краю AI.
Бюджетные резервы на память следует увеличить. При спецификации кластеров или локальных узлов инференса следите за сроками поставки и рассматривайте предварительные закупки DIMM/VRAM‑heavy SKU до следующего повышения лимита выделений.

Stay first in your field.
No more doomscrolling X. A crisp morning report for entrepreneurs, AI creators, and engineers. Clear updates, time-sensitive offers, and working pipelines that keep you on the cutting edge. We read the firehose and hand-pick what matters so you can act today.
I don’t have time to scroll X all day. Primer does it, filters it, done.
Renee J.
Startup Founder
The fastest way to stay professionally expensive.
Felix B.
AI Animator
AI moves at ‘blink and it’s gone’. Primer is how I don’t blink.
Alex T.
Creative Technologist
Best ROI on ten minutes of my day. I’ve shipped two features purely from their daily prompts.
Marta S.
Product Designer
From release noise to a working workflow in 15 minutes.
Viktor H
AI Artist
It’s the only digest that explains why a release matters and shows how to use it—same page, same morning.
Priya R.
Startup Founder
Stay professionally expensive
Make the right move sooner
Ship a product