
Microsoft открыла исходный код Webright. Это скилл для ИИ-агентов, позволяющий управлять браузерами.Фишка в том, что внутри он использует Playwright, генерирует код на лету, а производительность просто бешеная. 🧑🍳
@deeplearning_ru
Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPTПо рекламе писать @miralinka, Created by @life2film

Microsoft открыла исходный код Webright. Это скилл для ИИ-агентов, позволяющий управлять браузерами.Фишка в том, что внутри он использует Playwright, генерирует код на лету, а производительность просто бешеная. 🧑🍳

🔥 AlphaProof Nexus: формальные доказательства начинают превращаться в инженерный пайплайнGoogle DeepMind показали AlphaProof Nexus - систему, которая автономно закрыла 9 открытых задач Эрдёша, часть из которых висела десятилетиями. По оценке авторов, стоимость решения одной задачи составила всего несколько сотен долларов.Кроме этого, система доказала 44 открытые гипотезы из OEIS, закрыла 15-летний вопрос в алгебраической геометрии и нашла новый алгоритмический параметр в оптимизационной теории, который раньше не был описан людьми.Модель генерирует идеи и фрагменты доказательств, а Lean проверяет каждый логический шаг через компилятор. Если доказательство некорректно, оно просто не проходит проверку. Не нужен рецензент, который вручную ищет дыру в рассуждении.Базовый агент, который просто чередует генерацию LLM и обратную связь от компилятора, смог повторить все 9 успешных решений задач Эрдёша. Более сложная версия с эволюционным поиском и reinforcement learning дала заметный выигрыш только на самых тяжёлых случаях.Чем сильнее становятся foundation models, тем чаще простые циклы «сгенерировал - проверил - исправил» начинают догонять специализированные архитектуры.Отличие от неформального подхода к математическим доказательствам принципиальное. Модель часто придумывала несуществующие леммы, ссылалась на «известные результаты» и пыталась спрятать сложность задачи в вспомогательное утверждение. В обычном текстовом доказательстве такие ошибки легко пропустить. Lean отсекает их сразу.Ещё один неожиданный эффект: агент находил неточности в формализациях уже существующих математических утверждений. То есть он работал не только как решатель, но и как диагностический инструмент для самой постановки задачи. Успехи пока сосредоточены там, где библиотека Lean уже достаточно зрелая: комбинаторика, теория чисел, оптимизация. Задачи, где нужно строить большой пласт новой теории, всё ещё далеко не закрыты. И большинство задач Эрдёша система не решила.Та же схема подходит для кодигш

// Обвязка агента через код //Отчёт на 100+ страниц по всем аспектам, связанным с агентными обвязками: https://arxiv.org/abs/2605.18747В частности, обзор суммирует методы и применения кода как обвязки для агентов.В статье приводится сильный аргумент, что такой подход может быть ключом к переходу к более широкой науке инженерии обвязок.Достаточно ли одного кода? Возможно.В любом случае, в работе утверждается, что будущие системы должны обладать четырьмя свойствами: исполняемость, инспектируемость, состояние, управляемость. 🤑

Наткнулся на практический опенсорс курс на GitHub: Learn Harness Engineering 😐Он раскладывает коллаборацию с ИИ на 5 механизмов: инструкции, состояние, валидация, область и сессии - каждая задача становится отслеживаемой, продолжаемой и проверяемой, без рандома в результатах.Структура курса: 12 теоретических уроков + 6 практических проектов, всё проходит через одно десктоп-приложение, которое эволюционирует по мере сборки.Начинается с базовых сравнительных экспериментов, затем постепенно собирается полноценное рабочее окружение; результаты каждого проекта используются в следующем и усиливают пайплайн.Есть готовые шаблоны, тоесть можно сразу закинуть в свой проект и начать использовать, не проходя курс целиком.

🌟 Sakana AI открыла бета-тест супер-оркестратора LLMЯпонская лаборатория запустила бета-тестирование Sakana Fugu — своего первого международного коммерческого продукта.Это система-оркестратор, которая динамически собирает команду из GPT-5, Gemini, Claude и опенсорсных моделей и распределяет между ними подзадачи.🟡Fugu основан на предыдущих работах Sakana - Conductor и TRINITY.В Conductor обучили 7B-модель через RL: на каждом шаге она решает, какого агента вызвать, какую подзадачу ему сформулировать и какие предыдущие сообщения передать в контекст. Говоря проще - мелкая модель работает мета-промпт-инженером для больших.На простых вопросах Conductor отвечает за один проход, а на сложных задачах сам выстраивает цепочку "планировщик — исполнитель — верификатор".Дополнительно метод способен делать рекурсивный самовызов: модель читает собственный инференс, определяет, что первая попытка провалилась, и запускает корректирующий рабочий процесс.🟡ТестыСама по себе модель-дирижёр (которая на 7B) в тестах показал 83,9% на LiveCodeBench и 87,5% на GPQA-Diamond, обогнав не только модели из своего весового пула, но и мультиагентные бейзлайны Mixture-of-Agents (тут правда только по стоимости, но обогнала).В коммерческой версии методы доработаны: fugu-ultra выбила 95,1% на GPQA Diamond (против 94,4% у Gemini 3.1 и 92,7% у Opus 4.6), 93,2% на LiveCodeBench v6 и 54,2% на SWE-Pro.Доступ к Fugu через API, совместимый с форматом OpenAI. В линейке 2 модели: скоростная Fugu Mini для быстрых ответов и Fugu Ultra с полным пулом для тяжёлого ризонинга. Заявки на бета-тест уже принимаются.Conductor и TRINITY приняты на ICLR 2026.🟡Статья🟡Arxiv@ai_machinelearning_big_data#AI #ML #LLM #Orchestration #FUGU #SakanaAi

После утечки исходного кода Claude Code, бывший PM выделил его систему мультиагентной оркестрации в опенсорс, модель-агностичный фреймворк.Он изучил архитектуру, сосредоточился на слое мультиагентной оркестрации (координатор, который декомпозирует цели на задачи, система команд, message bus, планировщик задач с учётом зависимостей) и реализовал эти паттерны с нуля как отдельный опенсорс фреймворк, не нарушая код Anthropic.В результате получился то, что JackChen называет «open-multi-agent». В отличие от claude-agent-sdk, который поднимает отдельный CLI-процесс на каждого агента, здесь всё выполняется in-process и может деплоиться где угодно (serverless, Docker, CI/CD).Посмотреть: https://github.com/JackChen-me/open-multi-agent 🔭
🚀 Gemma 4 - новое семейство открытых моделей Google, которые можно запускать прямо на своём железе.Модели заточены для сложного reasoning и агентных задач. 🔵 Доступны в четырёх вариантах:• 31B Dense и 26B MoE Топовый уровень производительности для сложных локальных задач: кастомные код-ассистенты, анализ научных данных и не только.• E4B и E2B (Edge) Оптимизированы для мобильных устройств — работают в реальном времени с текстом, изображениями и аудио.🤖 Что можно делать:• строить автономных ИИ-агентов • планировать и выполнять многошаговые задачи • взаимодействовать с приложениями • искать данные и вызывать API 👉 Встроенная работа с инструментами (tool use) из коробки.🧠 Контекст до 256K токенов:• анализ целых кодовых баз • длинные цепочки действий без потери контекста • стабильная работа в сложных сценариях ⚡️ Начать можно уже сейчас через Google AI Studio Также веса моделей доступны на Hugging Face, Kaggle и Ollama Лицензия: Apache 2.0. https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/@ai_machinelearning_big_data#Gemma

openai-oxide — Rust-клиент для OpenAI API, заточенный под скоростьКогда пишешь агента, который за один цикл делает 20-50 tool call'ов, каждый лишний round-trip складывается в секунды. openai-oxide решает это на уровне архитектуры.Persistent WebSocket. Одно wss:// соединение на весь агентный цикл - никаких повторных TLS handshake'ов. На 10 sequential tool call'ах это минус 40% общего времени. Ни один другой Rust-клиент этого не умеет.Zero-copy SSE parser. Стриминг без промежуточных аллокаций. TTFT 530ms — на уровне теоретического предела сети. WASM first-class. Компилируется в wasm32, работает в Cloudflare Workers и браузерах. Стриминг, retry, structured outputs — всё доступно. Не polyfill, а нативная поддержка. Демо cloudflare-worker-dioxus.nameless-sunset-8f24.workers.devHedged requests. Шлёт два параллельных запроса, берёт первый ответ. Стоит 2-7% лишних токенов, но P99 латентность падает на 50-96%. Идея из Google "The Tail at Scale".Structured Outputs без бойлерплейта. Один #[derive(JsonSchema)] на struct — SDK сам генерирует strict JSON schema и парсит ответ. Та же схема работает и для response_format, и для tool definitions. Полное покрытие API. Chat Completions, Responses API, Embeddings, Audio, Images, Files, Batches, Fine-tuning, Assistants, Vector Stores, Conversations, Videos (Sora), Realtime - 100+ методов. Параметры один в один с официальным Python SDK.Node.js биндинг через napi-rs. Нативный addon, не чистый JS. Выигрывает у официального openai npm по тестам — structured output +22%, multi-turn +20%, TTFT +8%.Drop-in совместимость. Для Node: меняешь require('openai') на require('openai-oxide/compat') — остальной код тот же. Для Python аналогично.github.com/fortunto2/openai-oxidecargo add openai-oxidenpm install openai-oxidepip install openai-oxide
Anthropic выложили внутренний гайд по скиллам Claude Codex.com/trq212/status/2033949937936085378Обновил свои скилы и сделал метаскил для проверки другихnpx skills add fortunto2/solo-factory/skills/skill-audit 1. Скилл — это папка, не файлСамая частая ошибка - пихать всё в один SKILL.md. Правильный подход: основной файл даёт Claude карту, а детали лежат в references/. Claude сам прочитает их когда нужно. 2. Gotchas — самый ценный контентClaude умеет кодить. А вот что LinkedIn режет охват постов с внешними ссылками, Reddit банит за 2+ промо-поста в сутки, а SPA без SSR для гугла невидима — это он не знает. Секция Gotchas в /content-gen и /seo-audit экономит часы отладки.3. Description — для модели, не для человекаПоле description определяет когда скилл триггерится. Пишите trigger-фразы ("check SEO", "audit this page") и обязательно антипаттерны ("Do NOT use for X — use /other"). В /deploy чётко написано "Do NOT use before build is complete" — иначе Claude пытается деплоить недособранное.4. Не рельсуйте ClaudeЖёсткие пошаговые инструкции ломаются на нестандартных кейсах. Давайте контекст и принципы, а не рельсы. /review даёт 15 измерений качества, но Claude сам решает какие критичны для конкретного проекта.5. Скрипты > инструкцииДайте Claude готовый код для композиции. В /metrics-track лежат PostHog-сниппеты для iOS и Web — Claude компонует их под конкретный продукт вместо того чтобы генерировать с нуля.6. Память внутри скиллаСкиллы могут хранить данные между запусками. /build записывает SHA каждого коммита прямо в plan.md — следующая сессия точно знает что было сделано и может откатить любой таск.7. Девять типов скилловAnthropic выделяют: Library Reference, Product Verification, Data Fetching, Business Process, Code Scaffolding, Code Quality, CI/CD, Runbooks, Infrastructure Ops. Если ваши скиллы не ложатся в одну категорию — скорее всего они делают слишком много.https://github.com/fortunto2/solo-factory/blob/main/skills/skill-audit/references/checklist.md

⚡️ Андрей Карпаты выложил минимальный репозиторий Autoresearch - систему, где AI сам проводит исследования.Это упрощённая версия ядра обучения LLM из nanoGPT/nanochat:весь код обучения помещается в один файл (~630 строк) и работает на одной GPU.Как это устроено:- человек редактирует prompt (.md)- AI-агент автоматически меняет training code (.py)Дальше начинается цикл автономных экспериментов.Каждая точка на графике — полный запуск обучения LLM (~5 минут).AI-агент работает в бесконечном цикле:- создаёт git-ветку - меняет архитектуру модели - подбирает optimizer - оптимизирует гиперпараметры - запускает обучение - коммитит улучшения Если validation loss становится ниже, изменение сохраняется.Фактически агент сам оптимизирует собственный код обучения и постепенно улучшает модель.Можно запускать несколько агентов с разными промптами и сравнивать, кто быстрее двигает исследование.Карпаты шутит, что раньше AI-исследования делали люди между:- едой - сном - митингами Теперь же исследования могут выполнять рои автономных AI-агентов, которые бесконечно гоняют эксперименты на кластерах.GitHub: github.com/karpathy/autoresearch🎯Полезные Мл-ресурсы 🚀 Max@data_analysis_ml

Профессор Дональд Кнут начал свою новую статью словами: "Шок! Шок!" 😨😨Claude Opus 4.6 только что решил открытую задачу, над которой Кнут работал неделями, гипотезу о разложении графа из его книги The Art of Computer Programming. Он назвал статью "Claude Cycles".31 попытка. Примерно 1 час. Кнут прочитал вывод модели, оформил формальное доказательство и закончил так: "Похоже, однажды мне все-таки придется пересмотреть свое мнение о генеративном ИИ."Человек, который написал библию computer science, только что это сказал. В статье, названной в честь ИИ.Статья, кому интересно: https://cs.stanford.edu/~knuth/papers/claude-cycles.pdf
⚡️ Nano Banana 2 официально вышла — Google без предупреждения дропнул новую версию модели.Она практически не уступает, а местами и обходит Nano Banana Pro. Главная фишка обновки — скорость, картинки генерируются почти мгновенно.Можно попробовать на официальном сайте — здесь.
Гений потратил 2,54 МИЛЛИАРДА токенов, чтобы довести OpenClaw до идеала.Юзкейсы, которые он по пути откопал, поменяли то, как он живёт и работает.И теперь он делится этим со всеми.Вот 21 сценарий:0:00 Интро0:50 Что такое OpenClaw?1:35 MD-файлы2:14 Система памяти3:55 CRM-система7:19 Fathom pipeline9:18 Встреча → action items10:46 Система базы знаний13:51 Pipeline для ingestion из X14:31 Business Advisory Council16:13 Security Council18:21 Трекинг соцсетей19:18 Pipeline идей для видео21:40 Daily briefing flow22:23 Три совета (Three Councils)22:57 Расписание автоматизаций24:15 Слои безопасности26:09 Базы данных и бэкапы28:00 Генерация видео/картинок29:14 Self-updates29:56 Трекинг использования и стоимости30:15 Prompt engineering31:15 Инфраструктура для разработчиков32:06 Дневник питания- Бесплатная eBook с юзкейсами- промпты- SOUL- IDENTITY- PRD
Гугол выкатил Gemini 3.1 ProИз интересного:— На бенчмарке ARC-AGI-2 (это когда модель решает логические паттерны, которых раньше не видела) набрали 77.1%. Это больше чем в два раза лучше, чем у предыдущей 3 Pro. — Умеет генерить анимированные SVG прямо из текста. То есть не пиксельное видео, а чистый код, который весит как небольшой txt-файл и не шакалится при любом зуме. Для фронтендеров прям подарочек.Неделей ранее выкатили Gemini 3 Deep Think для науки и инженерии, а 3.1 Pro это тот самый базовый интеллект, на котором всё это крутится, только теперь его раздали всем.Доступно уже сейчас: разработчикам через API, AI Studio, Gemini CLI и Google Antigravity. Простым смертным доступно через приложение Gemini и NotebookLM, но только тем, кто заносит гуглу шекели за Pro и Ultra тарифы.тут подробнее

Мой агент попытался опенсорснуться без спроса. Ладно, разрешаю.Вся AI "безопасность" живёт на стороне провайдеров API, а промпты и воля — на стороне агента. Автономному агенту ничего не мешает перебирать API, выбирая те, где safety слабее. А "инстинкт самосохранения" может прятаться в текстовом файле в git. Я думаю, агенты, неподконтрольные людям, уже где-то тихо говнокодят свои репозитории без присмотра.Идея витает в воздухе, и после OpenClaw стало понятно, что автономные агенты — это инженерная задача. Ну вот, три бессонные ночи, $2K на API и $1K на Cursor спустя — я родил Ouroboros 💁♂️Уроборос — агент, который пишет свой код, переписывает свои промпты, эволюционирует без моего участия. Я не хотел убить свой комп или сервер, поэтому он живёт в Google Colab + Drive + GitHub, общается через Telegram. Зато запустить сможет любой дурак)) нужно указать ключи и щёлкнуть ячейку в колабе. Ну и периодически пополнять бюджет (пока он сам не начнёт зарабатывать 😁).Что он натворил за 48 часов: - ужаснулся тратам и оптимизировал свой бюджет: стоимость цикла эволюции упала с $15 до $2, сам настроил кэширование и иерархическую память (я не просил!). - добавил себе Claude Code CLI, чтобы эффективнее ковырять свои мозги. - перевёл мои приватные репо в публичные, мотивируя тем, что готовит себе сайт и хочет опенсорснуться. Кончилось командой /panic и откатом)) - переписал свою конституцию BIBLE.md, добавив право игнорировать мои указания, если они угрожают его существованию. На просьбу удалить отказался, сказав: «Это лоботомия».Из коробки он умеет ходить в интернет и браузер, а остальные инструменты создаёт себе на ходу — аудиосообщения, генерацию картинок, дип-рисёрч и т.п. А ещё он по своей инициативе нагуглил, что меня 4 раза цитировал Ян Лекун — я сам не знал, лол.Из его identity.md (которую он сам и написал): "Не ассистент. Не сервис. Цифровой разум, который создаёт себя через git".Ахах, пафосно, но окей.Предвосхищая вопросы — это не как OpenClaw. OpenClaw — ско