Сергей Мод | Нейросети и Бизнес

@mod_ai

🦄 Изучаю AI для бизнеса, делюсь полезным и тем, что использую сам.

472подписчиков

Редко🇷🇺

Последние посты

Сергей Мод | Нейросети и Бизнес — пост в ТГ канале

Локальная студия дубляжа видео - без подписок, без облака, без слитых файлов.OmniVoice Studio - опенсорс-инструмент, который дублирует видео прямо на твоём компьютере.Закидываешь MP4, выбираешь язык - получаешь готовое видео с новой озвучкой и нетронутой фоновой музыкой.Что умеет:• Распознаёт речь из любого видео автоматически• Переводит на 600 языков без дополнительных моделей• Клонирует голос из фрагмента длиной от 3 секунд• Создаёт новые голоса по тегам: пол, возраст, акцент• Отделяет голос от музыки и звуков (библиотека demucs) - фон остаётся нетронутым• Синхронизирует дублированную дорожку обратно в видеоРаботает на Mac (Apple Silicon), NVIDIA, AMD и даже на CPU без видеокарты.Установка - одна команда. Веса моделей скачиваются сами при первом запуске.Лицензия Apache 2.0 - можно использовать в коммерческих проектах.Репозиторий: OmniVoice StudioПолезно для тех, кто адаптирует контент под разные рынки 🎙

8 июн. 2026 г.64В Telegram

NVIDIA выпустила открытую видеомодель, которая работает на обычном игровом компьютере.SANA-WM генерирует 60 секунд 720p-видео примерно за 34 секунды.Даёшь ей одно изображение, текстовый промпт и траекторию камеры - получаешь полноценную минутную сцену с управлением в 3D-пространстве.Что важно знать:• Работает меньше чем на 8 ГБ видеопамяти (с 4-битным сжатием)• 36x быстрее предыдущих открытых моделей• 2.6B параметров - компактно для такого результата• Управление камерой по 6 осям: панорама, наклон, движение вперёд-назад и т.д.• Обучена на 213K публичных видеоДо сих пор длинное управляемое видео требовало серьёзных серверных мощностей или разваливалось после нескольких секунд.Теперь это работает на домашнем железе - и код открытый.Repo: https://github.com/NVlabs/Sana

8 июн. 2026 г.64В Telegram

Мне было 9 лет, когда папа купил маме стиральную машину.До этого мама стирала руками. Когда её установили и запустили первый раз, я сел рядом и просидел весь цикл стирки - больше часа. Просто смотрел, как барабан крутится сам и поэтапно выполняет работу. Внутри было что-то похожее на восторг. Автоматизация делает реальную работу - без тебя.Это чувство никуда не ушло за 23 года.Сегодня я открыл рабочий процесс и увидел: над задачами одного проекта параллельно работают 61 агент. Каждый решает свою микрозадачу в рамках единого роудмапа. Я это не запускал руками - система сама распределила работу.То же ощущение. Только масштаб другой.Весь путь от той стиральной машины до агентных систем - это одна и та же идея: ты проектируешь систему один раз, она работает без тебя.Компании и люди, которые это поняли раньше других, уже живут в другом темпе.

8 июн. 2026 г.62В Telegram

CEO Y Combinator открыл код своего личного «мозга» для AI-агентов. 17 888 страниц, 4 383 человека, 723 компании.Проблема любого AI-ассистента: он не помнит ничего между сессиями. Каждый раз - чистый лист. Ты объясняешь контекст снова и снова.GBrain решает это иначе. Ты один раз загружаешь свои контакты, переписку, встречи и идеи - и система строит граф связей: кто с кем знаком, кто куда инвестировал, кто что основал.Дальше твой AI-агент уже знает твой мир. Не ищет - знает.Что это даёт на практике:• Спрашиваешь «кто из моих контактов работает в финтехе?» - агент отвечает сразу• Готовишься к встрече - агент сам подтягивает всё, что знает о человеке• Граф обновляется сам, пока ты спишьСсылка на репозиторий:https://github.com/garrytan/gbrainРаботает с Claude, ChatGPT, Cursor и другими агентами. Бесплатно, с открытым кодом.Разница простая: обычный AI ищет ответ при каждом вопросе. GBrain уже знает его заранее.

8 июн. 2026 г.72В Telegram

Дженсон Хуанг, CEO Nvidia - самой дорогой компании в мире на сегодня - сказал в недавнем интервью:«Каждый человек в компании скоро будет управлять армией AI-агентов».Это не фантастика - его прогноз на ближайшие 2-3 года.Большинство компаний застряли в логике дефицита: мало рук, мало времени, мало бюджета. Десятилетиями это было объективным ограничением. Теперь - просто привычка.Хуанг говорит про эпоху изобилия вычислений. Я вижу это в своих проектах: ~90% процессов в StaffAI закрыты агентами. Не потому что я гений автоматизации - а потому что однажды перестал спрашивать «хватит ли у нас людей» и начал спрашивать «какой агент это закроет».Главный барьер - не технический. Компании не внедряют AI не потому что сложно, а потому что буквально не допускают такую постановку вопроса. Привычка нанимать под задачу сидит глубже, чем кажется.Пока одни согласовывают найм - другие уже задеплоили агента и забыли про эту задачу.Мышление дефицитом в 2025 году - это не осторожность. Это стратегический выбор отстать.Полное интервью: Jensen Huang - один из лучших разборов предпринимательского мышления прямо сейчас. Смотреть целиком. 🎯

7 июн. 2026 г.81В Telegram

«Следуй правилам» нарушается агентами в 26.67% случаев. Microsoft решил это иначе.Microsoft выпустил Agent Governance Toolkit - open-source слой управления агентами на уровне runtime.Не промпт с инструкциями, а жёсткая проверка каждого вызова инструмента до его выполнения. Результат: 0% нарушений при задержке 0.012ms.Что внутри:• Квантово-устойчивые идентификаторы для каждого агента• Скоринг доверия по шкале до 1000• 4 уровня привилегий с изоляцией• Kill switch - мгновенное отключение агента• Tamper-evident логи для аудитаРаботает с LangGraph, CrewAI, AutoGen, Semantic Kernel. Покрывает EU AI Act, SOC 2, HIPAA. В комплекте 992 теста соответствия.Репозиторий: agent-governance-toolkitЕсли строишь агентов для бизнеса - это первый инструмент, где governance не «договорённость с моделью», а архитектурный контракт.

7 июн. 2026 г.78В Telegram

Одна фотография - и через 5 минут у тебя готовый 3D-мир с физикой и звуком.Инструмент называется image-blaster - open-source, работает как навык Claude.Бросаешь картинку в папку, даёшь команду - и пайплайн сам делает всё:• 3D-модели каждого объекта на фото• Фон как статичный сплат для сцены• Зацикленный эмбиент-звук• Физически корректные звуковые эффектыЕсть хитрый момент: каждый объект, который промоделировали, стирается с исходника. Остаётся чистый фоновый слой - и сцена получается пригодной для исследования.Экспорт прямо в Unity, Unreal, Godot или Blender.То, что раньше занимало у 3D-художника несколько дней - теперь стартует с одной фотографии.Ищи на GitHub по названию image-blaster. Попробовать можно уже сейчас - проект открытый. 🎮

7 июн. 2026 г.82В Telegram

Автономному агенту Hermes наконец дали нормальный веб-интерфейс. MIT, ~10k звёзд, ноль шага сборки.Hermes - агент, который живёт на сервере: запоминает контекст, гоняет cron-задачи пока ты спишь, становится умнее со временем.Проблема была одна - управлять им можно было только из терминала или мессенджера. Что он делает внутри - чёрный ящик.Hermes WebUI это закрывает.Трёхпанельный UI: сессии слева, чат по центру, файлы рабочего пространства справа. Всё что было в CLI - теперь в браузере.Что внутри:• Стриминг ответов с карточками вызовов инструментов - видишь аргументы и результат каждого вызова• Сворачиваемые карточки reasoning для Claude extended thinking• Подтверждение перед опасными shell-командами• Cron-задачи, память и навыки - редактируешь прямо в браузере• OpenAI, Anthropic, Google, OpenRouter из коробкиПишется на Python + ванильный JS. Никакого webpack, никакого npm install.Простыми словами: взял существующего Hermes-агента, запустил WebUI - и сразу видишь, что агент делает, думает и помнит.Ищи на GitHub по названию Hermes WebUI - найдёшь за 10 секунд. Если уже щупал Hermes - расскажи в комментах, как используешь 👇

7 июн. 2026 г.92В Telegram

7 июн. 2026 г.94В Telegram

Это была самая масштабная презентация Google за всю историю.13 AI-обновлений, которые реально расширяют возможности человека. Вот что стоит внимания:1. Gemini Live Наводишь камеру — и сразу получаешь голосовой отклик от ИИ. Он понимает, что перед ним, реагирует на визуальные детали и работает с твоими задачами, картами и календарём.2. Imagen 4 Новейшая генеративная модель для изображений. Высокое качество, точная передача текста и мгновенный отклик. Визуальный контент — за секунды.3. Veo 3 Создаёт видео со звуком, движением и даже диалогами Это была самая масштабная презентация Google за всю историю.4. Deep Research Загружаешь любые материалы — Gemini объединяет их с открытыми источниками и возвращает понятный, логичный отчёт. Работа с информацией — на новом уровне.5. Project Astra ИИ, который понимает, где ты и что происходит. Умный, контекстный и проактивный ассистент с голосом и зрением.6. Google Flow AI-платформа для создания видеоисторий. Пишешь идею — получаешь сценарий, визуал и монтаж. Всё с помощью Imagen, Veo и Gemini.7. Agent Mode в Gemini Ты ставишь цель — он делает всё сам: от поиска данных до финального результата. Без ручной рутины.8. Google Jules Разработчики теперь не одни. Jules помогает писать код, тестировать, обновлять и чинить. Плюс GitHub и облако — в комплекте.9. AI Mode в Google Поиске Превращает поиск в диалог. Не просто ответы — готовые действия: от советов до бронирований.10. AI-перевод в Google Meet Перевод речи во время звонка с сохранением голоса и интонации. По-настоящему глобальное общение.11. Google Beam Платформа для объёмного видео. Преобразует 2D в 3D, отслеживает движения, создаёт эффект присутствия.12. Gemma 3n Open-source AI, который запускается даже на телефоне с 2 ГБ ОЗУ. Поддерживает текст, звук, изображения.13. Virtual Try-On Примерка одежды по фото прямо в поиске. Загружаешь снимок — и видишь, как всё сидит.---Запись конференции Google I/O 2025Это была самая масштабная презентация Google за всю историю.13 AI

26 мая 2025 г.1 010В Telegram

Сергей Мод | Нейросети и Бизнес

Похожие каналы

Последние посты