Помните, я выделял Нейроночку в отдельный канал?Хе-хе.Я решил объединить их обратно. Теперь у меня один основной канал: https://t.me/pfrankovЕсли точнее, то теперь нейроночка будет там. Ждите пост про мультиагентов!
Нейрон очка
@neuronochka
Заметки об использовании локальных нейронок.https://github.com/pfrankovСтримы каждый деньhttps://www.twitch.tv/pfrankovhttps://www.youtube.com/@5frankov/streamshttps://vkvideo.ru/@5pfrankov
Похожие каналы
Все →Последние посты
Стоит ли всё бросать и скачивать gpt-oss?Вы уже точно слышали, что OpenAI наконец-то выпустили что-то в OpenSource.В этот раз в релиз попали текстовые, думающие модели на 120B и 20B. Для работы первой нужна одна серверная видеокарта на 80GB VRAM — это вполне подойдёт компаниям, которые вынуждены держать модели на своём железе из-за требований NDA.Нам же гораздо интереснее вторая модель — на 20B — ведь для её работы потребуется простая, советская, игровая видеокарта на каких-то 16 GB VRAM.📊 Конечно, по бенчмаркам всё красиво — к этому мы уже привыкли. Но OpenAI напрямую не сравнивают модели с конкурентами. Вместо этого, они говорят, что gpt-oss-20b сопоставима по всем качествам с o3-mini, которая раньше была на сайте. На неё ещё переключался 4o, когда заканчивался дневной бесплатный лимит.Из важных бенчмарков — 85.3 баллов по MMLU или, другими словами, по знанию фактов. Это значит, что модель очень хороша в качестве универсального ассистента, который и рецепт шарлотки знает и поможет установить Docker на робот-пылесос.Всё это, конечно, просто цифры и их нужно проверять на реальных кейсах.Ну я и проверил 😌Не могу сказать, что модель прямо рвёт шаблоны, но лично мне её ответы нравятся больше, чем от Gemma 3 27B или последнего Qwen3 30B (Думающего). Ответы GPT более структурированы, чаще правильные и в несколько раз быстрее.Тут дело в том, что за один такт из всех 20 миллиардов параметров используется только 3,6 миллиарда. Памяти это жрёт столько же, но вычисления ускоряются в разы.🚀 Модель Gemma 2 когда-то сделала доступным использование русского языка локальными моделями. До неё русский язык постоянно скатывался в английский, французский или китайский.🚀 gpt-oss-20b сейчас сделала доступными локальных помощников самого разного толка: от аналогов Алисы до универсальных обработчиков в ваших автоматизациях и умных домах.Отвечая на вопрос, ставить точно нужно, но:- На Apple Silicon с 16GB памяти работать не будет.- Модель в памяти жрёт 14GB без контекста. На видеокарта
🎉 Это релиз приложения для записи звонков и превращения их в саммари исключительно локальными инструментами. Никакой передачи данных сторонним сервисам, никакой аналитики, все данные только ваши!Это супер-полезно, если вам нужно помнить, о чём был разговор месяц назад или для формирования meeting-notes.Достаточно будет поменять промпт в настройках, чтобы подстроить результат под свои задачи.Как это работает:1️⃣ VibeScribe записывает голос с микрофона и из системы2️⃣ Отправляет голос в WhisperServer или OpenAI Whisper API3️⃣ Расшифровку отправляет в Ollama или OpenAI, чтобы сделать суммаризациюВсё это завайбкожено от начала и до конца за какие-то 63 стрима, где примерно половина ушла на WhisperServer, четверть — на борьбу с трансляцией, а оставшееся время — на общение с подписчиками.💬 Кстати, у нас теперь есть чат Вайбкодеров и я приглашаю всех, кто пробует vibe coding as a second skill. Особенно тех, у кого не получается и кто не верит, что можно создать приемлемый софт на коленке и в разумные сроки.Когда будете ставить, MacOS будет вас всячески отговаривать от установки, потому что приложение не подписано специальным одобренным сертификатом разработчика, за который Apple берёт $100 в год.Вот нужно всё равно настоять на своём и открыть приложение из раздела Конфиденциальность и безопасность внутри Настроек.

UPD: Прикрыл бота из-за низкой активности🎉 Бот, который превращает горизонтальные фото в вертикальные [9:16] для публикации в соцсетяхВот объясните, почему фотографы продолжают делать горизонтальные фото? Как их потом постить в соцсети? Ладно, на аватарку ещё пару фоток можно, но с групповыми-то что делать? Что делать с пейзажами? Опять обрезать по правилу третей?Не нужно ничего обрезать!Взяли горизонтальную фотку, засунули в бота, получили вертикальную. Всё.Хочется больше контроля?Просто допишите промпт к прикрепляемой фотке:A photo of a cyberpunk girl standing in front of skyscrapers или что там у вас. Работает только на английском.А знаете, что будет, если отправить боту вертикальную фотографию?Правильно, она станет горизонтальной!Известные проблемы- Некоторые фотки не даются, сколько ты с ними не бейся. Если за пару раз не получилось — дело точно в фотке.- Виньетка — зло. Наиболее вероятные недостающие части картинки с затемнениями — это уход в чёрный.- Иногда появляются внезапные тексты на давно забытых языках, но на них можно влиять промптом к картинке.@VRTCL_bot⭐ Workflow для ComfyUI я, как обычно, выложил на бустиhttps://boosty.to/pfrankovА ещё я делаю разные автоматизации для малого и среднего бизнеса: гибкие редакторские с апрувами и автопубликацией, сортировщики писем, боты-модераторы для групповых чатов, демо-стенды с генерируемыми картинками. Автоматизирую рутину, чтобы было время заниматься интересными делами. Пишите @pavel_frankovUPD: Прикрыл бота из-за низкой активности🎉 Бот, который превращает горизонтальные фото в вертикальные [9:16] для публикации в соцсетяхВот объясните, почему фотографы продолжают делать горизонтальные фото? Как их потом постить в соцсети? Ладно, на аватарку ещё пару фоток можно, но с групповыми-то что делать? Что делать с пейзажами? Опять обрезать по правилу третей?Не нужно ничего обрезать!Взяли горизонтальную фотку, засунули в бота, получили вертикальную. Всё.Хочется больше контроля?Просто допишите промпт к прикрепляемой фот
📺 Вышла запись моего доклада на весенний HolyJS 2025 про разные варианты использования LLM, не нарушая NDA.https://youtu.be/2BeMS9gRLG8?si=uWkHyswDIAz9NtTP
🎉 Я сделал бота, который наконец-то нормально удаляет фон с картинок.Если вы пробовали всякие онлайн-сервисы, то знаете, что вырезанные объекты часто получаются со рваными краями, а если уж попались волосы — нормально уже ничего не вырежется.Мой же бот работает невероятно быстро и очень качественно @RMVBCKGRND_bot⭐ Все материалы для особо любопытных, я выложил на бусти. Кстати, подпишитесь!https://boosty.to/pfrankov

Вайбкодинг на Swift продолжается.100% кода приложения уже сгенерено нейросетью.Первая версия WhisperServer под MacOS содержала зашитую внутрь large-v3-turbo модель.Для второй версии я реализовал скачивание квантизованных моделей с HuggingFace-репозитория, поэтому теперь можно легко выбирать ту же medium, которая на русском языке даёт немного другой результат и может быть более предпочтительной.Далее займёмся новым приложением под MacOS, которое соединяет все компоненты:1️⃣ Записывает голос с микрофона и из системы2️⃣ Отправляет голос в WhisperServer или OpenAI Whisper API3️⃣ Получившийся текст отправляет в Ollama или OpenAI, чтобы сделать суммаризацию4️⃣ Хранит записи, расшифровки и саммари по каждому звонку🔥Ещё полгода назад я бы не поверил, что это можно сделать без знания Swift и без опыта нативной разработки, но сейчас у меня нет никаких сомнений, что всё получится.Да, меня определённо спасает наличие большого опыта разработки. Благодаря ему, я теперь понимаю, какие углы можно срезать, чтобы получать схожий результат с меньшим опытом.Трансляции, как обычно будут идти каждый день с 20:00 до 21:00 МСК на твиче, ВК Видео и YouTube.
WhisperServer под MacOSОчень давно я писал, насколько сложно развернуть свой Whisper-сервер для преобразования голосовух в текст. Там нужно было что-то компилировать, чё-то куда-то закидывать, а результат всё равно был посредственным — долго и криво.И тут, в процессе разработки удобного пайплайна для суммаризации звонков, мне понадобился прям полноценный Whisper-сервер, поддерживающий OpenaAI Whisper API. Ну и желательно такой, чтобы можно было установить под MacOS всего лишь парой кликов.Оказалось, что есть классный, замечательный, бесплатный OpenSuperWhisperВ нём всё хорошо, за исключением двух моментов: отсутствия оптимизации под CoreML (ускорение в 3-4 раза) и отсутствия, собственно, сервера, чтобы с ним можно было работать и без UI.Если вам нужно только распознавать голос в текст — ставьте его и не думайте.Без единой капли соменений, я впервые открыл XCode и завайбкодил на Swift приложение под MacOS, которое реализует именно Whisper-совместимый сервер. Это значит, что вы сможете его использовать не только в автоматизациях, но в любых сервисах, которые работают с оригинальным виспером.Всё это я последовательно стримил в этом плейлисте.В приложение уже зашита модель large-v3-turbo с дополнительной оптимизацией под CoreML, которая на моём макбуке M2, 16 GB RAM, конвертирует 32 минуты аудио всего за 3 минуты.На стримах на этой неделе я планирую добавить возможность скачивания разных моделей, поскольку иногда модель medium может выдавать более осмысленный текст на русском и кому-то она может подойти больше.Трансляции, как обычно будут идти каждый день с 20:00 до 21:00 МСК на твиче, ВК Видео и YouTube.На всякий случай, стримы возобновятся не раньше среды — я только вчера рассказал доклад на HolyJS про локальные нейронки и сначала мне нужно будет вернуться домой.Ссылка на гитхабhttps://github.com/pfrankov/whisper-server.app запакован в .zip в последнем релизе справа
Пост про Gemma 3Я всё ещё пытаюсь отойти от шока, что модель на 1 миллиард параметров, которую можно запустить практически на мощностях домашнего роутера, выдаёт приличный текст на русском.На днях вышла серия моделей Gemma 3:1B — текстовая, только английский, 32K токенов контекста4B, 12B, 27B — мультимодальная, мультиязычная, 128K токенов контекста.По собственным гугловым тестам, как всегда, заявлено, что Gemma-3 27B бьёт думающую o3-mini и огромную Llama3-405B.На арене модель бьёт o1-preview, GPT-4o и Claude 3.7 Sonnet.Я попробовал все 4 модели и вот что могу сказать:Gemma-3 1B — ультра-компактная, безумно быстрая, отлично подходит для работы с английским текстом, не подходит для RAG — несмотря на заявленные 32K токенов, контекст она не удерживает.Gemma-3 4B — отличная замена Gemma-2 9B, но в 2 раза меньше и быстрее. Есть поддержка запросов к изображениям, но русский не поддерживается. Хорошо держит контекст, уже подходит для RAG. Идеальна для локальной работы с текстами.Gemma-3 12B — самая спорная модель. Качество текстовых ответов ниже, чем у 4B, зато в картинках поддерживается русский.Ещё одно доказательство, что модель может быть сильна в чём-то одном: или в картинках или в тексте.Кроме того, 12B уже дискомфортно запускать на локальном железе и её хочется унести на отдельный комп с RTX4090. А если запускать модель на большой видеокарте, то почему бы сразу не 27B?Gemma-3 27B — ожидаемый флагман. Отвечает подозрительно хорошо (вполне на уровне ChatGPT), пишет неплохие стихи на русском (Claude, GPT, Grok не умеют такого). Приличная работа с изображениями — незамудрённую гугловую и яндексовую капчу распознаёт отлично. Но всё равно, качество распознавания ниже, чем у моделей, заточенных на работу с изображениями, поэтому для этих целей использовать 27B не рекомендую.Итого- Если есть 24GB VRAM — Gemma-3 27B- Если нет — Gemma-3 4B- Если используете Gemma-2 9B — смело переключайтесь на Gemma-3 4BВсе примеры использования и сравнения можно глянуть в записи вчерашнего ст
🎉 Ура! Obsidian-плагин для AI-провайдеров попал в стор! А это значит, что мы на стримах возвращаемся к доработкам самого плагина и Local GPT!Мне пришлось удалить иконки для прохождения ревью, поэтому сегодня мы их вернём.Следующий шаг — добавить провайдеров:- Gemini- Anthropic- GroqА помогать нам, как всегда, будет CursorAI.Приходите с 20:00 до 21:00 МСК каждый божий день, чтобы посмотреть, как разработчики, не использующие AI-помощников, теряют работу.https://www.twitch.tv/pfrankovhttps://vkvideo.ru/@frp/liveshttps://www.youtube.com/@5frankov/streams