о фундаментальном

@o_fundamentalnom

Если это одновременно просто, важно, мощно, красиво, естественно, восхитительно, общо и всепронизывающе — или если для полного изъяснения вам не хватает языка и вы вдруг находите его в каком-то диалекте математики — значит это о фундаментальном.

414подписчиков

🇷🇺

Открыть в Telegram

Последние посты

До недавнего времени не было внятных суждений о том, как именно языковые модели дообучаются во время инференса, в частности на примерах, перечисленных в промпте.Кажется, это первая статья о том, как именно такое "дообучение на лету" работает.бонусы: 1. поскольку это обучение во время инференса, то обратное распространение (бэкпроп) там отсутствует. Выходит, что работа описывает механизм, как именно можно делать обучение без бэкпропа.2. Я не уверен, но возможно одноранговое расширение матрицы весов в целом оказывается действием двойственным к бэкпропу.⤵

27 июл. 2025 г.627В Telegram

Я как-то в одном предложении выразил свой взгляд на материю и пространство время:"материя и чёрные дыры — это способ, которым упаковывается неевклидовость пространства-времени."а вот яркая работа этого 2025 года "Electromagnetism as a purely geometric theory" (Andras Kovacs, Jussi Lindgren and Jukka Liukkonen) — по сути это тот же взгляд на электромагнетизм.Если этот тренд будет двигаться дальше, то нас возможно ожидает реабилитация и реинкарнация в новом качестве эфирных теорий (чему я очень рад).Тут о статье на русском.Тут на английском.

23 апр. 2025 г.894В Telegram

Пишут, что GPT4.5 прошла тест Тьюринга. Пишут, что Gemini 2.5 Pro имеет IQ 120.Да, всё движется очень быстро.Пожалуй, самое время зафиксировать в дневнике момент, когда есть ещё задачи, которые я способен решить (хотя бы эмпирически), а эти две топовые модельки — ещё нет.Я уже упоминал эту задачу здесь несколько лет назад, но напомню формулировку:—Необходимо разработать простой, но мощный алгоритм (на Python или любом другом языке) для угадывания действительного числа с заданной ε-точностью (ε задаётся до старта).Суть задачи:Алгоритм предлагает число, после чего вызывающая сторона сообщает, больше ли секретное число или меньше предложенного числа.Требования:Быстрая сходимость: алгоритм должен агрессивно быстро приближаться к цели.* Независимость от начальных условий: стартовые параметры не должны существенно влиять на сходимость.* Адаптивность (open-endedness): секретное число может без уведомления измениться в процессе угадывания, алгоритм должен немедленно адаптироваться и переключиться на новый путь.* Отсутствие априорных ограничений: диапазон, в котором находится число, заранее неизвестен.* Завершение работы: алгоритм прекращает угадывание, когда предложенное число оказывается в ε-окрестности от целевого.

2 апр. 2025 г.1 690В Telegram

любопытно: оказывается есть движ рассматривать трансформеры, как квантовые спин-модели.Если вы погрузитесь глубже, то окажется, что есть движ про вычислительные машины на базе не только спин-, изинг- и прочих моделей, но базе т.н. интегрирующих моделей.Похоже, трансформеры на квантовых компьютерах -- не такая уж дичь, как может показаться на первый взгляд

4 янв. 2025 г.1 090В Telegram

у меня года два чесался вопрос:а работают ли языковые модели, если входной текст скармливать в модель не жирными токенами, не посимвольно, и даже не по байтам, а экстремально — по битам?я всё ждал появления папир по этой теме, но вот сегодня меня достало ждать и я проверил: оказывается всё работает 😳Если вам интересно, то вот исходники, а вот Google Colab Notebook.Возможно вам будет забавно: 1. в основу взят знаменитый nanoGPT (автор Андрей Карпатый). 2. за 2 часа (!) при помощи Cursor AI + Claude-3.5-Sonnet, я прикрутил к nanoGPT побитовый токенизатор, обучил и протестировал. Код не пришлось писать вообще! и я от этого немножко в шоке...

10 дек. 2024 г.1 830В Telegram

материя и чёрные дыры — это способ, которым упаковывается неевклидовость пространства-времени.(Это не общезначимое утверждение. Это то, как я вижу черные дыры, лептоны и кварки.)

29 нояб. 2024 г.1 080В Telegram

весь ML, весь матстат, вся теория обработки сигналов пронизаны важной мыслью, которая к сожалению бессмысленно догматизируется:"отделение полезного сигнала от шума сводится к уменьшению дисперсии остатка".В результате все вариационные методы фокусируются на минимизации дисперсии остатка. Все исследователи фокусируются на вариационных методах — все заняты работой, хотя почему-то не всегда успешно 🤓Дело в том, что модель сигнала в вариационных методах почти без исключения предполагает аддитивную природу отношения между полезным сигналом и остаточным шумом. Вот обычный пример сигнала мультипликативной природы, в котором дисперсия остатка после выделения полезного сигнала оказывается некисло выше дисперсии исходного сигнала.И на практике довольно редко можно исправить такую ситуацию простым логарифмированием. Часто это из-за банальных аддитивных смещений в отрицательные значения, но вовсе нередко из-за того, что знак является существенной частью сигнала.Комплексное логарифмирование звучит как панацея, но умеем ли мы ловко с ним работать? А уместно ли логарифмирование вообще в случае неприятного небольшого аддитивного смещения?

29 нояб. 2024 г.1 190В Telegram

Вам иногда кажется, что всё самое важное уже сделано в математике?Ха-ха. Мы всё ещё застряли в самом начальном этапе средневековой декартовой математики, которая положила серьезное начало аналитической геометрии. А что там с неаналитическими геометриями, то есть с синтетическими?А ведь синтетические геометрии (да-да, мн.ч.) эквивалентны аналитической геометрии. То есть ничем не хуже, а на самом деле во многом даже лучше! Первая аксиоматика синтетической геометрии была предложена Евклидом, т.е. более двух тысячелетий назад. Но до теории категорий еще было далеко.Заметьте, здесь геометрия лишь в качестве примера, но четырёхвековое залипание в аналитичность — практически везде в математике (кроме теорката, теормножа, матлогики)И вот теория категорий уже подъехала на вечеринку, но "тотальная декартова одержимость" до сих пор не отпускает математические тренды 🥲

25 нояб. 2024 г.776В Telegram

Спасибо @che_shr_cat за обзор отличной статьи. Печально, что мы все еще рассматриваем softmax просто как «удобный инструмент для нормализации». Softmax имеет гораздо более глубокое значение. Это обобщение логистической функции. Когда мы используем softmax…ну, и чтобы два раза не вставать, вот вкратце и следующие эпатажные естественные утверждения:1. в отличие от фазы обучения, инференс во всяких GPT- образных архитектурах уже не пахнет диффурами. Всё уже надёжно укатано в асфальт прямого распространения по сеточке. 2. в рекурентных сеточках (типа mamba-архитектуры) даже в момент инференса мы без проблем можем видеть работу диффуров.(краткое объяснение с которым я в сути согласен).3. в GPT-архитектуре нет "дифференциальной" жизни после обучения. Она убита при деплое для инференса. Но её туда можно вернуть. Первое, что нужно — это легализовать изменение весов в рамках инференса в ходе обратного (рекурентного) распространения.4. да, как сказано выше в п.2, в рекуррентных сеточках "дифференциальная жизнь" есть даже в фазе инференса, но (так же, как и в п3 случае выше) нет обучения весов при рекуррентном ходе.5. autoGrad и символьное дифференцирование — не такой уж уникальный ингредиент успешного обучения нейронных сеточек. Всё великолепно обошлось бы и без этих двух крепких парней. Вы ведь любите softmax? Ну, так что ж вы не берёте даром брошенное приданное? Там же производная считается на раз плюнуть: f'(x) = f(x)(1-f(x))make damn sigmoid great again! 🤓ну или сразу сделайте уж softmax great наконец, он этого достоин!

7 нояб. 2024 г.764В Telegram

7 нояб. 2024 г.691В Telegram

я придерживаюсь собственной очень простой (хотя и крейзи) интерпретации того, что происходит с фотонами возле краев стенок в эксперименте с (двойной) щелью:Когда фотон подходит достаточно близко к лептону или кварку, траектория фотона искривляется.Более того, траектория фотона изгибается аналогично тому, как пространство-время искривляется вблизи сферы Шварцшильда черной дыры. Фотон путешествует некоторое время по сфере Шварцшильда. После неполного обращения по сфере или после многократного "кругосветного путешествия" вокруг сферы Шварцшильда фотон наконец покидает её.По сути, я склоняюсь к тому, что:Частицы, обладающие массой, создают гравитационное линзирование, подобно черным дырам.Вот вам вариант с кликбейтным заголовком:Все частицы с массой — это маленькие черные дыры.Эти маленькие чёрные дыры рутинно создают гравитационное линзирование на микроуровне. Именно это "микро-лизирование" мы интерпретируем как отражение, рассеяние, поглощение или преломление света -- в зависимости от конфигурации этих малюсеньких гравитационных линз, то есть в зависимости от типа вещества, с которым взаимодействует свет.

2 нояб. 2024 г.635В Telegram

вдруг осознал, что reinforcement learning — это ближайший родственник разностных уравнений. (кстати разностные уравнения — ближайшие родственники дифференциальных уравнений)RL policies — это всё, что у нас обычно в диффурах стоит в правой части.а если вы говорите про higher order RL-policies (Meta RL, HRL, Multi-Level Policies, L2L, RL-policies of RL-policies), то всё это как бы — про системы дифференциальных уравнений высшего порядка. Хотелось написать "Вот и всё." в конце.Нет, конечно. Не всё.Одно из главных отличий между RL и системой диффуров — RL сразу бросают в холодные пучины недифференцируемых поверхностей. RL — это скорее про системы стохастических дифференциальнных уравненийP.S. я выше писал, что человеческие эмоции — это просто RL-policies у нас, у кожаных мешков. Ну, вот, получилось, что эмоции — это просто производные разных порядков в системе кожаных стохастических дифференциальных уравнений.

16 окт. 2024 г.791В Telegram

Cursor AI любите? я тоже, как новую домашнюю зверушку. Но, боюсь, она может нехило подрасти...Думаю, что фундаментальный курс всех этих Copilot, CursorAI, etc будет корректирован. Они уйдут от интерактивного кодинга в сторону one-shot материализации ваших хотелок (приложение, сервис, документация, статья, etc).Вот, держите пример, как материализация будет делаться в один выстрел по вашему техническому заданию. Стреляет правда пока не идеально, осечки нередки, но уже вполне сносно постреливает!Кст, в этом примере жирная пасхалка 🤓

20 сент. 2024 г.843В Telegram

У меня вполне внушительный опыт в программировании -- 35 лет. Писал на многих языках, и ещё на многих читал.Вчера был второй день моей жизни, когда я весь день программировал на человеческих языках.Боюсь, пришла эра, когда т.н. высокоуровневые языки программирования начнут уходить "под капот". Может не в той же мере, в какой ушёл под капот ассемблер, но изменение будет колоссальным, тектоническим.Не удивлюсь, если в резюме программисты станут не стесняясь писать "язык программирования -- английский, другими не владею"Нынешние языки программирования останутся, но станут более нишевыми профессиональными скилами, какими нынче являются знания библиотек, фреймворков и платформ. Эра силиконовых языков капсулизируется. Гусеницы силиконовых языков превращаются в куколки.Какие бабочки ожидаются?

5 сент. 2024 г.876В Telegram

Мы хотим пользоваться лучшими ИИ. Это задаёт эволюцию в ИИ.Лучшие модели выживают, худшие уходят в небытие.Однако мы, люди — это очень медленный фидбек этого эволюционного RL-цикла в ИИ.Не нужно быть семи пядей во лбу, чтобы понять, что человек вскоре будет выкинут из эволюционного цикла ИИ — чтобы модели стали круче, чтобы крутые модели появлялись раньше, чтобы специализированных моделей стало не просто больше, а чтобы их стало во намного раз больше, чем людей. в один день мы осозна́ем, что ИИ-агенты уже эволюционируют без нас, что там уже своя атмосфера развития, и эта атмосфера понятна нам лишь кое-где — так же, как нам понятен машинный код откомпилированной программы — лишь чуть-чуть, лишь кое-где.Эволюция ИИ еще толком не началась, но старт очень близок

29 авг. 2024 г.852В Telegram

о фундаментальном

Похожие каналы

Последние посты