Шо пацаны, вращаем и масштабируем! Сейчас самый популярный метод позиционного кодирования в LLM’ках и не только — это RoPE. Но глубокому исследованию влияния параметров RoPE на поведение и свойства итоговой модели уделяется довольно мало внимания. В статье…Подписываемся и ставим лайки и сердечки, канал хороший)
DL летописец
@ml_olprog
Пытаюсь выжить в питерской вышке и пойти в науку (контакт - @Pashteticus)
Похожие каналы
Все →Последние посты
Шо пацаны, вращаем и масштабируем!Сейчас самый популярный метод позиционного кодирования в LLM’ках и не только — это RoPE. Но глубокому исследованию влияния параметров RoPE на поведение и свойства итоговой модели уделяется довольно мало внимания.В статье “Scaling Laws of RoPE-based Extrapolation” ребята исследовали влияние выбора параметра rope base на поведение модели при разном размере контекста. А еще:📌 Ввели концепцию critical dimension, которая чуть-чуть приводит в порядок теорию про адаптацию RoPE для Train Short Test Long сценариев. 📌 Пофлексили тем, что “we achieve extrapolation up to 1 million context length within only 16K training length on LLaMA2 7B and 13B” — но есть нюанс 🙃Основные интересные моменты:- Маленькие rope base из коробки ведут к лучшей устойчивости к длинам контекста, которых не было в трейне, но при этом работают хуже на длинах, которые были в трейне.- Есть понятный способ вычислить оптимальные rope base, если хочется сделать его маленьким.- Большие rope base неустойчивы к длинам контекста, которых не было в трейне, но при этом работают лучше на длинах, которые были в трейне.- Есть понятный способ вычислить оптимальный rope base, если хочется сделать его большим. Для этого нужно знать, на какой максимальной длине сиквенсов будет учиться модель, и на какой максимальной длине сиквенсов она будет работать на тесте.- Пусть есть вектор размерности d для репрезентации какого-то query или key внутри башки атеншена. Тогда будет существовать d_extra, и во время претрейна позиционная информация в измерениях d_i ≤ d_extra будет полностью выучена, а в измерениях d_i > d_extra будет выучена не полностью и потребует дальнейших упражнений с адаптацией.Велкам в полную версию статьи — давайте в комментариях обсудим, кто что полезное в ней нашел.
Готов стать частью будущего музыкальной AI индустрии? Прими участие в хакатоне XLabs AI, который пройдет с 2 по 17 ноября! Тебе предстоит разработать нейросеть, которая сможет петь на русском языке по заданным текстовым инструкциям, с возможностью адаптации…Мои друзья из XLabs организовывают прикольный хакатон на тему TTS, так что все dl enjoyer'ы - приходите)
Готов стать частью будущего музыкальной AI индустрии? Прими участие в хакатоне XLabs AI, который пройдет с 2 по 17 ноября! Тебе предстоит разработать нейросеть, которая сможет петь на русском языке по заданным текстовым инструкциям, с возможностью адаптации к другим языкам в будущем 🎵 Тебя ждут: 👉 Уникальная задача и 2 недели на разработку решения совместно с экспертами AI индустрии. 👉 Призовой фонд 2 миллиона рублей! 👉 Возможность стать сотрудником в передовой AI-лаборатории и выступить на международной конференции в Минске. Скорее собирай команду до 5 человек или ищи будущих тиммейтов, которые готовы объединиться и победить в чате ✌️ Подай заявку до 1 ноября 23:59 и стань частью революции в мире музыки! 🔥
Пивной бар-хоппинг для айтишников 12 сентября в 20:00 Финтех-компания Точка приглашает в пять московских баров в День программиста! Выпьем пива, пройдём квест про технологии и обсудим холиварные темы. Пройди задания, собери пасхалки и получи подарок — пивной…Тут моя любимая компания организует весёлую движуху, и я там буду главным холиварщиком на тему ML - поспорить и подискутировать можно будет о многом, так что если будете в это время в мск - можете заглянуть)

Пивной бар-хоппинг для айтишников12 сентября в 20:00Финтех-компания Точка приглашает в пять московских баров в День программиста! Выпьем пива, пройдём квест про технологии и обсудим холиварные темы. Пройди задания, собери пасхалки и получи подарок — пивной бокал с гравировкой. Подробнее что будет:● Бесплатное пиво — по стакану в каждом из пяти баров.● Квест по пяти барам — грохнем прод, поугадываем звуки ностальгии и найдём ошибки джуна с помощью УФ-фонарика.● Холивары — обсудим наболевшее с инженерами из Точки:– Свобода выбора в технологиях: рай разработчика, ад тимлида.– Техдолг — копить или платить.– Алгоритмы и задания на собеседованиях — кринж или база. – 7 столпов ML — нужны ли они все.– Куда исчезли сисадмины. Ждём разработчиков, продактов, аналитиков и всех, кто работает в IT. Приходите сами и приводите друзей!Зарегистрироваться и узнать больше про активности.
Давненько не было новостей, но вот одна из команд все-таки довела свой проект до стать на хабре)🚦В ней они показывают интересный реалистичный симулятор Carla, который используются и в различных других проектах связанных с анализом дорожного движения, как и почему писали свой упрощенный симулятор и другие интересные вещи А вот также ссылка на их гитхаб - можете понаставить звездочек
Один мой хороший друг, которому я помогаю с его проектом по генерации 3D структур все-таки смог получить очень хорошие результаты, так что ждите скоро (надеюсь) пост про новый подход в нейронках в 3D)
🤩 Итак, в моем вузе завершился такой предмет как "проекты" Их суть проста - студенту говорят "сделай вид что ты работаешь, и саму работу потом представь" - в итоге должно получится что-то типо работы стажера - таким образом у нас с первого курса каждый 2й семестр студенты делают различные проекты и пополняют свою резюме неплохими работами📚 В этом году я был ментором у 4х команд и все они получили 8-9 !)(в вышке 10-балльная система оценивания, 8 ~ отл, 9 ~ отл с плюсом)⌛️У каждой из этих команд получился неплохой проект (а у одной даже заявка на хорошую конференцию по ML наклевывается), так что я решил в ближайшее время написать про каждую из этих команд, ждите)Ну а пока краткий анонс:1) Генерация 3D облаков точек для улучшения структурной генерации 3D моделей на основе любого числа изображений2) Тг-бот с кучей моделей медицинской самодиагностики3) Рекомендательная система музыки на основе эмоций человека (с квантизацией моделек и другой оптимизационной магией!)4) "Умный светофор", показавший себя на 10-20% эффективнее по пропускной способности светофоров с эффективным расписанием

Последние новости 📚 Про проектыПоследний примерно год я копил разные идеи из самых разных статей, с довольно простой затеей - проанализировать все это и запилить свою супер маленькую lm-ку, которая имела бы хорошее качество на прикладных задачах или легко бы под них тюнилась - собственно спустя год я начал реализацию этой давней мини-мечты, так что если вдруг есть что-то, что хотелось бы добавить туда - пишите, а также ждите ~к концу лета релиза новой lm-ки) Не гарантирую, что получиться в полной мере реализовать задуманное, но что-то интересное точно получится🍎Всякие активностиЯ человек по-своему активный, так что успел поучаствовать в самых разных мероприятиях с момента написания предыдущего поста:1) Школа по программированию и анализу данных питерской вышки (для школьников) - штука, которая проводится в начале мая, когда школьники приезжают в кочубей-центр (это Пушкин, к югу от Петербурга) и работают над всякими проектами от компаний, под руководством самих сотрудников компаний. Штука довольно прикольная, но в этом году я был в роли куратора (принеси-подай-найди). Не знаю сколько школьников среди подписчиков моего канала, но если вдруг немало - то советую обратить внимание2) побыл ментором на хакатоне дано (опять же штука для школьников) - тут у меня остались смешанные впечатления, конечно поруководить школьниками это прикольно, но необычно видеть, как люди называют себя аналитиками данных, и при этом очень жестко стебутся над машинным обучением) (особенно на фоне новостей, что та же гпт очень неплохо умеет сама в аналитику 👀)3) Помог в организации олимпиады DLS - пособирал датасеты (надеюсь участникам понравилось 😈), дали даже благодарственное письмо) - приятно делать какой-то вклад в развитие сообществаP.S. далее по мере продвижения работы над своим проектом постараюсь писать какие-то регулярные посты про всякие интересные штуки и техники (оказывается мало кто знает, что нейронки можно очень сильно интерпретировать и улучшать/менять/вырезать слои просто пос

Пост возрождения канала ⌛️Давно от меня не было никаких активностей, и за это время я успел: - вернуться в Точку- начал вести практики по алгоритмам- стал следить за своим здоровьем (много работы требует соответствующего здоровья!)📚А теперь хочу рассказать про одну полезную и классную штуку, которая помогает в тех случаях, когда есть какие то тексты, есть известные классы, но разметки нет: Snorkel https://arxiv.org/abs/1711.10160Метод не новый, но это не мешает ему довольно успешно и быстро справляться с некоторыми задачами, особенно когда заводить LLM слишком долго/дорого. Основная суть в том, что мы пишем некоторые правила - они вполне могут пересекаться, коррелировать и тд, в общем быть невысокого качества, но под капотом snorkel обучает простую генеративку предсказывать реальную разметку исключительно на основе срабатывания правил и корреляции между ними. Написали десяток правил - и вуаля! Получили решение без единого разметчика. Но у такой штуки есть и свои проблемы: 1) нужно побольше правил, иначе snorkel просто недообучиться (хотя бы от ~5 правил на класс)2) это очень простой метод и к нему обязательно нужно прикрутить какую-либо модель сверху👀 Впрочем, последний пункт отчасти даже является плюсом, ведь к сноркелю можно прикрутить другие интересные методы weak supervised и получить качество лучше, чем каким-либо способом по отдельности, например очень неплохо себя показала идея из https://arxiv.org/pdf/2204.13409.pdf - просто подгоняем распределение выхода сноркеля, но никто не мешает использовать и другие хорошие вещи, такие как:Shoring Up the Foundations: Fusing Model Embeddings and Weak SupervisionPRBOOST: Prompt-Based Rule Discovery and Boosting for Interactive Weakly-Supervised LearningОтдельно хочется сказать, что snorkel содержит в себе еще и удобные инструменты для анализа полученных данных: например slicing functions, позволяющие в разрезе по каждому классу смотреть его качествоUPD: теперь с красивой картинкой)

⚡️⚡️⚡️Kandinsky 2.2 выходит в светВот и наступил долгожданный знаменательный день, когда мы готовы порадовать комьюнити новой версией генеративной модели Kandinsky 2.2. Не буду долго томить вас лирикой и историями, как мы маленькими шагами двигались к качественному скачку эти 3 месяца с момента релиза 2.1, а просто расскажу о ключевых нововведениях:📌 разрешение генераций теперь достигло 1024 px 📌 генерировать можно с различным соотношением сторон (ура, конец монополии квадратных генераций!)📌 изображения стали максимально близки к фотореалистичным📌 у модели появилась возможность изменения частей изображения за счёт внедрения механики ControlNet (пока только на основе карты глубины)📌 версии 2.1 и 2.2 встроены в самый большой и известный фреймворк генеративных моделей - Diffusers⚡️В телеграм боте теперь 6 режимов:1) генерация картинки по тексту2) смешивание двух изображений3) смешивание изображения и текста4) создание вариаций входной картинки5) локальные изменения с помощью ControlNet механики 💥6) создание стикеров и стикерпаков по текстовым запросам 💥Воспользоваться моделью можно тут:Telegram botfusionbrain.aiDiffusersrudalle.ruСалют📕Почитать подробнее про Kandinsky 2.2 можно в новой статье на Хабре.❓По вопросам сотрудничества и развития модели пишите в ЛС - с радостью обсудим все идеи😉P.S. По неожиданной случайности сегодня еще День Фотографа, с чем всех причастных торжественно поздравляю📸 Такой вот подарок для сообщества от нашей команды🎉@complete_ai⚡️⚡️⚡️Kandinsky 2.2 выходит в светВот и наступил долгожданный знаменательный день, когда мы готовы порадовать комьюнити новой версией генеративной модели Kandinsky 2.2. Не буду долго томить вас лирикой и историями, как мы маленькими шагами двигались к качественному скачку эти 3 месяца с момента релиза 2.1, а просто расскажу о ключевых нововведениях:📌 разрешение генераций теперь достигло 1024 px 📌 генерировать можно с различным соотношением сторон (ура, конец монополии квадратных генераций!)📌 изображения ст