
Это убожество.
@technojnec
Канал моих увлечений и поделок. Всё ,что я делаю и выкладываю здесь - делается с любовью.Поддержать канал: https://tbank.ru/cf/8Xnajl01ehmПоддержать канал: https://yoomoney.ru/fundraise/1C86E2DGIU9.250819

Это убожество.

Я все ещё отдыхаю....а Fable работает вовсю...
Ну штош...развилка.Закончил супер SFT, ultra SFT.Остался последний верный вариант чтобы улучшить умения модели ещё.Генерировать не greedy , а с запретом повторов варианты ответов на сложные многосоставные задачи.Т.к. ответ уже есть в датасете из 190млн сгенерированных токенов - надо будет отобрать в районе 20к поровну токенов на все домены.Найти те самые сообщения или генерировать их (что легче ) в которых решаются логические проблемы.Выбирать итеративно. 1 из 10 ответов правильный - на него награду, а остальные rejected (отвергаются). Далее на прокачанных весах следующие выбирать. Попыток будет примерно 200 тысяч с учётом умножения ответов для выборки.Модель должна будет научиться через реффери - правильно приходить к ответу.Для чего нужен ии? Есть механизм проверки с помощью тулколинга ответов питоном + сверка с правильным если он по рассуждениям.Но в таком случае...лучше генерировать, так обобщаемость увеличивается. Метода проверенная, денег на это уйдёт немного.Далее варианты на такую модель, такого размера исчерпаны.P.S. Распределённое обучение будет в ближайшее время. Будем делать свой дипсик на 7B как пробник. Модель будет открытая.
Немного в режиме забвения, скоро вернусь. Это у меня так выглядит подзарядка - уманался, честно
Добрый день
В Telegram больше будет невозможно автоматически добавить гифки — Google сегодня отключает публичный доступ к API крупнейшей GIF-платформы Tenor
При обучении модели ещё надо учитывать помимо маскирования ответа от человека, чтобы по нему Loss не считался...нужно ещё не использовать PADDING...он убавляет способности модели в короткую и в длинную дистанцию растворяя её внимание и концентрацию. Изучаю маски диалогов....Вот - снова чёто новое...
Rukallama разваливается в ответах. Она часто анализирует то, чего в беседе нет. Я на 50% шиншиллы, т.е. у меня к 1 параметру 10 токенов. ЕСЛИ ВАМ КАЖЕТСЯ, ЧТО ЭТО БЫСТРО И ЛЕГКО, то нет...это занимает месяцы тренировки. Я вот только прошёл это...с таким трудом отобрал эти грёбаные 8млрд токенов...отчищая, вычищая...Да, конечно, для 800млн параметров это неплохо, но вот у Google с их Gemma на 175м или сколько там...они 300х прогнали шиншиллы...т.е. к 1 параметру 6000 токенов...у меня физически нет таких ресурсов. Все мои попытки достучаться до РФ правительства и так далее - безуспешны. На связь выходил суперкомпьютер-лаборатория, но слили меня потому что я не ООО, а ИП - и это уже для них СОМНИТЕЛЬНО. Поэтому я достраиваю распределялку и будем своими силами это делать. Больше ничего не остается. А модель...щас по совести последние попытки предприму и выложу, что есть....больше я уже не сделаю чуда своими руками.
Доброе утро! У меня ряд разочарований. Почти всё проваливается в плане дообучения, модель разваливается. Не хватает ресурсов или мозгов. Думаю...
оххх....позже опишу
Есть только контекст на 4к теперь - более или менее адекватный.
Заставляю Rukallama генерировать огромное количество greedy , т.е. голых ответов, где она уходит в цикл на сложных вопросах. Делаю DPO - генерирую параллельно правильный с убранными повторами с помощью простого repetition penalty и обучаю модель выбирать chosen…не сработало.
Yarn на 4К не сломал модель. Окей...*кипение мозга*
Заставляю Rukallama генерировать огромное количество greedy , т.е. голых ответов, где она уходит в цикл на сложных вопросах. Делаю DPO - генерирую параллельно правильный с убранными повторами с помощью простого repetition penalty и обучаю модель выбирать chosen - которые без повторов, а rejected будут те, что с повторами.Далее отбор из них тех, что в распределении модели и кое какое допиливание.
Привезли сифон, купил балон...теперь перешёл на домашнюю газировку. very vkusno. osobenno vkus kola + strawberry