Где все клоуны кто задвигал про dpo) Мне буквально СТО стартапа юникорна полтора года назад задвигал что RL больше не нужен, так как есть DPO😂
Похожие каналы
Все →Последние посты
Numbers every LLM Developer should knowby Ray and Jeff Deanhttps://github.com/ray-project/llm-numbers
Еще один template language для LLM, теперь от Microsoft. Потихонько девелопмент LLM applications стабилизируется. Люди понимают что решения типо langchain не юзабельны для сложных композиции LLM, так как у вас получается огромный лапша код полностью не юзабельный, особенно если он пишется большой командой. Идея использовать классические template language с LLM достаточно очевидна, поэтому в скором времени мы увидим целый класс таких фреймворков. Код становится более понятный и легче поддерживаемый.Но глобально все эти фреймворки не решают проблемы по настоящему сложных систем LLM аппов и агентов. Поэтому я работаю над фреймворком где основная абстракция это tractable стохастическая мутация строк. По настоящему сложные приложения не будут выглядеть как огромная композиция захардкоженых чейнов, аппликейшены будущего будут больше похожи на autogpt или babyagi. Где сама логика и флоу чейнов генерируется и декомпозируется автоматически.https://github.com/microsoft/guidance
Channel photo updated
На данный момент молодому ресерчеру(или deeptech стартапу ахах) важно сфокусироваться на 4 направлениях1. Engineering - Gpu optimisation/distributed training - методы по типу fast attention которые позволили обучить модели типо gpt-4 с большим context length 2. Lora и другие методы адаптеров и файн тюна, в будущем скорее всего у каждого человека будет персональный АИ который будет tailored к нему, вопрос где держать данные пользователя в весах нейронной сети или же в векторной базе данных, чуть позже попробую написать более подробный пост про это3. Новые методы обучения LLM, такие как Efficient (Soft) Q-Learning for Text Generation with Limited Good Datahttps://arxiv.org/abs/2106.07704Один из самых красивых пейперов которые видел за долгое время 4. Meta learning LLM, Джон Шульман фаундер опенаи, один из самых мощных специалистов по meta learning в мире, поэтому это дело времени когда мы увидим meta learning llm
В первом посте я писал на сколько важно валидировать аутпут LLM. Это позволяет убрать галлюцинирование, контролировать constraints, и самое главное строить сложные композиции из LLM агентов которые смогут общаться между собой, декомпозировать задачи, критиковать и рефайнить. Например у нас есть LLM аналитик, LLM инженер, LLM board member итд После разговора с одним VC, он говорит что за последнее время видел 50 LLM B2B стартапов которые пытаются делать кооперирующих LLM агентов. Проблема в том что такие агенты при коммуникации умножают свои ошибки, и error propagation в каскаде агентов растет экспоненционально. Данная проблема решается валидацией и constraints формальными методами над которыми я щас работаю. Но для этого нам нужны доступ к логитам чтобы строить маски. GPT-4 не дает этот доступ так как люди активно дистиллируют модель имея доступ к логитам и быстро забирают конкурентное преимущество openai почти за очень маленькие деньги. Скорее всего провайдеры больших foundation моделей не будут давать доступ к логитам в принципе. Но появляется вопрос что делать юзерам апи моделей. В любом случае валидация будет нужна всем, и тогда люди будут просто активнее пользоваться опенсоурс моделями и поднимать их сами. Прэтому я думаю openai и другие провайдеры позволят отправлять маски к ним без доступа к логитам напрямую. Таким образом они не будут проигрывать конкуренцию опенсорсу и другие не смогут заниматься дистилляцией.

Компании в будущем будут полностью управляться AI с минимальным вмешательством человека. Интересный пейпер про операционную аналитику, ERP, digital twins и LLMTowards autonomous system: flexible modular production system enhanced with large language model agentshttps://arxiv.org/pdf/2304.14721.pdf
Комбинирование constraint SAT solver-a c LLM (in context learning)Reliable Natural Language Understanding with Large Language Models and Answer Set Programminghttps://arxiv.org/pdf/2302.03780.pdf
Хороший survey по prompt engineering написал Lil’Log из openai. Где он уложил 25 ключевых пейперов по prompt engineering каждый в пару предложении https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/
Все пейперы выше по prompt engineering, это нельзя назвать разделом machine learning, так как это другая дисциплина. Порог входа в понимание пейперов очень низкий, вам не нужно знать хорошо математику или computer science. Поэтому можно читать сотни таких пейперов без напряга
Интересные пейперы по prompt engineering которые прочитал на этих выходных.From Words to Code: Harnessing Data for Program Synthesis from Natural Languagehttps://arxiv.org/pdf/2305.01598.pdfUnstructured and structured data: Can we have the best of both worlds with large language models?https://arxiv.org/pdf/2304.13010.pdfTaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIshttps://arxiv.org/pdf/2303.16434.pdfMM-REACT : Prompting ChatGPT for Multimodal Reasoning and Actionhttps://arxiv.org/pdf/2303.11381.pdfPrinciple-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervisionhttps://arxiv.org/pdf/2305.03047.pdfGPT is becoming a Turing machine: Here are some ways to program ithttps://arxiv.org/pdf/2303.14310.pdfCan LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLshttps://arxiv.org/pdf/2305.03111.pdfA Case-Based Reasoning Framework for Adaptive Prompting in Cross-Domain Text-to-SQLhttps://arxiv.org/pdf/2304.13301.pdfDivide and Prompt: Chain of Thought Prompting for Text-to-SQLhttps://arxiv.org/pdf/2304.11556.pdfDIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correctionhttps://arxiv.org/pdf/2304.11015.pdfTeaching Large Language Models to Self-Debughttps://arxiv.org/pdf/2304.05128.pdfQuerying Large Language Models with SQL [Vision]https://arxiv.org/pdf/2304.00472.pdfAUTOMATIC CHAIN OF THOUGHT PROMPTING IN LARGE LANGUAGE MODELShttps://arxiv.org/pdf/2210.03493.pdfFrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performancehttps://arxiv.org/pdf/2305.05176.pdfRefining the Responses of LLMs by Themselveshttps://arxiv.org/pdf/2305.04039.pdfSimulating H.P. Lovecraft horror literature with the ChatGPT large language modelhttps://arxiv.org/pdf/2305.03429.pdfLow-code LLM: Visual Programming over LLMshttps://arxiv.org/pdf/2304.08103.pdfComplex QA & language models hybrid architectures, Surveyhttps://arxiv.org/pdf/2302.09051.pdf

Как формальные методы могут помочь прунить спейс если объяснить на пальцах?Например мы хотим генерить код, в данном случае мы можем на каждом этапе генерации токена проверять удовлетворяет ли корректному синтаксису полученная строка. Другой пример если мы ставим какой то constraint на аутпут LLM. Например a && b, понятно если a=false, нет смысла дальше проверять эту ветку дерева. Математически мы используем производные от строк, так называемые Brzozowski derivatives, пример теоремы определенной формальной абстракции которые позволяют сохранить Soundness при прунинге спейса с сonstraints, на практике мы хотим получить гарантии soundness, а не completeness
AGI будет создан скоро. Много лет я изучал современные алгоритмы deep learning и RL и классические алгоритмы из формальных методов, логического программирования, constraint optimization etcСейчас делаю ставку на адаптивные Large Language модели. Это системы которые могут обучаться без gradient descent, за счет автоматического промпт инжиниринга. На данный момент фокусируюсь на контроле аутпута LLM. Дело в том что мы можем контролировать аутпут LLM с помощью масок. То есть обнулять вероятности тех слов которые мы не хотим чтобы генерировались. Таким образом на самом деле проблема галлюцинации нейронных сетей вовсе не проблема. С помощью масок мы можем контролировать чтобы LLM выдавала только те токены которые мы хотим. Все это верно когда мы генерим один токен, но в практической задаче нам нужна последовательность где каждый токен обусловлен предыдущими. Есть разные методы декодирования LLM. Простейщий метод это жадный алгоритм где мы берем каждый раз токен с самой высокой вероятностью, важно понимать что жадный алгоритм не означает максимальную вероятность всей строки. То есть мы беря каждый раз самый вероятный токен, мы не получаем самую вероятную строку. Жадный алгоритм в данному случае всего лишь один проход в глубину. Чтобы получить самую вероятную строку мы должны делать поиск в ширину, но на практике мы быстро получаем комбинаторный взрыв. Так же есть другой способ декодирования это просто сэмплирование из категориального распределения. В данному случае строки которые мы получим так же не будут самими оптимальными и слова в строке могут выглядить не связанными. Те кто давно занимается автогенеративными моделями знают beam search, когда мы комбинируем жадный алгоритм с поиском в ширину. На данный момент beam search это основной метод который применяют на практике ресерчеры. Таким образом вся задача сводится к прунингу спейса, чтобы победить комбинаторный взрыв. Это область которая давно изучается в таких направлениях как program synthesis, формальные методы,
Channel name was changed to «AGI»
Channel created