BigData Team: the way you learn bestПрактико-ориентированное обучение по Big Data, Machine Learning, промышленной разработке на Python.https://bigdatateam.org/ruЧтобы бустнуть: https://t.me/boost/bigdatateam
✍️ Как ИИ меняет ITЗнакомо? Ставьте лайк и делитесь своими историями в комментариях!credit за находку: Денис С.// выпускник практических курсов BigData TeamBigData Team: the way you learn bestPy4BDA | Python | Machine Learning | Big Data | BD/ML Engineer #meme
✍️ Готовимся к работе в Data Science, pro #ml (ч.5)Ближе к науке ближе к данным!Практически любая модель машинного обучения под капотом использует алгоритмы оптимизации. Самих методов оптимизации существует большое множество. Чтобы оценить насколько большое — посмотрите хотя бы на кирпич по выпуклой оптимизации Бойда и Ванденберга или их одноименный курс в Stanford.Помимо выпуклой оптимизации в мире Machine Learning очень часто используется еще и численная оптимизация. И не так много специалистов по анализу данных хорошо знакомы с математикой задач оптимизации. Если вы любите математику и хотите выпендриться выделиться в сфере анализа данных (получить конкурентное преимущество на рынке труда) — то это ваш конек!Плох тот аналитик, который не хочет стать data scientist'ом. А чтобы им стать, вам необходимо хотя бы на базовом уровне понимать идеологию оптимизации, уметь взять производную и спуститься по антиградиенту (без пафоса: в направлении минус-производной). Самостоятельная реализация алгоритмов оптимизации в мире ML — это большая редкость. А вот их использование — сама необходимость. Чтобы освежить воспоминания и научиться оптимизировать функции в Python мы рекомендуем познакомиться с модулем для научных вычислений scipy и функцией minimize:from scipy.optimize import minimizeЗадача #1Найдите хотя бы один локальный минимум функции от одной переменной аналитически:f(x) = 3 * x^6 - 5 * x^4 + 2 * x - 1Затем попробуйте найти минимум с помощью scipy. Попробуйте разные алгоритмы (например Nelder-Mead), оцените их сходимость и сравните результаты.Задача #2Частая ошибка: забыть проверить граничные случаи и сходимость работы алгоритма. Например, попробуйте решить одну из задач домашнего задания Практического курса по Machine Learning.Найдите минимум функции от двух переменных:f(x, y) = 3 * x * y + 3 * x^2 - 4 * y + 7 - 5 * x^5🚀 Что делать, если вы хотите двигаться еще быстрее👉 записаться на Практический курс по Machine Learning— пройти тестирование по ML— познакомиться с
🧑💻 Больная мозоль аналитиков данныхВ реальных задачах анализа данных ранее на предобработку уходило до 80% времени. С развитием ИИ простые задачи обработки данных оптимизируются за счет кодогенерации функций предобработки и их запуска, но процессорное время исполнения никто не отменял.Напишите, пожалуйста, в комментариях как выглядит распределение времени в настоящее время эпоху AI с вашей колокольни.BigData Team: the way you learn best Py4BDA | Python | Machine Learning | Big Data | BD/ML Engineer#meme
✍️ Готовимся к работе в Data Science, pro #ml (ч.4)Как впечатлить клиента, начальника или любого заказчика ваших исследований? Помимо того, что вы научились делать визуализации с помощью matplotlib, вы можете научиться делать потрясающе красивые визуализации с помощью seaborn.Seaborn широко известен в узких кругах как sns:import seaborn as snsПомимо красоты, одна из самых полезных и интересных интеграций — это возможность применять статистический анализ (отрисовывать доверительные интервалы) и делать срезы по категориям на лету (см. изображения и параметр "hue").Уже не терпится прокачать свои навыки при работе с этой библиотекой? Правило стандартное: усаживайтесь поудобнее, подписывайтесь на канал (чтобы не пропустить новые выпуски) и запасайте несколько часов в неделю в вашем графике для изучения полезного: an introduction to seaborn.Чтобы не быть голословным про математические (и статистические) интеграции, научитесь также понимать, что отрисовывает box-and-whisker plot (примеры на изображениях внутри violinplot).Полезная информацияПрошлые выпуски:— ч.1 введение в ML и библиотеки ML для Python— ч.2 оценка качества работы алгоритмов и learning curves— ч.3 визуализация в анализе данных✍️ Сохраните и подпишитесь, если хотите быть востребованным в IT🚀 Что делать, если вы хотите двигаться еще быстрееЕсли вы уже точно решили, что Machine Learning — это то, что вам необходимо для карьерного роста и развития, и вы хотите двигаться к вашим целям гораздо быстрее, то обратите внимание на наш интенсивный Практический курс по Machine Learning.Просто сравните: выше мы познакомились с еще одной из 6 библиотек, которые мы разбираем в первом учебном модуле курса. А таких учебных модулей у нас 10, и каждый из них мы проходим за 1 неделю. 🔥👀 Полный список авторов и инструкторов курса.👉 Запись на Практический курс по Machine LearningОстались вопросы? Напишите нам в [WA / TG]BigData Team: the way you learn best Py4BDA | Python | Machine Learning | Big Data | BD/ML Engineer #study
😅 А что? Все правильно сделал👉 Если не понимаете шутку, то вы знаете куда идти.🤗 Всем хороших выходных и прекрасного настроения!BigData Team: the way you learn best Py4BDA | Python | Machine Learning | Big Data | BD/ML Engineer #meme
✍️ Готовимся к работе в Data Science, pro #ml (ч.3)Одно изображение или удачный график передаёт мысль гораздо ярче, чем код, таблицы и длинные объяснения.Допустим вы работаете с данными из неизвестного распределения. Как вы думаете, сколько точек достаточно, чтобы гистограмма по этим данным наглядно показала, что это за распределение? Ответ: смотрите на изображении.Вместо тысячи слов:import matplotlib.pyplot as plt Очень многие пользователи pandas (Excel для Python) делают визуализации с помощью DataFrame.plot. На деле же этот метод просто транслирует вызов в matplotlib поверх данных в numpy.Всего несколько часов погружения в Quick start guide и вы будете знать о возможностях matplotlib больше, чем большинство специалистов по анализу данных на рынке.Если бы такие симуляции данных и визуализации научились делать преподаватели математики и статистики в школах и вузах, согласитесь, насколько нам всем было бы легче и интереснее познавать Machine Learning?Перешлите этот tutorial вашим друзьям, коллегам и преподавателям. Всего несколько часов изучения правильных инструментов, и наша жизнь станет чуточку ярче ❤️🔥Полезная информацияПрошлые выпуски:— ч.1 введение в ML и библиотеки ML для Python— ч.2 оценка качества работы алгоритмов и learning curves✍️ Сохраните и подпишитесь, если хотите быть востребованным в ITBigData Team: the way you learn best Py4BDA | Python | Machine Learning | Big Data | BD/ML Engineer #study #BigDataTeam✍️ Готовимся к работе в Data Science, pro #ml (ч.3)Одно изображение или удачный график передаёт мысль гораздо ярче, чем код, таблицы и длинные объяснения.Допустим вы работаете с данными из неизвестного распределения. Как вы думаете, сколько точек достаточно, чтобы гистограмма по этим данным наглядно показала, что это за распределение? Ответ: смотрите на изображении.Вместо тысячи слов:import matplotlib.pyplot as plt Очень многие пользователи pandas (Excel для Python) делают визуализации с помощью DataFrame.plot. На деле же этот метод просто трансл
🤓 Хочешь научиться проходить собеседования по ML?Учим не повторять, а думать. Закрепляем необходимые концепты из мира ML не только теоретическими задачами, но и понятными практическими примерами.Один из полезных вопросов для подготовки к собеседованиям (на изображении): приведите примеры алгоритмов машинного обучения и природы данных (можно даже датасетов, с которыми вам приходилось работать), для которых указанная замена пропусков в данных вредна, полезна или бессмысленна?Практический курс по Machine Learning:— выучиться на специалиста по Machine Learning— пройти тестирование по ML— узнать про наших преподавателейBigData Team: the way you learn best Py4BDA | Python | Machine Learning | Big Data | BD/ML Engineer #meme
✍️ Готовимся к работе в Data Science, pro #ml (ч.2)Тема выпуска: базовые принципы ML и простые алгоритмы обучения.Если пробежаться галопом по Европе, то после того, как вы освоили базовые операции в библиотеках numpy, pandas, sklearn и смогли сделать свою первую учебную посылку в соревновании на kaggle, то можно переходить на более глубокий уровень понимания происходящего. Это непосредственно сами алгоритмы (математика) и инженерная чуйка (практика использования).Вам необходимо познакомиться с различными семействами алгоритмов и понять интуицию их работы:1. Метрические алгоритмы (e.g. kNN)2. Логические алгоритмы (e.g. деревья)3. Вероятностные алгоритмы (e.g. Naive Bayes)4. Линейные модели и их расширенияС точки зрения математики вам нужно понять, что именно делает процедура кросс-валидации (подсказка #1: не все это понимают; подсказка #2: но мы вам можем объяснить доступным языком на занятиях, что такое оценка математического ожидания эмпирического риска 🤯).Вишенкой на торте (и вашей отличительной чертой в портфолио) может стать опыт использования и глубокого понимания полезных трюков для получения качественных моделей машинного обучения (см. скриншот). Очень простой и мощный подход, называемый Learning Curves (кривые обучения), на удивление, довольно малоизвестен. Чтобы получить теорию и практический опыт по этой части мы рекомендуем посмотреть mini-tutorial от sklearn: Plotting Learning Curves and Checking Models’ Scalability.А для закрепления понимания, научиться отвечать и дискутировать на вопросы:Что нужно делать (и нужно ли), когда:1. Ошибка на обучении высокая?2. Ошибка на обучении низкая?3. Ошибка на обучении немного ниже, чем на тесте?4. Ошибка на обучении существенно ниже, чем на тесте?С уважением, Алексей, Кирилл, Эмели — авторы 2-го учебного модуля "Базовые принципы ML и простые алгоритмы обучения" и ваши инструкторы Практического курса по Machine Learning.Полезная информацияПрошлые выпуски:— ч.1 введение в ML и библиотеки ML для Python✍️ Сохраните и по
🎱🧙 Почему специалисты по DE нужны больше, чем DSИстория в картинках: когда хотел стать Data Scientist'ом, но стал Data Engineer'ом.Знакомо? Ставьте лайк и заходите в комментарии.Желаем всем чистых данных и хороших выходных!BigData Team: the way you learn bestPy4BDA | Python | Machine Learning | Big Data | BD/ML Engineer #meme
✍️ Готовимся к работе в Data Science, pro #ml (ч.1)Если вы готовы погрузиться в мир Machine Learning, научиться делать не только fit/predict, но и писать исправлять код ИИ-агентов для решения поставленных перед вами задач в мире анализа данных, то усаживайтесь поудобнее, подписывайтесь на канал (чтобы не пропустить новые выпуски) и запасайте несколько часов в неделю в вашем графике для изучения полезного.Знакомство с библиотеками ML для Python мы начнем с научного подхода для работы с векторами и матрицами. Если звучит страшно – не переживайте, нам главное научить этого зверя работать по заданному нами шаблону и понимать его реакции.Многие ругают Python за его скорость, но несмотря на это, он все равно прекрасно себя чувствует в мире ML и разработки. Фокус в том, что можно использовать оптимизированные вычисления на C/C++ (или даже Fortran), а на Python использовать только обертку для интеграции.Почти наверняка вы слышали или уже работали с библиотекой pandas (Excel в мире Python для работы с табличными данными). Или использовали предобученные нейронные сети (например, популярные LLM, утащенные с Hugging Face). Каждый из этих подходов под капотом будет использовать операции по работе с тензорами и этот подход отличается от привычного в Python подхода работы со списками (банально отличаются сложения и "broadcasting"). Даже если вы будете писать верхнеуровневый код, для поиска багов и их исправления вам нужно научиться работать с этими принципами.Рекомендуем потратить несколько часов, чтобы этому научиться на примере библиотеки NumPy (которая используется под капотом pandas): the absolute basics for beginners.И это только одна из 6 библиотек, которые мы разбираем в первом учебном модуле Практического курса по Machine Learning. Список авторов и инструкторов курса.Автор 1-го модуля "Введение в машинное обучение и библиотеки ML для Python" — Алексей Драль.✍️ Сохраните и подпишитесь, если хотите быть востребованным в IT.BigData Team: the way you learn best Py4BDA | Python
👨🎓 Преподаватели по ML be like... (часть 3)Продолжим рубрику:Если ваши преподаватели объясняют работу алгоритмов по ML по-другому, то даже и не зовите меня на ваши курсы.🗓 27 апреля начнется интенсив по погружению в нейронные сети и Deep Learning, где Илья из науки и Илья из индустрии расскажут наглядно и понятно про LLM, их использование, обучение и fine-tuning под ваши задачи.Сохраните полезное:— записаться на Практический курс по Machine Learning— пройти тестирование по ML— узнать про наших преподавателейОстались вопросы? Напишите нам в [WA / TG]BigData Team: the way you learn best Py4BDA | Python | Machine Learning | Big Data | BD/ML Engineer #meme
✍️ Подготовка к собеседованиям: от Junior до Middle+рубрика pro #bigdataПодготовили резюме тем и полезных вопросов по теме работы в Big Data (профессия Data Engineer):— ч.1 Гарантии в IT проектах— ч.2 Функциональная парадигма и Fault Tolerance— ч.3 Spark MapReduce vs Hadoop MapReduce— ч.4 Hive, оптимизация вычислений и хранения данных— ч.5 Spark, RDD, типы кешей и оптимизации— ч.6 Spark vs pandas, SQL, DataFrames и PySpark оптимизации— ч.7 Косые данные, оптимизации группировок и shuffle— ч.8 Real-Time vs NRT, брокеры сообщений и почему Kafka— ч.9 NoSQL, CAP теорема, кольцо всевластия и денормализация— ч.10 Parquet, ORC, сжатие и эффективная укладка данныхИзучить можно в рамках:👉 Практического курса по Big DataПолезная информация✍️ Сохраните и подпишитесь, если хотите быть востребованным в IT✍️ Переносим механику с последней публикации на пост-резюме: когда данная публикация наберет 1k+ просмотров, 25+ лайков или 10+ комментариев, то мы дополнительно выложим чек-лист по подготовке к собеседованиям на позицию Data Engineer. Доступ к знаниям — в ваших руках.BigData Team: the way you learn best Py4BDA | Python | Machine Learning | Big Data | BD/ML Engineer #study #BigDataTeam
😢 Не было бы так смешно, если бы не было так грустноДо сих пор вертишь ручки алгоритмов ML без глубокого понимания их принципов и математики?👉 Проходите тестирование по ML и получайте бесплатные рекомендации по прокачке навыков по книгам и доступным на рынке курсам.Автор находки: Денис С.// выпускник практических курсов BigData TeamBigData Team: the way you learn best Py4BDA | Python | Machine Learning | Big Data | BD/ML Engineer #meme