Anscombe's Quartet

Anscombe's Quartet

@anscombes_quartet

Data/ML Engineering. Рассуждения по теме и не по теме.

516подписчиков
mixed

Похожие каналы

Все →

Последние посты

Язык Python (как впрочем и любой другой) не без проблем и коммьюнити старается эти проблемы решать. Помню что где-то в 2023 Python Package Index присылали мне как package maintainer письмо с гигантским вопросником на тему “как нам улучшить project and dependency management”. С тех пор утекло немало воды, и появилась целая плеяда утилит для Python package management - poetry, hatch, flit, rye. Сравнительно недавно вышедший uv мне пока что нравится больше остальных. Нравится мне он своей быстротой и удобной настройкой - и я думаю что это хорошая идея рассказать о том как использовать uv в Pythonic project в связке с Databricks Asset Bundles. 🔗 Почитать можно вот тут

25 дек. 2024 г.616В Telegram

Fresh off the press - буквально только-только вышла наша e-book по теме Data Governance и Unity Catalog! Скачать ее можно вот тут - 🔗 Data Governance Architecture PatternsЯ тоже поучаствовал в процессе и написал пару глав, описывая в деталях потенциальную структуру UC metastore и naming conventions.

19 нояб. 2024 г.545В Telegram

Закончил большой и обстоятельный пост про проект на нашей новенькой технологии - Databricks Apps, и рассказал в деталях по ссылке ниже. В целом очень рад что платформа за последние год-полтора обросла технологиями которые позволяют отстроить e2e data application - начиная от ingestion/etl, затем serving, а теперь вот еще и API + UI. https://www.linkedin.com/posts/ivan-trusov_databricks-databricksapps-react-activity-7260033853610725376-UBGh?utm_source=share&utm_medium=member_desktop

6 нояб. 2024 г.600В Telegram

Решил написать небольшую серию постов про мое видение прошлого, настоящего и будущего архитектур данных.Первый про DWH и архитектуры 2000-начала 2010x годов. Если кто что интересное из того периода вспомнит - welcome в комменты 🙂 https://www.linkedin.com/pulse/aevum-data-digitalis-part-1-operations-facts-ivan-trusov-dmnlf

7 окт. 2024 г.627В Telegram

Databricks User Group - это отличный способ узнать новое про современные DE/ML/BI решения, а так же нетворкинг (и пиво конечно же!).В этот раз мы проводим эвент в Кёльне. David Schenk, Lead Data Platform Engineer будет рассказывать real-life кейс от OBI. Я же скромно поведаю про наш обновленный Databricks Monitoring, с примерами и демо.📅 Date: October 10, 2024 🕒 Time: 6 PM welcome reception, 6:30 PM starting with the first talk 📍 Location: Infomotion GmbH - Augustinerstraße 10, Köln 50667🔗 RSVP и программа здесь

22 авг. 2024 г.587В Telegram

У нас в Databricks EMEA team открылись две позиции для Sr. Specialist Solutions Engineer по тематике DWH ⚡. Много интересных задач - как миграции так и greenfield проекты, можно работать на ремоуте (но возможен travel up to 30%). Рассматриваем кандидатов с EU work permit, преимущественно в Германии.🔗 Полное описание позиции здесь 🤝 За рефером можно написать мне в LinkedIn

9 авг. 2024 г.1 270В Telegram
Anscombe's Quartet — пост в ТГ канале

6 июня в Цюрихе буду рассказывать про CI/CD на Databricks on AWS. Буду показывать как использовать современный toolset для такой разработки (hatch, DABs, pytest with testcontainers, Github Actions with self-hosted runners). ссылка на регистрацию - https://aws-experience.com/emea/dach-cee/e/6c859/aws-builders-day

3 мая 2024 г.792В Telegram

Продолжаю развивать идею HATEAOS на Python. В последнюю неделю я чуть переработал логику рендеринга, и как мне кажется даже не смотря на то что в новом подходе частично теряется типизация, с точки зрения чистого dev experience это выглядит куда приятнее. Ну и поскольку первым делом в любых UI фреймворках все пишут todo, я тоже решил пройти этот путь и вышло довольно удобно - всего 98 строк, причем с хорошей типизацией и разбивкой на компоненты. Почитать в деталях можно вот тут. А если кому идея прям зашла, welcome в контрибьюторы 🙌

18 февр. 2024 г.948В Telegram

Пару выходных назад я почитал про концепцию HATEAOS, aka Hypermedia as the Engine of Application State, и фреймворк под названием HTMX. Если вкратце, то идея HTMX в том чтобы писать как можно меньше client-side кода на JS, а интерактивность обеспечивать путем отправки новых блоков HTML кода обратно с сервера на клиент (в браузер). Мне показалось что такая концепция хорошо подходит для того чтобы реализовать server-driven UI kit уже на Python. Идея в целом простая как пробка:- Python-сервер возвращает на клиента готовую HTML страничку- действия пользователя на клиенте триггерят события, а htmx эти события заворачивает в вебсокет и отправляет обратно на сервер- на стороне сервера определяется что и как нужно сделать с этим событием, а в ответ отправляется небольшой кусочек HTML кода, который аккуратно морфится на странице. После пары выходных за ноутбуком получился небольшой фреймворк под названием schorle. Попробовать его в действии, а так же почитать про его логику можно вот здесь:https://polarpersonal.medium.com/schorle-testing-the-waters-with-a-python-server-driven-ui-kit-053f85ee6574

28 янв. 2024 г.849В Telegram

Заглянул в славный город Белград и пообщался с коллегами в недавно открытом R&D офисе Databricks. Ребята активно ищут талантливых инженеров в новую команду, и готовы обсуждать варианты с релокацией в Белград. Позиции можно посмотреть вот здесь, и я конечно же буду рад пореферить - пишите в LinkedIn.

25 окт. 2023 г.1 920В Telegram

А еще у нас большой эвент намечается - ежегодный Data + AI Summit 2023. Я в этом году буду его смотреть в Берлине на Watch Party, 28 июня, и буду рад видеть всех кто захочет поболтать про DE/ML. Помимо Берлина еще куча мест - приходите социализироваться и узнавать о новых направлениях в Lakehouse architectures:🔗 RSVP Link

14 июн. 2023 г.1 180В Telegram

Залетайте послушать про Delta Lake и работу с этим форматом от одного из коммитеров в нативные Delta Lake коннекторы на разных языках (outside of Spark ecosystem). Robert Pack очень крутой технический эксперт из BASF, и он предметно понимает то, о чем говорит. 📍 Thursday, 15 June 2023, 18:00–19:00 CEST🔗 RSVP Link

12 июн. 2023 г.989В Telegram

Fresh off the press - мой новый обширный блогпост о том как на чистом Python и с использованием Spark APIs (никаких ORM!) написать UI-приложение для разметки картинок. Бонус поинт - все данные лежат в клауд сторадже, следовательно и выгружать свои данные куда-то не надо (как и не надо пытаться запихивать эти картинки в БД). Работает эта вся магия на связке Dash (Pythonic framework for Data Applications), Databricks Connect “V2” и конечно же Lakehouse. https://polarpersonal.medium.com/building-an-image-classification-app-with-databricks-connect-v2-and-dash-3c7f855f6e6

18 мая 2023 г.861В Telegram

Из практики я часто вижу как при дизайне дата приложений инженеры совершают небольшие ошибки и недочеты, не беря в расчет потенциал роста данных и изменения требований. По счастью Apache Spark достаточно гибок для того чтобы с его помощью писать выразительный код который может быть вполне себе лишен этих недостатков. Об этом по ссылке - https://polarpersonal.medium.com/on-the-importance-of-future-proof-data-architectures-and-how-apache-spark-helps-to-build-them-9237f8388476

10 апр. 2023 г.841В Telegram

Нашел интересную статью от апреля 2021 в Microsoft WorkLab.В статье описывается влияние back-to-back meetings на мозговую активность и способность к фокусировке. Замеры показателей были сделаны с помощью EEG датчиков непосредственно на голове испытуемых (побольше бы таких исследований!). Саммари такое - мозг у кожаных мешков очень не любит стрессы и переключения контекста. Даже 10-ти минутный перерыв между встречами значительно снижает этот уровень стресса и позволяет куда эффективнее работать. https://www.microsoft.com/en-us/worklab/work-trend-index/brain-research

2 апр. 2023 г.838В Telegram