I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.CTO&Founder of Dateno https://dateno.ioTelegram @ibegtinFacebook - https://facebook.com/ibegtinEmail ivan@begtin.techAds/promotion agent: @k0shk
Свежая модель GLM 5.2 от Z.ai, её уже можно потестить в агентском режиме на chat.z.ai и выглядит в работе она неплохоУ меня есть набор тестовых кейсов для deep research задач которые я опробую на всех новых моделях. Они к основной работе не относятся, зато я сам очень хорошо понимаю контекстную среду и могу оценить результат. Например, промпт как на приведенном скриншоте. В результате получается отчет на 30-40 страниц, не идеальный, не так чтобы вау-вау, но так чтобы очень хорошо. Если бы я реально этим репозиторием и кодом занимался, я бы рекомендации из результатов анализа применил. Необычное наблюдение что вместо режима выдачи результатов Markdown-по-умолчанию привычный по другим сервисам тут всегда выдается PDF или DOCX или оба файла, но не Markdown. Это скорее неудобно чем удобно, но точно не критично.По разного рода бенчмаркам для разработки у GLM-5.2 тоже очень высокие оценки, пробовать в работе точно стоит.#ai #tools
По поводу того что в Индии временно заблокировали Телеграм для борьбы со списыванием во вступительных экзаменах в ВУЗы, я бы думал об этом шире. Проблема не в Telegram, конечно же, она более системная и связана с доступностью цифровых устройств в целом и доступностью возможности обмена сообщениями и доступностью ИИ ассистентов в частности в экзаменах. Это не индийская проблема, а глобальная. Студенты используют ИИ ассистенты для домашних заданий, любых текстовых работ. Никаких простых решений тут нет, кроме достаточно радикального - в создании центров предварительной экзаменационной подготовки в заведениях мало отличимых от тюрем. В специальных зданиях, в районах далеких от основной инфраструктуры, с недоступностью в них сотовых сетей (глушилки), Wifi и спутниковой связи (тоже глушилки). С досмотром и невозможностью проноса любых цифровых устройств. С обширнейшими тематическими библиотеками на бумаге и отключенными от сети стационарными компьютерами. С тотальным видеонаблюдением. Отправлять туда студентов за несколько дней до экзамена, они там живут в режиме закрытого общежития, сдают экзамен, отправляются домой и через некоторое время (не сразу) узнают его результат. Ну как, звучит как хороший сеттинг для фантастического рассказа или это уже не фантастика?🤣#thoughts #ideas
Подборка ссылок про данные, технологии и не только:- Running local models is good now - автор пишет что, внезапно, но разработка ПО с помощью локальных моделей стала реалистичной. Она приводит в пример новую LLM Gemma-4-12b-qat достаточно компактную чтобы работать на ноутбуке с 64GB памяти и достаточно эффективную чтобы решать задачи работы с кодом.- SpaceX to acquire Cursor for $60B in stock если кратко то компания AnySphere создателей среды разработки Cursor теперь куплена SpaceX. Я бы сказал что если Grok не начнут навязывать через Cursor, то это хорошая новость. Думаю что не будут и думаю что это не последнее приобретение SpaceX- GenSpark - стартап/сервис-ИИ агента сравнимый с Manus. В моих тестах неожиданно хорошо показал себя на Deep Research задачах. Сервисов таких до сих пор не так уж много и можно разориться уже если тестировать их все.- Bigset агент с открытым кодом по созданию датасетов из веб-поиска. Вбиваешь что-то вроде "AI infrastructure startups hiring backend engineers" и получаешь CSV файл на выходе. Концептуально напоминает сервис Webhound, там открытого кода нет, только SaaS. Правда и Bigset хоть и с открытым кодом, но зависит от коммерческого сервиса Tinyfish через который он делает веб поиск.#opensource #ai #tools
Для тех кто интересуется разного рода международной таксономией, новая версия internacia-db управляемого справочника по странам и международным блокам в виде открытого репозитория приведенного к формату дата-продукта.В новом релизе 1.5.0 по совокупности изменений:- число стран/территорий расширено до 256 и теперь включает записи по непризнанным территориям вроде Приднестровья, Абхазии и тд. - добавлены новые международные блоки которых теперь 1070, типы международных блоков по прежнему: экономические блоки, международные соглашения, межгосударственные организации и фонды, экономические группы стран (по классификация Всемирного банка и другим) и так далее. Всего более 86 типов международных группировок стран- добавлена лицензия для данных которая CC-BY и provenance (происхождение) по отдельным полям данных в карточках записей.- многие карточки включают обновленные метаданные: описания, официальные названия, сведения о странах участниках, статус участия и так далее.Все данные опубликованы в форматах Parquet, YAML, JSON lines и в виде базы DuckDB.Для чего нужна эта база?1. Для обогащения данных при работе с любыми данными имеющими геопривязку к стране или международному блоку2. Для задач визуализации данных, например, статистики в привязке к странам и международным блокам3. Для сравнения стран и международных блоковИ тому подобных задач. Этот дата-продукт можно сравнить с pycountry пакетом для Python со справочником стран, но он больше, шире, детальнее и включает данные по международным блокам. #opendata #dataproducts #data
Open Knowledge Format свежая спецификация для описания знания для LLM в продолжение идеи LLM-wiki сформулированной Andrej Karpathy. Спецификация уже декларируется как используемая внутри Google Cloud Knowledge Catalog.Не они первые и не они последние кто реализует эту идею, она прямо таки уже стала одержимостью для многих в ИИ сообществе и неспроста, поскольку переосмысливает некоторые устоявшиеся подходы. Например, то что каталог данных/метаданных теперь может быть каталогом знаний. Вроде как очевидно, но не совсем. Что мне нравится - открытая и простая спецификация, достаточно крупный/тяжелый бренд ее реализующий. Что мне не нравится - хочется что-то отчуждаемое от конкретного проприетарного продукта, в данном случае облака Google. Если будет реализация только в открытом коде и без привязки к облакам - это идеальный вариант. Впрочем, не забываем что реализаций/спецификаций много, так что будет ли эта популярна еще не очевидна.P.S. Название, конечно, придумано весьма сомнительное учитывая существование Open Knowledge Foundation (OKF). Просто таки смешение терминов#opensource #standards #ai #google #knowledge
Датасет Цифрового архива: роспись расходов Государственного бюджета РСФСР на 1935 годОдин из самых крупных датасетов в нашей коллекции — «Роспись расходов Государственного бюджета РСФСР на 1935 год в тысячах рублей». В нем конечные цели расходов объединены в более крупные сущности — направления, типы, сферы расходов, а также показаны ведомства, в компетенции которых находятся те или иные затраты.Например, учреждения Наркомата финансов (Наркомфин) получают средства в рамках разделов «Просвещение» и «Общее управление», а именно 11 млн 44 тыс. и 2 млн 87 тыс. рублей соответственно.При этом деньги, выделенные на просвещение, разделены по типам учебных заведений, далее — по уровню получаемой квалификации и наконец по конечным целям: заработная плата, административно-хозяйственные расходы, стипендии и так далее.Что касается раздела «Общее управление», то соответствующие средства для учреждений Наркомфина имеют меньше уровней деления и сразу распределяются по конечным целям.Разнообразные способы группировки помогают рассмотреть структуру финансирования разных отраслей и направлений народного хозяйства с разных точек зрения и глубже понять устройство бюджета РСФСР в 30-е годы.Полностью ознакомиться с расходами РСФСР в 1935 году можно в соответствующем датасете на сайте Цифрового архива.#бюджет #датасет #ЦАГГ #РСФСР #история #финансы #Наркомфин
Мне много что есть сказать по поводу отзыва компанией GlobalSign сертификатов у российских доменов и недавнего изменения политики Let's Encrypt в части соблюдения санкций США (теперь соблюдают, если вкратце и не будут больше выдавать их санкционным компаниям). Последствия этого будут для российских пользователей неприятными и пойдут эти действия скорее в копилку доводов тех кто говорит про суверенный интернет в РФ и как бы все не обернулось попытками усиления внедрения отечественных браузеров, сертификатов НУЦ и так далее. В чем, разумеется, ничего хорошего нет и быть не может, российский цифровой рынок не настолько большой чтобы усиливать собственную изоляцию, и множество продуктов поломается из-за невозможности проверки сертификатов так же как и риски взломов усилятся.Но тема эта не про данные, а не про данные мне говорить скучно😉 так что я, всё таки, предложу посмотреть на эту проблему через данные. Сертификаты для сайтов и других целей в мире выдаются не кем попало, а так называемыми Certificate Authority и крупнейшие вендоры браузеров, операционных систем и устройств проводят их верификацию/аттестацию и включают в списки признаваемых ими. Вот тут можно посмотреть примеры таких списков. Наиболее значимые - это списки Apple, Microsoft, Google для их операционных систем, но, в принципе, все они важны. Наиболее крупный список Common CA Database ведет Linux Foundation в партнерстве с Microsoft, Mozilla, Cisco и Google. Он включает 10122 сертификата, выпущенных 186 корневыми CA из примерно 60 стран. Эти страны включают, практически все страны ЕС, многие азиатские и даже некоторые африканские страны. А каких стран там нет? Из значимых там нет России, Беларуси и всех стран Центральной Азии и многих других. Почему же так, спросите Вы? Может быть потому что они не могли бы пройти по требованиям для их аттестации? Может быть потому что не было и нет целенаправленной госполитики по их созданию? Или в том что зарубежные вендоры изначально не доверяют компаниям в области бе
Anthropic внезапно и по требованию властей США отключили Fable 5 для всех клиентов. Причем требование было про угрозу национальной безопасности без уточнения причин, но можно предполагать что причины в том что кто-то из пользователей таки смог преодолеть защиту от применения в целях кибербезопасности и других потенциально опасных тем/задач.Всё это поднимает сразу два ключевых вопроса:1. Неизбежность обязательного сильного государственного вмешательства в разработку и доступность наиболее передовых LLM и ИИ сервисов2. Невозможность страновых ограничений для доступа. Власти США запретили предоставлять доступ всем негражданам США и Anthropic вынуждены были отключить вообще для всех, потому что гарантировать недоступность для всех несоответствующих этому критерию сложно.Событие это важное, если не переломное. А что будет когда модель сравнимую с Fable/Mythos выпустят китайцы, ее власти США тоже запретят? И как, простите, они это сделают?#ai #thoughts
OpenSharing свежий стандарт/протокол/спецификация по обмену данными и другими цифровыми артефактами для работы ИИ агентов включая таблицы, коллекции файлов, схемы, глоссарии и так далее. Был передан компанией Databricks в Linux Foundation и основан на уже активно используемом протоколе Delta Sharing к которому уже есть действующая экосистема и множество продуктов его поддерживают.Передача его в Linux Foundation - это хорошо, это позволяет расширить экосистему. Хочется надеяться что появятся еще и open source реализации серверной части delta sharing, чтобы не зависеть от облака Databricks. #opensource #standards #ai #tools #datatools
Полезные ссылки про данные, технологии и не только:- dagster price increase 10x insane , don't ever use them тред на Reddit о том как Dagster подняли в 10 раз цены на их облачный сервис. Для тех кто не знает - Dagster это такой ETL/ELT продукт с открытым кодом по модели SaaS когда бесплатно открытый код и платно когда используешь в облаке. И вот они подняли цены в 10 раз. Продукт удобный, но с таким отношением я бы и от open source версии отказался. У них код под лицензией Apache 2.0 и хочется надеяться что кто-то его форкнет и начнет развивать альтернативу если они еще и open source код начнут портить.- We had to build new evals for Fable обзор модели Fable 5 для задач дата аналитики от ребят из команды Hex (облачный сервис аналитических тетрадок). Если коротко то это хорошо, но недешево. Полезный обзор#readings #ai #datatools
Разные мысли вслух про ИИ и не только:- мысль которую я уже формулировал, но можно и повторить. Разработка с помощью ИИ агентов для зрелого разработчика большой плюс, для юниора большой минус. И готовность применять кратно различается. В общем если Вы начинающей разработчик/инженер/аналитик то вайб-кодинг в резюме совсем не плюс, а может быть и минус- судя по ограничениям которые Anthropic наложили на модель Fable, публичный вариант Mythos, мир движется к тому что будут модели без ограничений за очень большие деньги и для особых клиентов, и модели с ограничениями для широкой аудитории. Интересно только как скоро появится открытая модель сравнимая с Mythos/Fable? - продолжая мысль про открытые модели, это же во многом про демократизацию доступа технологиям двойного назначения. Условно возможно ли кибервойны будущего между несколькими крупными корпоративными или национальными автономными ИИ продуктами? Не то чтобы я хотел это видеть своими глазами, как писатель фантаст интересуюсь;)- большое число ИИ продуктов локально приводит к большому числу ключей доступа к ИИ моделям и сервисам прописанных в переменных окружения. Чем дальше, тем это всё менее безопасно поскольку доступ к ним имеют вообще все приложения запущенные от текущего пользователя. С одной стороны ключи SSH тоже доступны также любому приложению, а с другой, неужели меня одного это волнует?#thoughts #aiagents
Полезные ссылки про данные, технологии и не только:- The Tableau Exodus Has Begun короткий текст с анализом того почему Tableau уже не самый интересный инструмент для аналитики и то какие есть альтернативы. Текст в жанре BI is dead, long live AI-analytics. Тема слегка спекулятивна, но актуальна- Cate попытка переосмыслить пользовательский интерфейс разработчика в виде IDE и множества окон ИИ агентов. Не чувствую уверенности что идеальное решение, но любопытное уж точно- Android developer verification timeline просто для напоминания для тех кто забыл. С сентября 2026 года Google вводит обязательную верификацию всех приложений на платформе Android на всех устройствах сертифицированных Google. Это не значит что приложения из непроверенных источников совсем нельзя будет поставить, но процесс сильно усложнится. Как бы некоторые приложения в некоторых странах не превратились бы в тыкву#opensource #ai #android #bi
692 номера, 69 лет и один перерыв на войну. В Цифровом архиве госфинансов и госуправления собраны все выпуски журнала «Плановое хозяйство» — главного печатного органа Госплана СССРИздание ведёт отсчёт от «Бюллетеней Госплана» (1922–1923), сохранив сквозную нумерацию и в 1924 году обретя постоянное название. На его страницах печатались не только планы и балансы, но и ключевые экономические дискуссии:• в 1927 году здесь вышли «Критические заметки о плане развития народного хозяйства» Н.Д. Кондратьева, где были обозначены системные изъяны планирования; • в 1928–1929 годах разворачивались споры о том, сохранятся ли цены при «законченном социализме»; • в 1930-м вышел специальный номер о «вредительстве», открывавшийся статьёй Г.М. Кржижановского с примечательной фразой о теплотехнике К.В. Кирше: тот «заблаговременно умер до своей вероятной измены».В послевоенный период журнал оставался главной профессиональной трибуной: в 1973 году он стал первым отраслевым изданием, удостоенным Ордена Трудового Красного Знамени (тираж достигал 52 тыс. экз.), а в 1973-м и 1988–1989 годах на его страницах обсуждались методы оптимального планирования и противозатратное хозяйствование.В подборку вошли 692 номера в формате PDF — от «Бюллетеней Госплана» до последнего выпуска 1991 года, когда издание было переименовано в «Экономист». Ознакомиться и скачать можно на сайте Цифрового архива.#ЦАГГ #история #госуправление #экономика #подборка
Data.gov: Implementation and Perspectives on Its Functions на сайте Конгресса США обзор истории портала Data.gov и перспектив его развития. Документ в форме отчета Конгресса, написан очень бюрократизированным языком, читать его непросто, хотя и интересно. А заодно полезно для понимания проблем с которыми сталкиваются при разработке порталов открытых данных. Data.gov в довольно запущенном состоянии уже давно, как и ряд других национальных порталов открытых данных. #opendata #usa #data #datacatalogs
В рубрике интересных каталогов открытых данных коллекция датасетов в проекте Mozilla Data Collective. Включает множество датасетов по самым разным темам, но основная тема - это языковое разнообразие и каталог включает множество наборов данных именно по языкам, включая редкие или не самые популярные. Например, датасеты по армянскому языкуИз плюсов:- датасетов много и они полезны- большая часть под свободными лицензиями или почти свободными вроде CC-ND/CC-NC- Mozilla устоявшаяся структура, есть ощущение что каталог не сиюминутенИз минусов:- доступ требует регистрации и это не открытые данные, для выгрузки или доступа через API даже при свободных лицензиях надо согласится вручную со всеми условиями (не только лицензиями)- сам каталог является самостоятельной поделкой, не стандартизированный поэтому многие функции вроде фильтрации сделаны так себе, непродуманно- то что там называется API - это API на выкачку файлов, а не на доступ к данным через API.В целом не вижу чем он удобнее чем тот же Hugging Face, в работе с датасетами для ИИ, но помнить о нем немаловажно#opendata #datasets #datacatalogsВ рубрике интересных каталогов открытых данных коллекция датасетов в проекте Mozilla Data Collective. Включает множество датасетов по самым разным темам, но основная тема - это языковое разнообразие и каталог включает множество наборов данных именно по языкам, включая редкие или не самые популярные. Например, датасеты по армянскому языкуИз плюсов:- датасетов много и они полезны- большая часть под свободными лицензиями или почти свободными вроде CC-ND/CC-NC- Mozilla устоявшаяся структура, есть ощущение что каталог не сиюминутенИз минусов:- доступ требует регистрации и это не открытые данные, для выгрузки или доступа через API даже при свободных лицензиях надо согласится вручную со всеми условиями (не только лицензиями)- сам каталог является самостоятельной поделкой, не стандартизированный поэтому многие функции вроде фильтрации сделаны так себе, непродуманно- то что там называется