Культурный датасайнс (Даня Скоринкин)

@fckndh

Культурная аналитика, Digital Humanities, количественный анализ культурных данных, вычислительная филология, бытование культуры и языка в эпоху чат-гопоты, умных машин и безумных людейРанее назывался “Цифровой филолог” и “Ебаный DH”Ведёт Даня @skorinkin

1 969подписчиков

🇷🇺

Открыть в Telegram

Последние посты

Культурный датасайнс (Даня Скоринкин) — пост в ТГ канале

Тем временем удав проглотил слона главный текстовый корпус всея Руси НКРЯ🦆с суммарным объемом в 2,2 млрд словоупотреблений присоединил к себе корпус ВК-текстов из ГИКРЯ размером в 11,3 млрд, т.е. в пять раз больше🦆🦆🦆🦆🦆 Теперь в этом новом НКРЯ-ГИКРЯ можно, например, найти и исследовать больше 7 тыс употреблений слова "имба" (см. скриншоты выше). Для сравнения, в старом 166-миллионном "корпусе соцсетей" НКРЯ у "имбы" было всего 127 вхождений. А великое наше междометие "пупупу" (как бы мы вообще выжили без него последние 4.5 года??) в НКРЯ, кажется, вообще раньше не встречалось... Теперь же с присоединением ГИКРЯ есть как минимум 73 вхождения "пупупу" (или пупупы? 🤔)Тем временем удав проглотил слона главный текстовый корпус всея Руси НКРЯ🦆с суммарным объемом в 2,2 млрд словоупотреблений присоединил к себе корпус ВК-текстов из ГИКРЯ размером в 11,3 млрд, т.е. в пять раз больше🦆🦆🦆🦆🦆 Теперь в этом новом НКРЯ-ГИКРЯ можно, например, найти и исследовать больше 7 тыс употреблений слова "имба" (см. скриншоты выше). Для сравнения, в старом 166-миллионном "корпусе соцсетей" НКРЯ у "имбы" было всего 127 вхождений. А великое наше междометие "пупупу" (как бы мы вообще выжили без него последние 4.5 года??) в НКРЯ, кажется, вообще раньше не встречалось... Теперь же с присоединением ГИКРЯ есть как минимум 73 вхождения "пупупу" (или пупупы? 🤔)

30 июн. 2026 г.1 130В Telegram

От Третьего рейха к славянским мифам без ЛГБТ: как изменился топ популярных книжек в России с 2019/2021 по 2026Очень любопытное дата-исследование эволюции книжного рынка в России за последние 5-7 лет сделала НГ-Европа. Многое тут предсказуемо и изменилось под влиянием прямых запретов и репрессий. Но и на этом фоне у читателя остаётся выбор — за что проголосовать деньгами (тем более что книжки-то подорожали раза в 2). И выбор читателя красноречив. А показать это на данных о продажах примерно 10 000 книг из 11 крупных сетей — очень ценно. Если кратко: 📈 Ещё до 2022 уже были очень популярны классические антиутопии (1984 🤓, О дивный новый мир)📈 В 2022 — взлёт продаж книг по истории нацистского режима Третьего рейха. И романов Ремарка 🤠 📉 Тогда же в 2022 исчезновение новоявленных писателей-иноагентов и террористов (Акунин, Быков, Глуховский, Зыгарь…) 📈 В 2023 в топы выходит антивоенный Толстой 😎 (сборник статей «Не могу молчать»)📉 Тогда же в 2023 тотальная зачистка книг, где упоминается однополая любовь🙉 В более поздние 2025-2026 — постепенный переход к «менее злободневным» и более «эскапистским» текстам: скупаются магическая альтернативная история про колдуна в Российском империи от Виктора Дашкевича, художественная проза современных русских писательниц (Настасья Реньжина, Светлана Тюльбашева), зарубежная романтическая классика вроде Джейн Остин 🥰 плюс уже вневоенный/эмигрантский, а не «фронтовой» Ремарк (Три товарища, Ночь в Лиссабоне). Ну, а в области нон-фикшн великолепно продаются «Славянские мифы». 💀 Книги Z-авторов про войну спросом не пользуются и в топы почти не входят. Единственная по-настоящему популярная — «Шторм Z. У вас нет других нас» Даниила Туленкова (назвать его тру Z-автором уже довольно сложно, т.к. этот человек последние месяцы регулярно ноет в своём тг-канале, что войну надо сворачивать на любых условиях, пока не стало поздно и совсем худо). И сама книга, как говорят читавшие, тоже, скорее, антивоенная получилась.https://freeurl.io/B0Dy

29 июн. 2026 г.734В Telegram

Стилометрия подтвердила авторство Михаила Бахтина (одного из важнейших гуманитарных ученых XX века в России) для текстов, которые были опубликованы под именами его учеников Волошинова, Медведева и Канаева в период 1925-1930. Споры ходили уже в конце 1920-х, публично о вероятном авторстве Бахтина заговорили в 1970-е с подачи Вяч. Вс. Иванова. А теперь к этим спорам есть весомый количественный аргумент:

20 апр. 2026 г.1 160В Telegram

Вышла статья, с помощью количественных методов подтверждающая авторство М. М. Бахтина для текстов, которые ранее считались спорными.Авторы, Б. В. Орехов и А. Г. Василенко, применили широко распространенный в Digital Humanities метод Delta Берроуза для вычисления межтекстового расстояния книг «Фрейдизм. Критический очерк» (1927), «Марксизм и философия языка. Основные проблемы социологического метода в науке о языке» (1929), подписанных при публикации В. Н. Волошиновым и «Формальный метод в литературоведении» (1928), подписанной П. Н. Медведевым. Результаты исследования приводят к однозначному выводу о том, что все эти труды принадлежат перу М. М. Бахтина.Но этим общим выводом статья не ограничивается. За время дискуссии, которая длилась несколько десятков лет и приобрела название «бахтинского вопроса», несколько раз высказывалась точка зрения, что количественные методы для решения этой проблемы не применимы, поскольку круг Бахтина представлял собой интеллектуальное сообщество тесно взаимодействующих между собой участников, обменивающихся идеями и приходящими в итоге к очень похожим стилистическим установкам. Авторы статьи на материале Московской фонологической школы, Женевской лингвистической школы, ОПОЯЗа и Йенского романтизма опровергают это утверждение, показывая, что даже авторы, входящие в такого рода кружки, сохраняют стилистическую индивидуальность, вполне различимую для количественных методов. Ссылки:Орехов Б. В., Василенко А. Г. Количественная атрибуция и «бахтинский круг»: проблема авторства в интеллектуальных сообществах // Новый филологический вестник. 2026. № 1. С. 40–55. https://nevmenandr.github.io/portfolio/assets/pdf/bakhtin_delta.pdf

20 апр. 2026 г.1 320В Telegram

☝️ А все же видели самый лучший мем про цифровые методы в гуманитарных науках, который когда-либо породило человечество? 🏆 OLD BUT GOLD 🏆

10 апр. 2026 г.1 600В Telegram

Развитие Deep Learning и LLM дает нам продуктивные метафоры для разговора о нашем собственном обучении, мышлении и развитии. Например, мне кажется небесполезной такая параллель: когда мы в юности читаем запоем книжки — это своего рода претрейн. Чисто насмотреться на много осмысленного текста и натренировать у себя в голове базовую модель языка/мышления. Это помогает потом самому убедительно складывать тексты, писать всякие сочинения-эссе-рефераты, неплохо говорить, иметь широкий кругозор. То же касается общения с людьми. Его опыт помогает обучиться коммуникации, говорить, доносить свою точку зрения.А вот когда мы решаем задачки по математике, выполняем какой-то исследовательский проект или, скажем, организовываем с другими людьми мероприятие — это уже не претрейн, это, скорее, instruction tuning (пополам с RLHF). Более когнитивно напряжное действие с явной целью и более явным фидбеком. Тут мы обучаемся строить планы и приходить к цели.В обучении ЛЛМ instruction tuning по объему данных сильно меньше претрейна, но именно он впервые сделал модель высокофункциональной сущностью, а не просто «стохастическим попугаем». ЛЛМ научились решать задачи.Я вот был книжным мальчиком в юности. И недавно я осознал, что надолго застрял в претрейне в свои formation years (лет до 22), не потратив нужного объема усилий на более трудные задачки instruction tuning-а. И это меня сильно ограничивает в жизни.Вы спросите, что я делал в школе и где были учителя математики, физики и прочих хардовых предметов? Я отвечу: в школе я ходил на олимпиады по английскому, русскому и литературе. Все три отлично поддавались взлому большим объемом претрейна — если запойно читать книжки на обозначенных языках, все нужные для зарешивания языковых/околоязыковых олимпиад штуки возникали в голове сами собой. По крайней мере тогда было так, сейчас наверно олимпиады уже ускакали. Конечно, если бы там была олимпиада по настоящей лингвистике с задачками, было бы иначе, но такая была только в Москве, мы о ней в те г

2 апр. 2026 г.1 780В Telegram

От Франкенштейна до Тёмного рыцаря: как Голливуд наращивал сложность кинопроизводства, чем это похоже на историю авиации и при чём тут БурдьёЕще одно количественное исследование эволюции кино посвящено не тому, что происходит в кадре, а тому, что делается за кадром. И кем делается. Команда съемки современного блокбастера — это целый небольшой город. Ясно, что 100 или даже 50 лет назад всё было иначе. Тут тоже произошла своеобразная «культурная эволюция» с поэтапным увеличением сложности кинопроизводства. И это можно померить! Что и сделали уже упоминавшийся тут Олег Собчук и его коллега Пеэтер Тинитс в статье «Open-ended cumulative cultural evolution of Hollywood film crews» (2020). Какие данные исследовали?Тинитс и Собчук взяли составы съемочных групп 1000 американских фильмов с 1910 по 2010 год — по 100 фильмов на 10-летие, отобранных по популярности на IMDB. Для каждого фильма извлечен полный состав съёмочной группы с профессиями. Всего получилось 147 808 записей вида «человек;профессия;фильм».И что изменилось за 100 лет?Во-первых, группы стали сильно больше. В 1910-х над фильмом в среднем работало 8 человек. В 2000-е — 604 человека. Если верить данным IMDB, классическую экранизацию «Франкенштейна» 1931 года делали всего 45 человек. А над «Темным рыцарем» в 2008 году работали уже 1438. Даже если в 1931 кого-то не учли, там точно не было огромного штата людей, отвечающих за компьютерную графику, спецэффекты, воздушные трюки и прочих кинопрофессий, невозможных в 30-е. Среднее число уникальных названий профессий в составе киногруппы за 100 лет выросло с 7 до 283 на фильм. Длина названий тоже выросла — виден рост специализации («dts sound mastering engineer»).В этом смысле кинопроизводство больше, чем многие другие «культурные производства», похоже на обычную технологическую индустрию, например, авиационную. Если в 1910-м самолет собирали энтузиасты в сарае из сотен или тысяч деталей, то в современном авиалайнере деталей ≈ 4-6 млн, а его создание требует десятков тыс

29 мар. 2026 г.1 770В Telegram

«Цифрового филолога Даню Скоринкина» давно надо было переименовать. Во-первых, в телеграме уже есть другой «Цифровой филолог», и его хозяйка Елена завела свой канал на месяц раньше, чем я переименовал этот. Во-вторых, мои научные интересы регулярно выпрыгивают за рамки цифровой филологии (как можно увидеть и из последнего поста про кино). В своей жизни я занимался дата-исследованиями музейных коллекций, семантическими сдвигами в языке на данных НКРЯ, анализом исторических баз даннных и даже корпусным анализом доносов… Ну а мой самый удачный научно-популярный перформанс до сих пор — это лекция «Зачем гуманитарию анализ данных» перед полным залом в Яндексе в 2019 году. Вот об этом тут и буду рассказывать дальше. Зачем гуманитарию анализ данных. Какой анализ данных нужен нам для исследования человеческой культуры, что в ней вообще можно и нужно исследовать, чтобы было осмысленно и не скучно, и на какую теорию (и практику) можно при этом опираться. Поэтому канал теперь называется «Культурный датасайнс». Такого канала, кажется, еще не было. Теперь будет 🙂 В остальном тут ничего не меняется: этот канал — по-прежнему основное представительство мамкиного рисерчера Дани Скоринкина в этих ваших интернетах.

24 мар. 2026 г.1 510В Telegram

Channel name was changed to «Культурный датасайнс (Даня Скоринкин)»

24 мар. 2026 г.В Telegram

Быстрее, резче, темнее: как кино эволюционировало в погоне за вниманием зрителя 🎬📈😵‍💫На этой неделе вручали «Оскар». Награду за лучший фильм, а также еще 5 «Оскаров», взяла «Битва за битвой» — политизированный экшн Пола Томаса Андерсона по мотивам пинчоновского «Вайнленда», в котором очень много стрельбы, взрывов и погонь💥 Это напомнило мне о количественных исследованиях эволюции кино. Они показывают, что один из главных трендов кинематографа — «уплотнение» кадра и повышение его динамики. Эту тему много изучал профессор-психолог из Cornell University Джеймс Каттинг (James E. Cutting). В своих статьях он показывает (на данных тысяч фильмов), как за 100 лет кино превращалось во все более скорострельную «машину» по извлечению эмоций из мозга.Как это выглядит в цифрах:1️⃣ Турбо-монтаж. Средняя длина кадра (ASL, Average Shot Length) постоянно падает. В 1930-40-х монтажный кадр длился в среднем 10-12 секунд, а к 2000-м стал короче 4 секунд. Прикольно, что этот «ускорительный» цикл кино прошло дважды: сначала в эпоху немого кино (1910-1930-е, красная линия на графике выше), а потом еще раз уже в звуковую эру (синяя линия). 2️⃣ Больше движения. Кадры стали не только короче, но и «плотнее». Каттинг использует индекс визуальной активности (VAI): сколько движения (motion) и перемещения камеры (movement) происходит внутри одного кадра. Современные фильмы куда более насыщены движением. Если в 1930-40-х средний VAI-индекс по Голливуду составлял 0.02, то у фильмов XXI века вроде «Звездные войны: месть ситхов» или «Inception» он выше 0.10. Картинка стала в 5 раз динамичнее. Причем сегодня чем короче кадр, тем насыщенней движением. Раньше такой корреляции не было. Тут явно помогло и улучшение техники: старые камеры были большие и тяжелые, а сегодня с камерой можно бежать / ехать / подвесить на дрон.3️⃣ Тьма накрыла ЕршалаимГолливуд. Измерения яркости (luminance) показали, что кино становится темнее. Тут у Каттинга есть как техническое объяснение (современными камерами можно сни

22 мар. 2026 г.3 070В Telegram

А вот и видео замечательного доклада Дарьи Челноковой о том, как эволюционировали заглавия 2000+ русских романов с середины XVIII до начала XX века. YouTube RuTube VK ВидеоИзмерено и подсчитано, как и когда на смену традиции появляются инновационные заглавия — например, плеяда «проклятых» русских вопросов вроде «Кто виноват?», «Что делать?», «Чья вина?», «Где лучше?», «Куда идти?», «А что случилось?», «Какие выплаты мне положены?» ; или названия из предложно-падежной группы типа «На ножах», «В тине адвокатуры», «Через край», «На обрывах Поволжья». Кстати, во время дискуссии после доклада мы внезапно поняли, что последняя группа заглавий очень похожа на названия картин художников-передвижников: «Не ждали», «Над вечным покоем», «На бульваре», «Всюду жизнь»… Это интересное сближение, ведь передвижников многое роднит с критическим реализмом русской литературы той же поры.

18 мар. 2026 г.1 620В Telegram

Artificial intelligence & natural stupidityОбсуждение захвата власти Эй-Аем под предыдущим постом напомнило мне мой тейк от 2023 года, который ни капли не устарел. Тейк в том, что вообще-то мы и сейчас во власти бездушных сверхсистем с доступом ко всему, включая ядерную кнопку и рубильник интернета. И контроля над ними в моменте примерно ноль. Сегодня, когда новые войны начинаются по свайпу чьей-нибудь царственной руки примерно раз в 2 недели, это ощущается еще острее. В тг я этот текст тогда не публиковал, поэтому позволю себе запостить сейчас: Людям, которые боятся превращения искусственного интеллекта в SkyNet, хочется напомнить: 1. У нас в мире уже сейчас есть сотни сверхчеловеческих сущностей, чьи информационные, коммуникационные, интеллектуальные и инженерные возможности превосходят человека на порядки.2. Эти сущности в большинстве своем не поддаются никакому контролю извне, а процесс принятия ими решений представляет классический неинтерпретируемый "черный ящик" с неочевидной целевой функцией. 3. В эти сущности встроены все самые страшные bias-ы и предрассудки: гендерные, националистические, а часто и расовые. 4. Эти сущности оснащены самыми современными вооружениями, включая ядерные и высокоточные, и периодически применяют их для убийства людей. 5. Они называются государства.А то в борьбе за высокую этическую чистоту искусственного интеллекта как-то замыливается, в каком естественном дерьме мы живем

11 мар. 2026 г.1 730В Telegram

Культурный датасайнс (Даня Скоринкин)

Похожие каналы

Последние посты