Anti-fraudНа любую надежную и стройную систему всегда найдется ломатель. Там, где есть товар, всегда есть вор.Работая с разными системами аналитики, мы заметили отличие суммы на графиках и суммы выплат платформы (App Store или Google Play). Причина простая - fraud. Игрок обманывает игру и получает контент бесплатно. Техническая сторона чаще всего такая:1. Жулик скачивает приложение, которое стоит между вызовами игры и Google Play.2. Жулик делает в игре запрос на покупку. 3. Подключается промежуточное приложение, которое принимает этот запрос и высылает игре подтверждение оплаты.4. Игра, ничего не подозревая, выдает жулику внутриигровой контент. 5. Жулик счастлив.Решение простое - перед шагом 4 ваше приложение отправляет запрос на сервер, про который не знает приложение жулика, для проверки транзакции. В нашей платформе, например, такой сценарий реализован и для Android, и для Apple. Все транзакции проверяются на валидность - метрики в экспериментах честные.
A/B-тестирование в мобильных играх pinned «Кратко про нашу историю с АВ-тестами в 5 постах 1. Как мы запускали первые АВ-тесты https://t.me/abtestingmobilegames/2 2. Что изменилось после внедрения AB-тестов https://t.me/abtestingmobilegames/11 3. Как жулики помогают нам больше зарабатывать ht…»
Студия “4fan studio games” разрешила рассказать нам об эксперименте, который они запустили вместе с нами.Ребята делают RPG-рогалик в фэнтази сеттинге. Google Play: Dungeon: Age Of Heroes. В новом апдейте к игре:1. Поменяли систему уровней. Добавили “этажи” для них.2. Добавили на каждый последний этаж мини-босса.3. Улучшили генератор уровней. Посмотрим, что стало с метриками:1. Всего игроков в эксперименте: 50002. Покупки внутриигровой валюты: без изменений3. Среднее число показов рекламы на игрока: Статистически значимое улучшение. Было: 17.5, Стало: 20.31 4. 1-day retention: -1.66%5. Lifetime: от -6 до -1 часа игрыНовый апдейт игроки восприняли как paywall. Они стали чуть меньше времени проводить в игре, но примерно на 17% больше смотреть рекламу. “4fan studio games”, поздравляем вас с отличным результатом! Нам очень приятно быть частью вашей истории!
Кратко про нашу историю с АВ-тестами в 5 постах1. Как мы запускали первые АВ-тестыhttps://t.me/abtestingmobilegames/2 2. Что изменилось после внедрения AB-тестов https://t.me/abtestingmobilegames/113. Как жулики помогают нам больше зарабатыватьhttps://t.me/abtestingmobilegames/18 4. Какие книги изучали https://t.me/abtestingmobilegames/35 5. Как вырастили LTV на 50% https://t.me/abtestingmobilegames/38
Как лгать при помощи статистикиХафф Дарелл - автор книги "Как лгать при помощи статистики". Книга скорее не о статистике, а о манипуляциях СМИ. Автор на примерах показывает как можно за уши притянуть статистику и доказать все что угодно. Оказывается Хафф Дарелл на деньги табачной индустрии писал книгу (но не закончил) "Как лгать при помощи статистики курения". В книге критиковалась статистика вреда табака. Автор занимался пропагандой пользы курения. Как говорится: легко врать с помощью статистики, но без статистики - еще легче.
Как провести АВ эксперимент в 2 раза быстрееЗачем это?Как сказал Джефф Безос: “Успех Amazon обусловлен тем, сколько экспериментов мы проводим каждый год, месяц, неделю и день”. Если мы найдем способ проводить больше экспериментов, то мы будем больше зарабатывать. Это очевидное утверждение, но непонятно, как мы можем проводить еще больше экспериментов. ЗадачаМы ограничены числом пользователей. Если мы знаем, что 1. для эксперимента нам надо 14 тысяч пользователей,2. и количество ежедневных новых пользователей - 2000,То для эксперимента нам нужна как минимум неделя. Как запустить больше экспериментов при заданных условиях?РешениеОдин из способов - запуск нескольких одновременных экспериментов. Мы делаем мобильные игры, и сейчас в наших играх в любой момент времени запущено как минимум 2 активных эксперимента:1. Новая фича2. Тест на балансДлительность двух активных экспериментов никак не связана. Обычно мы быстро проверяем новую фичу и долго тестим баланс. Где надо быть осторожнымЗапускать эксперименты последовательно - не то же самое, что запускать их одновременно. “Найти максимальное значение метрики при условии, что сначала запущен эксперимент А, а потом запущен эксперимент Б” ч не то же самое, что “Найти максимальное значение метрики при условии, что А и Б запущены одновременно”. Мы стараемся запускать такие эксперименты, которые вряд ли повлияют друг на друга.Как провести АВ эксперимент в 2 раза быстрее? Запускать одновременно 2 эксперимента!
Статья о байесовском подходе. Она поверхностная и будет неинтересна людям, глубоко погруженным в статистику. Глобально в мире статистики есть 2 подхода: частотный и байесовский. Частотный подходПодход возник в 20 веке. Главные имена - Госсет (автор критерия Стьюдента), Пирсон и Фишер. В целом идея такая: допустим, у вас есть какая-то выборка (размеры ног случайно отобранных жителей Земли 38, 42.5, 36, 40 и т.д.). И у вас есть какие-то параметры.Пример: вы знаете, что размеры ног нормально распределены. Нормальное распределение - это такой “колокол”. С точки зрения математики этот “колокол” обладает разными интересными свойствами, но мы не будем углубляться в это.Подходы типа t-test (критерий Стьюдента), z-score, бутстрапа и дальше из всего набора отвечают на вопрос: “Насколько данная выборка соответствует параметрам?”. Пример: “Насколько вот этот набор размеров ног похож на нормальное распределение?”. Зная параметры распределения и имея на руках данные, вы делаете статистические выводы.Байесовский подходБайес жил в 18 веке, т.е. за 200 лет до Фишера. Он сформулировал теорему, которая позволяет вычислить вероятность события при условии другого события. Пример: у вас есть вероятность “быть блондином при условии, что глаза у вас голубые”. Найти вероятность “голубоглазости при условии, что блондин”. На первый взгляд, не очень понятно, как это применять. Но современные статистики придумали такую формулировку: “найти вероятность таких данных при условии, что их параметры (смотри выше) вот такие”. На выходе байесовский подход отдает параметры распределения. Обратите внимание на разницу между подходами:В частотном подходе параметры распределения заданы. В байесовском они вычисляются. В чем отличие для нас как пользователей подходов?Частотный методРаботая с частотным методом (например критерий Стьюдента) и, подавая ему на вход 2 гипотезы, вы получаете ответ на вопрос: “Какова вероятность увидеть эти данные при условии верности нулевой гипотезы?”. Гипотеза принимается, если в
Итоги 2020Подведем итоги 2020 года на примере игры Steampunk Defense.За 2020 год мы запустили 44 теста. LTV/User с $0.67 до $1.12 В этом году мы окончательно отладили нашу платформу abtestreal.com. Теперь мы можем запускать эксперименты без других сервисов (например, Firebase).Выводы1. Мы запускаем много тестов на баланс. Подбираем оптимальную сложность уровней в игре.2. Большинство тестов не имеют статистически значимых результатов.Мы смотрим на фичи. Если это обновление SDK или фикс критического бага, то мы выкатываем, даже если статистически значимого результата нет. Если это не жизненно важная фича, то откатываем.3. Да, баги мы фиксим тоже в рамках АВ-эксперимента. Часто баги сильно задевают экономику игру, поэтому на них мы часто огребаем фейл. С первого раза не всегда удается выкатить фикс.4. Много новых фич не дали результата. Мы об этом быстро узнавали и понимали, куда двигаться дальше.5. А вот когда мы что-то убираем, это, наоборот, часто "успех".6. В большинстве тестов нет стат. значимости.Несмотря на то, что эксперимент заканчивается со статусом “неизвестно”, мы видим, как меняется воронка, и используем эти данные в будущих экспериментах. Например, полное выпиливание метаигры улучшило конверсию на ранних стадиях игры, но ухудшило на поздних. Поэтому есть смысл попробовать запускать мета игру на поздних уровнях.С наступающим 2021 и побольше вам тестов!
Эксперимент UI в мобильной игреНам бывает сложно предсказать результаты экспериментов. Мы планируем улучшить рекламную монетизацию, а по факту увеличиваем доход с инапов.На прошлой неделе мы завершили такой эксперимент.Описание:У нас есть tower defense игра про вторую мировую войну с уровнями. Когда игрок проходит уровень, он получает награду. У игрока есть возможность удвоить эту награду если он посмотрит рекламу. Гипотеза:Сейчас соотношение “награды до просмотра рекламы” к “награде после просмотра рекламы” - 50/50. Возможно изменение этого соотношения на 80/20 мотивирует игроков смотреть больше рекламу.Меняем UI как на скриншоте.Результат:Inapp’ы выросли примерно в полтора раза. Вывод:Да, мы плохие предсказатели. Значит будем запускать еще больше экспериментов.
Нас часто спрашивают: Как провести А/Б эксперимент с наименьшим ущербом для бизнеса?Кратко: никак.Теперь чуть подробнее:Рассмотрим проблему чуть подробнее. У нас есть какая-то рискованная гипотеза. Мы боимся что потеряем существенную часть дохода работающего продукта пока будем ее проверять. Какие у нас есть варианты?1. Запустить эксперимент на 5% аудиторииПри классической схеме мы запускаем эксперимент на 50%. Интуитивно кажется что запуская эксперимент на 5% результаты эксперимента мы будем получать примерно в 10 раз медленнее (на самом деле будет еще медленнее - мощность падает нелинейно).Наша глобальная цель как бизнеса - откручивать много экспериментов и делать это быстро. Пока мы "возимся" с экспериментом который, как нам кажется, принесет убытки, мы теряем возможность запустить другие эксперименты, которые стоят в очереди и лишают нас возможности зарабатывать больше.2. Запустить эксперимент на какое-то подмножество пользователейНу например: "У нас есть пользователи из 150 стран. Давайте запустим для начала на Бразилию? Там доход не большой. Соответственно потери незначительные. Если покажет себя хорошо - выкатим на 100%".С уверенностью можно сказать что пользователи Бразилии отличаются от пользователей в Штатах, поэтому предложение выше преобразовывается в "Давайте если в Бразилии прокатит, выкатим на 100% в Штаты не проверяя!". Это странно - я бы предпочел запустить на Штатах тоже на 50% сначала.3. Не запускать АБ тестБез комментариев.Итого:По умолчанию эксперименты запускаются на 50% вашей аудитории. Исключение - случаи когда вы понимаете что делаете и что выигрываете/теряете.Хорошие новости: достаточно сложно даже придумать эксперимент который обрушит вам выручку, скажем на 25%. Это очень постараться надо. Падение в 25% на 50% аудитории конвертируются в падение 12.5% от общей выручки. Помните что вы на половину пользователей запускаете? Фактически это и есть верхняя граница оценки риска.Удачного тестирования!