Мы еще не поговорили о биномиальных и небиномиальных метриках. Но тут все просто: биномиальные – это те метрики, которые, грубо говоря, «либо да, либо нет». Пользователь либо вернется на седьмой день, либо нет – метрика Retention биномиальная. Пользователь либо заплатит, либо нет – метрика конверсии в платеж также биномиальная. Небиномиальные – это такие метрики, которые измеряются не в процентах, а в деньгах, минутах, какой-то непрерывной единице измерения. Например, это метрики ARPU, LTV и длины сессии.

Байесовский метод труднее в расчетах и понимании, там очень сложные формулы, но зато он прост в трактовке результатов теста: мы просто получаем на выходе вероятность «победы» каждого варианта. Также преимуществами байесовского метода является нетребовательность (в отличие от частотного подхода) к распределению данных. Вообще, для него обычно достаточно выборки меньшего размера. Выбирайте сами, что вам ближе. Но я сразу скажу, что для обоих методов существуют онлайн-калькуляторы, и я вовсе не против, чтобы вы ими пользовались. Главное – держать в голове все вышеупомянутые нюансы.

7 октября 2022

В последнее время все больше популярен байесовский подход. Он несколько иначе определяет и статистику, и вероятность (например, уже на второй-третьей странице в книжках про метод Байеса появляется понятие «вероятность вероятности»). Вероятность в нем определяется субъективно и считается до теста и после теста – так называемые априорная и апостериорная вероятности.

7 октября 2022

В вузах, как правило, изучают частотный подход: нулевая гипотеза H0, альтернативная гипотеза H1, ошибки первого и второго родов, а на выходе – значение p-value. Чем оно меньше, тем лучше. Тем меньше вероятность ошибиться с результатами теста.

7 октября 2022

Как правило, значимость устанавливают на уровне 10, 5, 1, 0,1 %. Конечно, чем ниже мера ошибки, тем лучше и надежнее, но тем труднее в реальности ее достичь. Существует два подхода к статистической значимости: частотный и байесовский.

7 октября 2022

Интерпретация результатов и статистическая значимость

7 октября 2022

Такая проблема называется peeking problem, или проблема подглядывания. Многие ее допускают, и статистически доказано, что делать это неправильно. Вы же не останавливаете футбольный матч через 15 минут. И не останавливаете, если какая-то команда забила первый гол (к правилу золотого гола это не относится). Так давайте же дождемся окончания матча – простите, теста, – чтобы удостовериться в том, что тест действительно прошел правильно.

7 октября 2022

А метрики количества (DAU, MAU, New Users, Gross, Revenue) тут не подойдут. Максимум, для чего они нужны, – чтобы указать нам на размер когорты, можем ли мы ей доверять. В конце концов, A/B-тесты нацелены именно на изменение качества проекта, а количественные показатели лишь следствие. Если задумываться о какой-то одной универсальной метрике для A/B-тестов, то это, пожалуй, накопительный доход за N дней. Она говорит нам о монетизации, она же неявно содержит в себе и указание на Retention.

7 октября 2022

Здесь достаточно просто. Нам подойдут те же самые метрики, которые подходят для когортного анализа, – метрики качества проекта: – ARPU; – ARPPU; – доля платящих и конверсия в платеж; – Retention; – накопительный доход за N дней.

7 октября 2022

А еще есть вариант с AAB-тестом. Мы (случайно!) раскидываем пользователей на три примерно одинаковые группы, и для двух из них не меняем ничего, а для третьей – меняем. И тест будем считать успешным лишь в том случае, если группы A1 и A2 не отличаются друг от друга (статистически значимо не отличаются), и обе из них в одну и ту же сторону статистически значимо отличаются от группы B.

7 октября 2022

Цитаты из книги «Игра в цифры. Как аналитика позволяет видеоиграм жить лучше»