Comments / Profile of Eth

Игорь Моисеев @Eth_Moses

Experimentation Analysis Team Lead, Ozon Tech

Profile Publications 2Comments 9Bookmarks 146

Шесть причин, почему ваши A/B-тесты не работают

Eth_Moses Feb 18 2023 at 22:28

Привет! Отвечу по порядку на каждый вопрос:
1. На исторических данных считаешь для интересующих тебя метрик mde за разные периоды, например за последние 7, 14, 21, 28 дней с заданными параметрами дизайна (количество групп, соотношение групп, альфа и бета) . Если например в какой либо из этих периодов mde достигает желаемого уровня , выбираешь эту длительность.
Плюс можешь прикинуть , какой буст к мощности могут дать методы снижения дисперсии.
2. Мы используем все классические методы снижения дисперсии, но их эффективность зависит от данных. Если ты можешь подобрать хорошие ковариаты и выделить стабильные отличающиеся друг от друга группы пользователей, то используй комбинацию CUPED и стратификацию. Если ковариат нет, то просто используй стратификацию. Однако лучше лучше использовать комбинацию этих методов, так как результат это не испортит, но зато извлечешь максимум прироста в чувствительности. А если еще и последовательное тестирование скрестить с методами снижения дисперсии, то будет супер!

Look

Шесть причин, почему ваши A/B-тесты не работают

Eth_Moses Feb 18 2023 at 22:06

Привет!
Параметр 𝜏 лучше всего определить во время дизайна эксперимента, как раз когда вы рассчитываете mde/sample size. Рассчитав его перед запуском теста, зафиксируйте его до конца и используйте в mSPRT. Код mSPRT я скину в личку.
Касательно поправок на множественное тестирование. Авторы метода утверждают, что для mSPRT можно использовать классические поправки (Бонферрони и т.д.) применив их к отношению правдоподобий. Для поправки через бутстрап это тоже верно. Рассчитайте необходимую статистику по тесту в зависимости от выбранного вами критерия.

Look

Шесть причин, почему ваши A/B-тесты не работают

Eth_Moses Feb 15 2023 at 12:33

Статистика должна отражать результаты эксперимента. Если рассматривать в качестве критерия средний p-value, то для отклонения нулевой гипотезы нас интересует критическая область расположенная слево, где p-value стремится к 0. Если мы рассмотрим в этом случае правую критическую область, то она нам ни о чем не скажет, так как она не отклоняет нулевую гипотезу (попадание туда означает, что метрики не прокрасились).
Если, например, в качестве критерия вы выбрали количество прокрасившихся метрик в тесте, то необходимо смотреть в данном случае на правую критическую область.

Look

Шесть причин, почему ваши A/B-тесты не работают

Eth_Moses Feb 13 2023 at 11:52

Привет! Да, вероятно что изменилась дисперсия метрики по сравнению с историческими данными. Такой результат можно считать валидным, так как мощность теста при MDE = 1% не равна нулю.

Look

Шесть причин, почему ваши A/B-тесты не работают

Eth_Moses Feb 7 2023 at 11:15

А зачем про это писать? Все знают что MW это непараметрический ранговый критерий, цель была в разоблачении мифа про проверку медиан и требований к t тесту.

Look

Шесть причин, почему ваши A/B-тесты не работают

Eth_Moses Feb 6 2023 at 23:06

Можно, под капотом он это и делает

Look

Шесть причин, почему ваши A/B-тесты не работают

Eth_Moses Feb 6 2023 at 16:20

Спасибо, рад что понравилось !

Look

Как определить размер выборки для бутстрэпа старым дедовским способом

Eth_Moses Feb 3 2023 at 14:24

Привет! А вы оцениваете MDE для тестов на квантили?