Pull to refresh
20
0
Игорь Моисеев @Eth_Moses

Experimentation Analysis Team Lead, Ozon Tech

Send message

Привет! Отвечу по порядку на каждый вопрос:
1. На исторических данных считаешь для интересующих тебя метрик mde за разные периоды, например за последние 7, 14, 21, 28 дней с заданными параметрами дизайна (количество групп, соотношение групп, альфа и бета) . Если например в какой либо из этих периодов mde достигает желаемого уровня , выбираешь эту длительность.
Плюс можешь прикинуть , какой буст к мощности могут дать методы снижения дисперсии.
2. Мы используем все классические методы снижения дисперсии, но их эффективность зависит от данных. Если ты можешь подобрать хорошие ковариаты и выделить стабильные отличающиеся друг от друга группы пользователей, то используй комбинацию CUPED и стратификацию. Если ковариат нет, то просто используй стратификацию. Однако лучше лучше использовать комбинацию этих методов, так как результат это не испортит, но зато извлечешь максимум прироста в чувствительности. А если еще и последовательное тестирование скрестить с методами снижения дисперсии, то будет супер!

Привет!
Параметр 𝜏 лучше всего определить во время дизайна эксперимента, как раз когда вы рассчитываете mde/sample size. Рассчитав его перед запуском теста, зафиксируйте его до конца и используйте в mSPRT. Код mSPRT я скину в личку.
Касательно поправок на множественное тестирование. Авторы метода утверждают, что для mSPRT можно использовать классические поправки (Бонферрони и т.д.) применив их к отношению правдоподобий. Для поправки через бутстрап это тоже верно. Рассчитайте необходимую статистику по тесту в зависимости от выбранного вами критерия.

Статистика должна отражать результаты эксперимента. Если рассматривать в качестве критерия средний p-value, то для отклонения нулевой гипотезы нас интересует критическая область расположенная слево, где p-value стремится к 0. Если мы рассмотрим в этом случае правую критическую область, то она нам ни о чем не скажет, так как она не отклоняет нулевую гипотезу (попадание туда означает, что метрики не прокрасились).
Если, например, в качестве критерия вы выбрали количество прокрасившихся метрик в тесте, то необходимо смотреть в данном случае на правую критическую область.

Привет! Да, вероятно что изменилась дисперсия метрики по сравнению с историческими данными. Такой результат можно считать валидным, так как мощность теста при MDE = 1% не равна нулю.

А зачем про это писать? Все знают что MW это непараметрический ранговый критерий, цель была в разоблачении мифа про проверку медиан и требований к t тесту.

Можно, под капотом он это и делает

Спасибо, рад что понравилось !

Привет! А вы оцениваете MDE для тестов на квантили?

У меня просьба к вам разобраться что такое A/B тестирование прежде чем писать комментарий слабо относящийся к теме.

Information

Rating
Does not participate
Location
Россия
Works in
Date of birth
Registered
Activity