koshkinoko Apr 12 2023 at 10:29

Как же мощно я провел A/B-тест, или почему не стоит сравнивать наблюдаемый аплифт с MDE

Medium

15 min

11K

Lamoda Tech corporate blogMathematics*Mobile App Analytics*Product Management*Statistics in IT

Opinion

+26

Comments 3

NNikolay Apr 12 2023 at 19:22

Все так. Но важнее понять почему хочется думать о размере эффекта вообще. А это часто идёт от понимания, что тестов много, а сплитов мало. Если утрировать, то из ста тестов 5 сплитов при pvalue=5% означает, что все гипотезы примерно шляпа. Тогда хочется прикинуть какие вообще эффекты мы с нашим трафиком можем находить…

Никогда не слышал о подходе, который Вы критикуете. Но если уж человека волнует размер эффекта, то можно расчехлить Байеса и задать априорное распределение с оглядкой на ожидаемый размер. Плюнуть на pvalue и полюбить Bayes factor:) такое мое мнение.

ioqi Apr 14 2023 at 15:21

Смысл MDE также состоит и в том, что этот порог для нас минимально достаточен с точки зрения бизнеса. И, когда в примере мы набрали 1,78 вместо 2, тут дело не только в мощности, а в том, что величина метрики 1,78 просто недостаточна, чтобы мы сказали, что все ок.
Кажется, рассуждения в статье избыточно объемны, из-за этого легко потерять нить логики.
Также статья отвечает не совсем на тот вопрос, на который хочет ответить бизнес, проводя эксперимент.

koshkinoko Apr 14 2023 at 16:12

Привет!

Наблюдаемое значение 1.78 само по себе не означает, что реальный эффект меньше 2. В случае если реальный эффект равен 2, мы можем получать как значения, которые лежат справа от 2, так и слева. К чему приводит игнорирование левой половины распределения можно посмотреть на графиках в статье.

По поводу вопроса на который отвечает статья: статья отвечает на вопрос "Почему не следует сравнивать наблюдаемый аплифт с MDE?". Бизнес такими вопросами обычно не заадается, все верно