Pull to refresh

Comments 3

Все так. Но важнее понять почему хочется думать о размере эффекта вообще. А это часто идёт от понимания, что тестов много, а сплитов мало. Если утрировать, то из ста тестов 5 сплитов при pvalue=5% означает, что все гипотезы примерно шляпа. Тогда хочется прикинуть какие вообще эффекты мы с нашим трафиком можем находить…

Никогда не слышал о подходе, который Вы критикуете. Но если уж человека волнует размер эффекта, то можно расчехлить Байеса и задать априорное распределение с оглядкой на ожидаемый размер. Плюнуть на pvalue и полюбить Bayes factor:) такое мое мнение.

Смысл MDE также состоит и в том, что этот порог для нас минимально достаточен с точки зрения бизнеса. И, когда в примере мы набрали 1,78 вместо 2, тут дело не только в мощности, а в том, что величина метрики 1,78 просто недостаточна, чтобы мы сказали, что все ок.
Кажется, рассуждения в статье избыточно объемны, из-за этого легко потерять нить логики.
Также статья отвечает не совсем на тот вопрос, на который хочет ответить бизнес, проводя эксперимент.

Привет!

Наблюдаемое значение 1.78 само по себе не означает, что реальный эффект меньше 2. В случае если реальный эффект равен 2, мы можем получать как значения, которые лежат справа от 2, так и слева. К чему приводит игнорирование левой половины распределения можно посмотреть на графиках в статье.

По поводу вопроса на который отвечает статья: статья отвечает на вопрос "Почему не следует сравнивать наблюдаемый аплифт с MDE?". Бизнес такими вопросами обычно не заадается, все верно

Sign up to leave a comment.