boggis30 Dec 15 2022 at 11:36

Практический подход к изучению профиля клиентов по данным популяционного исследования. Counterfactual learning

2 min

677

Translation

В данном тексте я хочу порассуждать и поделиться своими мыслями о проблеме исследования профиля клиентов. Данная тема является для меня новой, поэтому хотелось бы обсудить её с сообществом. Буду рад обсуждению в комментариях о плюсах и минусах предлагаемого мной подхода. В своем подходе я пытаюсь сделать поправку оценки характеристики представителей популяции по некоторой подвыборке. Представители популяции имеют разную вероятность попасть в подвыборку, что создает смещение выбора. Кроме смещения выбора, присутствует смещения ответа, так как попадание в выборку не гарантирует получения информации о представителе популяции. Данный текст является адаптацией моей публикации по теме на medium [1].

Проблема

К сожалению, бизнес часто плохо знает свою аудиторию. Что это за люди, где живут, чем занимаются, какие у них есть предпочтения, насколько они довольны предлагаемым продуктом. Хорошая новость в том, что можно опросить своих клиентов, и попытать восполнить этот пробел.

При этом есть несколько важных вещей, о которых нужно помнить:

Разные люди имеют разную склонность отвечать на наши вопросы.
Так как, исследовать нашу аудиторию целиком зачастую сложно и дорого, мы оцениваем характеристики популяции по ее подвыборке. Поэтому необходимо знать, как правильно распространить результаты на всю выборку.

Решение

Пусть мы хотим оценить некоторую характеристику популяции по подвыборке из данной популяции. Подвыборка клиентов извлекается случайным образом из всего набора клиентов во время исследования. Людей из подвыборки просят ответить на ряд вопросов, по которым оценивается необходимая характеристика. Наша цель по подвыборке построить несмещенную оценку данной характеристики для всего набора клиентов.

Вероятность попадания в выборку и ответа на вопросы может различаться для разных групп представителей. Например, доля мужчин и женщин среди покупателей онлайн магазина косметики может отличаться. Так же может отличаться вероятность ответа среди разных полов. Хотя эти вероятности отличаются между группами, мы предполагаем, что внутри одной группы данные вероятности одинаковы. Например, мы можем считать, что вероятность попадания в исследование и вероятность ответа одинаковы среди мужчин. Несомненно, необходимо понимать, как правильно составить такие группы. В реальной жизни такие группы будут иметь более сложную структуру. Как мне кажется, оптимальным вариантом является обсуждения этого вопроса с представителями бизнеса. Так же можно проверить распределения искомых характеристик внутри групп. Для этого, например, можно разбивать каждую группу на две случайные подгруппы и проводить тестирования одинаковости распределения искомой величины.

Данная проблема имеет некоторую представленность в литературе. В данном тексте я предлагаю использовать подход оценки Горвица - Томпсона[2].

Формально:

Заключение

Преимущество такого подхода - простота реализации. Однако, было бы здорово увидеть в комментариях другие мнения о плюсах и минусах.

Ссылки

[1] - Practical approach to evaluating client profiles by population survey data.

[2] - The propensity score and estimation in nonrandom surveys — an overview

Tags:

Hubs: