khud Aug 25 2017 at 14:42

Data Science: Про любовь, имена и не только

13 min

29K

ОК corporate blogData Mining*Big Data*Machine learning*

From sandbox

+63

Comments 53

iCpu Aug 25 2017 at 15:26

Я правильно понимаю, у вас не учитываются «возможные дубликаты»? Ну, то есть, люди, которые пролюбили один или несколько своих аккаунтов. Не учитываются боты и прочие непотребства?
Я не хочу сказать, что ваша выборка не репрезентативна — я не знаю. Но такой шум имеет место быть, и его влияние достаточно значимо. Простейший сценарий, копируем имена из какого-нить сервиса для беременных, закидываем по рандому, в статусе пишем стандартную фигню «холост\не замужем\всё сложно» («в поиске» для «утешных» спамботов), «пастофарианец» и тп. Генерируем 10 000 аккаунтов — и вот у вас 50 холостых Наташ и 50 холостых Лейл, что даёт влияние в 0,0005 и 0,003 от общего числа соответственно. И что-то мне подсказывает, что таких аккаунтов не 10 000, и даже не 100 000, и что для непопулярных имён их влияние становится статистически значимым.

marsermd Aug 25 2017 at 15:32

Да, интересный вопрос.

khud Aug 25 2017 at 16:51

Сюжет с ботами известен, я его сознательное не упомянул, мне хотелось собрать фидбек от разных людей. Это безусловно требует дальнейшего исследования. Хотя одинаковое распределение в двух социальных сетях с довольно разной пользовательской структурой даже при таком случае маловероятно. В любом случае полностью отвергать влияние этого вопроса я не готов.

iCpu Aug 25 2017 at 17:13

Я бы не сказал, что есть основания считать, что ОК, ВК и FB будут иметь сильно разные пользовательские структуры. Примерно одинаковые правила регистрации, равноценный функционал +-дельта. Без углублённого изучения с сопоставлением пользователей всех соцсетей сложно делать такие далёкие выводы.

ilya_pu Aug 25 2017 at 18:08

Существенность различий между ОК, ВК и FB можно и проверить, способы есть. В плане ботов — честно говоря, даже не знаю, как их можно выявлять, поскольку ну очень много таковых развелось в последнее время… причём ботоводы используют огромное количество разных стратегий. Например, видел бота, который постил себе на стену каждые 4 — 5 часов в течение полугода (и плевать, что «по графику» — это в три часа ночи с воскресенья на понедельник), другие боты работают по-другому… К сожалению, зачастую бывает, что вот видишь, что это бот к тебе в друзья напрашивается, но доказать невозможно… какие-то косвенные признаки есть, но не более того… вот бы написать программу, которая будет считать вероятность того, что под личиной конкретного пользователя «скрывается» бот… тогда это было бы не только интересно, но и практически полезно…

По поводу женских имён… Женщины чаще склонны не указывать имя или указывать другое имя, плюс к этому могут, даже будучи в браке, написать «в активном поиске» (для парней такое поведение влечёт за собой более серьёзные последствия)… Опять же, если возьмёте газеты бесплатных объявлений, то увидите, что в разделе «знакомства» более чем у 50% девушек имя начинается с буквы «а»… понятно, что подобный фактор в социальных сетях играет весьма малую роль, но, возможно, с выбором имени на странице в соцсети тоже что-то нечисто… В общем, все эти моменты требуют дальнейшего исследования, а так — конечно, хотелось бы увидеть ещё и техническую сторону (как собиралась и обрабатывалась информация).

iCpu Aug 25 2017 at 18:21

вот бы написать программу, которая будет считать вероятность того, что под личиной конкретного пользователя «скрывается» бот…

Ммммм.... Нейросети....

Женщины чаще склонны не указывать имя или указывать другое имя, плюс к этому могут, даже будучи в браке, написать «в активном поиске»

Не спорю, такие явления есть, но вот про их значимость и зависимость от пола\возраста\семейного положения\справки из психдиспансера можно говорить только на основании статистики, с которой у нас втройне фигово — у нас её нет. И даже если бы мы вдруг получили все паспортные данные абонентов и приватные данные аккаунтов, у нас огромная доля не совпала бы по чисто техническим причинам.

UFO just landed and posted this here

ilya_pu Aug 28 2017 at 00:11

С одной стороны, да, а с другой стороны — сам знаю множество примеров, когда люди (живые, реальные люди, никакие не боты) добавляли в друзья первых попавшихся — ботов, спамеров и иже с ними, а когда я задавал такому реальному человеку, знает ли он, кто это у него в друзьях числится, то получал ответ «без понятия», при этом бот так и оставался «другом»… И потом, это тоже можно обойти, отправляя запросы на добавление в друзья тем, кто уже подтвердил дружбу с ботом… То есть пройти по тому же графу другого пользователя — и постараться добавить к себе его друзей… По этому признаку бот станет неотличим от реального человека…

marsermd Aug 25 2017 at 15:30

Это прекрасно! Поздравляю с первой публикацией на хабре:)

ildarz Aug 25 2017 at 15:36

"Отсутствие причинной связи между явлениями, хотя корреляционная связь между ними установлена, называется ложной корреляцией." (с) экономико-математический словарь

spmbt Aug 25 2017 at 16:11

> Действительно видно, что с уменьшительными именами девушки «в среднем» моложе на год.

Какой ужас — называясь уменьшительным именем, ты сокращаешь среднюю продолжительность жизни. Статистика не даст соврать!

slonoslon Aug 25 2017 at 16:41

Я навскидку вижу следующие гипотезы, объясняющие этот феномен:

1. Выдуманные имена (про это уже писали выше). Причем тут много вариантов может быть — не только боты. Кому-то может не нравиться паспортное имя, кто-то может скрываться от родных и знакомых, кто-то может вести двойную жизнь (один аккаунт в отношениях, другой — в активном поиске) и т.п. И вполне вероятно, что склонность писать выдуманное имя коррелирует одновременно с большей редкостью имени и с более одиноким статусом аккаунта. (Как предельный вариант — девушка, предлагающая интимные услуги за деньги и ищущая клиентов в соцсети, практически никогда не поставит в профиле настоящее имя и практически всегда будет 'в активном поиске' или около того.)

2. Влияние семьи. Обладатели редких имен могут быть представителями этнических меньшинств (про это в статье есть) со своими культурными особенностями. А могут быть детьми, выросшими в семье, где родители предпочитают давать редкие имена — чтобы дети выделялись, например. Возможно, родительское послание «выделяйся», столь явно переданное, тоже коррелирует с одиночеством.

synedra Aug 25 2017 at 20:06

Кстати, да, тоже хотел заметить насчёт редких имён в качестве вымышленных. В наборе данных из одноклассников среди «одиноких» доминируют всякие Инессы, Алины и Дианы. Я, может быть, придираюсь, но ни про единую Инессу, которую реально по паспорту так зовут, я в рассматриваемом поколении даже не слышал. Алину и Асю лично знаю, но по одной на всё множество ~сверстниц, с которыми я IRL хоть как-то контактировал. Учитывая, что датасет там, как я понял, крошечный, одних только рабочих аккаунтов проституток хватит на то, чтобы вывести экзотические имена в топ.
Думаю, это можно исправить, если взять частотность имён в соответствующей когорте по данным переписи, сравнить с частотностью в ваших данных и сделать поправку на overrepresented (простите уж, забыл, как оно по-русски) имена.

TimsTims Aug 26 2017 at 02:59

Это здорово вы так пару миллионов проституток накрутили)

markmariner Aug 25 2017 at 17:35

В защиту теории о ботах, вторых аккаунтах и аккаунтах проституток говорит и то, что различия в вычисляемых значениях для мужчин гораздо меньше.

Sosiska Aug 25 2017 at 18:05

Можно также отфильтровать ботов с помощью анализа данных)

Wedmer Aug 25 2017 at 20:17

Как показывает личный опыт, боты чаще всего представляются персоной женского пола. Это чисто психологический аспект, как мне кажется.
К моей жене боты-мужики как то в друзья не ломятся.

Сейчас в тренде создание тысяч левых аккаунтов для различных накруток, продвижений и прочего.

antarx Aug 25 2017 at 17:46

Отличная статья!

Теперь можно наконец показать по данным VK и Одноклассников, под какой звездой рождаются семейно успешные люди, и как между собой совместимы знаки зодиака!

Sosiska Aug 25 2017 at 18:08

Ещё это может говорить о том, что женщины чаще забывают пароли и их компьютеры чаще заражаются вирусами.

haldagan Aug 25 2017 at 18:18

вероятность быть одинокой/одиноким зависит от имени человека

Давайте скорректируем ваше заявление: «Статус 'не в отношениях', выставленный пользователем в социальной сети некоторым образом коррелирует с именем, которое указал этот пользователь в этой социальной сети».

Пользователь социальной сети по-хорошему не может быть строчкой в вашей статистике до тех пор, пока вы не удостоверились, что пользователь указал свое реальное имя и свой реальный статус если ваша цель — проверить изначально заявленную вами гипотезу.

khud Aug 25 2017 at 18:25

В предположении «белого» и/или незначительного шума от фейковых статусов и пользователей что-то сказать наверное можно.

haldagan Aug 25 2017 at 19:00

Речь не просто о шуме, а о несоответствии собираемых данных и проверяемой теории.

Тезис из вашей статьи:

вероятность быть одинокой/одиноким зависит от имени человека

Собранная статистика:

Имя, указанное в социальной сети + статус отношений, указанный в социальной сети.

Если Вы знаете некое научное исследование с выводом наподобие «в 99% публично доступных аккаунтов в социальных сетях указаны достоверные личные данные и статус отношений» — поделитесь ссылкой на статью. Я признаю свою неправоту и соглашусь, что этот один процент можно считать шумом и не обращать на него внимания.

23derevo Aug 25 2017 at 19:14

Понятно, что мы говорим не о реальных статусах, а об указанных в соцсетях. Под одеяло к людям из выборки никто не заглядывал.

haldagan Aug 25 2017 at 19:33

Из чего понятно?

Из вот этого вот:

… Однако социальные сети сделали возможным сравнительно просто проверить приведенное выше утверждение...

Я делаю вывод, что по достоверности автор приравнивает заполнение анкеты в социальной сети к анонимному опросу.

...

Анонимные опросы проводятся в случаях, когда есть хоть малейшее подозрение, что опрашиваемый будет не до конца честен «на всякий случай, если начальство/жена/коллеги узнают».

khud Aug 25 2017 at 20:08

К вопросу о ботах и проститутках. Тут наверное надо сказать, что данные для ВК и ОК собирались совершенно разным образом. Если в случае ВК все делалось через пользовательский интерфейс, т.е. можно предположить, что пользователи в выдаче — это пользователи, которые прошли спам фильтр. В случае OK данные обрабатывались в Hadoop без использования данных антиспама. Нужно более детальное исследование этого вопроса, но это говорит нам в пользу того, что вес ботов и им подобных здесь не так высок.

Rebel028 Sep 1 2017 at 16:52

Если в случае ВК все делалось через пользовательский интерфейс, т.е. можно предположить, что пользователи в выдаче — это пользователи, которые прошли спам фильтр

Даже очень грамотно выставленный фильтр поиска в ВК не дает гарантий отсутствия ботов. Более-менее заполненный профиль бота (с парой постов на стене и фотографией) в поиске ничем не будет отличаться от настоящего

khud Sep 1 2017 at 16:54

На самом деле антиспам сложная система, хотя гарантий не дает. Но там в ход идет много показателей обычно (не поручусь за ВК, но думаю, что там все круто): лимиты, bad actions, локальные свойства пользовательского графа и т.д. Я бы сказал, что мой аргумент скорее качественный и говорит лишь, что влияние ботов не так велико.

Centimo Aug 26 2017 at 00:14

Не хочу показаться поклонником астрологии и гомеопатии, но лично у меня такие результаты не вызывают удивления. По моему личному опыту, у людей с одинаковыми именами есть определённые сходства.

UFO just landed and posted this here

ainoneko Aug 26 2017 at 13:59

Валерия — может быть и просто Валерией (которая на самом деле Анна).

germn Aug 26 2017 at 03:29

вероятность быть одинокой/одиноким зависит от имени человека

Нет, не зависит. Одиночество коррелирует с именем, но не зависит от него. «Зависит» и «коррелирует» — это разные вещи, как уже выше писали.

Значительная корреляция между двумя случайными величинами всегда является свидетельством существования некоторой статистической связи в данной выборке, но эта связь не обязательно должна наблюдаться для другой выборки и иметь причинно-следственный характер. Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи. Например, рассматривая пожары в конкретном городе, можно выявить весьма высокую корреляцию между ущербом, который нанёс пожар, и количеством пожарных, участвовавших в ликвидации пожара, причём эта корреляция будет положительной. Из этого, однако, не следует вывод «увеличение количества пожарных приводит к увеличению причинённого ущерба», и тем более не будет успешной попытка минимизировать ущерб от пожаров путём ликвидации пожарных бригад.[5]. Корреляция двух величин может свидетельствовать о существовании общей причины, хотя сами явления напрямую не взаимодействуют. Например, обледенение становится причиной как роста травматизма из-за падений, так и увеличения аварийности среди автотранспорта. В этом случае две величины (травматизм из-за падений пешеходов и аварийность автотранспорта) будут коррелировать, хотя они не связанны друг с другом, а лишь имеют стороннюю общую причину — гололедицу.

[ источник ]

khud Aug 26 2017 at 12:20

Все правильно, конечно, с точки зрения вопроса зависимости и корреляции в общем случае, но в этом конкретном случае именно вероятность зависит, что на самом деле означает корреляцию. Это скорее лингвистическая небрежность. Более того, можно точно указать направление этой «зависимости»: имя дается при рождении (обычно). Остается конечно возможность наличия третьего фактора, который связан как-то с этими двумя. Это может быть все что угодно, пусть это будут яблоки (к примеру), есть корреляция между количеством съеденных яблок и одиночеством, но также есть корреляция между именем и сколько девушка ест яблок. То есть конкретная девушка с этим именем может яблоки не есть, но вот в среднем все будет так, как выглядит. Но это приведет нас к той же проблеме – корреляция между яблоками и именем, т.е. «хрен редьки не слаще».

Archi_Pro Jan 10 2018 at 12:20

первое что приходит в голову это социо-культурный уровень родителей и выбор ими имени.
Интересно было посмотреть что с «Дашами не так» в плане образования, отношения к религиям, полит взглядам и т.д. — что там еще есть вконтакте?

zetroot Aug 26 2017 at 14:58

Очень милое исследование! К всей вышеприведённой критике, хочу добавить, что автор не указал полученный p-уровень значимости результатов, т.е. насколько значимы полученные различия для групп?

-1

Frolenarzt Aug 27 2017 at 03:04

Независимо от того какие можно сделать выводы — очень интересно, спасибо!

Вспомнился сайт паразитных корреляций: www.tylervigen.com/spurious-correlations
Например, так выглядит распределение по годам людей утонувших в бассейне и количеством фильмов в которых снимался Николас Кейдж:

Archi_Pro Jan 10 2018 at 12:21

при взгляде на график хочется крикнуть: «Они убили Кенни!»(с)

logiciel Aug 27 2017 at 17:26

Было бы интересно исследовать возраст, к примеру, после 45, когда создание фейковых аккаунтов становится гораздо более редким явлением.

khud Aug 29 2017 at 13:41

Трудно сказать, на сколько это правда. Но можно будет попробовать.

Sabiko Aug 28 2017 at 21:31

Бросается в глаза, что победители хит-парада как среди мужских, так и среди женских полных имён — не сокращаются.
Если сложить это с довольно достоверной теорией, что одинокие/в поиске предпочитают использовать уменьшительную версию своего имени, и из каких-то имён эти множества убраны, а из каких-то нет — то разница может возникать как раз из-за вариантов имени.
Надо для каждого паспортного имени прибавить все его версии и считать для каждого набора вкупе, тогда разброс скорее всего сильно уменьшится.

khud Aug 29 2017 at 13:46

Про несократимые имена тоже заметил особенность. Теория тоже имеет место быть, правда на сколько она верна сказать пока трудно. Поэтому тут как раз рассмотрены случаи для нормализованного случая как для ВК, так и для ОК.

alexandershelupinin Aug 29 2017 at 13:50

классика по теме — Павел Флоренский, «Имена»

maxis42 Aug 29 2017 at 18:06

Было бы неплохо написать доверительные интервалы для среднего. Рассчитать p-values. И сделать поправку на множественную проверку гипотез.

А то заявления вроде

Любой здравый человек предполагает увидеть примерно одно и то же значение v и u в пределах какой-то небольшой погрешности, но никак не шкалу от 0.125 до 0.226 для случая с v!

для статистики абсолютно ничего не значат.

khud Aug 29 2017 at 18:16

С одной стороны есть несколько качественных аргументов в пользу статистической значимости. Например, сохранение сортировки в таблицах для OK и ВК. С другой стороны, если взять случайную выборку в 100 имен (с достаточным количеством статистики), чтобы не быть обвиненным в cherry picking, сделать permutation имен с учетом частотности и посмотреть что вышло, мы получим p-value = 0.000256 для теста Манна-Уитни. На счет моего заявления, то это не имеет отношения к статистики, это просто контринтуитивно. Эта статья не в научный журнал все-таки, поэтому я могу позволить себе некоторую вольность, пожалуй.

alexmcs Aug 29 2017 at 18:22

Могу сделать вброс про один фактор, который наверняка имеет место с Ксюшами) В 90х была популярна песня Апиной «Ксюша, юбочка из плюша») Полагаю, что это отчасти повлияло на выбор имен, даваемых девочкам)

khud Aug 29 2017 at 18:23

Это вряд ли влияет на картину «в целом», но на распределение имен, что на графиках влиять может.

sim0nsays Aug 29 2017 at 19:45

эээ, а не может быть просто, что выбросы происходят на более редких именах и все? Тупо статистически, у имен с меньшим количеством людей разброс средних больше, поэтому и в вверху, и внизу — более редкие имена, а популярные — в середине.

khud Sep 1 2017 at 16:49

нет, я не думаю, что дело в этом, иначе это было бы видно при перемешивании, когда я считал статистическую значимость. Распределение здесь куда менее банальное.

sim0nsays Sep 11 2017 at 23:27

Это в каком месте статьи конкретно? Я проглядел наискосок и не увидел

ThomasMorg Sep 1 2017 at 09:35

Работа проделана не шуточная, молодцы. Но я считаю, что поведение зависит именно от воспитания, а не от имени.

khud Sep 1 2017 at 16:50

Не без этого, но как и в моем комментарии про яблоки, хрен редьки не слаще. Надеюсь смогу прояснить этот вопрос в следующей статье.

Archi_Pro Jan 10 2018 at 11:49

Воспитание зависит от родителей, они же выбирают и имя
Вот тот самый случай когда в Питере Инессы куда менее одиноки чем в других городах))

Archi_Pro Jan 10 2018 at 11:43

надо бы еще проверить правда ли у Наташ больше всех фоток из Турции

Archi_Pro Jan 10 2018 at 12:27

добавить к именам и возрасту, город, образование, религ и полит взгляды и загнать все в логистическую регрессию
…
profit