Pull to refresh

Comments 53

Я правильно понимаю, у вас не учитываются «возможные дубликаты»? Ну, то есть, люди, которые пролюбили один или несколько своих аккаунтов. Не учитываются боты и прочие непотребства?
Я не хочу сказать, что ваша выборка не репрезентативна — я не знаю. Но такой шум имеет место быть, и его влияние достаточно значимо. Простейший сценарий, копируем имена из какого-нить сервиса для беременных, закидываем по рандому, в статусе пишем стандартную фигню «холост\не замужем\всё сложно» («в поиске» для «утешных» спамботов), «пастофарианец» и тп. Генерируем 10 000 аккаунтов — и вот у вас 50 холостых Наташ и 50 холостых Лейл, что даёт влияние в 0,0005 и 0,003 от общего числа соответственно. И что-то мне подсказывает, что таких аккаунтов не 10 000, и даже не 100 000, и что для непопулярных имён их влияние становится статистически значимым.
Сюжет с ботами известен, я его сознательное не упомянул, мне хотелось собрать фидбек от разных людей. Это безусловно требует дальнейшего исследования. Хотя одинаковое распределение в двух социальных сетях с довольно разной пользовательской структурой даже при таком случае маловероятно. В любом случае полностью отвергать влияние этого вопроса я не готов.
Я бы не сказал, что есть основания считать, что ОК, ВК и FB будут иметь сильно разные пользовательские структуры. Примерно одинаковые правила регистрации, равноценный функционал +-дельта. Без углублённого изучения с сопоставлением пользователей всех соцсетей сложно делать такие далёкие выводы.
Существенность различий между ОК, ВК и FB можно и проверить, способы есть. В плане ботов — честно говоря, даже не знаю, как их можно выявлять, поскольку ну очень много таковых развелось в последнее время… причём ботоводы используют огромное количество разных стратегий. Например, видел бота, который постил себе на стену каждые 4 — 5 часов в течение полугода (и плевать, что «по графику» — это в три часа ночи с воскресенья на понедельник), другие боты работают по-другому… К сожалению, зачастую бывает, что вот видишь, что это бот к тебе в друзья напрашивается, но доказать невозможно… какие-то косвенные признаки есть, но не более того… вот бы написать программу, которая будет считать вероятность того, что под личиной конкретного пользователя «скрывается» бот… тогда это было бы не только интересно, но и практически полезно…

По поводу женских имён… Женщины чаще склонны не указывать имя или указывать другое имя, плюс к этому могут, даже будучи в браке, написать «в активном поиске» (для парней такое поведение влечёт за собой более серьёзные последствия)… Опять же, если возьмёте газеты бесплатных объявлений, то увидите, что в разделе «знакомства» более чем у 50% девушек имя начинается с буквы «а»… понятно, что подобный фактор в социальных сетях играет весьма малую роль, но, возможно, с выбором имени на странице в соцсети тоже что-то нечисто… В общем, все эти моменты требуют дальнейшего исследования, а так — конечно, хотелось бы увидеть ещё и техническую сторону (как собиралась и обрабатывалась информация).
вот бы написать программу, которая будет считать вероятность того, что под личиной конкретного пользователя «скрывается» бот…
Ммммм.... Нейросети....
Гомер Симпсон пускает слюну

Женщины чаще склонны не указывать имя или указывать другое имя, плюс к этому могут, даже будучи в браке, написать «в активном поиске»
Не спорю, такие явления есть, но вот про их значимость и зависимость от пола\возраста\семейного положения\справки из психдиспансера можно говорить только на основании статистики, с которой у нас втройне фигово — у нас её нет. И даже если бы мы вдруг получили все паспортные данные абонентов и приватные данные аккаунтов, у нас огромная доля не совпала бы по чисто техническим причинам.
UFO just landed and posted this here
С одной стороны, да, а с другой стороны — сам знаю множество примеров, когда люди (живые, реальные люди, никакие не боты) добавляли в друзья первых попавшихся — ботов, спамеров и иже с ними, а когда я задавал такому реальному человеку, знает ли он, кто это у него в друзьях числится, то получал ответ «без понятия», при этом бот так и оставался «другом»… И потом, это тоже можно обойти, отправляя запросы на добавление в друзья тем, кто уже подтвердил дружбу с ботом… То есть пройти по тому же графу другого пользователя — и постараться добавить к себе его друзей… По этому признаку бот станет неотличим от реального человека…

Это прекрасно! Поздравляю с первой публикацией на хабре:)

"Отсутствие причинной связи между явлениями, хотя корреляционная связь между ними установлена, называется ложной корреляцией." (с) экономико-математический словарь

> Действительно видно, что с уменьшительными именами девушки «в среднем» моложе на год.

Какой ужас — называясь уменьшительным именем, ты сокращаешь среднюю продолжительность жизни. Статистика не даст соврать!
Я навскидку вижу следующие гипотезы, объясняющие этот феномен:

1. Выдуманные имена (про это уже писали выше). Причем тут много вариантов может быть — не только боты. Кому-то может не нравиться паспортное имя, кто-то может скрываться от родных и знакомых, кто-то может вести двойную жизнь (один аккаунт в отношениях, другой — в активном поиске) и т.п. И вполне вероятно, что склонность писать выдуманное имя коррелирует одновременно с большей редкостью имени и с более одиноким статусом аккаунта. (Как предельный вариант — девушка, предлагающая интимные услуги за деньги и ищущая клиентов в соцсети, практически никогда не поставит в профиле настоящее имя и практически всегда будет 'в активном поиске' или около того.)

2. Влияние семьи. Обладатели редких имен могут быть представителями этнических меньшинств (про это в статье есть) со своими культурными особенностями. А могут быть детьми, выросшими в семье, где родители предпочитают давать редкие имена — чтобы дети выделялись, например. Возможно, родительское послание «выделяйся», столь явно переданное, тоже коррелирует с одиночеством.
Кстати, да, тоже хотел заметить насчёт редких имён в качестве вымышленных. В наборе данных из одноклассников среди «одиноких» доминируют всякие Инессы, Алины и Дианы. Я, может быть, придираюсь, но ни про единую Инессу, которую реально по паспорту так зовут, я в рассматриваемом поколении даже не слышал. Алину и Асю лично знаю, но по одной на всё множество ~сверстниц, с которыми я IRL хоть как-то контактировал. Учитывая, что датасет там, как я понял, крошечный, одних только рабочих аккаунтов проституток хватит на то, чтобы вывести экзотические имена в топ.
Думаю, это можно исправить, если взять частотность имён в соответствующей когорте по данным переписи, сравнить с частотностью в ваших данных и сделать поправку на overrepresented (простите уж, забыл, как оно по-русски) имена.
Это здорово вы так пару миллионов проституток накрутили)
В защиту теории о ботах, вторых аккаунтах и аккаунтах проституток говорит и то, что различия в вычисляемых значениях для мужчин гораздо меньше.
Можно также отфильтровать ботов с помощью анализа данных)
Как показывает личный опыт, боты чаще всего представляются персоной женского пола. Это чисто психологический аспект, как мне кажется.
К моей жене боты-мужики как то в друзья не ломятся.

Сейчас в тренде создание тысяч левых аккаунтов для различных накруток, продвижений и прочего.
Отличная статья!

Теперь можно наконец показать по данным VK и Одноклассников, под какой звездой рождаются семейно успешные люди, и как между собой совместимы знаки зодиака!
Ещё это может говорить о том, что женщины чаще забывают пароли и их компьютеры чаще заражаются вирусами.
вероятность быть одинокой/одиноким зависит от имени человека


Давайте скорректируем ваше заявление: «Статус 'не в отношениях', выставленный пользователем в социальной сети некоторым образом коррелирует с именем, которое указал этот пользователь в этой социальной сети».

Пользователь социальной сети по-хорошему не может быть строчкой в вашей статистике до тех пор, пока вы не удостоверились, что пользователь указал свое реальное имя и свой реальный статус если ваша цель — проверить изначально заявленную вами гипотезу.
В предположении «белого» и/или незначительного шума от фейковых статусов и пользователей что-то сказать наверное можно.
Речь не просто о шуме, а о несоответствии собираемых данных и проверяемой теории.

Тезис из вашей статьи:
вероятность быть одинокой/одиноким зависит от имени человека


Собранная статистика:
Имя, указанное в социальной сети + статус отношений, указанный в социальной сети.


Если Вы знаете некое научное исследование с выводом наподобие «в 99% публично доступных аккаунтов в социальных сетях указаны достоверные личные данные и статус отношений» — поделитесь ссылкой на статью. Я признаю свою неправоту и соглашусь, что этот один процент можно считать шумом и не обращать на него внимания.

Понятно, что мы говорим не о реальных статусах, а об указанных в соцсетях. Под одеяло к людям из выборки никто не заглядывал.

Из чего понятно?

Из вот этого вот:
… Однако социальные сети сделали возможным сравнительно просто проверить приведенное выше утверждение...


Я делаю вывод, что по достоверности автор приравнивает заполнение анкеты в социальной сети к анонимному опросу.

...
Анонимные опросы проводятся в случаях, когда есть хоть малейшее подозрение, что опрашиваемый будет не до конца честен «на всякий случай, если начальство/жена/коллеги узнают».
К вопросу о ботах и проститутках. Тут наверное надо сказать, что данные для ВК и ОК собирались совершенно разным образом. Если в случае ВК все делалось через пользовательский интерфейс, т.е. можно предположить, что пользователи в выдаче — это пользователи, которые прошли спам фильтр. В случае OK данные обрабатывались в Hadoop без использования данных антиспама. Нужно более детальное исследование этого вопроса, но это говорит нам в пользу того, что вес ботов и им подобных здесь не так высок.
Если в случае ВК все делалось через пользовательский интерфейс, т.е. можно предположить, что пользователи в выдаче — это пользователи, которые прошли спам фильтр

Даже очень грамотно выставленный фильтр поиска в ВК не дает гарантий отсутствия ботов. Более-менее заполненный профиль бота (с парой постов на стене и фотографией) в поиске ничем не будет отличаться от настоящего
На самом деле антиспам сложная система, хотя гарантий не дает. Но там в ход идет много показателей обычно (не поручусь за ВК, но думаю, что там все круто): лимиты, bad actions, локальные свойства пользовательского графа и т.д. Я бы сказал, что мой аргумент скорее качественный и говорит лишь, что влияние ботов не так велико.
Не хочу показаться поклонником астрологии и гомеопатии, но лично у меня такие результаты не вызывают удивления. По моему личному опыту, у людей с одинаковыми именами есть определённые сходства.
UFO just landed and posted this here
Валерия — может быть и просто Валерией (которая на самом деле Анна).
вероятность быть одинокой/одиноким зависит от имени человека

Нет, не зависит. Одиночество коррелирует с именем, но не зависит от него. «Зависит» и «коррелирует» — это разные вещи, как уже выше писали.

Значительная корреляция между двумя случайными величинами всегда является свидетельством существования некоторой статистической связи в данной выборке, но эта связь не обязательно должна наблюдаться для другой выборки и иметь причинно-следственный характер. Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи. Например, рассматривая пожары в конкретном городе, можно выявить весьма высокую корреляцию между ущербом, который нанёс пожар, и количеством пожарных, участвовавших в ликвидации пожара, причём эта корреляция будет положительной. Из этого, однако, не следует вывод «увеличение количества пожарных приводит к увеличению причинённого ущерба», и тем более не будет успешной попытка минимизировать ущерб от пожаров путём ликвидации пожарных бригад.[5]. Корреляция двух величин может свидетельствовать о существовании общей причины, хотя сами явления напрямую не взаимодействуют. Например, обледенение становится причиной как роста травматизма из-за падений, так и увеличения аварийности среди автотранспорта. В этом случае две величины (травматизм из-за падений пешеходов и аварийность автотранспорта) будут коррелировать, хотя они не связанны друг с другом, а лишь имеют стороннюю общую причину — гололедицу.

[ источник ]

Все правильно, конечно, с точки зрения вопроса зависимости и корреляции в общем случае, но в этом конкретном случае именно вероятность зависит, что на самом деле означает корреляцию. Это скорее лингвистическая небрежность. Более того, можно точно указать направление этой «зависимости»: имя дается при рождении (обычно). Остается конечно возможность наличия третьего фактора, который связан как-то с этими двумя. Это может быть все что угодно, пусть это будут яблоки (к примеру), есть корреляция между количеством съеденных яблок и одиночеством, но также есть корреляция между именем и сколько девушка ест яблок. То есть конкретная девушка с этим именем может яблоки не есть, но вот в среднем все будет так, как выглядит. Но это приведет нас к той же проблеме – корреляция между яблоками и именем, т.е. «хрен редьки не слаще».

первое что приходит в голову это социо-культурный уровень родителей и выбор ими имени.
Интересно было посмотреть что с «Дашами не так» в плане образования, отношения к религиям, полит взглядам и т.д. — что там еще есть вконтакте?

Очень милое исследование! К всей вышеприведённой критике, хочу добавить, что автор не указал полученный p-уровень значимости результатов, т.е. насколько значимы полученные различия для групп?

Независимо от того какие можно сделать выводы — очень интересно, спасибо!

Вспомнился сайт паразитных корреляций: www.tylervigen.com/spurious-correlations
Например, так выглядит распределение по годам людей утонувших в бассейне и количеством фильмов в которых снимался Николас Кейдж:
image
при взгляде на график хочется крикнуть: «Они убили Кенни!»(с)
Было бы интересно исследовать возраст, к примеру, после 45, когда создание фейковых аккаунтов становится гораздо более редким явлением.
Трудно сказать, на сколько это правда. Но можно будет попробовать.
Бросается в глаза, что победители хит-парада как среди мужских, так и среди женских полных имён — не сокращаются.
Если сложить это с довольно достоверной теорией, что одинокие/в поиске предпочитают использовать уменьшительную версию своего имени, и из каких-то имён эти множества убраны, а из каких-то нет — то разница может возникать как раз из-за вариантов имени.
Надо для каждого паспортного имени прибавить все его версии и считать для каждого набора вкупе, тогда разброс скорее всего сильно уменьшится.
Про несократимые имена тоже заметил особенность. Теория тоже имеет место быть, правда на сколько она верна сказать пока трудно. Поэтому тут как раз рассмотрены случаи для нормализованного случая как для ВК, так и для ОК.
Было бы неплохо написать доверительные интервалы для среднего. Рассчитать p-values. И сделать поправку на множественную проверку гипотез.

А то заявления вроде
Любой здравый человек предполагает увидеть примерно одно и то же значение v и u в пределах какой-то небольшой погрешности, но никак не шкалу от 0.125 до 0.226 для случая с v!
для статистики абсолютно ничего не значат.
С одной стороны есть несколько качественных аргументов в пользу статистической значимости. Например, сохранение сортировки в таблицах для OK и ВК. С другой стороны, если взять случайную выборку в 100 имен (с достаточным количеством статистики), чтобы не быть обвиненным в cherry picking, сделать permutation имен с учетом частотности и посмотреть что вышло, мы получим p-value = 0.000256 для теста Манна-Уитни. На счет моего заявления, то это не имеет отношения к статистики, это просто контринтуитивно. Эта статья не в научный журнал все-таки, поэтому я могу позволить себе некоторую вольность, пожалуй.
Могу сделать вброс про один фактор, который наверняка имеет место с Ксюшами) В 90х была популярна песня Апиной «Ксюша, юбочка из плюша») Полагаю, что это отчасти повлияло на выбор имен, даваемых девочкам)
Это вряд ли влияет на картину «в целом», но на распределение имен, что на графиках влиять может.
эээ, а не может быть просто, что выбросы происходят на более редких именах и все? Тупо статистически, у имен с меньшим количеством людей разброс средних больше, поэтому и в вверху, и внизу — более редкие имена, а популярные — в середине.
нет, я не думаю, что дело в этом, иначе это было бы видно при перемешивании, когда я считал статистическую значимость. Распределение здесь куда менее банальное.
Это в каком месте статьи конкретно? Я проглядел наискосок и не увидел
Работа проделана не шуточная, молодцы. Но я считаю, что поведение зависит именно от воспитания, а не от имени.
Не без этого, но как и в моем комментарии про яблоки, хрен редьки не слаще. Надеюсь смогу прояснить этот вопрос в следующей статье.
Воспитание зависит от родителей, они же выбирают и имя
Вот тот самый случай когда в Питере Инессы куда менее одиноки чем в других городах))
надо бы еще проверить правда ли у Наташ больше всех фоток из Турции
добавить к именам и возрасту, город, образование, религ и полит взгляды и загнать все в логистическую регрессию

profit
Sign up to leave a comment.