BosonBeard Oct 23 2017 at 01:42

«4 свадьбы и одни похороны» или линейная регрессия для анализа открытых данных правительства Москвы

16 min

13K

Entertaining tasksPython*Open data*Machine learning*

Tutorial

Comments 23

molnij Oct 23 2017 at 13:12

Меня кстати удивило, что в мае отмечают мало свадеб.

Это вы пронаблюдали влияние приметы «В мае жениться – всю жизнь маяться» на людей в 21 веке :)

BosonBeard Oct 23 2017 at 14:33

Шикарно! Даже не подумал об этом)

ilmarin77 Oct 23 2017 at 16:26

Если зависимая переменные — это некое целое число отсчётов, то для регрессии лучше применять general linear model с пуассоновским или отрицательным биномиальным распределением (в особо тяжёлых случаях).
Ну и для более адекватной оценки правильности модели лучше всё-таки полную перекрёстную проверку делать, например K-fold

BosonBeard Oct 23 2017 at 16:32

Согласен, но не хотел в этот раз усложнять, не было цели реально проанализировать, данные так побаловаться. Может у кого интерес разбудить

timelle Oct 23 2017 at 18:13

Интересно посмотреть статистику МВД по правонарушениям и преступлениям

3axap4eHko Oct 23 2017 at 20:32

Беларусь пишется правильно

BosonBeard Oct 23 2017 at 21:09

Не могу понять, к чему этот Ваш комментарий.
Во-первых, в тексте статьи упоминается именно в таком контексте как вы указали «Республика Беларусь»
Во-вторых, думаю никто не запрещает мне на картинке употребить другое распространенное в русском языке обозначение Белоруссия.
Очень печально, что это похоже единственное, что Вы вынесли для себя из статьи на почти 30 000 символов.
В любом случае, если я где-то еще проглядел грамматический недочет, то правилом хорошего тона было бы написать это в личные сообщения.

3axap4eHko Oct 23 2017 at 22:53

Правилом хорошего тона, является так же корректное написание названия страны. Вы на российском языке можете писать, что угодно, но вот на русском название государства правильно написано на Конституции этого государства, Вы же не станете с этим спорить? И еще правилом хорошего тона является извинение и исправление, которое я почему-то нигде не увидел, как и в принципе чего-то сакрального в 30 000 строк про Hello World линейная регрессия.

-5

BosonBeard Oct 23 2017 at 23:20

1. Вы не увидели исправления потому что не указали на конкретную ошибку в тексте.
(Правда я подправил заглавную букву в слове Республика, ибо ночью глаз замылился)
2. Республика Беларусь (Далее РБ) упоминается 2 раза в тексте в заключительной части. В первом случае как: «Республики Беларусь», что полностью соответствует приложенной Вами фотографии, во втором случае в юмористическом комиксе, как «Белоруссия».
Считаю, оба упоминания уместными. Искренне убежден, что Белоруссия, с точки зрения русской речи такое же применимое в быту название государства как Россия в отношении РФ. Таким образом до сих пор не вижу оснований для обнаруженного где-то Вами ущемления РБ.
3. Текст безусловно является «легким» описанием примера уровня Hello World в области анализа данных, затрагивающий поверхностно вопросы поиска ресурсов открытых данных на русском языке и решения задачи линейной регрессии по отношению к ним.
Перед данной публикацией не ставилось задач научного или технического характера, для этого безусловно есть более сведущие чем я специалисты.
4. Спор теряет конструктивность если у вас есть объективные замечания можете их изложить в личной переписке.

BosonBeard Oct 23 2017 at 23:36

В дополнение, Википедия, конечно не самый авторитетный источник информации, но в общем и целом в бытовом упоминании применимы оба термина, то о чем я и говорил. Собственно, я обе формы и применил. Думаю объективно вопрос можно закрыть.

3axap4eHko Oct 23 2017 at 22:52

erwins22 Oct 24 2017 at 00:02

Вы как то странно месяц ввели в линейную регрессию.
Вообще месяца цикличный и если уж вводить то сразу 12 переменных ((но данных мало) или весна/зима переменная.

BosonBeard Oct 24 2017 at 00:11

Угу, думал об этом, некорректно сравнивать апрель и октябрь (что из них больше), думаю при one-hot-кодирование эффект был бы существенно большим. Но еще раз не хотел усложнять статью, может перегнул палку с простотой по сути допустив ошибку. Пока ограничусь наверное примечанием, что лучше применить one-hot-кодирование

atikhonov Oct 24 2017 at 09:36

11, а не 12, регрессия же

erwins22 Oct 24 2017 at 13:58

Мой опыт подсказывает, что лучше когда каждая переменная задана явно, так легче понять. Преждевременная оптимизация — зло.

atikhonov Oct 24 2017 at 16:27

это не оптимизация, а базовые принципы построения регрессии, мультиколлинеарность иначе

erwins22 Oct 24 2017 at 16:28

В действительности нет.
мультиколлинеарность не так страшна, а вот потеря понимания что и как…

erwins22 Oct 24 2017 at 16:16

Кроме того надо добавить параметр — число дней в месяце, число выходных, число суббот.

erwins22 Oct 25 2017 at 11:48

Эту связь тоже проверьте.
Потом удалите малокоррелируемые переменные.
Доводите исследование до конца.

BosonBeard Oct 25 2017 at 12:28

Да нет, это выходит за рамки статьи, если есть желание можете выполн ть самостоятельно и написать статью

roryorangepants Oct 24 2017 at 22:40

One-hot encoding не позволил бы модели уловить, что мы работаем с категориальной переменной, для которой существует отношение расстояния (октябрь и ноябрь удалены друг от друга так же, как май и июнь, а вот май и октябрь находятся на большем расстоянии), пусть и не совсем обычное из-за цикличности.

Думаю, правильнее было бы применить target encoding, закодировав каждый месяц средним значением целевой функции по этому месяцу на тренировочной выборке.

erwins22 Oct 24 2017 at 23:03

а в чем разница? по факту это тоже самое.
вы не изменяете число свободных параметров.

BosonBeard Oct 24 2017 at 23:42

Коллеги, зачем спорить, когда можно проверить?! Добавил раздел Бонус к статье, надеюсь я вас всех правильно понял в плане доработок.

-1

Show the best of all time