Pull to refresh

Comments 23

Меня кстати удивило, что в мае отмечают мало свадеб.

Это вы пронаблюдали влияние приметы «В мае жениться – всю жизнь маяться» на людей в 21 веке :)

Шикарно! Даже не подумал об этом)

Если зависимая переменные — это некое целое число отсчётов, то для регрессии лучше применять general linear model с пуассоновским или отрицательным биномиальным распределением (в особо тяжёлых случаях).
Ну и для более адекватной оценки правильности модели лучше всё-таки полную перекрёстную проверку делать, например K-fold

Согласен, но не хотел в этот раз усложнять, не было цели реально проанализировать, данные так побаловаться. Может у кого интерес разбудить

Интересно посмотреть статистику МВД по правонарушениям и преступлениям
Не могу понять, к чему этот Ваш комментарий.
Во-первых, в тексте статьи упоминается именно в таком контексте как вы указали «Республика Беларусь»
Во-вторых, думаю никто не запрещает мне на картинке употребить другое распространенное в русском языке обозначение Белоруссия.
Очень печально, что это похоже единственное, что Вы вынесли для себя из статьи на почти 30 000 символов.
В любом случае, если я где-то еще проглядел грамматический недочет, то правилом хорошего тона было бы написать это в личные сообщения.

Правилом хорошего тона, является так же корректное написание названия страны. Вы на российском языке можете писать, что угодно, но вот на русском название государства правильно написано на Конституции этого государства, Вы же не станете с этим спорить? И еще правилом хорошего тона является извинение и исправление, которое я почему-то нигде не увидел, как и в принципе чего-то сакрального в 30 000 строк про Hello World линейная регрессия.

1. Вы не увидели исправления потому что не указали на конкретную ошибку в тексте.
(Правда я подправил заглавную букву в слове Республика, ибо ночью глаз замылился)
2. Республика Беларусь (Далее РБ) упоминается 2 раза в тексте в заключительной части. В первом случае как: «Республики Беларусь», что полностью соответствует приложенной Вами фотографии, во втором случае в юмористическом комиксе, как «Белоруссия».
Считаю, оба упоминания уместными. Искренне убежден, что Белоруссия, с точки зрения русской речи такое же применимое в быту название государства как Россия в отношении РФ. Таким образом до сих пор не вижу оснований для обнаруженного где-то Вами ущемления РБ.
3. Текст безусловно является «легким» описанием примера уровня Hello World в области анализа данных, затрагивающий поверхностно вопросы поиска ресурсов открытых данных на русском языке и решения задачи линейной регрессии по отношению к ним.
Перед данной публикацией не ставилось задач научного или технического характера, для этого безусловно есть более сведущие чем я специалисты.
4. Спор теряет конструктивность если у вас есть объективные замечания можете их изложить в личной переписке.
В дополнение, Википедия, конечно не самый авторитетный источник информации, но в общем и целом в бытовом упоминании применимы оба термина, то о чем я и говорил. Собственно, я обе формы и применил. Думаю объективно вопрос можно закрыть.
Вы как то странно месяц ввели в линейную регрессию.
Вообще месяца цикличный и если уж вводить то сразу 12 переменных ((но данных мало) или весна/зима переменная.
Угу, думал об этом, некорректно сравнивать апрель и октябрь (что из них больше), думаю при one-hot-кодирование эффект был бы существенно большим. Но еще раз не хотел усложнять статью, может перегнул палку с простотой по сути допустив ошибку. Пока ограничусь наверное примечанием, что лучше применить one-hot-кодирование
Мой опыт подсказывает, что лучше когда каждая переменная задана явно, так легче понять. Преждевременная оптимизация — зло.
это не оптимизация, а базовые принципы построения регрессии, мультиколлинеарность иначе
В действительности нет.
мультиколлинеарность не так страшна, а вот потеря понимания что и как…
Эту связь тоже проверьте.
Потом удалите малокоррелируемые переменные.
Доводите исследование до конца.

Да нет, это выходит за рамки статьи, если есть желание можете выполн ть самостоятельно и написать статью

One-hot encoding не позволил бы модели уловить, что мы работаем с категориальной переменной, для которой существует отношение расстояния (октябрь и ноябрь удалены друг от друга так же, как май и июнь, а вот май и октябрь находятся на большем расстоянии), пусть и не совсем обычное из-за цикличности.


Думаю, правильнее было бы применить target encoding, закодировав каждый месяц средним значением целевой функции по этому месяцу на тренировочной выборке.

а в чем разница? по факту это тоже самое.
вы не изменяете число свободных параметров.
Коллеги, зачем спорить, когда можно проверить?! Добавил раздел Бонус к статье, надеюсь я вас всех правильно понял в плане доработок.
Sign up to leave a comment.

Articles

Change theme settings