yorko Mar 20 2017 at 19:38

Открытый курс машинного обучения. Тема 4. Линейные модели классификации и регрессии

30 min

518K

Open Data Science corporate blogPython*Algorithms*Mathematics*Machine learning*

+50

Comments 42

mephistopheies Mar 20 2017 at 19:44

приветики

Roman_Kh Mar 20 2017 at 22:47

После слов "Обратите внимание, что при максимизации функции по какому-то параметру можно выкинуть все члены, не зависящие от этого параметра:" в формуле ошибка в последней строке — должно быть arg min.

mephistopheies Mar 20 2017 at 22:53

fixed

Roman_Kh Mar 20 2017 at 22:54

...Поговорим немного о свойствах оценки, полученной линейной регрессией. В свете предыдущего пункта мы выяснили, что:
…
— ошибка распределена нормально с центром в нуле и некоторым разбросом: ϵ∼N(0,σ2);
— истинное значение целевой переменной тоже распределено нормально: y∼N(f(x→),σ2)

Оба этих утверждения неверны. Линейная регрессия не требует нормальности ошибок, а только соблюдения условий Гаусса-Маркова.
Нормальность ввели вы для того чтобы построить функционал максимального правдоподобия. А его вы строите, чтобы показать, что при нормальных ошибках МП равнозначно МНК.
Но сам МНК отлично работает и при ненормальных ошибках.

mephistopheies Mar 20 2017 at 23:00

так а разве говорится где то, что нормальность это требование теоремы Гаусса-Маркова? предыдущий пункт как раз про МЛ оценку, а пред-предыдущие это про МНК оценку

Roman_Kh Mar 20 2017 at 23:12

Цитирую дословно: "Поговорим немного о свойствах оценки, полученной линейной регрессией"
Но все что идет дальше это не свойства оценки, полученной линейной регрессией

>> В свете предыдущего пункта мы выяснили, что… ошибка распределена нормально с центром в нуле и некоторым разбросом: ϵ∼N(0,σ2);
Вы это не выяснили, а сами ввели. А если чуть строже, то сделали такое параметрическое предположение, что если ошибка распределена нормально, то тогда...

>> предыдущий пункт как раз про МЛ оценку, а пред-предыдущие это про МНК оценку
А в этом навалено и про МНК, и не про МНК, так что разобраться что о чем невозможно.

mephistopheies Mar 20 2017 at 23:24

формально, вы правы

antklen Mar 21 2017 at 14:37

ребят, а вам не кажется, что столько материала и домашки строго на одну неделю — это многовато для начинающих? Учитывая еще, что домашка далеко не полностью коррелирует с теорией и в ней нужно тоже много в чем разбираться?

Dsvolkov Mar 21 2017 at 17:27

Мне кажется нормально, как раз хорошо, динамично. Математика и базовый питон были в пререквизитах, а зная их тут не так уж и много, в домашках всё довольно подробно разжёвано. Каггловские же соревнования за доп. баллы на весь курс, не на неделю.

yorko Mar 21 2017 at 17:30

Ну там задания то — только признаки подготовить и логит/ридж запустить. Статья да, обширная, но на мой взгляд, за 3 присеста по 2 часа уж точно можно осилить. Все зависит от Вашей мотивации.

Dsvolkov Mar 21 2017 at 17:49

Хабр в рассылке мне говорит "26 минут на прочтение" и крутись как хочешь ))

yorko Mar 21 2017 at 18:18

за 26 минут можешь понять, надо ли тебе это читать)

makkos Mar 21 2017 at 18:17

тяжело в учении — легко в бою

antklen Mar 22 2017 at 15:11

я-то сам не начинающий и курс не прохожу) просто взгляд со стороны.
в заданиях помимо самих вопросов нужно же еще понять и разобрать весь код, который там написан, для начинающего может быть не так просто/быстро

yorko Mar 22 2017 at 15:19

Согласен. Но никто не говорил, что будет просто. Это Data Science.
Ко мне в ВШЭ люди ходят учиться с 19 до 22 после работы в будни. И еще в субботу.

yorko Mar 22 2017 at 15:24

К тому же, начинающим не обязательно гнаться сразу за всем. Я согласен, что в начале многое сложно. В этой статье некоторые темы – уже для продолжающих. Мы учитываем пожелания широкой публики (перед стартом курса проводили обширный опрос), в том числе и тех, кто уже применяет разные модели, но не особо понимает, что за этим стоит.

justm57 Mar 21 2017 at 17:27

Очередной раз спасибо за замечательную статью. В том моменте, когда мы сказали, что исходных признаков недостаточно и пытались сделать полиномиальные — это разве не ведёт к мультиколлинеарности? Или я чего-то не понимаю

mephistopheies Mar 21 2017 at 17:40

действительно это так, для демонстрации можете глянуть сюда https://habrahabr.ru/company/ods/blog/322076/

добавление полиномиальных действительно ведет к мультколлинеарности, в линейных моделях это увеличивает сложность модели, что в итоге приводит к переобучению, но если остановить раньше, то все ок

но вообще не всякое добавление полиномиальных фичей приведет к мультиколлинеарности, представьте такой случай

x = np.random.uniform(-1, 1, size=10000)
print np.corrcoef(x**2, x**6)[0, 1]
print np.corrcoef(x**2, x**7)[0, 1]

yorko Mar 21 2017 at 18:23

Минимальная статистика по 3 заданию. Оно оказалось уж больно простым, но ничего, есть 4-ое.

quiethorror Mar 23 2017 at 00:07

Можете пояснить такой вопрос: предположим в задаче бинарной классификации среди признаков есть такой индикатор, что если он равен 1, то гарантированно целевая переменная =1, но при этом срабатывает крайне редко (например, =1 на <1% от всех объектов). Это хороший признак для регрессии?

yorko Mar 23 2017 at 00:09

Это еще от баланса классов зависит. Вообще на кросс-валидации надо смотреть – он может как переобучать, так и, наоборот, улучшать модель.

ivanovserg990 Mar 23 2017 at 08:36

А какие подходы существуют предсказывать значения с помощью логистической регрессии? То есть использовать логистическую регрессию для оценки стоимости квартиры, например. Понятно, что лог-регрессия используется для оценки вероятности принадлежности к классу. Как перейти от этого значения вероятности к интересуемому значению y?

yorko Mar 23 2017 at 08:41

Возможно, тут сказалась историческая путаница: логистическая регрессия — это модель классификации, а не регрессии. Так что если вы под «значениями» подразумеваете количественный признак, то логит — не для этого.
Если вопрос в том, как по предсказанной вероятности получить отнесение к одному из классов, то тут выбирается порог, начиная с которого прогнозируется класс 1. Это проиллюстрировано в статье картинкой с невозвратом кредита.

HKA Mar 24 2017 at 15:45

Иногда бывают ситуации, когда мы намеренно увеличиваем смещенность модели ради ее стабильности, т.е. ради уменьшения дисперсии модели Var(f^).

Можете привести практический пример такой ситуации?

yorko Mar 24 2017 at 15:51

Наиболее подробное изложение этого вопроса я видел в «Elements of Statistical Learning», если побыстрее – то в «Deep Learning» тоже есть обзор классического ML.

Roman_Kh Mar 24 2017 at 16:15

Допустим вам нужно предсказать стоимость куска адамантия. У вас есть данные о стоимости предыдущих сделок, а также размер, вес, качество очистки и т.п.
Из этого можно было бы построить регрессию, однако между различными параметрами (в частности между размером и весом) есть связь. А это значит, что регрессионная модель будет очень неустойчивой, т.е. небольшие изменения в исходных данных могут дать огромные изменения в значениях рассчитанных коэффициентов.
Например, если у нас есть данные о 15 сделках, то при расчете модели на сделках с 1 по 10-ю, со 2 по 11-ю, с 3 по 12-ю и т.д., мы будем получать очень разные результаты. А они должны быть близкими или даже вообще одинаковыми.
Ведь правильные коэффициенты все равно существуют, просто мы их не знаем.

В нормальных условиях (без взаимозависимости в исходных данных) обычная регрессия дала бы лучшую оценку искомых коэффициентов — несмещенную и с наименьшей дисперсией.
Но в данном случае обычное не работает. Поэтому мы сознательно идем на добавление некоторого смещения (при идеальном раскладе — незначительного), но с резким уменьшением дисперсии.

yorko Mar 24 2017 at 16:46

Кстати, вам попадалось "простое" доказательство того, что разброс оценок у GLM ниже? Я какое-то видел, но четырехэтажное. А в классических книгах типа ESL этот аспект как-то игнорируют.

yorko Mar 24 2017 at 15:50

Речь как раз о том, что идет далее. На практике применяют Lasso и Ridge, которые добавляют смещения (bias) – оценки коэффициентов в модели уже будут дальше от истинных, нежели оценки МНК. Но зато и разброс (variance) этих оценок уменьшается по сравнению с МНК-оценками. А поскольку ошибка модели складывается из шума, разброса и квадрата смещения, сильно снизив разброс, можно уменьшить и ошибку, даже несмотря на смещение. Именно это и делают регуляризованные линейные модели Lasso и Ridge. Скажу даже больше: по моему опыту чистый МНК редко применяется, почти всегда нужна регуляризация.

iamtodor May 15 2017 at 15:44

ошибка: Подлюкчение библиотек

yorko May 15 2017 at 16:53

спасибо!

enabokov Sep 24 2017 at 06:52

Офигенная статья. Очень редкий экземпляр для Хабра.

yorko Sep 27 2017 at 23:28

UPD: Видеозапись лекции по мотивам этой статьи в рамках нового запуска открытого курса (сентябрь-ноябрь 2017). Немного по теме статьи + разбор бенчмарков соревнования.

3draven Oct 4 2017 at 21:58

Я с ваших статей и лекций просто тащусь. Правда. Очень редко когда человек может в трех словах объяснить сложные вещи. Пишите учебник, срочно!

yorko Oct 5 2017 at 19:49

Спасибо! И за совет тоже спасибо! :trollface:
Впрочем, можно и без тролфейса задаться вопросом, зачем нужен учебник, когда есть статьи на хабре и видео, и как будет выглядеть учебник будущего.
Падажжи… учебник писать — это все мемасики выкинуть? No way

-1

3draven Oct 5 2017 at 19:53

Тут все просто. Когда человек пишет учебник, он систематически излагает то, что позволит построить стабильную базу для развития. Помимо этого присыпая это личным опытом.

Статейки на хабре это «нахватал».

О учебниках будущего я тоже когда то думал, когда в образовании работал :) Так вот, на практике — пиши учебник. В каждой области есть всего пара книг «маст хэв». Их пишут люди, способные на пальцах пятикласнику объяснить как работает сложнейшая штука и чем же они занимаются на работе.

Такие книжки знает любой спец в своей области и никакие статейки такие книжки не заменят.

3draven Oct 5 2017 at 19:53

Хотя можно написать такое, что непонятно зачем писал :)

yorko Dec 18 2017 at 09:37

Новый запуск курса – 5 февраля 2018 г. Регистрация не требуется, но чтобы мы о вас знали, заполните форму. Главные новости будут в группе ВКонтакте, а жизнь во время курса будет теплиться в Slack OpenDataScience (вступить) в канале #mlcourse_open.

yorko May 13 2018 at 22:46

Новый запуск – 1 октября 2018 г., на английском. Подробности – тут.

yorko Jun 13 2018 at 17:25

Теперь курс можно проходить и самостоятельно – появились демо-версии заданий с решениями. Они описываются в конце каждой статьи, но есть и общий cписок. Решения доступны после отправки соотв. веб-формы.

quiethorror Feb 12 2019 at 14:04

Не могу понять, почему в пункте «Метод максимального правдоподобия» мы в P(yi | x,w) подставляем плотность вероятности. Смущает, что распределение — не дискретное и вероятность конкретного значения yi = 0

yorko Feb 15 2019 at 00:43

Функция правдоподобия как раз через плотность вероятности определяется.

kraidiky Apr 10 2020 at 01:07

Мда, ребятки… Когда-то я аналитически взял вторую производную от нейросети за o(n) от количества синапсов, но об ваши простые объяснения я сломался. То-ли я тупой, то-ли это сомнительная идея — давать математику в практическом курсе без практических примеров так, как будто тут второй курс универа, и перед вами стоит задача натренировать в человеке усидчивость, и способность повторить и забыть через пол года на сессии.