После слов "Обратите внимание, что при максимизации функции по какому-то параметру можно выкинуть все члены, не зависящие от этого параметра:" в формуле ошибка в последней строке — должно быть arg min.

...Поговорим немного о свойствах оценки, полученной линейной регрессией. В свете предыдущего пункта мы выяснили, что:

— ошибка распределена нормально с центром в нуле и некоторым разбросом: ϵ∼N(0,σ2);
— истинное значение целевой переменной тоже распределено нормально: y∼N(f(x→),σ2)


Оба этих утверждения неверны. Линейная регрессия не требует нормальности ошибок, а только соблюдения условий Гаусса-Маркова.
Нормальность ввели вы для того чтобы построить функционал максимального правдоподобия. А его вы строите, чтобы показать, что при нормальных ошибках МП равнозначно МНК.
Но сам МНК отлично работает и при ненормальных ошибках.

так а разве говорится где то, что нормальность это требование теоремы Гаусса-Маркова? предыдущий пункт как раз про МЛ оценку, а пред-предыдущие это про МНК оценку

Цитирую дословно: "Поговорим немного о свойствах оценки, полученной линейной регрессией"
Но все что идет дальше это не свойства оценки, полученной линейной регрессией


>> В свете предыдущего пункта мы выяснили, что… ошибка распределена нормально с центром в нуле и некоторым разбросом: ϵ∼N(0,σ2);
Вы это не выяснили, а сами ввели. А если чуть строже, то сделали такое параметрическое предположение, что если ошибка распределена нормально, то тогда...


>> предыдущий пункт как раз про МЛ оценку, а пред-предыдущие это про МНК оценку
А в этом навалено и про МНК, и не про МНК, так что разобраться что о чем невозможно.

формально, вы правы
ребят, а вам не кажется, что столько материала и домашки строго на одну неделю — это многовато для начинающих? Учитывая еще, что домашка далеко не полностью коррелирует с теорией и в ней нужно тоже много в чем разбираться?

Мне кажется нормально, как раз хорошо, динамично. Математика и базовый питон были в пререквизитах, а зная их тут не так уж и много, в домашках всё довольно подробно разжёвано. Каггловские же соревнования за доп. баллы на весь курс, не на неделю.

Ну там задания то — только признаки подготовить и логит/ридж запустить. Статья да, обширная, но на мой взгляд, за 3 присеста по 2 часа уж точно можно осилить. Все зависит от Вашей мотивации.

Хабр в рассылке мне говорит "26 минут на прочтение" и крутись как хочешь ))

за 26 минут можешь понять, надо ли тебе это читать)
тяжело в учении — легко в бою
я-то сам не начинающий и курс не прохожу) просто взгляд со стороны.
в заданиях помимо самих вопросов нужно же еще понять и разобрать весь код, который там написан, для начинающего может быть не так просто/быстро
Согласен. Но никто не говорил, что будет просто. Это Data Science.
Ко мне в ВШЭ люди ходят учиться с 19 до 22 после работы в будни. И еще в субботу.
К тому же, начинающим не обязательно гнаться сразу за всем. Я согласен, что в начале многое сложно. В этой статье некоторые темы – уже для продолжающих. Мы учитываем пожелания широкой публики (перед стартом курса проводили обширный опрос), в том числе и тех, кто уже применяет разные модели, но не особо понимает, что за этим стоит.
Очередной раз спасибо за замечательную статью. В том моменте, когда мы сказали, что исходных признаков недостаточно и пытались сделать полиномиальные — это разве не ведёт к мультиколлинеарности? Или я чего-то не понимаю
действительно это так, для демонстрации можете глянуть сюда https://habrahabr.ru/company/ods/blog/322076/

добавление полиномиальных действительно ведет к мультколлинеарности, в линейных моделях это увеличивает сложность модели, что в итоге приводит к переобучению, но если остановить раньше, то все ок

но вообще не всякое добавление полиномиальных фичей приведет к мультиколлинеарности, представьте такой случай

x = np.random.uniform(-1, 1, size=10000)
print np.corrcoef(x**2, x**6)[0, 1]
print np.corrcoef(x**2, x**7)[0, 1]
Минимальная статистика по 3 заданию. Оно оказалось уж больно простым, но ничего, есть 4-ое.



Можете пояснить такой вопрос: предположим в задаче бинарной классификации среди признаков есть такой индикатор, что если он равен 1, то гарантированно целевая переменная =1, но при этом срабатывает крайне редко (например, =1 на <1% от всех объектов). Это хороший признак для регрессии?
Это еще от баланса классов зависит. Вообще на кросс-валидации надо смотреть – он может как переобучать, так и, наоборот, улучшать модель.
А какие подходы существуют предсказывать значения с помощью логистической регрессии? То есть использовать логистическую регрессию для оценки стоимости квартиры, например. Понятно, что лог-регрессия используется для оценки вероятности принадлежности к классу. Как перейти от этого значения вероятности к интересуемому значению y?
Возможно, тут сказалась историческая путаница: логистическая регрессия — это модель классификации, а не регрессии. Так что если вы под «значениями» подразумеваете количественный признак, то логит — не для этого.
Если вопрос в том, как по предсказанной вероятности получить отнесение к одному из классов, то тут выбирается порог, начиная с которого прогнозируется класс 1. Это проиллюстрировано в статье картинкой с невозвратом кредита.
Иногда бывают ситуации, когда мы намеренно увеличиваем смещенность модели ради ее стабильности, т.е. ради уменьшения дисперсии модели Var(f^).

Можете привести практический пример такой ситуации?
Наиболее подробное изложение этого вопроса я видел в «Elements of Statistical Learning», если побыстрее – то в «Deep Learning» тоже есть обзор классического ML.

Допустим вам нужно предсказать стоимость куска адамантия. У вас есть данные о стоимости предыдущих сделок, а также размер, вес, качество очистки и т.п.
Из этого можно было бы построить регрессию, однако между различными параметрами (в частности между размером и весом) есть связь. А это значит, что регрессионная модель будет очень неустойчивой, т.е. небольшие изменения в исходных данных могут дать огромные изменения в значениях рассчитанных коэффициентов.
Например, если у нас есть данные о 15 сделках, то при расчете модели на сделках с 1 по 10-ю, со 2 по 11-ю, с 3 по 12-ю и т.д., мы будем получать очень разные результаты. А они должны быть близкими или даже вообще одинаковыми.
Ведь правильные коэффициенты все равно существуют, просто мы их не знаем.


В нормальных условиях (без взаимозависимости в исходных данных) обычная регрессия дала бы лучшую оценку искомых коэффициентов — несмещенную и с наименьшей дисперсией.
Но в данном случае обычное не работает. Поэтому мы сознательно идем на добавление некоторого смещения (при идеальном раскладе — незначительного), но с резким уменьшением дисперсии.

Кстати, вам попадалось "простое" доказательство того, что разброс оценок у GLM ниже? Я какое-то видел, но четырехэтажное. А в классических книгах типа ESL этот аспект как-то игнорируют.

Речь как раз о том, что идет далее. На практике применяют Lasso и Ridge, которые добавляют смещения (bias) – оценки коэффициентов в модели уже будут дальше от истинных, нежели оценки МНК. Но зато и разброс (variance) этих оценок уменьшается по сравнению с МНК-оценками. А поскольку ошибка модели складывается из шума, разброса и квадрата смещения, сильно снизив разброс, можно уменьшить и ошибку, даже несмотря на смещение. Именно это и делают регуляризованные линейные модели Lasso и Ridge. Скажу даже больше: по моему опыту чистый МНК редко применяется, почти всегда нужна регуляризация.

ошибка: Подлюкчение библиотек

спасибо!

Только полноправные пользователи могут оставлять комментарии.
Войдите, пожалуйста.