Зачем anaconda не на винде? Разве не прозрачнее pip install pandas (и другие нужные либы)?
С анакондой идет в комплекте куча библиотек + она не даст зафакапить системный питон.
Если хочется разграничить, тогда virtualenv + pip

> анакондой идет в комплекте куча библиотек
В том числе которые тебе не нужны. И еще такой минус: вывести в продакшн кучу библиотек никто не даст, а при разработке нужна прозрачность — понимание какие библиотеки нужны твоему приложению/скрипту, чтоб потом выкатить правильный requirements

И в анаконде далеко не все, все равно придется пользоваться pip-ом. В итоге 2 входа для либ. А значит труднее контролировать откуда либа пришла.

Я понимаю что вопрос религиозный, но почему не оговориться и предоставить студенту курса альтернативу, а он сам уже решил
вывести в продакшн кучу библиотек никто не даст

это курс не про продакшн, а про машинное обучение

И в анаконде далеко не все, все равно придется пользоваться pip-о. В итоге 2 входа для либ. А значит труднее контролировать откуда либа пришла.

не pip'ом, а conda'ой

Я понимаю что вопрос религиозный, но почему не оговориться и предоставить студенту курса альтернативу, а он сам уже решил

потому что добавление свободы усложняет процесс преподавания, так можно и от языка абстрагироватсья и писать на 1C
можно и так и так
почему не оговориться и предоставить студенту курса альтернативу

Если предоставлять альтернативу, неизбежны обиды на различия в версиях. Например: на pandas 0.18.0 всё ок, а на pandas 0.18.1 ни один ответ не принимается. Вот такая свобода действительно усложняет процесс преподавания и поддержки курсов.


Если хочется разграничить, тогда virtualenv + pip

Я джва года жду статью про то, что это за виртуаленвы/пипы/венвы/пайенвы/анаконды/миниконды/изи-инсталлы/etc и как использовать like a pro. Тема холиварная, но хотелось бы понять, в чём различия и выбрать sudo pip3 install себе по вкусу.

А в каких случаях анаконда — это не очень хорошо? Почему её недолюбливают?
anaconda имеет нехорошую особенность сыпаться — у меня были случаи, когда либы в conda environment конфликтовали, весь environment надо переделывать;

помимо этого, например, на mac она себя прописывает питоном по умолчанию, что, как минимум, несколько раздражает, а как максимум может привести к непредсказуемому поведению системного кода;

стоит также добавить, что городить огород с отдельным механизмом conda environment при наличии рабочего virtualenv на мой взгляд — проявление NIH syndrome.
1) Как сохранить с сайта Adult данные в csv?
2) Не получается найти канал на slack

Все необходимые данные есть в репозитории mlcourse_open.

Добавьте эту информацию в начало ноутбука, пожалуйста. Я пока освоил bigml.com, чтобы скачать,… :)

Уже несколько коммитов назад добавлено это уточнение, периодически делайте git pull.
И в самом начале, как скачали репозиторий, можно по нему погулять, посмотреть, что там лежит.

2) Форма для регистрации: http://goo.gl/abmjom
Я её прошел регистрацию. Мне придет приглашение для канала Slack на почту?
ога, в течении дня
Добавьте это в полезные материалы:

Очень наглядно показывают
sort уже давненько deprecated метод

@cotique да, поправь на sort_values + ссылка на замечание makkos

Огонь!:) Доволен большим количеством примеров в первом уроке
Не могу скачать файл с гита, не грузит
Это временные проблемы на стороне Amazon S3:



Почему б сразу в Docker не поставлять окружение для обучение, с предустановленными нужными либами, питонами, сборками и прочее.
Если для какогото урока N понадобилось обнвоить сборку — выпустили новый image, предупредили слушателей.
Кому нужны детали что там и как ставилось — читают Dockerfile.

Я думаю pull-request'у все будут только рады ;)

Да, docker-контейнер уже есть и скоро появится в репозитории.

то есть докер это норм, а pip сложно и лучше anaconda? :D

Критиковать – дело простое! А как доходит до понижения энтропии, то чет лень.

Подключил Docker-контейнер с необходимым ПО. Подробности – в README репозитория. Введение в Docker есть тут на хабре и документация с примерами тоже сойдет.

Я хотел уточниться насчет ДЗ. Меня интересует тема анализа данных, однако будет ли доступна после дедлайна проверка выполнения ДЗ?

Будет, но баллы после дедлайна не начисляются.х

Про сдачу заданий: заполняете первичный опрос, делаете 1 ДЗ, заполняете опрос по 1 заданию. Указываете реальное ФИО (без опечаток) – оно будет Вашим ID-шником в курсе, на всякий случай еще везде указываете e-mail (один и тот же, лучше тот самый, что в первом опросе). Правильные ответы сразу же вам не показываются, поскольку поддерживается возможность редактирования ответа после посылки (сколько угодно раз до дедлайна). Сразу после дедлайна (по 1 ДЗ – 6 марта 23:59) вам на почту придет ваша оценка.


Подтверждение отправки решения: если при переходе по ссылке с опросом говорится “You've already responded” и ниже “Edit your response”, значит все норм, решение 100% отправилось


Почему надо еще раз заполнять e-mail и ФИО? Это косяк гугл-форм, они не экспортируют, собственно, гугло-почту, с которой был заполнен опрос. Поэтому надо еще раз протащить e-mail и ФИО


Текущие оценки по 1 домашке

1 домашка простая, на разогрев, сейчас там почти все 10-ки и только несколько 9-к.

Я отправляла ответ по первой дз, но на почту ничего не пришло
Добрый день! Регистрировался через форму и отправлял домашнее заданее в срок, однако, ничего не пришло на почту. В чем может быть проблема? p.s. xav87@mail.ru Получали ответ?

Рейтинг участников указан в комментарии ниже, вот ссылка. Рассылки не было, насколько мне известно.

Спасибо! Прошу прощения за панику! :)
А если на почту ничего за два дня не пришло после заполнения анкеты — значит, меня не взяли на курс?

Курс открытый, берем всех. :)
Материалы первой недели выложены на гитхабе, ссылка на первый тест – в посте и в ноутбуке с домашкой

Ребят, уже второй день бьюсь над этой проблемой. Никак не могу выполнить задачу!
Подскажите, пожалуйста, что ни так?
Скрин — http://prntscr.com/egbko0

А что вы уже пробовали сделать? Судя по первой ссылке в гугле, у Windows есть встроенная тулза для таких случаев. Она тоже не помогла?

Рейтинг участников. Будет считаться по домашним заданиям, соревнованиям и, возможно, дополнительным бонусам, оговариваемым заранее и публично.

Заполнил опрос, но инвайты не пришли (

Какие инвайты вы имеете в виду?


Если вы заполнили опрос, то вы автоматически приглашены на курс. Почитайте комментарии yorko к этому посту, в них все описано.

Я об этом:

Можете вступить в сообщество OpenDataScience, обсуждение курса ведется в канале #mlcourse_open.


пришлите почту, которую указали в анкете, в лс

Поделюсь дополнительными ссылками на материалы по математике, Python и машинному обучению


  • базовую математику (мат. анализ, линейную алгебру, оптимизацию, теорвер и стат-ку) можно повторить по этим конспектам YDF & MIPT. Кратко, на русском – то что надо. Если подробно, то матан – Кудрявцев, линал – Кострикин, оптимизация – Boyd (англ.), теорвер и статистика – Кибзун. И конечно, более чем достаточный – список литературы ШАДа. Плюс отличные онлайн-курсы МФТИ и ВШЭ на Coursera
  • по Python хватит базового тьюториала типа CodeAcademy, также есть мой репозиторий по Python и базовым алгоритмам и структурам данных. Что-то более продвинутое – это, например, курс питерского Computer Science Center
  • по машинному обучению из курсов классика – это Andrew Ng (Stanford, Coursera), на русском отличная специализация МФТИ и Яндекса – "Машинное обучение и анализ данных". O специализации университета Вашингтона тоже хорошие отзывы. Классические книги – "The elements of statistical learning" (Hastie, Tibshirani), "Machine Learning: A Probabilistic Perspective" (Murphy) и "Pattern recognition" (Bishop). Еще интересней – Deep Learning (Goodfellow, Bengio, Courville), там в начале и обзор по математике, и основы машинного обучения, изложенные довольно ясно.

И еще хорошие ссылки:


  • Материалы курса Евгения Соколова
  • Лекции ШАД по машинному обучению
  • Курс Дмитрия Ефимова (англ, хорошие визуализации)
  • Блог Александра Дьяконова
  • Сайт Sebastian Raschka
  • Обширная подборка ресурсов по машинному обучению
  • Обзор репозиториев по машинному обучению и анализу данных

Красивые визуализации:


подскажите, а есть ли способ строить crosstable с такой структурой, чтобы при подсчете количества пересечений значений рядом справа указана была еще и доля (normalize=True)?

Разве что рядом впихнуть. Как-то так:


pd.concat([pd.crosstab(df.zero_launches, df.age_unknown, 
           normalize=True).rename(columns={0: '0_share', 1: '1_share'}),
           pd.crosstab(df.zero_launches, df.age_unknown).rename(columns={0: '0_total', 1: '1_total'})], axis=1)

mutiev, уточните, пожалуйста, это ли вы имели в виду?


(・・ ) ?

cotique, почти то, что привел yorko, но у него проценты идут отдельным набором столбцов, а мне нужно чтобы доли показывались сразу рядом.
Вот пример:

image

Такое можно сделать из таблицы yorko, поменяв порядок столбцов (.reorder_axis()) и заюзав мультииндекс, но, может быть, есть и менее костыльное решение.


Вообще ваш скриншот похож на сводную таблицу из экселя, а пандас, по счастливой случайности, тоже умеет в сводные таблицы (pivot).

Я и сделал в экселе, потому что клепать такой образец на pandas сейчас вызывает приступы боли и фрустрации.
И да, меня интересует менее костыльное решение :)
Быть может знаете еще какие-нибудь питон решения, которые могут в теории это делать?

UPD: Видеозапись лекции по мотивам этой статьи в рамках нового запуска открытого курса (сентябрь-ноябрь 2017).

Новый запуск курса – 5 февраля 2018 г. Регистрация не требуется, но чтобы мы о вас знали, заполните форму. Главные новости будут в группе ВКонтакте, а жизнь во время курса будет теплиться в Slack OpenDataScience (вступить) в канале #mlcourse_open.

Только полноправные пользователи могут оставлять комментарии.
Войдите, пожалуйста.