Pull to refresh
142
-2
Давид Дале @cointegrated

Разработчик / Аналитик / Data Scientist / NLPшник

Send message

Нужно ли пытаться полюбить математику?

Reading time6 min
Views32K

Математика позволяет достигать успеха: запускать ракеты, обучать AI, и так далее. Самыми качественными кадрами считаются выпускники математических специальностей. Молодые работники, студенты и школьники, которые не идеально решают тренировочные задачи, часто комплексуют по этому поводу. Такие люди обычно переживают, что, если бы они могли полюбить и понять математику, то их жизнь изменилась бы к лучшему, но им этого, увы, "не дано".


Объясняю, почему переживать и насиловать себя не надо.


Читать дальше →
Total votes 35: ↑15 and ↓20-5
Comments70

Как обучть мдль пнмть упртые скрщня

Reading time16 min
Views39K

Недавно я натолкнулся на вопрос на Stackoverflow, как восстанавливать исходные слова из сокращений: например, из wtrbtl получать water bottle, а из bsktballbasketball. В вопросе было дополнительное усложнение: полного словаря всех возможных исходных слов нет, т.е. алгоритм должен быть в состоянии придумывать новые слова.


Вопрос меня заинтриговал, и я полез разбираться, какие алгоритмы и математика лежат в основе современных опечаточников (spell-checkers). Оказалось, что хороший опечаточник можно собрать из n-граммной языковой модели, модели вероятности искажений слов, и жадного алгоритма поиска по лучу (beam search). Вся конструкция вместе называется модель зашумлённого канала (noisy channel).


Вооружившись этими знаниями и Питоном, я за вечер создал с нуля модельку, способную, обучившись на тексте "Властелина колец" (!), распознавать сокращения вполне современных спортивных терминов.


Читать дальше →
Total votes 88: ↑87 and ↓1+86
Comments17

Как я парсил Хабр, часть 1: тренды

Reading time6 min
Views23K

Когда был доеден новогодний оливье, мне стало нечего делать, и я решил скачать себе на компьютер все статьи с Хабрахабра (и смежных платформ) и поисследовать.


Получилось несколько интересных сюжетов. Первый из них — это развитие формата и тематики статей за 12 лет существования сайта. Например, достаточно показательна динамика некоторых тем. Продолжение — под катом.


Читать дальше →
Total votes 62: ↑62 and ↓0+62
Comments45

Как мы участвовали в хакатоне М.Видео

Reading time7 min
Views9K

В последние выходные сентября наша команда приняла участие в хакатоне М.Видео по анализу данных. На выбор было предложено два задания: первое — генерировать описание продукта на основе отзывов о товарах, второе — выделять важнейшие характеристики товаров на основе справочника, данных о совместных просмотрах и добавлении в корзину. Мы решали оба задания. Под катом история, почему мы завалили этот хакатон и чему научились.


Читать дальше →
Total votes 18: ↑17 and ↓1+16
Comments6

Как понять, что ваша предсказательная модель бесполезна

Reading time15 min
Views25K

При создании продуктов на основе машинного обучения возникают ситуации, которых хотелось бы избежать. В этом тексте я разбираю восемь проблем, с которыми сталкивался в своей работе.


Мой опыт связан с моделями кредитного скоринга и предсказательными системами для промышленных компаний. Текст поможет разработчиками и дата-сайнтистам строить полезные модели, а менеджерам не допускать грубых ошибок в проекте.


image


Этот текст не призван прорекламировать какую-нибудь компанию. Он основан на практике анализа данных в компании ООО "Ромашка", которая никогда не существовала и не будет существовать. Под "мы" я подразумеваю команду из себя и моих воображаемых друзей. Все сервисы, которые мы создавали, делались для конкретного клиента и не могут быть проданы или переданы иным лицам.


Какие модели и для чего?


Пусть предсказательная модель — это алгоритм, который строит прогнозы и позволяет автоматически принимать полезное для бизнеса решение на основе исторических данных.

Читать дальше →
Total votes 38: ↑36 and ↓2+34
Comments5
2

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity