Pull to refresh
0
0
Мария Изофатова @sle_mary

User

Send message

Apache Spark: оптимизация производительности на реальных примерах

Reading time13 min
Views23K

Apache Spark – фреймворк для обработки больших данных, который давно уже стал одним из самых популярных и часто встречаемых во всевозможных проектах, связанных с Big Data. Он удачно сочетает в себе скорость работы и простоту выражения своих мыслей разработчиком.

Разработчик работает с данными на достаточно высоком уровне и, кажется, что нет ничего сложного в том, чтобы, например, соединить два набора данных, написав всего одну строку кода. Но только задумайтесь: что происходит в кластере при соединении двух наборов данных, которые могут и не находится целиком на каком-либо из узлов кластера? Обычно Spark со всем справляется быстро, но иногда, а особенно, если данных действительно много, необходимо все-таки понимать – что происходит уровнем ниже и использовать это знание, чтобы помочь Spark работать в полную силу.

Читать далее
Total votes 18: ↑18 and ↓0+18
Comments9

Когда одной ARIMA мало. Прогнозирование временных рядов нейросетями

Level of difficultyMedium
Reading time12 min
Views8.9K

Привет, Хабр! Меня зовут Никита, я работаю в Мегафоне аналитиком больших данных. В этой статье я хочу поговорить про временные ряды, а если конкретнее, про использование нейросетей для их прогнозирования. 

В статье мы не только разберем две актуальные архитектуры для прогнозирования, но и применим их на реальных данных. В дополнение к статье вас ждет код, с помощью которого вы легко сможете запустить сетки и применить их для решения своих задач!

Читать далее
Total votes 7: ↑7 and ↓0+7
Comments9

Персонализация тарифного плана для новых абонентов: как оцифровать привлекательность

Level of difficultyMedium
Reading time10 min
Views2.7K

В этой статье расскажем про подход к решению задачи о персонализации тарифных планов для абонентов новой базы в рамках CVM-проекта. Поговорим о том, как с помощью ML определить оптимальные параметры тарифа для абонентов с короткой историей, и как посчитать привлекательность полученного тарифа.

Читать далее
Total votes 8: ↑3 and ↓50
Comments7

Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 1: Live Coding

Level of difficultyMedium
Reading time14 min
Views17K

Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor).

В данной статье разберемся что такое live coding интервью и как к нему готовиться.

Материал в первую очередь будет полезен Data Scientist'ам и ML инженерам, при этом некоторые разделы, например, Алгоритмы и структуры данных подойдут всем IT специалистам, которым предстоит пройти секцию live coding.

Читать далее
Total votes 11: ↑9 and ↓2+7
Comments11

Information

Rating
Does not participate
Works in
Registered
Activity

Specialization

Data Scientist, ML Engineer