Articles / Bookmarks / Profile of i

Илья Шутов @i_shutov

Data Science

Profile Publications 77Comments 462Bookmarks 132

AristarXXXX Jun 1 2019 at 13:46

Ежедневные отчёты по состоянию виртуальных машин с помощью R и PowerShell

18 min

10K

PowerShell*Virtualization*Microsoft SQL Server*R*

Tutorial

From sandbox

Вступление

День добрый. Уже пол года у нас работает скрипт (точнее набор скриптов), генерирующий отчёты по состоянию виртуальных машин (и не только). Решил поделиться опытом создания и самим кодом. Рассчитываю на критику и на то, что данный материал может быть кому-то полезным.

Читать дальше →

+22

wol4aravio Jun 20 2017 at 17:04

Умеют ли коты строить регрессию?

11 min

14K

Programming*Algorithms*Scala*Mathematics*Machine learning*

Доброго времени суток, Хабр! Пора вновь вернуться к задачам оптимизации. На этот раз мы займемся линейной регрессией и разберемся, кто же такие коты — только пушистые домашние ~~мерзавцы~~ животные или еще и неплохой инструмент для решения прикладных задач.

Что ж, пожалуй, пора разобраться, умеют ли коты строить регрессию или нет?

+17

a-pichugin Oct 20 2017 at 15:43

“Без data engineer-а ценность модели аналитика стремится к нулю” — интервью с дата инженером Николаем Марковым

10 min

16K

Data Mining*New Professions Lab corporate blogMachine learning*InterviewData Engineering*

Привет, Хабр! Data Engineering становится все более популярным, многие компании постепенно открывают соответствующие вакансии. В связи с этим мы взяли интервью у Senior Data Science Engineer, Aligned Research Group LLC и преподавателя на программах “Специалист по большим данным” и “Data Engineer” Николая Маркова о том, что должны уметь data scientist-ы и data engineer-ы, чего им чаще всего не хватает и как найти свое место в анализе данных.

Читать дальше →

qc-enior Feb 22 2016 at 12:07

Стратегии по ускорению кода на R, часть 1

3 min

7.2K

High performance*Инфопульс Украина corporate blogR*

Translation

Цикл for в R может быть очень медленным, если он применяется в чистом виде, без оптимизации, особенно когда приходится иметь дело с большими наборами данных. Есть ряд способов сделать ваш код быстрее, и вы, вероятно, будете удивлены, узнав насколько.

Эта статья описывает несколько подходов, в том числе простые изменения в логике, параллельную обработку и Rcpp, увеличивая скорость на несколько порядков, так что можно будет нормально обрабатывать 100 миллионов строк данных или даже больше.

Давайте попробуем ускорить код с циклом for и условным оператором (if-else) для создания колонки, которая добавляется к набору данных (data frame, df). Код ниже создает этот начальный набор данных.

# Создание набора данных
col1 <- runif (12^5, 0, 2)
col2 <- rnorm (12^5, 0, 2)
col3 <- rpois (12^5, 3)
col4 <- rchisq (12^5, 2)
df <- data.frame (col1, col2, col3, col4)

В этой части: векторизация, только истинные условия, ifelse.
В следующей части: which, apply, побайтовая компиляция, Rcpp, data.table.

Читать дальше →

+10

qc-enior Mar 9 2016 at 12:36

Стратегии по ускорению кода на R, часть 2

4 min

4.3K

High performance*Инфопульс Украина corporate blogR*

Translation

# Создание набора данных
col1 <- runif (12^5, 0, 2)
col2 <- rnorm (12^5, 0, 2)
col3 <- rpois (12^5, 3)
col4 <- rchisq (12^5, 2)
df <- data.frame (col1, col2, col3, col4)

В первой части: векторизация, только истинные условия, ifelse.
В этой части: which, apply, побайтовая компиляция, Rcpp, data.table, результаты.

Читать дальше →

1 2 ...

5 6