Comments / Profile of jzha / Habr

How to become an author

Евгений Чанков @jzha

User

Profile Publications 12Comments 78Bookmarks 14

Распараллеливаем код в R за пару минут

jzha Nov 13 2020 at 19:53

Да-да ваша цель ясна, полностью поддерживаю вас. Просто пример вызывал некоторое недоумение. Он как раз демонстрирует сильную сторону базового R.

На мой взгляд, пример из виньетки future.apply тоже прост и показателен — средствами базового R здесь future.apply не превзойти.

x <- replicate(1e5, runif(100), simplify = F)
y <- lapply(x, quantile, probs = 1:3/4)
yy <- future_lapply(x, quantile, probs = 1:3/4)

all.equal(y, yy)

0

Распараллеливаем код в R за пару минут

jzha Nov 12 2020 at 23:26

У вас выбран не самый удачный демонстрационный пример.
Такой вариант в лоб, который дает тот же результат,

rowSums(a*a)

вычисляется на моей машине в среднем за 0.016 секунд.
Среднее время расчета вашего исходного примера с циклом у меня занимает 4.43 секунды.

+1

Будущее математики?

jzha Jul 19 2020 at 00:44

Формальную верификацию вряд ли можно рассматривать как вердикт. В противном случае, это только может навредить математике. У Имре Лакатоша по этому поводу есть популярная книга с рассуждениями о формальных системах доказательств. Мне кажется, книга вполне актуальная.

0

Будущее математики?

jzha Jul 19 2020 at 00:24

Спасибо за перевод презентации.
Следуя логике повествования внесу мелкую правку в перевод :)
Вместо «Формальные доказательства авторства следующих математиков: Gonthier,… и доказательство Théry теоремы Feit–Thompson»
Нужно «Формальное доказательство Gonthier, ..., Théry теоремы Фейта-Томпсона».
Подразумевается данная работа этого коллектива авторов.

+4

Стратификация, или как научиться доверять данным

jzha Apr 14 2020 at 00:36

Отличная статья, спасибо!
Про снимок с Трумэном. В то время полстеры уже разбивали ген. совокупность (точнее, sampling frame) на страты по региону, полу, расе и т.д. Тем не менее, это была квотная выборка, а не стратификационная. Этот нюанс, в частности, и привел к фиаско.

0

Модель эффективности медиа рекламы для интернет-магазинов

jzha Dec 26 2019 at 12:38

Александр, честно говоря, не понял где в статье описано это сопоставление.
Вижу, что вы используете данные рекламных затрат по медиа каналам, с этим все ясно. Хорошо, распределение результатов прироста по типам медиа каналов получено какой-либо моделью регрессионного анализа.
Но тогда какого рода обучающие данные использовались для этой модели и как получают такие данные?

0

Модель эффективности медиа рекламы для интернет-магазинов

jzha Dec 24 2019 at 12:35

Спасибо за ответы!
1) Несколько неожиданный постоянный рост знания крупных, известных брендов (Эльдорадо и Детский Мир).
Заказы в онлайне в абсолютном выражении. Это без корректировок на размеры инфляции и другие экономические показатели?
2) Всё же Посещали и Совершали покупки — действия, совершенные в каких-то магазинах, онлайн или офлайн.
3) Интересно, как ряд дельта значений знания брендов коррелирует с приростом онлайн продаж для этих брендов? То есть какая связь между скоростью роста знания и скоростью роста заказов в данной выборке?

0

Модель эффективности медиа рекламы для интернет-магазинов

jzha Dec 24 2019 at 12:34

Александр, в последнем графике каким образом вы выполняли сопоставление прироста продаж с медиа каналом?

0

Изучение нейтрино привело к неожиданному открытию в математике

jzha Dec 18 2019 at 14:36

Спасибо за перевод! В комментариях к оригинальной статье (опубликована 13 ноября) указывают, что эта формула была известна ранее. Авторы (Дентон, Парк, Чжан, Тао) выложили на архив 2 декабря обновленную версию статьи. В ней, в частности, добавлен ряд источников, в которых приводится эта формула, и построен граф цитирований между ними.

+3

Модель эффективности медиа рекламы для интернет-магазинов

jzha Dec 16 2019 at 12:05

Спасибо за статью. Мне интересно разобраться и в результатах и в методах анализа.
В графике из раздела 'Медийная реклама позволяет поддерживать продажи за счет роста знания'
— Что у вас означает вертикальная ось?
— Знание, Посещение, Совершали покупки — речь идёт об online, offline магазинах или обоих типов?
— Как нужно читать линию Заказы на этом графике?

0

Что такое вероятность и как ее посчитать

jzha Jul 12 2019 at 15:49

Честно говоря, мне непонятно, почему вы в качестве слагаемого хотите использовать 41. Откуда появилась эта дополнительная 1, ведь число успехов 40? Вероятно, мы друг друга недопонимаем.
Посмотрите вывод этой формулы, например, здесь или в википедии.

+1

Что такое вероятность и как ее посчитать

jzha Jul 12 2019 at 13:52

Нет, 52.75 = 12.75 + 40. Используем число наблюдаемых успехов — 40.

0

Что такое вероятность и как ее посчитать

jzha Jul 12 2019 at 13:29

При априорном равномерном распределении параметры равны (1,1), так как dunif(0,1) = dbeta(1,1).
При априорном усеченном нормальном распределении параметры равны (12.75, 12.75).
После 40 успехов в 50 испытаниях апостериорные параметры получаются равными (41, 11) при первом предположении и (52.75, 22.75) во втором случае.

0

Что такое вероятность и как ее посчитать

jzha Jul 12 2019 at 11:11

Параметры beta распределения находил в предположении его симметричности и что максимум его функции плотности должен совпадать dnorm(0.5, 0.5, 0.1). То есть, решил уравнение dbeta(0.5, x, x) = dnorm(0.5, 0.5, 0.1). В общем случае надо использовать функцию плотности усеченного нормального распределения — dtruncnorm.

Для расчета квантиль функций проще всего использовать с/c++ библиотеки. В частности, бета распределение в GSL и в Boost. Или вы хотите реализовать эти вычисления самостоятельно?

+1

Что такое вероятность и как ее посчитать

jzha Jul 11 2019 at 16:23

Тогда, на мой взгляд, вам стоило добавить, что помимо сэмплирования можно обойтись формулами. При таком подходе вместо усеченного нормального 0.5, 0.1 распределения органичней смотрится beta распределение с параметрами 12.75, 12.75. Эти распределения почти неразличимы.

код в R

# 2*pnorm(0, 0.5, 0.1) < 6*e-07, поэтому допустим обычный dnorm(0.5, 0.1)

curve(dnorm(x, 0.5, 0.1), lwd = 3, col = "red", ylab = "PDF")

curve(dbeta(x, 12.75 , 12.75), lwd = 3, col = "blue", lty = 2, add = T)

legend(0, 4, c("Normal(0.5, 0.1)", "Beta(12.75, 12.75)"), lwd = 3,

 col=c("red", "blue"), lty = 1:2, bty = "n")

И мы вновь можем воспользоваться формулами.
Ваш график для случая 40/50 строится как curve(dbeta(x, 52.75, 22.75)).
А границ дов. интервала находятся как qbeta(0.025, 52.75, 22.75) и qbeta(0.975, 52.75, 22.75).

0

Что такое вероятность и как ее посчитать

jzha Jul 11 2019 at 12:20

Здравствуйте.
В графике из Excel и следующем графике вы построили функции плотности бета распределения, оно в рассматриваемых вами случаях является сопряженным априорным распределением для параметра биномиального распределения. Параметры этих бета распределений в ваших примерах — (5,2); (8,3); (12, 4) и (25, 7). Например в R первую из этих функций можно построить командой curve(dbeta(x, 5, 2)). Выполнить эту команду и посмотреть результат можно здесь.

Доверительный интервал для параметра биномиального распределения по данным наблюдений можно найти используя метод Клоппера-Пирсона (или, как вариант, снова задействовать бета распределение). Так для 24 успехов из 30 испытаний 95% интервал Клоппера-Пирсона в R находится как binom.test(24, 30, conf.level = 0.95)$conf.int. В результате получаем (0.61, 0.92).
update: для дов. интервала взял цифры не из того графика автора, исправил.

0

Ликбез по работе с перфокартами (или история о том, как с 1890-го по 1970-й «большие данные» обрабатывались)

jzha Oct 16 2018 at 15:02

Думаю, это будет дороже. Помимо самого компьютера, потребуются, наверное, дополнительные элементы управления иглами машины и специализированное ПО для взаимодействия с машиной. А этот рынок, как понимаете, не массовый и, вполне возможно, инертный. Да и 'язык программирования' на перфокартах для вязальных машин вполне себе занимательный.
Современные профессиональные вязальные машины, наверняка, все компьютеризированы. Но это уже другая ниша.

+1

Ликбез по работе с перфокартами (или история о том, как с 1890-го по 1970-й «большие данные» обрабатывались)

jzha Oct 16 2018 at 10:40

Перфокарты устарели в компьютерной технике. Но по-прежнему используются в бытовых программируемых вязальных машинах. Можно сказать, процесс не изменился еще с 18 века. Перфоратором задается 'программа' на перфокарте. Следуя инструкциям 'программы', машина выполняет вязку изделия.

+2

Добыча данных в R

jzha Dec 29 2017 at 08:29

Я подумал, что используется невзвешенная медиана. Возможно, это не так.

Кстати, доступ к сайту census.gov из России запрещен (по крайней мере, для некоторых интернет-провайдеров). В браузере эта проблема решаема. Можно ли так настроить tidycensus, чтобы был доступ к данным ACS из России, может вы знаете?

0

Добыча данных в R

jzha Dec 28 2017 at 11:11

Любопытно сравнить гистограммы Ирландии (IE) и России (RU) в примере для ESS данных. Навскидку ожидаешь видеть цвет у Ирландии немного светлее, чем у России, а не так как оно есть на самом деле. Если сравнить взвешенные медианы, то для России получается 5, для Ирландии — 7.

+1

1