Pull to refresh
34
0
Евгений Чанков @jzha

User

Send message
Да-да ваша цель ясна, полностью поддерживаю вас. Просто пример вызывал некоторое недоумение. Он как раз демонстрирует сильную сторону базового R.

На мой взгляд, пример из виньетки future.apply тоже прост и показателен — средствами базового R здесь future.apply не превзойти.
x <- replicate(1e5, runif(100), simplify = F)
y <- lapply(x, quantile, probs = 1:3/4)
yy <- future_lapply(x, quantile, probs = 1:3/4)

all.equal(y, yy)
У вас выбран не самый удачный демонстрационный пример.
Такой вариант в лоб, который дает тот же результат,
rowSums(a*a)
вычисляется на моей машине в среднем за 0.016 секунд.
Среднее время расчета вашего исходного примера с циклом у меня занимает 4.43 секунды.
Формальную верификацию вряд ли можно рассматривать как вердикт. В противном случае, это только может навредить математике. У Имре Лакатоша по этому поводу есть популярная книга с рассуждениями о формальных системах доказательств. Мне кажется, книга вполне актуальная.
Спасибо за перевод презентации.
Следуя логике повествования внесу мелкую правку в перевод :)
Вместо «Формальные доказательства авторства следующих математиков: Gonthier,… и доказательство Théry теоремы Feit–Thompson»
Нужно «Формальное доказательство Gonthier, ..., Théry теоремы Фейта-Томпсона».
Подразумевается данная работа этого коллектива авторов.
Отличная статья, спасибо!
Про снимок с Трумэном. В то время полстеры уже разбивали ген. совокупность (точнее, sampling frame) на страты по региону, полу, расе и т.д. Тем не менее, это была квотная выборка, а не стратификационная. Этот нюанс, в частности, и привел к фиаско.
Александр, честно говоря, не понял где в статье описано это сопоставление.
Вижу, что вы используете данные рекламных затрат по медиа каналам, с этим все ясно. Хорошо, распределение результатов прироста по типам медиа каналов получено какой-либо моделью регрессионного анализа.
Но тогда какого рода обучающие данные использовались для этой модели и как получают такие данные?
Спасибо за ответы!
1) Несколько неожиданный постоянный рост знания крупных, известных брендов (Эльдорадо и Детский Мир).
Заказы в онлайне в абсолютном выражении. Это без корректировок на размеры инфляции и другие экономические показатели?
2) Всё же Посещали и Совершали покупки — действия, совершенные в каких-то магазинах, онлайн или офлайн.
3) Интересно, как ряд дельта значений знания брендов коррелирует с приростом онлайн продаж для этих брендов? То есть какая связь между скоростью роста знания и скоростью роста заказов в данной выборке?
Александр, в последнем графике каким образом вы выполняли сопоставление прироста продаж с медиа каналом?
Спасибо за перевод! В комментариях к оригинальной статье (опубликована 13 ноября) указывают, что эта формула была известна ранее. Авторы (Дентон, Парк, Чжан, Тао) выложили на архив 2 декабря обновленную версию статьи. В ней, в частности, добавлен ряд источников, в которых приводится эта формула, и построен граф цитирований между ними.
Спасибо за статью. Мне интересно разобраться и в результатах и в методах анализа.
В графике из раздела 'Медийная реклама позволяет поддерживать продажи за счет роста знания'
— Что у вас означает вертикальная ось?
— Знание, Посещение, Совершали покупки — речь идёт об online, offline магазинах или обоих типов?
— Как нужно читать линию Заказы на этом графике?
Честно говоря, мне непонятно, почему вы в качестве слагаемого хотите использовать 41. Откуда появилась эта дополнительная 1, ведь число успехов 40? Вероятно, мы друг друга недопонимаем.
Посмотрите вывод этой формулы, например, здесь или в википедии.
Нет, 52.75 = 12.75 + 40. Используем число наблюдаемых успехов — 40.
При априорном равномерном распределении параметры равны (1,1), так как dunif(0,1) = dbeta(1,1).
При априорном усеченном нормальном распределении параметры равны (12.75, 12.75).
После 40 успехов в 50 испытаниях апостериорные параметры получаются равными (41, 11) при первом предположении и (52.75, 22.75) во втором случае.
Параметры beta распределения находил в предположении его симметричности и что максимум его функции плотности должен совпадать dnorm(0.5, 0.5, 0.1). То есть, решил уравнение dbeta(0.5, x, x) = dnorm(0.5, 0.5, 0.1). В общем случае надо использовать функцию плотности усеченного нормального распределения — dtruncnorm.

Для расчета квантиль функций проще всего использовать с/c++ библиотеки. В частности, бета распределение в GSL и в Boost. Или вы хотите реализовать эти вычисления самостоятельно?
Тогда, на мой взгляд, вам стоило добавить, что помимо сэмплирования можно обойтись формулами. При таком подходе вместо усеченного нормального 0.5, 0.1 распределения органичней смотрится beta распределение с параметрами 12.75, 12.75. Эти распределения почти неразличимы.

код в R
# 2*pnorm(0, 0.5, 0.1) < 6*e-07, поэтому допустим обычный dnorm(0.5, 0.1)
curve(dnorm(x, 0.5, 0.1), lwd = 3, col = "red", ylab = "PDF")
curve(dbeta(x, 12.75 , 12.75), lwd = 3, col = "blue", lty = 2, add = T)
legend(0, 4, c("Normal(0.5, 0.1)", "Beta(12.75, 12.75)"), lwd = 3,
col=c("red", "blue"), lty = 1:2, bty = "n")


И мы вновь можем воспользоваться формулами.
Ваш график для случая 40/50 строится как curve(dbeta(x, 52.75, 22.75)).
А границ дов. интервала находятся как qbeta(0.025, 52.75, 22.75) и qbeta(0.975, 52.75, 22.75).
Здравствуйте.
В графике из Excel и следующем графике вы построили функции плотности бета распределения, оно в рассматриваемых вами случаях является сопряженным априорным распределением для параметра биномиального распределения. Параметры этих бета распределений в ваших примерах — (5,2); (8,3); (12, 4) и (25, 7). Например в R первую из этих функций можно построить командой curve(dbeta(x, 5, 2)). Выполнить эту команду и посмотреть результат можно здесь.

Доверительный интервал для параметра биномиального распределения по данным наблюдений можно найти используя метод Клоппера-Пирсона (или, как вариант, снова задействовать бета распределение). Так для 24 успехов из 30 испытаний 95% интервал Клоппера-Пирсона в R находится как binom.test(24, 30, conf.level = 0.95)$conf.int. В результате получаем (0.61, 0.92).
update: для дов. интервала взял цифры не из того графика автора, исправил.
Думаю, это будет дороже. Помимо самого компьютера, потребуются, наверное, дополнительные элементы управления иглами машины и специализированное ПО для взаимодействия с машиной. А этот рынок, как понимаете, не массовый и, вполне возможно, инертный. Да и 'язык программирования' на перфокартах для вязальных машин вполне себе занимательный.
Современные профессиональные вязальные машины, наверняка, все компьютеризированы. Но это уже другая ниша.
Перфокарты устарели в компьютерной технике. Но по-прежнему используются в бытовых программируемых вязальных машинах. Можно сказать, процесс не изменился еще с 18 века. Перфоратором задается 'программа' на перфокарте. Следуя инструкциям 'программы', машина выполняет вязку изделия.
Я подумал, что используется невзвешенная медиана. Возможно, это не так.

Кстати, доступ к сайту census.gov из России запрещен (по крайней мере, для некоторых интернет-провайдеров). В браузере эта проблема решаема. Можно ли так настроить tidycensus, чтобы был доступ к данным ACS из России, может вы знаете?
Любопытно сравнить гистограммы Ирландии (IE) и России (RU) в примере для ESS данных. Навскидку ожидаешь видеть цвет у Ирландии немного светлее, чем у России, а не так как оно есть на самом деле. Если сравнить взвешенные медианы, то для России получается 5, для Ирландии — 7.

Information

Rating
Does not participate
Registered
Activity