Pull to refresh
34
0
Евгений Чанков @jzha

User

Send message
Спасибо за комментарий.

Данные маркетинговых опросов и медиаизмерения — то, с чем я регулярно работаю.
Результаты методов демонстрируются на данных, которые близки к таким исследованиям и находятся в открытом доступе.
То есть выбор примеров обусловлен только тем, что я сфокусирован на этой теме.

Полностью согласен, проверка адекватности метода моделирования безусловно важный момент. Однако в рамках одной короткой публикации нельзя объять все аспекты задачи. Вы можете найти детали о точности подхода, например в процитированной работе [6], где Mohammadi и Wit приводят сведения об аккуратности оценок параметров таких моделей, используя некоторый тестовый набор 'синтетических' примеров.
Не знаком с этой областью.
На глаза мне не попадались такие примеры использования графических моделей (произвольных, не обязательно на базе гауссовых копул). Но интересно посмотреть, поделитесь, пожалуйста, ссылками.
Генерировать выборки на основе моделей можно, только не совсем понимаю, с какой целью?
Ясно, спасибо.
Из сообщения в посте подумал, что 14 млн. строк — это все данные за 1 месяц.
Спасибо за публикацию!

У меня есть пара вопрос по данным.
Уточните, пожалуйста, что означает величина vendor_id?
Какое число строк в базе taxi.filtered?
Полученные результаты подгонки модели, видимо, лишний раз подтверждают, что в данных с большим числом наблюдений за действиями (или мнениями) людей каждый «чих» является статистически значимым с точки зрения фишеровского подхода. Это я о p-value значениях slope-коэффицентов модели.
Да, эта тема сейчас на слуху :)

Вся английская сборная тоже варится в домашнем чемпионате :). Но они смогли привлечь в свое национальное первенство значительные силы из других стран. Хотя позиции футбольного чемпионата России на текущий момент вовсе не так плохи. Очевидно, одного этого не достаточно для успешного выступления сборной. Вообще говоря, я фокусировался на сравнении не сборных команд, а национальных футбольных первенств.
На Евро 2016 из двух валлийских клубов — Суонси и Кардифф, играют 3 человека.
Оба этих клуба выступают в английских футбольных первенствах. И эти 3 человека посчитаны как выступающие в Англии.
Остальные валлийские клубы не рассматриваем, так как их нет в выборке.

Что точно значит «свой» и «не свой»? Есть национальное первенство Уэльса, но естественно стремиться в более сильное и богатое первенство.
Игроков австрийской сборной (15 человек) тоже считать «своими» для немцев?
Есть точный критерий — выступление за определенную сборную команду, даже национальность игрока здесь не важна.
Обе «малых» сборных из Великобритании пробились в финальную часть турнира а не команды, скажем, Финляндии или Кипра.
Мне кажется, это как раз и показывает конкурентоспособность первенств.

Кроме того, специально построена хордовая диаграмма, третья по счету, с ограничением на 7 европейских первенств.
В ней доля английской лиги по числу игроков еще выше, чем в предыдущих двух диаграммах, хотя в ней нет сборных Уэльса и обоих Ирландий. Она тоже неправильная?
Да, OLS здорово придумал. Хотя, наверное, log и прочие функции не поразумевалось использовать, его решение лучшее. Да еще и без изменений на несколько последующих лет распространяется.
Ясно. Да, базис допустимых операций не задан.
Для меня sqrt скорее функция одного аргумента, а не унарная операция. В таком контексте можно не ограничивать полет фантазии :)
Например, добавление к вашим замечательным примерам 2016 -> пи для поклонников Гаусса и Эйлера
Хм, а почему можно использовать степень 0.5 вне числа 2016?
Иначе голову ломать нечего — ясно, что для любого числа N > 0 всегда найдется x: (2016)^x = N.
Забавная задача, спасибо!
Для 11 можно так (2 + 0!)! -1 + 6
Спасибо за отзыв.
Есть ResearchGate и подобные ресурсы. Если ориентироваться на научное сообщество, наверное, это более подходящие площадки. Но русскоязычная аудитория у Хабра значительно шире и вполне квалифицированная. Я рассчитывал на больший отклик — вопросы, замечания, дискуссии.

Спасибо за оценку работы.
Поэтому это больше похоже на «задачку из учебника», чем на случай из реальной жизни ;). Более не мешаю.
Вы что-то додумали, а в условии это не сказали :-). Вы чувствуете разницу в вашей формулировке и в моей?

Хорошо, вы хотели показать, что ответ будет «красивым» — 7*qnorm(0.9)/qnorm(0.95), где qnorm — квантиль функция стандартного норм. распределения.
Но такое в голове держать не будешь. Быстрее и логичнее произвести «естественные» расчеты, которые будут понятны любому, нежели такой ответ.
Не распыляйтесь перед автором поста. Тот же самый совет Akela_wolf.
Поскольку в самом начале не было ясно сформулировано, что требуется. С умыслом или без, но автор не написал что же хотели «кондитеры».

Видимо, требовалось найти в какой 1-alpha — дов. интервал попадает масса одна конфеты (подчиняется норм. распределению) и границы этого интервала, если границы 90% — дов. интервал коробки из 12 конфет — [303; 317].
1-alpha находится через error function и inverse error function от 0.9. Далее, через F находятся границы этого интервала.
Найденное значение — максимально допустимое стандартное отклонение. В том смысле, что при меньшем sd по-прежнему масса не менее 90% коробок будет лежать в требуемом интервале, а при большем sd таких коробок будет менее 90%.
Ясно, что носитель нормального распределения не ограничен сверху и снизу. Если вы подразумевали truncated normal distribution или какие-то другие дополнительные условия, то об этом надо было заявить внятно в самом начале, а не играть в угадайку.
sd = 1.228518 (fpc игнорируем). Это и есть ответ.
F — кумулятивная функция нормального распределения
0.95 в силу симметричности плотности нормального распределения.

Код на R
 sd <- uniroot(function(x) pnorm(317, 310, sqrt(12)*x) - 0.95, lower = 0, upper = 2)$root 

Проверка

set.seed(123)
n <- 10000
boxes <- sapply(1:n, function(i) sum(rnorm(12, 310/12, sd)))
quantile(boxes, c(0.05, 0.95))

Результат
5% 95%
303.0068 317.0503
Вы так сформулировали условие, что не ясно, почему не устраивает решение в лоб?
Масса одной произвольной конфеты ~ N(310/12, sd^2). В предположении о независимости этих случ. величин, масса коробки ~ N(310, 12*sd^2).
Находим sd^2 из уравнения F(X < 317) = 0.95 и, если требуется, умножаем результат на 12/11 (finite pop.correction). Оценка sd получена.

Information

Rating
Does not participate
Registered
Activity