Pull to refresh
84
0
Семён Лукашевский @uchitel

R&D (R>D)

Send message

Очень круто. Интересно, почему все вертится вокруг критерия Неймана-Пирсона? На Хабре нет ни одной статьи в которой бы описывались критерий Вальда или критерий Байеса. Было бы круто если бы вы так же наглядно показали последовательные или инкапсулированные аналоги всех вышеприведенных тестов.

Уверен, для многих материал окажется очень полезным и интересным.

Это уже не тенденция, а более-менее обозначенная потребность бизнеса. В последней книге по RL (автора увы сейчас не вспомню, но на книге нарисован пингвин) автор во введении прямо пишет, что некоторые компании рассматривают RL, как способ сокращения штата ML инженеров.

Еще мне попадалось несколько статей схожей тематики. В одной из них рассматривалось обучение оптимизации, причем так же на примере регрессионных моделей. И оно работает. В другой хорошей обзорной статье рассматривалась применение RL (и ML по моему тоже) к задаче целочисленного линейного программирования.

Короче, надо налегать на RL.

Такие алгоритмы являются предметом любопытства, а не практического применения. А что такое любопытство? Оно вообще нужно?

Вы движетесь в правильном направлении. Попробуйте делать все это на питоне. Кстати для питона есть хорошая либа gmpy2.

Завидую тому, что у вас есть время на такие занятия.

Огромное спасибо за статьи. Благодаря им я и узнал об ortools, очень мне этот пакет понравился.

Было бы прям ваще круто, если бы вы немного осветили тему стохастического программирования. Особенно двухэтапные задачи. Думаю, тема очень востребована в текущих реалиях, когда данных много и их объем позволяет строить более адекватные модели.

Статья классная. Свертки еще используются для "арифметических" операций над распределениями плотности вероятности. Там тоже все очень интересно получается, настолько, что на интуицию даже не стоит полагаться.

Вот в этом и есть большая странность, которая к слову касается не только вашей компании. Вальд в своей работе показал, что критерий Неймана-Пирсона является частным случаем его критерия. Там же он показал, как создавать последовательные тесты. По сути, все тесты должны именно так и выполняться - последовательно. Это действительно в два раза быстрее (в среднем) и точно так же позволяет отслеживать динамику статистик. Я не понимаю почему компании вцепились мертвой хваткой в критерий Неймана-Пирсона.

Если честно, создается очень странное впечатление. Например, почему вы не используете последовательный анализ если хотите быть быстрее? Ну или быть точнее в оценках при той же скорости? Как будто критерий Вальда до сих пор засекречен.

Объяснить в одном комментарии к сожалению не получится, но я попробую.

Смысл в том, что есть модель которая объясняет ваши данные. У модели есть параметры. Что бы оценить параметры на основе данных можно воспользоваться Байесовским выводом. Так вы оцените их наиболее вероятные значения + сохраните неопределенность = окажетесь в шоколаде. Я пользуюсь pymc3 для вывода.

Да ваще пофиг.

Напишите что-нибудь сами, а потом поговорим :)

Да пребудет с Вами Сила :)))

К сожалению бывший учитель. Сейчас я что-то вроде аналитика. Однако, многие приобретенные учительские навыки хорошо выручают. Орать, конечно, больше не приходится, но вот разжевывать и доносить сложные вещи - самое то.

Сарказм сарказмом :) но на всякий случай должен предупредить о том, что самое тяжелое - это маленькая зп. Я поэтому и свалил :(

Я конечно далеко не великий писатель, но думаю, что точно так же можно было бы и Хемингуэю сказать: Дружище, твой "Старик и море" - просто про старика и какую-то рыбу, а "Фиеста" - ваще какая-то дичь про чувака с отстреленными причиндалами, который мешал всем весело бухать.

Всем нам для работы необходимо душевное равновесие (комфорт), которого сейчас у многих очень мало. Ну или хотя бы какая-то более-менее осязаемая надежда нужна. Вот так и появился этот пост.

Меньше всего мне хотелось писать что-то в стиле Кирпичей, типа:
Мы рыцари Джедаи, борцы со злом
Тёмную силу завяжем узлом
Нехорошие люди разрази их гром
Получат по башне огненным мечом

Но скажу честно - я приятно удивлен, что этот пост зашел.

Немного кликбейтно. Я бы назвал просто "4 полезных приема для работы с Pandas". А тут аж прям с ходу АНТИ-ПАТТЕРНЫ!!! Я аж залез читать - вдруг как-то не так панду юзаю :)

При работе с данными, которые впервые видишь очень стремно торопиться - это самый главный анти-паттерн на мой взгляд. Лучше шаг-ячейка-шаг-ячейка. А так да, у панды есть Function application - иногда весьма полезная штука.

Самое интересное, иногда понимаешь, что в некоторых простых случаях можно вообще на одном НамПае что-то нехитрое сделать. Но все равно import pandas as pd...

Вы в очень выгодном положении :) можно вывернуться так, можно сяк. А поток ничего не понимающих новичков еще долго не иссякнет.

Повторюсь еще раз ODS замутили бесплатный курс на Хабре. Отличный курс для новичков, просто замечательный для того что бы понять что тебя ждет. Вам, тем кто использует не просто слово "Яндекс" в своем названии слабо сделать так же? Ведь вы же ЯНДЕКС.ПРАКТИКУМ

ODS сделало бесплатный курс и внесло очень большой вклад в развитие сообщества. А что делаете вы? ВАМ САМИМ НЕ СТЫДНО, ЗА ТО ЧТО ВЫ УЖЕ НЕ ПЕРВЫЙ РАЗ ДОВОДИТЕ ДО ПОЯВЛЕНИЯ ВОТ ТАКИХ ПОСТОВ???

Да, менеджер по качеству, если таковой имеется, обязательно должен твердить как мантру, что всегда будет % недовольных. Но вам не кажется, что такие посты заставят тех же потенциальных крутых преподавателей, сто раз подумать о том стоит ли им у вас работать или нет?

Интересно, а почему нет постов от преподавателей ШАД-а, в которых пишется о том, что они бросили ШАД ради того что бы трудиться в Практикуме??? Ведь Практикум такой крутой и позволяет гораздо эффективнее делать Мир лучше!!! ИЛИ НЕТ?

Автору респектос. Красава.

Наверное бывают такие процессы где это может пригодиться, какие-нибудь лабораторные испытания. Но мне кажется, что большинство процессов дают выборки далекие от идеала, где от доверительных интервалов пользы гораздо больше, чем от очень точной pdf.

Если честно, то для меня все равно загадка зачем все это надо... и что значит точность. Если тип распределения известен, почему бы не использовать тот же fit из scipy.stats или curve_fit для смесей из того же пакета. Изо всех сил пытаюсь понять чем мне это может помочь и не могу. В какой ситуации я не смогу обойтись готовыми решениями из того же numpy или stats?

Если текст для новичков, то руководствоваться надо принципом "Примеры обучают лучше чем теория". Если текст для тех кто занимается самообразованием, то руководствоваться надо принципом "Лучше иметь и не нуждаться, чем нуждаться и не иметь" т.е. пусть лучше материал будет избыточен. Если это публичное самообразование, то лучше не дублировать то, что можно и так без труда нагуглить ("без труда" это все, что выше 30-40-й строчки поисковой выдачи), а взять какую-то действительно сложную тему.

Глубину статьи оценить очень легко - она ниже Саммерфилда, ниже Лутца, ниже Доусона, ниже некоторых сайтов о Python. То же самое касается и NumPy (хотя бы упомянуть про r_, c_, s_ не мешало), где было бы по настоящему круто - углубиться в тему индексации.

У вас просто не получится писать на Хабре такие статьи на постоянной основе, на Дзене получится.

1
23 ...

Information

Rating
Does not participate
Location
Хакасия, Россия
Date of birth
Registered
Activity