Comments / Profile of uchitel / Habr

How to become an author

Семён Лукашевский @uchitel

R&D (R>D)

Profile Publications 10Comments 214Bookmarks 103

Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез

uchitel Apr 12 at 05:39

Очень круто. Интересно, почему все вертится вокруг критерия Неймана-Пирсона? На Хабре нет ни одной статьи в которой бы описывались критерий Вальда или критерий Байеса. Было бы круто если бы вы так же наглядно показали последовательные или инкапсулированные аналоги всех вышеприведенных тестов.

0

Основные типы распределений вероятностей в примерах

uchitel Mar 19 at 12:43

Уверен, для многих материал окажется очень полезным и интересным.

0

LLM как оптимизатор для задачи линейной регрессии

uchitel Oct 16 2023 at 10:54

Это уже не тенденция, а более-менее обозначенная потребность бизнеса. В последней книге по RL (автора увы сейчас не вспомню, но на книге нарисован пингвин) автор во введении прямо пишет, что некоторые компании рассматривают RL, как способ сокращения штата ML инженеров.

Еще мне попадалось несколько статей схожей тематики. В одной из них рассматривалось обучение оптимизации, причем так же на примере регрессионных моделей. И оно работает. В другой хорошей обзорной статье рассматривалась применение RL (и ML по моему тоже) к задаче целочисленного линейного программирования.

Короче, надо налегать на RL.

0

Применение формулы бинома для определения простых чисел

uchitel Jul 18 2023 at 18:45

Такие алгоритмы являются предметом любопытства, а не практического применения. А что такое любопытство? Оно вообще нужно?

Вы движетесь в правильном направлении. Попробуйте делать все это на питоне. Кстати для питона есть хорошая либа gmpy2.

Завидую тому, что у вас есть время на такие занятия.

0

Прогулка по мостам Кёнигсберга с ORtools

uchitel Jul 3 2023 at 19:38

Огромное спасибо за статьи. Благодаря им я и узнал об ortools, очень мне этот пакет понравился.

Было бы прям ваще круто, если бы вы немного осветили тему стохастического программирования. Особенно двухэтапные задачи. Думаю, тема очень востребована в текущих реалиях, когда данных много и их объем позволяет строить более адекватные модели.

0

Регрессионный анализ в DataScience. Часть 3. Аппроксимация

uchitel Apr 14 2023 at 17:24

Круть!

0

Волновая интуиция

uchitel Mar 30 2023 at 13:07

Статья классная. Свертки еще используются для "арифметических" операций над распределениями плотности вероятности. Там тоже все очень интересно получается, настолько, что на интуицию даже не стоит полагаться.

0

Как в Учи.ру построили платформу для анализа A/B-тестов на ClickHouse

uchitel Jan 31 2023 at 16:33

Вот в этом и есть большая странность, которая к слову касается не только вашей компании. Вальд в своей работе показал, что критерий Неймана-Пирсона является частным случаем его критерия. Там же он показал, как создавать последовательные тесты. По сути, все тесты должны именно так и выполняться - последовательно. Это действительно в два раза быстрее (в среднем) и точно так же позволяет отслеживать динамику статистик. Я не понимаю почему компании вцепились мертвой хваткой в критерий Неймана-Пирсона.

0

Как в Учи.ру построили платформу для анализа A/B-тестов на ClickHouse

uchitel Jan 24 2023 at 09:30

Если честно, создается очень странное впечатление. Например, почему вы не используете последовательный анализ если хотите быть быстрее? Ну или быть точнее в оценках при той же скорости? Как будто критерий Вальда до сих пор засекречен.

0

Практический подход к изучению профиля клиентов по данным популяционного исследования. Counterfactual learning

uchitel Dec 16 2022 at 15:54

Объяснить в одном комментарии к сожалению не получится, но я попробую.

Смысл в том, что есть модель которая объясняет ваши данные. У модели есть параметры. Что бы оценить параметры на основе данных можно воспользоваться Байесовским выводом. Так вы оцените их наиболее вероятные значения + сохраните неопределенность = окажетесь в шоколаде. Я пользуюсь pymc3 для вывода.

0

Практический подход к изучению профиля клиентов по данным популяционного исследования. Counterfactual learning

uchitel Dec 16 2022 at 07:07

Попробуйте вероятностное программирование.

0

Даже сквозь асфальт прорастают незабудки

uchitel Sep 3 2022 at 07:29

Да ваще пофиг.

Напишите что-нибудь сами, а потом поговорим :)

Да пребудет с Вами Сила :)))

0

Даже сквозь асфальт прорастают незабудки

uchitel Sep 2 2022 at 07:24

К сожалению бывший учитель. Сейчас я что-то вроде аналитика. Однако, многие приобретенные учительские навыки хорошо выручают. Орать, конечно, больше не приходится, но вот разжевывать и доносить сложные вещи - самое то.

+1

Даже сквозь асфальт прорастают незабудки

uchitel Sep 2 2022 at 06:47

Сарказм сарказмом :) но на всякий случай должен предупредить о том, что самое тяжелое - это маленькая зп. Я поэтому и свалил :(

0

Даже сквозь асфальт прорастают незабудки

uchitel Sep 2 2022 at 06:32

Я конечно далеко не великий писатель, но думаю, что точно так же можно было бы и Хемингуэю сказать: Дружище, твой "Старик и море" - просто про старика и какую-то рыбу, а "Фиеста" - ваще какая-то дичь про чувака с отстреленными причиндалами, который мешал всем весело бухать.

Всем нам для работы необходимо душевное равновесие (комфорт), которого сейчас у многих очень мало. Ну или хотя бы какая-то более-менее осязаемая надежда нужна. Вот так и появился этот пост.

Меньше всего мне хотелось писать что-то в стиле Кирпичей, типа:
Мы рыцари Джедаи, борцы со злом
Тёмную силу завяжем узлом
Нехорошие люди разрази их гром
Получат по башне огненным мечом

Но скажу честно - я приятно удивлен, что этот пост зашел.

0

4 анти-паттерна pandas и способы борьбы с ними

uchitel Aug 22 2022 at 17:34

Немного кликбейтно. Я бы назвал просто "4 полезных приема для работы с Pandas". А тут аж прям с ходу АНТИ-ПАТТЕРНЫ!!! Я аж залез читать - вдруг как-то не так панду юзаю :)

При работе с данными, которые впервые видишь очень стремно торопиться - это самый главный анти-паттерн на мой взгляд. Лучше шаг-ячейка-шаг-ячейка. А так да, у панды есть Function application - иногда весьма полезная штука.

Самое интересное, иногда понимаешь, что в некоторых простых случаях можно вообще на одном НамПае что-то нехитрое сделать. Но все равно import pandas as pd...

+3

Яндекс.Практикум: самый подробный отзыв

uchitel Dec 3 2021 at 06:19

Вы в очень выгодном положении :) можно вывернуться так, можно сяк. А поток ничего не понимающих новичков еще долго не иссякнет.

Повторюсь еще раз ODS замутили бесплатный курс на Хабре. Отличный курс для новичков, просто замечательный для того что бы понять что тебя ждет. Вам, тем кто использует не просто слово "Яндекс" в своем названии слабо сделать так же? Ведь вы же ЯНДЕКС.ПРАКТИКУМ

ODS сделало бесплатный курс и внесло очень большой вклад в развитие сообщества. А что делаете вы? ВАМ САМИМ НЕ СТЫДНО, ЗА ТО ЧТО ВЫ УЖЕ НЕ ПЕРВЫЙ РАЗ ДОВОДИТЕ ДО ПОЯВЛЕНИЯ ВОТ ТАКИХ ПОСТОВ???

Да, менеджер по качеству, если таковой имеется, обязательно должен твердить как мантру, что всегда будет % недовольных. Но вам не кажется, что такие посты заставят тех же потенциальных крутых преподавателей, сто раз подумать о том стоит ли им у вас работать или нет?

Интересно, а почему нет постов от преподавателей ШАД-а, в которых пишется о том, что они бросили ШАД ради того что бы трудиться в Практикуме??? Ведь Практикум такой крутой и позволяет гораздо эффективнее делать Мир лучше!!! ИЛИ НЕТ?

Автору респектос. Красава.

+2

Получаем кривую плотности распределения вероятности… быстрее и точнее

uchitel Nov 6 2021 at 08:20

Наверное бывают такие процессы где это может пригодиться, какие-нибудь лабораторные испытания. Но мне кажется, что большинство процессов дают выборки далекие от идеала, где от доверительных интервалов пользы гораздо больше, чем от очень точной pdf.

0

Получаем кривую плотности распределения вероятности… быстрее и точнее

uchitel Nov 5 2021 at 16:08

Если честно, то для меня все равно загадка зачем все это надо... и что значит точность. Если тип распределения известен, почему бы не использовать тот же fit из scipy.stats или curve_fit для смесей из того же пакета. Изо всех сил пытаюсь понять чем мне это может помочь и не могу. В какой ситуации я не смогу обойтись готовыми решениями из того же numpy или stats?

0

Срезы в Python

uchitel Nov 4 2021 at 08:34

Если текст для новичков, то руководствоваться надо принципом "Примеры обучают лучше чем теория". Если текст для тех кто занимается самообразованием, то руководствоваться надо принципом "Лучше иметь и не нуждаться, чем нуждаться и не иметь" т.е. пусть лучше материал будет избыточен. Если это публичное самообразование, то лучше не дублировать то, что можно и так без труда нагуглить ("без труда" это все, что выше 30-40-й строчки поисковой выдачи), а взять какую-то действительно сложную тему.

Глубину статьи оценить очень легко - она ниже Саммерфилда, ниже Лутца, ниже Доусона, ниже некоторых сайтов о Python. То же самое касается и NumPy (хотя бы упомянуть про r_, c_, s_ не мешало), где было бы по настоящему круто - углубиться в тему индексации.

У вас просто не получится писать на Хабре такие статьи на постоянной основе, на Дзене получится.

0

1

2 3 ...