Articles / Bookmarks / Profile of stepanovD / Habr

Дмитрий Степанов @stepanovD

Software Architect at ABCSolutions

Profile Publications 4Comments 20Bookmarks 93

Regis Aug 9 2009 at 04:27

Узнаем параметр Generic-класса в Java

9 min

111K

Java*

Если вы не очень часто программируете на Java, то этот топик скорее всего будет для вас бесполезен. Не читайте его :)

Недавно понадобилось решить следующую задачу: определить класс, которым параметризован generic-класс.

Если кто-то сталкивался с подобной задачей, то наверное также сразу попробовал написать что-то вроде этого:

public class AbstractEntityFactory<E extends Entity> { public Class getEntityClass() { return E.class; } }

Увы, IDE либо компилятор сразу укажут вам на ошибку («cannot select from a type variable» в стандартном компиляторе): " E.class" — не является допустимой конструкцией. Дело в том, что в общем случае во время исполнения программы информации о реальных параметрах нашего generic-класса может уже и не быть. Поэтому такая конструкция в Java не может работать.

Читать дальше →

+32

megabax Sep 14 2022 at 20:30

Уроки компьютерного зрения. Оглавление

Easy

2 min

29K

Python*Image processing*

Tutorial

Уроки компьютерного зрения на Python + OpenCV с самых азов. Часть 1.

Уроки компьютерного зрения на Python + OpenCV с самых азов. Часть 2.

Уроки компьютерного зрения на Python + OpenCV с самых азов. Часть 3.

Уроки компьютерного зрения на Python + OpenCV с самых азов. Часть 4.

Уроки компьютерного зрения на Python + OpenCV с самых азов. Часть 5.

Уроки компьютерного зрения на Python + OpenCV с самых азов. Часть 6.

Уроки компьютерного зрения на Python + OpenCV с самых азов. Часть 7.

Уроки компьютерного зрения на Python + OpenCV с самых азов. Часть 8.

+14

randall Apr 13 2022 at 13:15

Как мы ускорили выполнение запросов PostgreSQL в 100 раз

10 min

37K

High performance*Open source*PostgreSQL*MWS corporate blogDatabase Administration*

Translation

Существует великое множество статей об оптимизации PostgreSQL — эта «кроличья нора» весьма глубока. Когда несколько лет назад я начал разрабатывать бэкэнд аналитического сервиса, у меня уже был опыт работы с другими СУБД, такими как MySQL и SQL Server. Тем не менее, раньше мне не приходилось так фокусироваться на производительности. В прошлых проектах, над которыми я работал, либо не было жестких требований к времени обработки (DS/ML), либо не требовалось обрабатывать много строк одновременно (обыкновенные веб-приложения). Однако в этот раз мои запросы:

• состояли из 3-10 JOIN-ов по коррелирующим запросам;

• уielded от 10 до 1,000,000 строк;

• должны были выполняться в течение времени, определенного UX-ом;

• не могли быть hinted — пока Cloud SQL, управляемый PostgreSQL в Google Cloud, не стал поддерживать pg_hint_plan в конце 2021 года;

• запрещали прямой доступ к серверному процессу, чтобы, например, хакнуть некоторые perf — потому что PostgreSQL был managed.

Получение целого миллиона строк в одном API endpoint сигнализирует о проблеме в алгоритме или архитектуре. Конечно, все можно переписать и перепроектировать, но за это нужно платить.

У нас не нашлось «заклинания», которое решило бы все проблемы с производительностью SQL. Тем не менее, я упомяну здесь несколько дельных предложений, которые помогли нам и, надеюсь, смогут помочь читателю. Разумеется, это не какие-то сакральные знания. Но когда мы начинали оптимизацию, я был бы рад их прочитать или услышать.

+24

swaddling5212 Mar 31 2020 at 19:17

Алгоритмы на экзамене в ШАД

7 min

10K

Entertaining tasksAlgorithms*

Привет! Меня зовут Александр Курилкин, и я веду курс по алгоритмам в «ШАД Helper». В этом посте я разберу несколько задач из вступительных экзаменов прошлых лет, чтобы вы смогли увидеть, что вас ждет, и понять, чему мы сможем вас научить на нашем курсе. Надеюсь, что вы разделяете мою любовь к интересным задачам по алгоритмам и получите искреннее удовольствие от прочтения этого поста! Итак, приступим...

Читать дальше →

+13

OLZ1 Nov 12 2019 at 17:16

Блиц-проверка алгоритмов машинного обучения: скорми свой набор данных библиотеке scikit-learn

21 min

23K

Python*Machine learning*

From sandbox

Глобальная паутина изо дня в день пополняется статьями о популярных, наиболее употребляемых алгоритмах машинного обучения для решения различных задач. Причём основа этих статей, немного изменённая по форме в том или ином месте, кочует от одного исследователя данных к другому. При этом все эти работы объединяет один общепринятый, непреложный постулат: применение того или иного алгоритма машинного обучения зависит от размера и природы имеющихся в распоряжении данных и поставленной задачи.

Вдобавок к этому особо настоявшиеся исследователи данных, делясь своим опытом, подчёркивают: «Выбор метода оценки должен частично зависеть от ваших данных и от того, в чём, по вашему мнению, модель должна быть хороша» («Data Science: инсайдерская информация для новичков. Включая язык R», авторы Кэти О’Нил, Рэйчел Шатт).

Читать дальше →

+14

marshinov Aug 11 2014 at 10:53

Ubiquitous Language и Bounded Context в DDD

3 min

55K

Website development*Programming*Designing and refactoring*

Domain-Driven Design: Tackling Complexity in the Heart of Software Эванса — лучшая книга о проектировании действительно больших enterprise-приложений, что я читал. Видимо это мнение разделяют многие другие разработчики и проектировщики, потому что Entity и ValueObject, Repository и Specification встречаются почти в каждой большой кодовой базе. Но вот незадача, Ubiquitous Language (единый язык) и Bounded Context (контекст предметной области) в чужом коде я не видел ни разу. И здесь зарыта очень большая собака.

Выкапываем собаку

marshinov Jan 30 2018 at 22:59

CQRS. Факты и заблуждения

10 min

187K

Website development*System Analysis and Design*.NET*Designing and refactoring*C#*

Tutorial

CQRS — это стиль архитектуры, в котором операции чтения отделены от операций записи. Подход сформулировал Грег Янг на основе принципа CQS, предложенного Бертраном Мейером. Чаще всего (но не всегда) CQRS реализуется в ограниченных контекстах (bounded context) приложений, проектируемых на основе DDD. Одна из естественных причин развития CQRS — не симметричное распределение нагрузки и сложности бизнес-логики на read и write — подсистемы Большинство бизнес-правил и сложных проверок находится во write — подсистеме. При этом читают данные зачастую в разы чаще, чем изменяют.

Не смотря на простоту концепции, детали реализации CQRS могут значительно отличаться. И это именно тот случай, когда дьявол кроется в деталях.

Читать дальше →

+29

108

Marvinorez Jul 19 2018 at 10:00

Пришел, увидел, обобщил: погружаемся в Java Generics

17 min

313K

Programming*Java*Сбер corporate blog

Java Generics — это одно из самых значительных изменений за всю историю языка Java. «Дженерики», доступные с Java 5, сделали использование Java Collection Framework проще, удобнее и безопаснее. Ошибки, связанные с некорректным использованием типов, теперь обнаруживаются на этапе компиляции. Да и сам язык Java стал еще безопаснее. Несмотря на кажущуюся простоту обобщенных типов, многие разработчики сталкиваются с трудностями при их использовании. В этом посте я расскажу об особенностях работы с Java Generics, чтобы этих трудностей у вас было поменьше. Пригодится, если вы не гуру в дженериках, и поможет избежать много трудностей при погружении в тему.

Читать дальше →

+14

VeronikaY May 26 2020 at 15:36

Торговля с помощью протокола FIX. Часть первая: настройка тестового окружения

6 min

12K

Java*Finance in IT

From sandbox

В этом цикле статей создадим окружение для работы с тестовой биржей и обмена сообщениями с ней, разберёмся с основными биржевыми терминами и закрепим знания на практике.

UPD: Основная цель этого цикла статей — комплексно рассмотреть устройство биржи и базовые понятия (сделки, фьючерсы и т.д) в рамках работы с протоколом FIX. Здесь не будет привязки к какой-то конкретной бирже, будем использовать готовый пример сервера (симулятор биржи) и в дальнейшем реализуем клиента, которого можно будет доработать для взаимодействия с интересной вам реальной биржей.

Для настройки всего необходимого понадобятся лишь базовые знания в программировании и умение пользоваться Git-ом.

Читать дальше →

ul8422 Jul 11 2018 at 16:18

Hibernate — о чем молчат туториалы

12 min

123K

Java*

From sandbox

Эта статья не будет затрагивать основы hibernate (как определить entity или написать criteria query). Тут я постараюсь рассказать о более интересных моментах, действительно полезных в работе. Информацию о которых я не встречал в одной месте.

Читать дальше →

+19

Belyaev_Al Sep 1 2018 at 22:06

Венгерский алгоритм, или о том, как математика помогает в распределении назначений

6 min

61K

Algorithms*Mathematics*R*Research and forecasts in IT*

Tutorial

Привет, друзья! В этой статье хотел бы рассказать про интересный алгоритм из дисциплины «Исследование операций» а именно про Венгерский метод и как с его помощью решать задачи о назначениях. Немного затрону теории про то, в каких случаях и для каких задач применим данный алгоритм, поэтапно разберу его на мною выдуманном примере, и поделюсь своим скромным наброском кода его реализации на языке R. Приступим!

Читать дальше →

+21

optimusqp Jul 27 2017 at 18:08

Призрак локомотива или биржевой рынок через призму корреляций

12 min

6.5K

Python*Data Mining*Machine learning*

Recovery Mode

В этой статье будет продемонстрирована техника обработки информации по биржевым котировкам с помощью пакета pandas (python), а также изучены некоторые «мифы и легенды» биржевой торговли посредством применения методов математической статистики. Попутно кратко рассмотрим особенности использования библиотеки plotly.

Одной из легенд трейдеров является понятие «локомотива». Описать ее можно следующим образом: есть бумаги «ведущие» и есть бумаги «ведомые». Если поверить в существование подобной закономерности, то можно «предсказывать» будущие движения финансового инструмента по движению «локомотивов» («ведущих» бумаг). Так ли это? Есть ли под этим основания?

Читать дальше →

Siarshai Jul 27 2017 at 09:55

Нестандартная кластеризация, часть 3: приёмы и метрики для кластеризации временных рядов

16 min

42K

Data Mining*Mathematics*Machine learning*

Часть первая — Affinity Propagation
Часть вторая — DBSCAN
Часть третья — кластеризация временных рядов
Часть четвёртая — Self-Organizing Maps (SOM)
Часть пятая — Growing Neural Gas (GNG)

Пока другие специалисты по машинному обучению и анализу данных выясняют, как прикрутить побольше слоёв к нейронной сети, чтобы она ещё лучше играла в Марио, давайте обратимся к чему-нибудь более приземлённому и применимому на практике.

Кластеризация временных рядов — неблагодарное дело. Даже при группировке статических данных часто получаются сомнительные результаты, что уж говорить про информацию, рассеянную во времени. Однако нельзя игнорировать задачу, только потому что она сложна. Попробуем разобраться, как выжать из рядов без меток немного смысла. В этой статье рассматриваются подтипы кластеризации временных рядов, общие приёмы и популярные меры расстояния между рядами. Статья рассчитана на читателя, уже имевшего дело с последовательностями в data science: о базовых вещах (тренд, ARMA/ARIMA, спектральный анализ) рассказываться не будет.

Читать дальше →

+18

Skolopendriy Apr 24 2017 at 14:00

Открытый курс машинного обучения. Тема 9. Анализ временных рядов с помощью Python

27 min

343K

Python*Algorithms*Mathematics*Machine learning*Open Data Science corporate blog

Доброго дня! Мы продолжаем наш цикл статей открытого курса по машинному обучению и сегодня поговорим о временных рядах.

Посмотрим на то, как с ними работать в Python, какие возможные методы и модели можно использовать для прогнозирования; что такое двойное и тройное экспоненциальное взвешивание; что делать, если стационарность — это не про вас; как построить SARIMA и не умереть; и как прогнозировать xgboost-ом. И всё это будем применять к примеру из суровой реальности.

UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.

Видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017).

Читать дальше →

+51

wunder_editor Jun 21 2017 at 13:03

LSTM – сети долгой краткосрочной памяти

8 min

212K

Algorithms*Machine learning*Wunder Fund corporate blog

Translation

Рекуррентные нейронные сети

Люди не начинают думать с чистого листа каждую секунду. Читая этот пост, вы понимаете каждое слово, основываясь на понимании предыдущего слова. Мы не выбрасываем из головы все и не начинаем думать с нуля. Наши мысли обладают постоянством.

Традиционные нейронные сети не обладают этим свойством, и в этом их главный недостаток. Представим, например, что мы хотим классифицировать события, происходящие в фильме. Непонятно, как традиционная нейронная сеть могла бы использовать рассуждения о предыдущих событиях фильма, чтобы получить информацию о последующих.

Решить эту проблемы помогают рекуррентые нейронные сети (Recurrent Neural Networks, RNN). Это сети, содержащие обратные связи и позволяющие сохранять информацию.

Читать дальше →

+37

kayan Jun 18 2017 at 09:43

Типичные распределения вероятности: шпаргалка data scientist-а

11 min

126K

Mathematics*

Translation

У data scientist-ов сотни распределений вероятности на любой вкус. С чего начать?

Data science, чем бы она там не была – та ещё штука. От какого-нибудь гуру на ваших сходках или хакатонах можно услышать:«Data scientist разбирается в статистике лучше, чем любой программист». Прикладные математики так мстят за то, что статистика уже не так на слуху, как в золотые 20е. У них даже по этому поводу есть своя несмешная диаграмма Венна. И вот, значит, внезапно вы, программист, оказываетесь совершенно не у дел в беседе о доверительных интервалах, вместо того, чтобы привычно ворчать на аналитиков, которые никогда не слышали о проекте Apache Bikeshed, чтобы распределённо форматировать комментарии. Для такой ситуации, чтобы быть в струе и снова стать душой компании – вам нужен экспресс-курс по статистике. Может, не достаточно глубокий, чтобы вы всё понимали, но вполне достаточный, чтобы так могло показаться на первый взгляд.

Читать дальше →

+84

anastasiagrishina Apr 6 2017 at 14:02

Быстрый старт: обзор основных Deep Learning фреймворков

6 min

24K

Data Mining*Big Data*New Professions Lab corporate blogMachine learning*

Привет, Хабр! Предлагаем вам перевод поста “Getting Started with Deep Learning” от Мэтью Рубашкина из Silicon Valley Data Science о преимуществах и недостатках существующих Deep Learning технологий и о том, какой фреймворк выбрать, учитывая специфику задачи и способности команды.

Читать дальше →

+17

kuznetsovin Jan 28 2014 at 00:10

Построение модели SARIMA с помощью Python+R

7 min

57K

Python*Data Mining*R*

Введение

Добрый день, уважаемые читатели.
После написания предыдущего поста про анализ временных рядов на Python, я решил исправить замечания, которые были указаны в комментариях, но при их исправлении я столкнулся с рядом проблем, например при построении сезонной модели ARIMA, т.к. подобной функции а пакете statsmodels я не нашел. В итоге я решил использовать для этого функции из R, а поиски привели меня к библиотеке rpy2 которая позволяетиспользовать функции из библиотек упомянутого языка.
У многих может возникнуть вопрос «зачем это нужно?», ведь проще просто взять R и выполнить всю работу в нем. Я полность согласен с этим утверждением, но как мне кажется, если данные требуют предварительной обработки, то ее проще произвести на Python, а возможности R использовать при необходимости именно для анализа.
Кроме этого, будет показано как интегрировать результаты выдачи работы функции R в IPython Notebook.

Читать дальше →

+17

miptgirl Mar 6 2017 at 15:58

Открытый курс машинного обучения. Тема 2: Визуализация данных c Python

15 min

415K

Python*Data Mining*Data visualization*Machine learning*Open Data Science corporate blog

Второе занятие посвящено визуализации данных в Python. Сначала мы посмотрим на основные методы библиотек Seaborn и Plotly, затем поанализируем знакомый нам по первой статье набор данных по оттоку клиентов телеком-оператора и подглядим в n-мерное пространство с помощью алгоритма t-SNE. Есть и видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017).

Сейчас статья уже будет существенно длиннее. Готовы? Поехали!

Читать дальше →

+52

BelBES Mar 14 2017 at 08:47

LIFT: Learned Invariant Feature Transform

7 min

12K

Algorithms*Image processing*Machine learning*

Введение

В последние годы вездесущие нейронные сети находят все больше и больше применений в различных областях знаний, вытесняя классические алгоритмы, использовавшиеся многие годы. Не стала исключением и область компьютерного зрения, где год за годом все больше и больше задач решаются при помощи современных нейронных сетей. Настало время написать об еще одном павшем бойце в войне "Традиционное зрение vs. Глубокое Обучение". Долгие годы на задаче поиска локальных особенностей изображений (так называемых ключевых точек) безраздельно властвовал алгоритм SIFT(Scale-invariant Feature Transform), предложеный в далеком 1999 году, многие сложили головы в попытках превзойти его, но удалось это лишь Deep Learning'у. Итак, встречайте, новый алгоритм поиска локальных особенностей — LIFT (Learned Invariant Feature Transform).

+36

2 3 4 5

Узнаем параметр Generic-класса в Java

Уроки компьютерного зрения. Оглавление

Как мы ускорили выполнение запросов PostgreSQL в 100 раз

Алгоритмы на экзамене в ШАД

Блиц-проверка алгоритмов машинного обучения: скорми свой набор данных библиотеке scikit-learn

Ubiquitous Language и Bounded Context в DDD

CQRS. Факты и заблуждения

Пришел, увидел, обобщил: погружаемся в Java Generics

Торговля с помощью протокола FIX. Часть первая: настройка тестового окружения

Hibernate — о чем молчат туториалы

Венгерский алгоритм, или о том, как математика помогает в распределении назначений

Призрак локомотива или биржевой рынок через призму корреляций

Нестандартная кластеризация, часть 3: приёмы и метрики для кластеризации временных рядов

Открытый курс машинного обучения. Тема 9. Анализ временных рядов с помощью Python

LSTM – сети долгой краткосрочной памяти

Рекуррентные нейронные сети

Типичные распределения вероятности: шпаргалка data scientist-а

У data scientist-ов сотни распределений вероятности на любой вкус. С чего начать?

Быстрый старт: обзор основных Deep Learning фреймворков

Построение модели SARIMA с помощью Python+R

Введение

Открытый курс машинного обучения. Тема 2: Визуализация данных c Python

LIFT: Learned Invariant Feature Transform

Введение

Information

Specialization