kaichou Apr 27 2021 at 22:00

Создаём компанию мечты: управление качеством данных

14 min

System Analysis and Design*Big Data*Data storages*Project management*

Recovery Mode

Comments 7

alPTR May 22 2021 at 20:13

Давеча заходил на портал открытых данных ЕС. Не совсем удачный пример в разрезе качества данных.

kaichou May 26 2021 at 21:58

Вы правы, конечно. Но это вопрос времени. Направление на сбор всех возможных данных хорошо видно.

some1else May 26 2021 at 21:56

А можно про разбиение вопроса "кто несёт ответственность за качество данных" более конкретно. А то по тексту получилось, что был конкретный вопрос, а получились какие-то "блоки". Имею ввиду, если первый вопрос заведомо неправильный, то какие тогда должны быть "правильные" вопросы м учётом разбиения? Спасибо за статью, было интересно — сейчас работаю Data Engineer и

kaichou May 26 2021 at 22:20

Можно привести шуточную аналогию с вопросом «кто виноват во всём этом бардаке?»
Виноват тот, кто не смог декомпозировать бардак на отдельные проблемы и решить каждую из них подходящим способом.

Управление качеством данных складывается из двух функций, если хотите, из двух разных отделов. Один из них должен придумывать правила. Второй — технически обеспечивать работу правил, т.е. чтобы все правила реально работали, люди не пытались «хакнуть систему» и вводить некорректные данные.

ALIron Jul 6 2021 at 11:16

Раз уж приглашение для дискуссии было начну=)

Обычно, к тому моменту, когда возникает вопрос управления качеством данных, IT-ландшафт представляет собой следующее: */

И далее схема MDM без DQ.

Зачем людей плохому учишь=)?

Основная идея MDM - это Mach&Merge, а M&M на грязных данных (без DQ, т.е. оценки (отделить плохие от хороших), очистки и восстановлении (в том числе с использованием внешних данных)) - это прямой путь к заваленному проекту MDM по бизнес показателям. Объединим клиентов, например, с учетом ИНН - а он плохой, но повторяющийся , мы ему доверяли как бизнес-ключу уникальному. Или просто все поля пустые и имя "Валерий" - M&M пройдут без оценки DQ и объединит. Валерии удивятся если их много. И такие криули в бизнесе начнутся при этих ошибках второго рода, что ИТ проблемы покажутся сказкой.

Поэтому моё ИМХО запускать нужно DQ + MDM и желательно DQ пускать чуть впереди MDM-а, что бы понимать масштаб трагедии в каждом из источников, подключаемых к MDM. Так сказать DQ должен хотя бы проложить дороги 6й категории (лес повален, но не убран) иначе MDM застревает.

kaichou Jul 7 2021 at 10:25

Традиционно на первом этапе DQS подключается к системе MDM, поскольку управление качеством мастер-данных считается более приоритетным, чем операционки.

Возможно, я не совсем чётко эту мысль выразил. На первом этапе, конечно, функция контроля качества данных должна жить в MDM.
А следующим логичным шагом будет контроль качества в других, не мастер-данных. И тут пригодятся наработки и опыт, полученный в MDM.

А что DQ нужно пускать перед MDM — отличный подход, спасибо за него!

ALIron Jul 7 2021 at 14:53

Про операционку тоже есть дополнение.
Описано только техническая часть, а так как все MDM и DQ системы обусловлены только человеческим фактором, то правильней бы рассматривать связку DQS+ оператор.
Как DQS контролирует ввод, в online (т.н. DQ Firewall), или начальнику операторов прилетает утром отчет об ошибках допущенных вчера и вечером организуется работа над ошибками.
Без этого система не замкнута.

Show the best of all time