neoflex Jan 15 at 12:02

Особенности партиционирования в PostgreSQL и Apache Hive

11 min

6.6K

Neoflex corporate blogPostgreSQL*SQL*

Tutorial

Comments 22

UFO just landed and posted this here

neoflex Jan 15 at 14:28

Добрый день! Это равнозначные термины. На практике в части PostgreSQL чаще используют понятие секционирование, а в части Apache Hive – партиционирование. В статье указано, что партиционирование еще может называться секционированием.

KarRis Jan 16 at 08:27

Слова не было, а люди взяли и придумали и добавили и в чем они не правы?

EvgenyVilkov Jan 17 at 11:34

да индеферентно. главное чтобы смысл был понятен. Ведь все же понимаю что в русском язызке слово лог - это овраг, но применяют его повсеместно, забывая про слово журнал.

-1

Ninil Jan 15 at 16:37

Хорошо бы указать источник картики со сравнением размера - она кочует последние года 3 из статьи в статью у кучи авторов

EvgenyVilkov Jan 17 at 11:31

Да, хотелось бы уже понимать кто такую ерунду на картинку вынес, а все вставляют, не проверяя :)

-1

Ninil Jan 17 at 11:45

В русскоязычном интернете это пошло по-моему отсюда https://bigdataschool.ru/blog/row-vs-column-file-format-big-data.html
А вообще вроде это вроде из блога Клаудеры от 2013(!!!) года - https://blog.cloudera.com/orcfile-in-hdp-2-better-compression-better-performance/

EvgenyVilkov Jan 17 at 11:52

актуально! Убежал мигрировать на Hive и ORC...

-1

sshikov Jan 15 at 20:49

Минусы:
Ограничение по количеству партиций: не рекомендуется использовать более 10 тысяч партиций, что может привести к сильному замедлению работы кластера;

А вы попробуйте создать более 10 тыс партиций в постгресе. Вот когда вы это сделаете, и померяете, тогда будет реально ясно, что лучше.

А пока... вы ведь понимаете, что партиция в Hive хранится по сути в памяти namenode? Потому что это просто папка, и у нее нет никаких других свойств при выполнении запроса (на самом деле они есть в метасторе, но с точки зрения where есть только имя). А значит большое число партиций - это большой объем памяти namenode, с понятными последствиями.

sshikov Jan 16 at 21:17

P.S. Вот, кстати:

Before PostgreSQL 12, performance could be affected by too many table partitions, and it was recommended to have 100 or less partitions. But as of version 12, partitioning performance has been greatly improved, so that even thousands of partitions can be processed efficiently.

Т.е. до версии 12, у постгреса тоже было 100 и менее партиций. А теперь тысячи могут быть эффективно обработаны. Так что если если 10 тыс партиций в Hive просто не рекомендуется - так это понятно, но в сравнении с это далеко не недостаток, и скорее всего постгресу на таком же количестве тоже будет плоховато без тюнинга.

Мы уже много раз упирались в такие ограничения хадупа, как миллион файлов в папке (можно обойти). На реально больших данных во что только не упираешься. Так что я бы сказал, что некое ограничение на уровне где-то миллиона партиций должно существовать, но наткнутся на него очень и очень немногие.

vDyDHp8 Jan 17 at 08:46

Вечная проблема с этим: или спарк надо кормить ресами или куча мелких файлов 🤷‍♂️ и неймнода будет тупить...

EvgenyVilkov Jan 17 at 22:07

По поводу рекмендаций кстати интересный момент. Все просто цитируют рекомендацию с доки клаудеры, но редко кто проверял на деле. А на деле выясняется что не надо делать больше 3-5 тыс партиций.

sshikov Jan 17 at 22:32

Я вообще писал не совсем про это. Автор сравнивает два продукта, приводя как недостаток Hive, что не рекомендуется делать больше 10000 партиций. При этом не делается никакого сравнения, а как будет себя вести постгрес, если создать столько же.

Даже если заменить 10 на 3-5 - мало что изменится. Все равно это тот же порядок. Все равно чтобы реально сравнить - надо померять на своем количестве данных.

EvgenyVilkov Jan 17 at 23:18

Ну тут сейчас можно уйти в длительную дискуссию на равномерность распределения данных по партициям, размер и кол-во файлов в каждой партиции или может даже использование равномерного bucket партицирования с применением формата iceberg. На деле все просто читают документацию и делают ctrl+c , ctrl+v, а по хорошему в HDFS ключ и гранулярность партицирования надо выбирать под минимальную перезапись при загрузке инкремента и это не всегда дата :)

В постгре скорее умрет словарь данных если там создать те самые thousands of partitions. Да и вообще, зачем там столько данных то иметь?

sshikov Jan 15 at 20:52

Да, и еще... в моем понимании Hive уже достаточно давно не использует MapReduce. Там TEZ, а это все-таки не совсем тоже самое, потому что выполняем мы не просто Map или Reduce задачи, а DAG.

EvgenyVilkov Jan 17 at 11:33

а в моем понимании писать про Hive что бы он там не использовал в 2024г уже не стоит :)

sshikov Jan 17 at 19:33

У нас в нем примерно 30 петабайт данных. Почему нет?

EvgenyVilkov Jan 17 at 22:05

Ну у вас не в Hive 30 Птб, а в HDFS 30 Птб (под Hive тут конечно имею ввиду не HMS, без которого не обойтись, а Hive как фреймворк обработки). Вопрос use case использования этих 30 Птб. Что с ними делают? Хранят как архив или как то процессят? Какой объем надо процессить и с каким SLA? Hive сам по себе очень медленный же, даже на Tez в тех сценариях где надо решить задачи конкурентно. Вполне может оказаться что Impala, Trino или SparkSQL с задачей справятся гораздо лучше.

sshikov Jan 17 at 22:41

Спарк там конечно занимает не последнее место, и да, конечно данные в HDFS (Hive уже очень давно умеет использовать спарк движок). В Hive только метаданные, грубо говоря, десятки тысяч схем, по моим оценкам. Отчеты строят. Для клиентов и регулятора. Не вижу никакой причины, почему Hive не может продолжать применяться для части задач. Ее все еще допиливают, и скажем нам бы очень бы хотелось иметь 4 версию - а приходится пока жить на 3.1.

EvgenyVilkov Jan 19 at 23:48

Причины я опписал вышел - другие движки процессить данные могут лучше. Лучше - значит тратят времени и ресурсов меньше на решение точно такой же задачи. Кейс и объемы которые вы описываете - это сворее всего телеком, предположу что старая версия hortonworks даже. Чего вам хотеть и что ждать - ваш выбор исходя из вашей накопленной экспертизы конечно. Каждый кулик хвалит свое болото. Но, если предположить, что вы начинаете анлогичный проект в 2024г, то стали ли бы вы смотреть другие движки и фреймворки и сразу бы на Hive стали делать?

velipre_xella Jan 16 at 12:01

Мне одному глаза режет, когда Постгрес Postgre обзывают?

EvgenyVilkov Jan 17 at 11:37

Формат хранения в HDFS надо выбирать не потому как данные сжимаются, следуя картинки непонятно кем опубликованной, а по тому как вы эти данные собираетесь использовать и каким движком или фреймворком будете пользоваться. Как собственно и кодек компрессии к этому формату.