lvovgeka Jan 30 2017 at 02:27

Небольшое сравнение производительности СУБД «MongoDB vs ClickHouse»

3 min

21K

SQL*NoSQL*MongoDB*

From sandbox

Comments 22

youROCK Jan 30 2017 at 02:38

Всего 50 млн строк за секунду? Вроде как ClickHouse должен примерно на 8 ядрах успевать сканировать 1 миллиард. Вы, вероятно, вставляли строки с именами месяцев «как есть» вместо использования dict(...), например, или просто номеров месяца. Попробуйте с uint8, должно стать намного быстрее. Ну и что такое 50 млн записей, кто на таком малом объеме тестирует :)? И еще можно попробовать использовать семплирование данных при выборке, это должно серьезно ускорить выборки без особой потери в точности.

Coocos Jan 30 2017 at 11:15

Со строковыми типами ClickHouse работает в разы медленней чем с числами.

SaturnTeam Jan 30 2017 at 06:02

В монге не было ни одного индекса? И в clickhouse тоже (если они там вообще есть)? И запросы на выборки довольно узкие. надо бы добавить для наглядности

saterenko Jan 30 2017 at 11:27

ClickHouse колоночная база данных, там как бы по-умолчанию есть «индекс» по каждому из столбцов. Т.е. при выборке из статьи используется индекс по месяцу.

novoselov Jan 30 2017 at 09:44

Попробовали insert — MongoDB быстрее, нет не подходит.
Попробовали select — MongoDB быстрее, нет не подходит.
Попробовали aggregate без индексов — MongoDB медленнее, вот это и будем сравнивать!
В чем смысл статьи?

frux Jan 30 2017 at 09:57

Тащем-то нет:
Попробовали insert — MongoDB быстрее
Попробовали select — MongoDB медленнее

Заключение: «ClickHouse отлично подходит для проектов с BigData. Скорость выборки впечатляет. Данная СУБД хороший выбор для хранения данных связанных аналитической информацией.»

В заключении явно указано, что вставка – не сильная сторона ClickHouse'a в отличие от выборки. Значит он отлично подходит там, где надо много и часто выбирать.

fuCtor Jan 30 2017 at 10:39

В заключении явно указано, что вставка – не сильная сторона ClickHouse'a в отличие от выборки. Значит он отлично подходит там, где надо много и часто выбирать.

В документации четко прописано как рекомендуется его использовать, в частности, большие но не частые вставки (пара вставок в секунду норм). Выборки тоже не частые, но на больших срезах. Тот же пример select с limit, где limit никак не влияет на время исполнения по факту, т.к. данные вычитываются полностью.

kuber Dec 21 2018 at 19:07

У нас ClickHouse на достаточно средненьким сервере с лёгкостью вставляет данные со скоростью 200 000 записей в секунду.

zBit Jan 30 2017 at 17:14

aggregate без индексов медленнее до первого изменения проекции, т.е. если будет aggregate и первым пайпом будет $match, то выборка будет осуществляться с использованием индексов.

xhumanoid Jan 31 2017 at 12:26

причем стоит добавить, что aggregate с последующим «count: {$sum: 1}» работает на порядки медленнее, чем делать find(...).count() из-за особенностей реализации, разница в некоторых случаях у меня была миллисекунды-секунды vs минуты.

index используется в обоих случаях, но по разному

count может пробежаться по индексу и просто посчитать количество входов
агрегаты всегда производят материализацию объектов найденых, а уже потом только прибавляют 1, в итоге получаем fetch и disk io.

поэтому сравнения вообще ни о чём =)

hagen1778 Jan 30 2017 at 09:51

Не указано как именно осуществлялась вставка. В документации CH указано, что оптимальным считается вставка батчами по 100к записей.

wladyspb Jan 30 2017 at 15:48

Обычная практика у нас — накопление очереди в редисе и отправка инсерта раз в минуту или чаще. 5к строк вставляются без проблем одним пакетом (данных много, включая строковые типа userAgent). 50к уже многовато(для наших запросов).

bormotov Jan 30 2017 at 10:19

статья хорошо показывает два простых момента

1. тексты нужно уметь делать.
2. результат нужно уметь удобно представить.

onyxmaster Jan 30 2017 at 11:15

Укажите, пожалуйста версии и того и другого.

yusman Jan 30 2017 at 11:40

Ждем сравнения производительности кислого со сладким.

Botchal Jan 30 2017 at 12:45

в многопоточном режиме

Coocos Jan 30 2017 at 13:34

Двух кластеров

zBit Jan 30 2017 at 14:09

Требую тестов с проиндексированным коллекциями в MongoDB.

wladyspb Jan 30 2017 at 16:04

Требую не сравнивать колоночные базы с документарными) Ещё бы сравнили редис с мускулом, и сказали что редис лучше, потому что быстрее)

zBit Jan 30 2017 at 17:11

Согласен, но для бОльшей объективности данного (не очень правильного, ИМХО) обзора нужны индексы в MongoDB.

enabokov Feb 8 2017 at 20:12

Код создания таблицы есть, а кода вставки в обоих системах — нет.
Если есть конкретный запрос на поиск, то создайте подходящие индексы в MongoDB. Потом тестируйте и вставку (bulk insert), и поиск (можно с планом выполнения, чтобы увидеть что сколько отъело времени).

gecube Sep 11 2018 at 17:05

Коллеги! Это просто прекрасно: статья живая, а ссылки на изображения нет. Можно с этим что-то сделать? Был бы просто счастлив, если бы исправили.

Show the best of all time