kalina_alexey Mar 12 2018 at 17:42

Фантастик-Elasticsearch. Как мы «укротили» умный поиск по документам

10 min

46K

Digital Design corporate blog.NET*NoSQL*ECM*

+17

Comments 12

olku Mar 12 2018 at 17:49

Вишенка на Ваш торт — когда надоест админить схемы и документы из командной строки

kalina_alexey Mar 12 2018 at 18:07

Спасибо, попробуем.
Кстати говоря: для мониторинга индексов используем Cerebro, а для поиска, конечно, Kibana.

sloniki Mar 13 2018 at 08:11

В качестве конвеера можно задействовать Logstash, который мощнее по функциональности и производительности встроенного в ingest node.
Я для управления и базового мониторинга использую ElasticHQ.
Ну и кластер конечно должен иметь нечётное количество нод.

Edc Mar 13 2018 at 12:43

Насколько я понимаю вопрос разделеления прав пока не рассматривали? Ведь при таком количестве документов наверняка найдётся информация с ограничением по доступности

kalina_alexey Mar 13 2018 at 12:54

Да, действительно такая проблема есть.
В рамках пилотного проекта проверка прав не требуется, но в дальнейшем план решения такой:

Дофильтровывать результаты поиска уже на уровне приложения: вырезать хайлайт, если нет прав на файлы.
По умолчанию отображать общедоступные данные, а при переходе в документ проверять права (сейчас так и есть, кроме хайлайта).

Edc Mar 13 2018 at 13:22

Мы в Apache SOLR использовали дополнительные таги со списком групп. И соответственно на уровне приложения использовали filter query. Но при добавлении/удалении прав доступа к документу была боль, так как SOLR не поддерживал атомарное изменение документа

Ababagalamaga Mar 13 2018 at 23:20

А FSCrawler не пробовали. Недавно делал POC для подобного проекта и на намного более скромной виртуальной машине (всего 4GB для эластика) проиндексировал 1GB или 3000 файлов за 10 минут. Он использует TIKA для извлечения текста, как и эластик, плюс есть поддержка OCR, плюс извлекает кучу полезных метаданных.
Есть еще один проект Ambar, но что-то мне там не понравилось. Видимо, активность разработчиков…

kalina_alexey Mar 14 2018 at 07:41

Как я понял, FSCrawler индексирует файлы как отдельные документы. В нашем случае важно хранить файлы внутри документа, к которому они прикреплены (вместе с другой информацией, не связанной с файлами).
Для подходящей задачи обязательно попробуем, спасибо.

Ababagalamaga Mar 14 2018 at 16:28

FSCrawler, помимо текстовой и мета информации, может отправить и сам оригинальный файл и сохранить его в индексе в бинарном формате. У меня тоже была задача хранить дополнительную информацию вместе с файлами в индексе. Так можно настроить mapping под свои бизнес задачи.
В любом случае ingest-attachment plugin тоже хорошее решение, просто я был немного удивлен столь малой скоростью. Я бы поигрался с настройками индекса, типа refresh interval, количеством реплик и нод.

Fortop Jul 5 2018 at 00:33

5000 документов в час? Какой средний объем индексируемой информации в документе?

kotov_a Jul 5 2018 at 14:48

В данном случае документ включает в себя: данные карточки (счет идет на килобайты) и несколько вложений в формате docx, pdf, xlsx (файлы бывают самые разные от одностраничных до огромных по несколько мегабайт). Здесь ограничением больше выступает СЭД, которая отдает данные. Для elasticsearch такой поток ни о чем, не наблюдали задержек с его стороны при индексировании.

Fortop Jul 8 2018 at 22:53

Понятно. Тогда лучше просто убрать упоминание о скорости индексирования из статьи. Оно просто нерелевантно.