Pull to refresh

Comments 10

А поиск по названию статьи основан тоже на этом алгоритме? А то я смотрел там в оригинальной версии какие-то очень похожие на MD5 контрольные суммы в таблице лежат… Это вообще что?
Я не понял про md5 можно уточнить? И что имеется в виду под оригинальной версией? Я использовал ту формулу, которая приведена в википедии. Там в принципе все расписано, в том числе и значния коэфициентов, я лишь хотел обратить внимание на 2-а аспекта его использования, которые бросились мне в глаза. Относительно поиска по заголовкам, есть алгоритм BM25F я пока детально не изучал его, но по тому что успел понять, он как раз учитывает вхождение в title а также в анкоры внешних ссылок. Я думаю там используются весовые коэфициенты, которые увеличивают вес слов в том же заголовке и внешних ссылках.
Плохой тон писать формулу и не пояснять переменные. Перемножаем слонов на слонов?
Статья в википедии: Okapi BM25.

Спасибо за практические примеры.
Выложил xls файл со всеми формулами. Обратите внимание, что BM25 это не просто теория, его можно реально применять, например, при поиске по своему сайту, своей базе документов и т.д. В поисковых системах он уже не применяется в исходном виде, поскольку там релевантность зависит от частоты вхождения слова в документ, естественно, чем выше эта частота чем больше релевантность. Живым примером использования этого алгоритма можно назвать тот же spynx — тут
Автор забыл добавить, что данный алгоритм давно уже используется в локальных поисковиках: Lucene & Sphinx

многим будет полезно о нём знать…

когда делал локальный поисковик по файлам, к сожалению, стандартных реализаций я не нашел, пришлось изобретать велосипед.

>Позже изучая научные труды сотрудников Яндекса

А где это добро можно посмотреть? Если в сети можно ссылку?
Заранее спасибо.
Sign up to leave a comment.

Articles