Pull to refresh
0
Randy Cambell @samodum

User

Send message

Определяем «неправильные» слова при борьбе со спамом

Reading time3 min
Views6.3K
При борьбе со спамом на форуме возникла идея автоматически отлавливать слова, внешне похожие на «нормальные», но фактически отличающиеся от шаблонных, имеющихся в базе стоп-слов. Делается это путём замены кириллических символом на латиницу и наоборот. Например, «Пpoдaeм бeтoн» и «Продаем бетон» только внешне выглядят одинаково, а на самом деле они отличаются друг от друга.
Вот я и написал небольшую функцию для уменьшения энтропии Вселенной, которая определяет (если сможет) язык, на котором написано слово, и заменяет его на нормальное. Затем проверяем это слово по списку стоп-слов и принимаем решение, запрещённое оно или нет :)

(Красным цветом помечается кириллица, синим- латиница или цифры)
Код функции внутри
Total votes 61: ↑46 and ↓15+31
Comments32

Information

Rating
Does not participate
Location
Сербия
Registered
Activity