cointegrated Jan 13 2018 at 21:46

Как обучть мдль пнмть упртые скрщня

16 min

39K

Python*Data Mining*Algorithms*Mathematics*Machine learning*

+86

Comments 17

UFO just landed and posted this here

Slexx1234 Jan 13 2018 at 23:18

Блх мх, я см н пнл чт з хрн в зглвк!

Tippy-Tip Jan 14 2018 at 00:03

Аффтр жжт! Пщ ысч!
Вашу идею «украду» для рашифровки сокращений в прайсах.

cointegrated Jan 14 2018 at 00:07

Насколько я понял, вдохновивший меня вопрос преследовал эту же цель :)

UFO just landed and posted this here

ilrandir Jan 14 2018 at 02:37

Ты вообще осознаешь какой боян откопал, если учесть что весь ветхий завет так написан? Возьми любую газету на иврите или арабском, открой для себя "новый"
мир.

-9

cointegrated Jan 14 2018 at 03:24

Что есть языки без гласных, осознаю. Сам, впрочем, читать газеты на иврите или арабском пока не очень умею)

SnowyOw1 Jan 14 2018 at 10:33

Реализация: https://harakat.ae/
Письмо без гласных на латинице или кириллице часто используется при обучении арабскому как иностранному носителей языков с (полными) фонетическими алфавитами.
Опускание согласных не практикуется, ибо чревато потерей корня, но в приведённых примерах тоже нет.

Dreyk Jan 14 2018 at 14:21

опечаточник умеет не только гласные добавлять, а и, внезапно, исправлять опечатки

Alex_T666 Jan 14 2018 at 07:30

Вот бы мне научится писать что-нибудь с нуля, за один вечер (за одну ночь, за один час, за 20 минут). Вернее, написать то я могу, но какая-то фигня получается.

rrrrex Jan 14 2018 at 17:00

А как напишешь и поделишься с кем-нибудь, так тебе скажут, что это придумали до тебя и твой вариант в сто раз хуже.

alex4321 Jan 14 2018 at 17:59

Ну, лучше узнать об этом, чем не узнать :-)

ivan2kh Jan 14 2018 at 17:19

Определение сокращений часто бывает нужно при обработке аптечных прайс-листов. Так для одной позиции форма выпуска может быть записана по разному, например тб, таб, табл. Если вы пишете агрегатор, то необходимо такие строки связывать. К счастью, для этой предметной можно автоматически строить обучающие выборки на имеющихся данных. Хорошо работают модели учитывающие самантику. Теперь самое интересное: есть много сервисов поиска лекарств по аптекам, но я пока не видел хорошей агрегации и поиска по наименованию.

diversenok Jan 14 2018 at 18:51

Как обучть мдль пнмть упртые скрщня

Возможно, вы имели в виду: Как облучить миндаль принимать пупырчатые сокращения?

popov654 Jan 15 2018 at 15:38

А разве нельзя то же самое сделать проще?
Заводим словарь, полученный сбором данных по нескольким книгам (всё равно данные программе хранить надо, вес базы не так важен).
Берём искажённую аббревиатуру. Начинаем подставлять гласные в разные места (благо, гласных не так много). Сверяем со словарём, при этом сопоставляя с частотами встречаемости слов в речи (можно посчитать при обучении).

И будет примерно то же самое. Нет?

P. S. Я бы ещё ввёл массив возможных инверсий из 2 и 3 букв на основе раскладки клавиатуры, если наша цель — исправлять именно случайно сделанные опечатки, и корректировал фразу на их основе. Опять же, методом перебора :)

cointegrated Jan 15 2018 at 16:07

1) Да, с помощью словаря и перебора задача вставки букв решается проще. Но я взялся за усложнённую версию задачи, ибо:

любой словарь далёк от полного (особенно в языках типа русского с активным словообразованием), и незнакомые слова всё равно будут попадаться
если словарь очень большой, его полный обход займёт больше времени, чем beam search
раз мы всё равно запоминаем частоты для выбора альтернативных расшифровок,
почему бы не использовать их для выбора букв тоже?

2) Инверсии, повторения букв, ошибки в правописании, результаты неправильного переключения en/ru — всё это учитывается в полноценных опечаточниках (например, в поисковых системах). Я же решил, что для статьи достаточно одной фичи — остальное читатели сами могут сделать по аналогии, если захотят.

А вообще, спасибо за замечания по существу :-)

j-ker Jan 16 2018 at 00:53

Как это наука не научилась генерировать?
Я даже три года назад ролик записал на эту тему:
vk.com/jocker?w=wall323745_9883
Поверьте, всё возможно!

Show the best of all time