boris_tikhomirov Jun 10 2017 at 17:08

Диалектика нейронного машинного перевода

9 min

17K

System Analysis and Design*Big Data*Machine learning*

From sandbox

+20

Comments 28

UFO just landed and posted this here

Shortki Jun 10 2017 at 20:36

Элементарно! Нейронная сеть обучаема — google прочёл этот пост и оперативно внес исправления.

kryvichh Jun 15 2017 at 14:18

Вы все правильно пишете. В соответствии с правилами русского языка, с заглавных букв пишутся только аббревиатуры, а в конце предложения ставится точка. Если исходный текст не соответствует этим правилам, нужно делать какой-то препроцессор, и уже потом скармливать текст Гугл Транслейту.

mypallmall Jun 10 2017 at 19:04

Не можем сделать лучше конкурентов — будем их очернять!
Вперед! Правильный подход!

mypallmall Jun 10 2017 at 20:06

Не каждый заказчик готов отдавать свой контент для перевода в облако по соображениям безопасности, а NMP – это история в первую очередь облачная.

Systran 10 раз подчеркивает, что перевод исключительно конфиденциален.
Они б иначе не выжили, учитывая кто их клиенты.

mypallmall Jun 10 2017 at 20:19

По прошествию трех месяцев, после подключения русского языка к гугл транслейт — появилась ваша статья.
Надо так понимать, что в ближайшее время, скажем до конца 2017 года, нейронный перевод от Промт ждать не стоит?

PS. Хоть все это молодо-зелено, нейронный машинный перевод это NMT (Neural Machine Translation).

NMP это опечатка или несет какую-то смысловую нагрузку?

mypallmall Jun 10 2017 at 21:01

boris_tikhomirov Jun 12 2017 at 11:49

На Translate.Ru Вы не найдете перевода, о котором написано в статье, потому, что речь о решении, которое специально настраивалось на клиента. Перевод в Google Translate тоже будет другим, если взять в учет регистр «ROUND TRIP INSTANT PURCHASE FARES», как обычно и пишут в правилах применения тарифов.

boris_tikhomirov Jun 12 2017 at 11:30

NMP — это опечатка, конечно. Спасибо, что заметили. Исправил.

Что касается нейронного перевода от PROMT, то он будет использоваться для наших клиентов на тех задачах, где качество сможет быть лучше, чем любой другой подход. Пока мы находимся на таком этапе, что наш подход позволяет более качественно решать конкретные задачи наших клиентов без применения нейронных сетей. Статья как раз об этом.

Но это не значит, что мы не занимаемся исследованиями и разработками в этом направлении.

huwesu Jun 12 2017 at 11:20

Не можем сделать лучше конкурентов — будем их очернять!
Вперед! Правильный подход!

1. Статья интересна и полезна по сути. В отличие от вашего комментария.
2. Это блог фирмы — они имеют право здесь писать про себя хорошо.

boris_tikhomirov Jun 12 2017 at 11:45

Никто никого не очерняет. Мы пишем, что нейронный переводчик Google лучше как универсальный переводчик. Тема секции на РИФе, где был этот доклад, была про нейронные сети в бизнесе, и обсуждался вопрос стоит ли бросаться и применять нейронки везде без разбору. Наш подход в том, что каждой задаче — своя технология.

eiennohito Jun 11 2017 at 04:52

В статье никак не отражено, что с приходом NMT системы машинного перевода стали гораздо _проще_ по внутренней структуре. И несмотря на это оно работает и показывает приличные результаты.

А так вообще — был бы корпус внутри домена — будет роскошный перевод.

boris_tikhomirov Jun 14 2017 at 10:55

Не очень понятно, что именно Вы подразумеваете под «проще». Мне сложно что-то ответить. Тот факт, что в нейронной сети тренируется одна модель, а в статистическом движке и rule based может быть настройка нескольких компонентов, не делает нейронный переводчик более простым.

Тренировка нейронного переводчика требует больше ресурсов, чем статистический, и не только вычислительных, но и человеческих, иначе сложно сделать что-то приличное. Именно поэтому качественного результата тут по сути достиг пока только Google, у которых много корпусов, много ресурсов, и даже при этом они потратили несколько лет прежде, чем перейти со статистики на нейронку.

eiennohito Jun 14 2017 at 11:12

Проще на мой взгляд как в плане кода (не нужно убиваться с экспоненциальным взрывом количества гипотез в декодере, например), так в плане того, что меньше компонентов. Статистические модели так же гораздо хуже работали для сильно непохожих друг на друга языков без использования всяких безумных моделей типа tree-to-tree/tree-to-string (английский-японский из близкого мне, например). Как пример, у нас в лаборатории группа машинного перевода за пару месяцев написали движок для нейросетевого перевода с нуля за пару месяцев и он работал сильно лучше старого статистического, который разрабатывали много лет.

То, что для нейросетей требуется больше текста — это конечно да. И что у него есть свои болячки — это тоже факт. Гугл же, насколько я понимаю его внутреннюю кухню, смог выпустить нейросетевой перевод в машинное плавание когда у них вычислительные ускорители стали доступны в большом количестве. В железо это дело сильно упирается и на обычных серверах выехать очень тяжело.

Но корпуса-то в любом случае собирать (и открывать) нужно.

iroln Jun 11 2017 at 23:30

Взял простое предложение из документации одного известного языка программирования.
The file must be kept open until the fault handler is disabled

PROMT:
Файл должен быть сохранен открытым, пока укладчик ошибки не искалечен

Google Translate:
Файл должен быть открыт до тех пор, пока не будет отключен обработчик ошибок

Не знаю ребята, чем вы там в Promt занимаетесь, какие у вас сейчас алгоритмы, но ваш перевод — отстой.

very-smarthome Jun 12 2017 at 19:02

Извините за тупость, но есть впечатление, что все раскрученные методы перевода идут не в особо том направлении. Все оценивают понятия слов с точки зрения компьютера, а что если попробовать встать на позицию человека?

Если сначала описать ситуацию, в которой происходит общение двух не понимающих друг друга пиплов. Например, дядя с тетей — туристы в прачечной беседуют про политику. Причем один из них англичанин.

Вот я как гомосапиенс сразу могу сказать, какие фразы будут употребляться и о чем. И в каком значении из 100 возможных будет стоять слово come on. И даже какой диалект лондонского англичанина будет непонятен русскому профессору с кафедры иностранных языков.

Мне кажется, надо в начало перевода серьезного текста сначала закладывать ту человекообразную среду, в которой осуществляется перевод.

Staratel20 Jun 12 2017 at 22:31

Кто там вверху Промт ругал? ).
Строчка популярной некогда песни, прошу ввести в гугл и убедиться, потому как не очень пока разобрался как вставлять картинки(или скажем — куда их заливать чтобы ссылки через пару дней не оказались битыми):
You've might been hurt babe

Перевод(на 12.06.17):
Возможно, вы были больны младенцем

Staratel20 Jun 13 2017 at 09:39

… или вот — из той же оперы(гугл):
pan fry industry

перевод:
сковорода

mypallmall Jun 14 2017 at 16:29

Вы считаете Промт лучше? :)

pan fry industry — жареная промышленность кастрюли

You've might been hurt babe — У Вас есть сила малыш вреда

Гугл признает, что переводчик делает ошибки, которые человек в жизни бы не совершил.
Проверим качество через годик скажем.

Что, сильно огорчило, судя по статье — Промт еще даже не принял решения подключать NMT.
Такое сложилось впечатление, после статьи. Надеюсь ошибаюсь.

Просветите, pan fry industry — это что такое?
Поиск ничего внятного не выдал pan fry industry

Rom77 Jun 14 2017 at 22:52

Просветите, pan fry industry — это что такое?
Поиск ничего внятного не выдал pan fry industry

+1. Тоже интересно.

Кстати, казалось бы невинное изменение первой буквы на заглавную или добавление в конец этой фразы разных посторонних символов с клавиатуры, ведет к невероятным метаморфозам перевода у гугла.

boris_tikhomirov Jun 14 2017 at 23:00

Мы приняли решение не использовать NMT без разбору везде, где только ни появится задача перевода. Наш подход в том, что каждой задаче — своя технология. Мы сейчас используем активно rule based перевод, статистический перевод или технологию Deep Hybrid — в зависимости от задач клиента. И на тех задачах, где нейронные сети будут давать выигрыш в качестве, будем использовать их. Исследования в эту сторону тоже идут.

Staratel20 Jun 17 2017 at 02:02

Должен извинится что несколько ввел народ в заблуждение — на самом деле French fry industry — взято из аудиокурса по английскому Effortless English, топик Eat your vegetables(кстати курс весьма неплох на мой взгляд). В памяти вместо French почему то отложилось pan )). Но с заменой результат не намного лучше, — перевод Гугл:
Французская жаркая промышленность

а как правильно мне и самому интересно. По тексту там понятно что это промышленность которая занимается обжаркой овощей [а потом продает их как свежие]. вообще смысл текста весьма любопытный, рекомендую послушать))

ЗЫ: пусть не покажется что я качу бочку на движок перевода Гугл. несмотря на все косяки он часто очень выручает, и я понимаю сколько труда стоит за тем, чтобы создать нечто подобное(к Промту это тоже относится). а критиковать как известно — дело нехитрое.

scalywhale Aug 7 2017 at 12:50

Борис, а можете прокомментировать этот бенчмарк-тест компании intent.to? Похоже, отказ от использования NMT делает Promt самым выгодным по цене и самым слабым по accuracy.

boris_tikhomirov Aug 8 2017 at 10:48

Статья о том, что нейронный перевод сам по себе никак не решает конкретные задачи бизнеса, и мы привели примеры, где сравнили наши ненейронные движки и нейронный перевод от Google. Не очень понятно, откуда Вы делаете выводы, что PROMT отказывается от использования NMT. И в статье, и отдельно в комментариях я говорил, что мы ведем разработки в том числе и в направлении NMT, и выбор того, какой движок использовать, зависит от конкретной задачи клиента.

Что касается бенчмарков по ссылке, то нам ничего не известно ни про компанию, проводившую измерение, ни про точную методику данного измерения, ни про корпуса, на которых измерение проводили. Так что комментировать там что-то сложно. В презентации упоминается метрика – normalized hLEPOR score. Кажется, это одна из метрик, представленная на семинаре по машинному переводу ACL-WMT, где ежегодно проводятся сравнение технологий перевода от разных провайдеров и технологий оценки качества перевода. Метрика не является отраслевым стандартом, и у нас нет опыта ее использования, мы не знаем, насколько она точна для морфологически богатых языков, например, русского. В своей работе мы используем давно зарекомендовавшие себя, несмотря на ограничения, метрики METEOR, BLEU.

Мы также регулярно участвуем как провайдер МП в семинарах ACL-WMT и в проводимых ими сравнениях систем перевода. Вот, например, ссылка на результаты 2016 года: http://statmt.org/wmt16/pdf/W16-2301.pdf (страница 141). Как видно, самый точный результат для англо-русского перевода у PROMT. В данном случае была использована как автоматическая оценка, так и экспертная, где носители языка ранжируют переводы в зависимости от их качества. Так что твердо уверен, что у нас точно не самый слабый результат по accuracy.

ksavenkov Aug 8 2017 at 14:28

Привет.

Мы в этом бенчмарке конечно сравнивали результат из облачных сервисов. Для компаний с фокусом на on-premise (PROMT, Systran, SDL и многие другие) в облаке часто работает не последняя и не самая точная версия движка. Думаю, что читателям хабра это не очевидно, отсюда и комментарии выше с примерами из онлайн-версии.

Могу поделиться наблюдениями с нашей стороны.

(1) NMT не очень хорошо работает с SEO-оптимизированными текстами, для которых характерно избыточное количество прилагательных, родительный падеж, вот это вот всё. Длинный SEO текст может быть переведен одним словом — подходящим, но в контексте бизнес-задачи неправильным. «ROUND TRIP INSTANT PURCHASE FARES» — из этой области.

(2) NMT в целом не очень хорошо работает с короткими текстами. Ему явно не хватает контекста. Это проявляется в неустойчивом качестве перевода — то пусто, то густо.

(3) Часть провайдеров обучается на открытых датасетах (которые они краулят с веба). Поэтому применительно к нашему бенчмарку (который сделан на датасете WMT) результаты иногда расходятся с тем, что мы видим на частных датасетах клиентов.

Напоследок, вот что интегрированные с нам системы перевода выдают для «ROUND TRIP INSTANT PURCHASE FARES» (при этом для более типичных текстов все более-менее хорошо):

Microsoft NMT: Прямой проезд
Microsoft SMT: ТУР МГНОВЕННОЕ ПРИОБРЕТЕНИЕ ТАРИФЫ
SDL Language Cloud: Поездка МГНОВЕННАЯ ПОКУПКА ТАРИФЫ
PROMT: МОМЕНТ КРУГОВОГО РЕЙСА ПОКУПАЕТ ТАРИФЫ
Baidu: тур интернет — покупки фарес
YeeCloud: Раунд ТРИПЛОВЫЙ ПУТЕВЫЙ ПЛАТЫ
Google NMT: КРУГЛЫЕ ПОЕЗДКИ МГНОВЕННЫЕ ПОКУПКИ
Yandex: КРУГЛОГО ПОЕЗДКИ МГНОВЕННЫЙ ТАРИФЫ КУПИТЬ
Systran: ТУДА И ОБРАТНО НЕМЕДЛЕННЫЕ ПЛАТЫ ЗА ПРОЕЗД ПРИОБРЕТЕНИЯ

boris_tikhomirov Sep 5 2017 at 18:05

Приведенные Вами переводы еще раз демонстрируют одно из основных положений моей статьи: есть большая разница между «бытовым» переводом для повседневных задач и переводом для целей бизнеса. И во втором случае дело не только в технологии, но и в возможности настройки, потому что ни одна система не дает приемлемого перевода данной фразы без настройки. И это видно из примеров.

Настройка, кстати, тоже сильно зависит от технологии. Нейронный перевод безусловно настраивается, но это пока и его слабое место, так как требуются большие вычислительные мощности и время на эксперименты. Наше преимущество все-таки в том, что все технологии, которые мы давно развиваем и решаем с их помощью конкретные бизнес-задачи, имеют мощные средства для настройки в достаточно сжатые сроки, и выросло это все в работе с конкретными заказчиками.

mypallmall Jun 14 2017 at 16:35

И вообще, на данном этапе речь о литературном (художественном) переводе не идет.

Show the best of all time