Comments 9
Это где то за гранью добра и зла, когда в статье рекомендуют применять различные способы сжатия для фото и текста, но в самой статье все текстовые иллюстрации приведены в JPEG с жуткими артефактами от сжатия…
+23
Рисунки выложены с высокой степенью сжатия. Они были выложены так, как позволяет движок Хабра. К сожалению, он не дает возможности нам выкладывать рисунки в форматах PDF и DjVu. Мы выложили архив, иллюстрирующий основные подходы системы. Его можно посмотреть по ссылке: yadi.sk/d/7us8gghADHVrg
-11
А я подумал это ход такой, типа «наш софт и такую жуть распознает», а оно вон как… ))
+6
Что-то похоже на то, что открытый проект OCR CuneiForm уже года как два мертв… X__x
Мдааа, печаль…
Мдааа, печаль…
0
На следующей картинке легко заметить артефакты сжатия JPEG и их отсутствие при использовании PNG -> art.jpeg
+3
Очень не хватает полноразмерных картинок в исходном качестве, чтобы проверить некоторые идеи. Например, «PNG 111кб» мне кажется не совсем адекватным значением для указанной иллюстрации. Буквально, даже optipng отбросит треть от этого размера, не говоря уже о 8-bit quantization.
+3
Не хочу наговаривать на компанию, но довелось приобретать один их продукт. Он очень плохо был описан перед продажей ( вы нигде точно не найдете какие поля с каких документов вытаскиваются, пока не купите, а демка вам все не покажет ).
Продукт оказался неудобно документирован (на диске, раскиданы файлы формата doc разных редакций, никакой целостности и порядка), куча dll-ек компилированных за 2005 год (хм?). Такое ощущение, что релиз и доки на диск сливает админ. Ничего про сравнение с конкурентами сказать не могу, тесты не проводил, за время распознавания и работу алгоритмов кто лучше/быстрее тоже сказать не могу, вполне возможно что ядро шустрее других, но больше не притрагивался — взяли другой продукт другой компании и по причине гибкости лицензии (без хардварного ключа) да и просто нет никого больше в мире))))
Я вполне признаю свою некомпетентность пред сим продутом ибо не совсем кодер этого уровня. Просто личное мнение, которое не обязано совпадать с чьим либо вообще. Зря наговаривать не хочу.
К тому же, что касается статьи, полностью поддерживаю комментаторов. Речь идет о технологии, которой приходится верить на слово по пережатым картинкам. Я понимаю, что статью написал технарь в ворде, а сюда таблицы перенес простой менеджер через принскрин вставкой в паинт, ну емае, этож не серьезно. Тут 15% людей попробуют объективно протестировать ваши результаты со своими и сделать независимую оценку качества.
Продукт оказался неудобно документирован (на диске, раскиданы файлы формата doc разных редакций, никакой целостности и порядка), куча dll-ек компилированных за 2005 год (хм?). Такое ощущение, что релиз и доки на диск сливает админ. Ничего про сравнение с конкурентами сказать не могу, тесты не проводил, за время распознавания и работу алгоритмов кто лучше/быстрее тоже сказать не могу, вполне возможно что ядро шустрее других, но больше не притрагивался — взяли другой продукт другой компании и по причине гибкости лицензии (без хардварного ключа) да и просто нет никого больше в мире))))
Я вполне признаю свою некомпетентность пред сим продутом ибо не совсем кодер этого уровня. Просто личное мнение, которое не обязано совпадать с чьим либо вообще. Зря наговаривать не хочу.
К тому же, что касается статьи, полностью поддерживаю комментаторов. Речь идет о технологии, которой приходится верить на слово по пережатым картинкам. Я понимаю, что статью написал технарь в ворде, а сюда таблицы перенес простой менеджер через принскрин вставкой в паинт, ну емае, этож не серьезно. Тут 15% людей попробуют объективно протестировать ваши результаты со своими и сделать независимую оценку качества.
+5
Sign up to leave a comment.
Cognitive PDF/A – технология оцифровки текстовых документов для публикации в интернете и долговременного архивного хранения