Angelina54 Nov 25 2013 at 16:42

Cognitive PDF/A – технология оцифровки текстовых документов для публикации в интернете и долговременного архивного хранения

9 min

15K

Cognitive Technologies corporate blogAlgorithms*

Comments 9

Rastishka Nov 25 2013 at 17:46

Это где то за гранью добра и зла, когда в статье рекомендуют применять различные способы сжатия для фото и текста, но в самой статье все текстовые иллюстрации приведены в JPEG с жуткими артефактами от сжатия…

+23

Angelina54 Nov 25 2013 at 18:26

Рисунки выложены с высокой степенью сжатия. Они были выложены так, как позволяет движок Хабра. К сожалению, он не дает возможности нам выкладывать рисунки в форматах PDF и DjVu. Мы выложили архив, иллюстрирующий основные подходы системы. Его можно посмотреть по ссылке: yadi.sk/d/7us8gghADHVrg

-11

m1el Nov 25 2013 at 18:32

В статье говорится о сжатии без потерь PNG, его можно использовать для иллюстрации артифактов сжатия.

+13

Indexator Nov 25 2013 at 18:40

А я подумал это ход такой, типа «наш софт и такую жуть распознает», а оно вон как… ))

Indexator Nov 25 2013 at 18:38

Что-то похоже на то, что открытый проект OCR CuneiForm уже года как два мертв… X__x
Мдааа, печаль…

zorgrhrd Nov 25 2013 at 20:18

На следующей картинке легко заметить артефакты сжатия JPEG и их отсутствие при использовании PNG -> art.jpeg

Nomad1 Nov 25 2013 at 20:30

Очень не хватает полноразмерных картинок в исходном качестве, чтобы проверить некоторые идеи. Например, «PNG 111кб» мне кажется не совсем адекватным значением для указанной иллюстрации. Буквально, даже optipng отбросит треть от этого размера, не говоря уже о 8-bit quantization.

Alexufo Nov 25 2013 at 23:53

Не хочу наговаривать на компанию, но довелось приобретать один их продукт. Он очень плохо был описан перед продажей ( вы нигде точно не найдете какие поля с каких документов вытаскиваются, пока не купите, а демка вам все не покажет ).

Продукт оказался неудобно документирован (на диске, раскиданы файлы формата doc разных редакций, никакой целостности и порядка), куча dll-ек компилированных за 2005 год (хм?). Такое ощущение, что релиз и доки на диск сливает админ. Ничего про сравнение с конкурентами сказать не могу, тесты не проводил, за время распознавания и работу алгоритмов кто лучше/быстрее тоже сказать не могу, вполне возможно что ядро шустрее других, но больше не притрагивался — взяли другой продукт другой компании и по причине гибкости лицензии (без хардварного ключа) да и просто нет никого больше в мире))))
Я вполне признаю свою некомпетентность пред сим продутом ибо не совсем кодер этого уровня. Просто личное мнение, которое не обязано совпадать с чьим либо вообще. Зря наговаривать не хочу.

К тому же, что касается статьи, полностью поддерживаю комментаторов. Речь идет о технологии, которой приходится верить на слово по пережатым картинкам. Я понимаю, что статью написал технарь в ворде, а сюда таблицы перенес простой менеджер через принскрин вставкой в паинт, ну емае, этож не серьезно. Тут 15% людей попробуют объективно протестировать ваши результаты со своими и сделать независимую оценку качества.

Alexufo Nov 26 2013 at 23:58

А самое обидное! Что всем пофиг! Никто не собирается что-то менять в статье!
Дал отдел маркетинга опубликовать что-то на хабре — готово! Премия не загорами!)