logicview May 12 2016 at 00:01

Поиск линии корешка на фотографиях книжных разворотов

5 min

18K

Content AI corporate blogImage processing*

Tutorial

+38

Comments 20

beeruser May 12 2016 at 01:42

А какой смысл постить мегабайтные .BMP-хи? Думаете какие-то детали потеряются при конвертации их в чёрно-белый JPEG?

luciana May 12 2016 at 10:43

Виноват, как обычно, редактор. Сейчас исправим.

AngReload May 12 2016 at 12:44

Картинки вполне сжатые (6.2Mb для сжатых BMP vs 4.7Mb при конвертации в PNG vs 5Mb 100% quality JPEG) и весят не так много.
Зачем тут использовать формат сжатия с ошибками?

-5

guyfawkes May 12 2016 at 01:56

А как были выбраны конкретные значения radius = 41, strength = 300? Почему не, скажем, 42 и 333?

Alexufo May 12 2016 at 13:47

Да все ж элементарно по-моему. Любые фильтры всегда призваны выделять контраст одного перед другим. Разработчик визуально подбирает коэффициенты фильтра усиливающие контраст границ. Причём судя по опыту работы с этим фильтром и ваши коэффициенты прекрасно подойдут.

Там разброс практически не зависит от технических характеристик входного кадра. Подгонять радиус размытия можно легко через разрешение кадра. Все цветные фотографии с мобил имеют максимально возможный для них динамический диапазон и контраст максимально близкий к тому что можно назвать фотографическим качеством. Соответственно шапрятся они примерно одинаково.

logicview May 12 2016 at 14:30

Помимо визуального контроля за результатом работы фильтра, его параметры подбирались так, чтобы минимизировать количество ошибочных разрезов на обучающей выборке.

guyfawkes May 12 2016 at 17:30

Спасибо за пояснения. Но один нюанс: для Вас это может быть элементарно, но для тех, кто не занимался разработкой подобного кода — напоминает картинку «как нарисовать сову» :-)

Alexufo May 12 2016 at 22:30

я не занимался конкретно кодом) просто знаю этот фильтр по фотошопу, так как с ним я давно работаю и уже в голове знаю как будет выглядеть изображение при таком то или таком то фильтре, ну и да чутка про OCR изучаю.

master_Nemo May 12 2016 at 11:32

А чем вариант с просветом так уж плох? Вроде бы он есть как раз чаще чем тень. Не претендую на глобальность, но последний раз, решая эту задачу (для частного случая нужно было быстро), я просто накидал выделение двух блоков текста и где-то посередине поискал просвет между ними. А вот тень- (глянул на свои сканы)- где там тень…

logicview May 12 2016 at 14:33

Предлагаемый метод предназначается для фотографий с мобильных устройств, а не сканов. В этом случае тень — более частое явление. По нашей базе получается, что в 85-90% случаев тень есть.

master_Nemo May 13 2016 at 20:38

ух ты. 90%. не спорю, ваша база, наверно, порепрезентативней будет, но это как же надо снимать-то… (мой случай был тоже для телефонофото)

basiliscos May 12 2016 at 12:44

Расскажите, пожалуйста, как восстанавливать (реконструировать) параграфы из отдельных слов.

Alexufo May 12 2016 at 13:51

А если тупо нарисовать линию по середие с надписью, «кто не навел линию на середину книги тот фигу получит а не OCR» и все, и не надо напрягать процессоры мобильные

logicview May 12 2016 at 14:35

Задача мобильного приложения сделать все необходимые подсказки пользователю и облегчить работу используемым алгоритмам. Линия с надписью есть, но это уже не алгоритм, а часть продукта.

Alexufo May 12 2016 at 21:29

все правильно, ( линия тоже алгоритм!) ) но если приложение будет отрабатывать на 2 секунды быстрее благодаря этой линии… (две ли?) продукт будет восприниматься как более шустрый. Ну и черт с этой линией, для блондинок по дефолту пусть автомат, а для дартаньянов — в опциях галочка.

logicview May 13 2016 at 15:33

Весь этот алгоритм обрабатывает 1 фотографию в среднем за 70 миллисекунд.

Gryphon88 May 12 2016 at 14:36

А как быть, если направление строк меняется? В последнем примере первая картинка: неаккуратное перелистывание, в итоге
— наклон строк на левой странице не постоянен из-за «загиба вверх» (как будто немног оприсобрали в гармошку)
— отличается от направления строк правой странице
Ну и для старых книг, когда разваливается на отдельные тетради, там вообще чудеса в решете могут быть

logicview May 12 2016 at 14:39

Борьбой с наклоном строк, в том числе переменным, занимается алгоритм разгибания строк. О нем мы расскажем в одной из следующих публикаций. Определение направления — это всего лишь попытка ответить на вопрос, какое оно: преимущественно горизонтальное или преимущественно вертикальное?

UFO just landed and posted this here

sunnybear May 14 2016 at 02:04

фильтры можно очень быстро применять: это один проход по массиву. Фактически, это O(n) (или даже O(log(n))). Деревья обычно имеют сложность O(n^2)… O (nlog(n)).

Меня вот другое волнует: в 50% реально можно взять линию примерно посередине изображения, выровненного по горизонтали — это и будет разворот. Вся математика применима даже не в 80% случаев. А вот ошибка 1,5% при такой математике кажется странной (большой). Либо сама задача сформулирована слишком строго, а на практике все несколько более приземленно.