Pull to refresh

Comments 20

А какой смысл постить мегабайтные .BMP-хи? Думаете какие-то детали потеряются при конвертации их в чёрно-белый JPEG?
Виноват, как обычно, редактор. Сейчас исправим.
Картинки вполне сжатые (6.2Mb для сжатых BMP vs 4.7Mb при конвертации в PNG vs 5Mb 100% quality JPEG) и весят не так много.
Зачем тут использовать формат сжатия с ошибками?
А как были выбраны конкретные значения radius = 41, strength = 300? Почему не, скажем, 42 и 333?
Да все ж элементарно по-моему. Любые фильтры всегда призваны выделять контраст одного перед другим. Разработчик визуально подбирает коэффициенты фильтра усиливающие контраст границ. Причём судя по опыту работы с этим фильтром и ваши коэффициенты прекрасно подойдут.

Там разброс практически не зависит от технических характеристик входного кадра. Подгонять радиус размытия можно легко через разрешение кадра. Все цветные фотографии с мобил имеют максимально возможный для них динамический диапазон и контраст максимально близкий к тому что можно назвать фотографическим качеством. Соответственно шапрятся они примерно одинаково.
Помимо визуального контроля за результатом работы фильтра, его параметры подбирались так, чтобы минимизировать количество ошибочных разрезов на обучающей выборке.
Спасибо за пояснения. Но один нюанс: для Вас это может быть элементарно, но для тех, кто не занимался разработкой подобного кода — напоминает картинку «как нарисовать сову» :-)
я не занимался конкретно кодом) просто знаю этот фильтр по фотошопу, так как с ним я давно работаю и уже в голове знаю как будет выглядеть изображение при таком то или таком то фильтре, ну и да чутка про OCR изучаю.
А чем вариант с просветом так уж плох? Вроде бы он есть как раз чаще чем тень. Не претендую на глобальность, но последний раз, решая эту задачу (для частного случая нужно было быстро), я просто накидал выделение двух блоков текста и где-то посередине поискал просвет между ними. А вот тень- (глянул на свои сканы)- где там тень…
Предлагаемый метод предназначается для фотографий с мобильных устройств, а не сканов. В этом случае тень — более частое явление. По нашей базе получается, что в 85-90% случаев тень есть.
ух ты. 90%. не спорю, ваша база, наверно, порепрезентативней будет, но это как же надо снимать-то… (мой случай был тоже для телефонофото)
Расскажите, пожалуйста, как восстанавливать (реконструировать) параграфы из отдельных слов.
А если тупо нарисовать линию по середие с надписью, «кто не навел линию на середину книги тот фигу получит а не OCR» и все, и не надо напрягать процессоры мобильные
Задача мобильного приложения сделать все необходимые подсказки пользователю и облегчить работу используемым алгоритмам. Линия с надписью есть, но это уже не алгоритм, а часть продукта.
все правильно, ( линия тоже алгоритм!) ) но если приложение будет отрабатывать на 2 секунды быстрее благодаря этой линии… (две ли?) продукт будет восприниматься как более шустрый. Ну и черт с этой линией, для блондинок по дефолту пусть автомат, а для дартаньянов — в опциях галочка.
Весь этот алгоритм обрабатывает 1 фотографию в среднем за 70 миллисекунд.
А как быть, если направление строк меняется? В последнем примере первая картинка: неаккуратное перелистывание, в итоге
— наклон строк на левой странице не постоянен из-за «загиба вверх» (как будто немног оприсобрали в гармошку)
— отличается от направления строк правой странице
Ну и для старых книг, когда разваливается на отдельные тетради, там вообще чудеса в решете могут быть
Борьбой с наклоном строк, в том числе переменным, занимается алгоритм разгибания строк. О нем мы расскажем в одной из следующих публикаций. Определение направления — это всего лишь попытка ответить на вопрос, какое оно: преимущественно горизонтальное или преимущественно вертикальное?
UFO just landed and posted this here
фильтры можно очень быстро применять: это один проход по массиву. Фактически, это O(n) (или даже O(log(n))). Деревья обычно имеют сложность O(n^2)… O (nlog(n)).

Меня вот другое волнует: в 50% реально можно взять линию примерно посередине изображения, выровненного по горизонтали — это и будет разворот. Вся математика применима даже не в 80% случаев. А вот ошибка 1,5% при такой математике кажется странной (большой). Либо сама задача сформулирована слишком строго, а на практике все несколько более приземленно.
Sign up to leave a comment.