Большинство современных систем распознавания речи человека основаны на методах, которые разбивают запись голоса на фонемы и анализируют их амплитудно-частотные характеристики с целью поиска фонем отдельных букв на основе классификации их по определенным наборам частотных характеристик. Такие методы рассматривают каждую фонему, как единую неделимую единицу звукового сигнала с квазистационарными частотными характеристиками. При таком подходе не учитываются характеристики фонемы, динамически изменяющиеся во времени.
Александр Моргунов @therealmoronto
.NET Developer
Нейронная сеть как предиктор для кодирования изображений формата PNG
5 min
15KПредлагаю вашему вниманию перевод статьи Neural Network As Predictor For Image Coding (PNG). Блог автора находится здесь.
Главной причиной данной работы было улучшение существующих предварительных фильтров. Создать новый фильтр, который с помощью искусственной нейронной сети делал бы наилучший прогноз, приводящий к лучшему сжатию файла.
Классически PNG-компрессия делится на два шага:
В данной статье важен только первый шаг. На рисунке ниже вы можете видеть существующие на данный момент предварительные фильтры, и как они сохраняют разницу между реальным и предсказанным пикселем.
Тема исследования
Главной причиной данной работы было улучшение существующих предварительных фильтров. Создать новый фильтр, который с помощью искусственной нейронной сети делал бы наилучший прогноз, приводящий к лучшему сжатию файла.
Сжатие
Классически PNG-компрессия делится на два шага:
- Предварительная фильтрация (с использованием предикторов);
- Компрессия (с помощью DEFLATE).
В данной статье важен только первый шаг. На рисунке ниже вы можете видеть существующие на данный момент предварительные фильтры, и как они сохраняют разницу между реальным и предсказанным пикселем.
+10
Information
- Rating
- Does not participate
- Location
- Yerevan, Yerevan, Армения
- Date of birth
- Registered
- Activity