Upload
alex-airborner
View
272
Download
1
Embed Size (px)
Citation preview
Программы распознавания текстаСистемы оптического распознавания текста (Optical character recognition – OCR) широко используются как на бытовом так и на промышленном уровне. В настоящее время на рынке имеется довольно широкий спектр программ такого назначения. Однако наиболее широкую известность получили такие OCR-программы как: RecognitaPlusDTK; TextBridge; TypeReader; СharacterEyes; IRIS OCR; EasyReader; OmniPageProfessional и WordScanPlus; ABBYY FineReader; OCR CuneiFormВсе эти программы используют самые различные алгоритмы распознавания каждый из которых обладает как преимуществами так и определенными недостатками. Не редкостью является использование комбинации нескольких алгоритмов в одной программе. Однако не смотря на это проблема качества распознавания графического текста остается по-прежнему актуальной, так как пока ни одна из программ не дает абсолютного качества.
Основные алгоритмы распознавания текста
Растровыйпиксельное сравнение изображения с шаблоном
Преимущества:- Простота реализации;- Быстродействие;- Устойчивость к случайным дефектам изображения при распозновании.Недостатки:- Невысокая точность распознавания.
Признаковыйопределение типичных признаков символа отличающих его от других символов.
Преимущества:- Высокая точность распознавания;- Усложненная реализация.Недостатки:- Низкое быстродействие.
Основные алгоритмы распознавания текста
Основные алгоритмы распознавания текста Структурныйопределение основных линий буквы, их направления и взаимного расположения
Преимущества:- Простота реализации;- Устойчивость к искажениям формы символа;- Хорошее качество распознавания;Недостатки:- Низкая устойчивость к дефектам изображения.
A-senseАлгоритм который планируется использовать в программе A-sense не имеет ничего общего с алгоритмами описанными в предыдущих слайдах. Его реализация была опробована в опытной программе (детальная разработка которой еще предстоит). Результаты испытаний показали что данный алгоритм распознавания:- Более устойчив к различным дефектам букв;- Более качественно определяет элементы текста (строки, слова, буквы);- Имеет значительный потенциал для дальнейшего совершенствования;- Прост в реализации;- Обладает высоким быстродействием.Тест алгоритма проводился с использованием только 30 букв русского алфавита. Цифры, спецсимволы, знаки пунктации и т.д. в тестовой программе не использовались (шаблоны пока не заданы). Вывод текста после распознавания осуществлялся без разделения букв на строчные и прописные.Результаты тестирования отражены в последующих слайдах. Для сравнения результатов тестирования представлены также результаты полученные при использовании других OCR-программ.