Intellectual character recognition system1

Intellectual character recognition systemthe new algorithm - new

opportunities

Программы распознавания текстаСистемы оптического распознавания текста (Optical character recognition – OCR) широко используются как на бытовом так и на промышленном уровне. В настоящее время на рынке имеется довольно широкий спектр программ такого назначения. Однако наиболее широкую известность получили такие OCR-программы как: RecognitaPlusDTK; TextBridge; TypeReader; СharacterEyes; IRIS OCR; EasyReader; OmniPageProfessional и WordScanPlus; ABBYY FineReader; OCR CuneiFormВсе эти программы используют самые различные алгоритмы распознавания каждый из которых обладает как преимуществами так и определенными недостатками. Не редкостью является использование комбинации нескольких алгоритмов в одной программе. Однако не смотря на это проблема качества распознавания графического текста остается по-прежнему актуальной, так как пока ни одна из программ не дает абсолютного качества.

Основные алгоритмы распознавания текста

Растровыйпиксельное сравнение изображения с шаблоном

Преимущества:- Простота реализации;- Быстродействие;- Устойчивость к случайным дефектам изображения при распозновании.Недостатки:- Невысокая точность распознавания.

Признаковыйопределение типичных признаков символа отличающих его от других символов.

Преимущества:- Высокая точность распознавания;- Усложненная реализация.Недостатки:- Низкое быстродействие.

Основные алгоритмы распознавания текста

Основные алгоритмы распознавания текста Структурныйопределение основных линий буквы, их направления и взаимного расположения

Преимущества:- Простота реализации;- Устойчивость к искажениям формы символа;- Хорошее качество распознавания;Недостатки:- Низкая устойчивость к дефектам изображения.

A-senseАлгоритм который планируется использовать в программе A-sense не имеет ничего общего с алгоритмами описанными в предыдущих слайдах. Его реализация была опробована в опытной программе (детальная разработка которой еще предстоит). Результаты испытаний показали что данный алгоритм распознавания:- Более устойчив к различным дефектам букв;- Более качественно определяет элементы текста (строки, слова, буквы);- Имеет значительный потенциал для дальнейшего совершенствования;- Прост в реализации;- Обладает высоким быстродействием.Тест алгоритма проводился с использованием только 30 букв русского алфавита. Цифры, спецсимволы, знаки пунктации и т.д. в тестовой программе не использовались (шаблоны пока не заданы). Вывод текста после распознавания осуществлялся без разделения букв на строчные и прописные.Результаты тестирования отражены в последующих слайдах. Для сравнения результатов тестирования представлены также результаты полученные при использовании других OCR-программ.

Часть исходной тестируемой на распознавание страницы

Результат распознавания 7-й версией Abbyy Finereader

Результат распознавания одной из on-line OCR-программой

Результат распознавания экспериментальным прототипом алгоритма A-sense

Контактная информация

email: [email protected]

Technology

Intellectual character recognition system1