52
Обнаружение текста на изображениях Наталья Васильева [email protected] HP Labs Russia 8 апреля 2012, Computer Science клуб

20120408 text detection_vasilieva

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: 20120408 text detection_vasilieva

Обнаружение текста на изображениях

Наталья Васильева

[email protected] HP Labs Russia

8 апреля 2012, Computer Science клуб

Page 2: 20120408 text detection_vasilieva

2 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Page 3: 20120408 text detection_vasilieva

3 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Зачем?

• Необходимо для дальнейшего распознавания текста (OCR)• Документы – page layout analysis

• Фотографии, чертежи, графики – text detection and localization

• Самостоятельные приложения• Автоматическое построение коллажей

• Автоматическое изменение размера изображений

Page 4: 20120408 text detection_vasilieva

4 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Компоненты системы извлечения текста

Fig. credit: J. Gllavata

+ Text Enhancement

Page 5: 20120408 text detection_vasilieva

5 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Приложения

• Оцифровка документов

• Индексирование и извлечение информации из графиков и чертежей

• Индексирование и поиск изображений, автоматическое построение аннотаций

• Переводчик в карманепример: Word Lens (http://questvisual.com/)

• Помощь слабовидящим

• Навигация роботов в помещениях, в городских условиях

Fig. credit: N. Ezaki et al.

Page 6: 20120408 text detection_vasilieva

6 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Page 7: 20120408 text detection_vasilieva

7 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Page 8: 20120408 text detection_vasilieva

8 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Page 9: 20120408 text detection_vasilieva

9 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Обнаружение текста – газеты, журналы, книги

• обнаружение текстовых областей• определение угла поворота текста (skew

detection)• определение порядка чтения

Page 10: 20120408 text detection_vasilieva

10 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Обнаружение текста – произвольные изображения

Исходное изображение

Возможные результаты работы алгоритмов обнаружения текста

Page 11: 20120408 text detection_vasilieva

11 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Обнаружение текста – чертежи и графики

• Обнаружение текстовых областей

• Определение угла поворота текстовых строк

• Короткие фрагменты текста

• Разнообразие шрифтов, текст под разными углами

• Однородный фон

• Высокая контрастность

фотографии

печатные документы

Page 12: 20120408 text detection_vasilieva

12 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

План лекции

•Зачем нужны алгоритмы обнаружения текста?

•Что такое цифровое изображение?

– Представление цифровых изображений

– Границы, компоненты связности, бинаризация, преобразование Хафа

•Печатные документы (document images)

•Фотографии (natural scenes)

•Чертежи, графики, обложки

Page 13: 20120408 text detection_vasilieva

13 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Представление цифровых изображений

Растровое изображение

255 typically and,),(0 LLyxf

Page 14: 20120408 text detection_vasilieva

14 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Представление цифровых изображений

RGB – распространенная модель цветаКаждый пиксель задается тремя значениями: red, green, blue

Цветное растровое изображение:

Page 15: 20120408 text detection_vasilieva

15 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Обнаружение границ

Page 16: 20120408 text detection_vasilieva

16 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Градиент изображения

Градиент направлен в сторону наибольшего изменения интенсивности

Направление градиента:

Величина градиента:

Page 17: 20120408 text detection_vasilieva

17 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Вычисление градиента изображения

Roberts: Prewitt: Sobel:

Дискретный случай:

Page 18: 20120408 text detection_vasilieva

18 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Выделение границ: примеры

Sobel

CannyИсходное

Page 19: 20120408 text detection_vasilieva

19 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Компоненты связности

0 0 0

0 0 0 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0 0 0 0 0 0 0

0 0

0 0

0 0

0 0

0 0

0 0

0 0

0 0

0

0

0 0 0

0 0 0

0 0 0

0 0 00 0 0

0 0 0 0 0

1 1

1 1 1 1 1 1 1 1

1 1 1 1

1 1 1 1

1 1 1

1 1

1 1

2 2 3 3

3 3

3 3

4 4

3 3 3 3

3 3 3 3

3 3 3

3 3 3

5 3

5 36 6 3 3 37

0

Page 20: 20120408 text detection_vasilieva

20 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Компоненты связности

Page 21: 20120408 text detection_vasilieva

21 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Пороговая бинаризация

Светлый объект на темном фоне Два светлых

объекта на темном фоне

Глобальная – порог единый для всех точек изображения

Локальная или Динамическая – когда порог зависит от координат точки (x,y)

Адаптивная – когда порог зависит от значения яркости в точке I(x,y)

Page 22: 20120408 text detection_vasilieva

22 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Бинаризация

Page 23: 20120408 text detection_vasilieva

23 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Преобразование Хафа (Hough transform)

x

y

m

b

m0

b0

image space Hough space

• Для данного набора точек (x, y) найти все точки (m, b), такие что y = mx+b

Page 24: 20120408 text detection_vasilieva

24 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Преобразование Хафа (Hough transform)

x

y

m

b

image space Hough space

• Точке (x0, y0) соответсвует прямая в пространстве Хафа: b = –x0m + y0

x0

y0

• Для данного набора точек (x, y) найти все точки (m, b), такие что y = mx+b

Обычно, используют полярные координаты:

Page 25: 20120408 text detection_vasilieva

25 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

План лекции

•Зачем нужны алгоритмы обнаружения текста?

•Что такое цифровое изображение?

– Представление цифровых изображений

– Границы, компоненты связности, бинаризация, преобразование Хафа

•Печатные документы (document images)

•Фотографии (natural scenes)

•Графики, диаграммы, обложки

Page 26: 20120408 text detection_vasilieva

26 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Основные задачиПечатные документы

• Анализ структуры страницы (layout analysis, geometric structure analysis, page segmentation, region classification)

Fig. credit: Y.Y. Tang et al.

Page 27: 20120408 text detection_vasilieva

27 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Основные задачиПечатные документы

• Анализ структуры страницы (layout analysis, geometric structure analysis, page segmentation, region classification)

Fig. credit: Y.Y. Tang et al.

• Методы

• «Сверху-вниз» (top-down)

• XY-cuts, whitespace segmentation

• «Снизу-вверх» (bottom-up)

• группировка ближайших соседей, диаграммы Вороного

Page 28: 20120408 text detection_vasilieva

28 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Projection profiles and XY-cuts

Вертикальная проекция

Горизонтальная проекция

Fig. credit: Y.Y. Tang et al.

Page 29: 20120408 text detection_vasilieva

29 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Результат алгоритма DocstrumМетоды «снизу-вверх»

Fig. credit: A. Namboodiri et al.

Page 30: 20120408 text detection_vasilieva

30 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Использование диаграмм ВороногоМетоды «снизу-вверх»

Fig. credit: A. Namboodiri et al.

Page 31: 20120408 text detection_vasilieva

31 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Основные задачиПечатные документы

• Определение поворота текста (page rotation, skew detection)

• Обнаружение текстовых строк (text line finding, baseline finding)

• Projection profiles (для исходного изображения или компонент связности)

• Использование преобразования Хафа

• Определение угла наклона тектовых строк

Page 32: 20120408 text detection_vasilieva

32 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

План лекции

•Зачем нужны алгоритмы обнаружения текста?

•Что такое цифровое изображение?

– Представление цифровых изображений

– Границы, компоненты связности, бинаризация, преобразование Хафа

•Печатные документы (document images)

•Фотографии (natural scenes)

•Графики, диаграммы, обложки

Page 33: 20120408 text detection_vasilieva

33 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Почему не работают традиционные методы?Фотографии

• Большое разнообразие шрифтов

• Разнообразие расположений и направлений текстовых строк

• Короткие текстовые строки

• Разнообразие условий съемки (освещение, фокусное расстояние)

• Сложный фон

• Нет определенной структуры страницы

• Наложение объектов (occlusions)

Page 34: 20120408 text detection_vasilieva

34 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Классификация подходовФотографии

Text detection and localization

Texture-based Region-based

CC-based Edge-based

K. Jung et al.

Page 35: 20120408 text detection_vasilieva

35 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Методы, основанные на анализе текстурыФотографии

Построение пирамиды изображений

Извлечение текстурных признаков(Gabor, Wevelets, DCT)

Классификация регионов (SVM)

Text

NoText

Объединение результатов

Page 36: 20120408 text detection_vasilieva

36 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Методы, основанные на анализе текстурыФотографии

• Сложный фон

• Вычислительно сложные (обработка нескольких масштабов, операции свертки)

• Произвольная направленность текста (негоризонтальный текст)

• Произвольный размер шрифта

+

Page 37: 20120408 text detection_vasilieva

37 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Region-based methods (bottom-up)Фотографии

• Выделение компонент связности на основе локальных признаков (близкий цвет или принадлежность границе)

• Объединение выделенных компонент связности в группы по признакам близкого расположения и схожих локальных признаков (размер, цвет)

Page 38: 20120408 text detection_vasilieva

38 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Region-based methodsФотографии

• Произвольный размер шрифта

• Произвольная направленность текста

• Просты в реализации

• Сложный фон

• Шум и нерезкость изображения

• Используют большое количество эвристик

+

Page 39: 20120408 text detection_vasilieva

39 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Stroke Width Transform (SWT)

B. Epshtein et al.

Исходное изображение

Результат SWT

После фильтрациипо признаку постоянства

ширины штриха

Найденный текст

Page 40: 20120408 text detection_vasilieva

40 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Обнаружение текста при помощи SWT

B. Epshtein et al.

Page 41: 20120408 text detection_vasilieva

41 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Вычисление SWT

(a)Фрагмент штриха

(b)p – пиксель на границе штриха, q – пиксель на противоположной стороне штриха (градиенты в p и q направлены друг на друга)

(c) Всем пикселям вдоль луча pq присваивается значение ширины штриха

B. Epshtein et al.

Page 42: 20120408 text detection_vasilieva

42 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Обнаружение текста с помощью SWT

• Границы для нерезких изображений, низкого разрешения –

• Погрешность SWT на стыках штрихов –

• Эвристики для фильтрации компонент –

• Двойной проход и интеграция результатов –

Page 43: 20120408 text detection_vasilieva

43 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Комбинированные методы

Y.-F. Pan et al.

Page 44: 20120408 text detection_vasilieva

44 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Шаг 1 – анализ текстурыКомбинированные методы

Y.-F. Pan et al.

Page 45: 20120408 text detection_vasilieva

45 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Шаг 2 – анализ компонент связностиКомбинированные методы

Y.-F. Pan et al.

Page 46: 20120408 text detection_vasilieva

46 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Шаг 3 – выделение текстовых строк и словКомбинированные методы

Y.-F. Pan et al.

• построение минимального остовного дерева

• решение оптимизационной задачи

Page 47: 20120408 text detection_vasilieva

47 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Robust Reading CompetitionsICDAR (2003, 2005, 2009, 2011)

• Распознавание символов

• Распознавание слов

• Локализация текста

• Распознавание текста

Page 48: 20120408 text detection_vasilieva

48 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

План лекции

•Зачем нужны алгоритмы обнаружения текста?

•Что такое цифровое изображение?

– Представление цифровых изображений

– Границы, компоненты связности, бинаризация, преобразование Хафа

•Печатные документы (document images)

•Фотографии (natural scenes)

•Графики, диаграммы, обложки

Page 49: 20120408 text detection_vasilieva

49 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Графики и диаграммыАнализ компонент связности по цвету

Page 50: 20120408 text detection_vasilieva

50 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Экспериментальная оценка

LRR LPR TRR TPR

Preprocess 79.0% 88.7% 44.7% 44.6%

NoPreprocess

33.7% 84.2% 2.5% 2.9%

LocationRecognitionRate = NLoc/NG

LocationPrecisionRate = NLoc/NF

TextPrecisionRate = NTxt/NF

TextRecognitionRate = NTxt/NG

NLoc – the number of correctly localized text blocks NTxt – the number of correctly recognized text blocks

NG – the total number of text blocksNF – the total number of detected text blocks

Тестовое множество: 1000 диаграмм, сгенерированных SWF/XML tool

Page 51: 20120408 text detection_vasilieva

51 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Screenshots

(+) Быстрая бинаризация− Время обработки

изображения1600x1008

• Tesseract OCR: ~6.56 секунд

• Данный алгоритм: ~0.45 seconds

(–) Требует фильтрации компонент

− Naïve Bayes

– Выделение границ и пороговая бинаризация

– Удаление длинных горизонтальных и вертикальных границ

– Выделение компонент связности

– Классификация компонент связности и адаптивная бинаризация

Page 52: 20120408 text detection_vasilieva

52 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Заключение

•Зачем нужны алгоритмы обнаружения текста?

– Распознавание текста: оцифровка, индексирование, извлечение информации, автоматический перевод, text to speech, навигация

•Печатные документы (document images)

– Анализ структуры документа, определение поворота, выделение текстовых строк

•Фотографии (natural scenes)

– Texture-based & region-based

– Stroke Width Transform, Hybrid approach

•Графики, диаграммы, обложки