127
Die nichtkommerzielle Vervielfältigung, Verbreitung und Bearbeitung dieser Folien ist zulässig (Lizenzbestimmungen CC-BY-NC ). EINFÜHRUNG IN DIE VIDEO ANALYSE-TECHNOLOGIEN Seminar: MULTIMEDIA ANALYSE-TECHNOLOGIEN Seminar Dr. Harald Sack / Jörg Waitelonis Bernhard Quehl / Haojin Yang / Christian Hentschel Hasso-Plattner-Institut für Softwaresystemtechnik 1

03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Embed Size (px)

DESCRIPTION

Theoretische Einführung zum Seminar "Multimedia Analyse Technologien" im Sommersemester 2012 am Hasso-Plattner-Institut, Universität Potsdam, Dr. Harald Sack

Citation preview

Page 1: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Die nichtkommerzielle Vervielfältigung, Verbreitung und Bearbeitung dieser Folien ist zulässig (Lizenzbestimmungen CC-BY-NC).

EINFÜHRUNG IN DIE VIDEO ANALYSE-TECHNOLOGIEN

Seminar: MULTIMEDIA ANALYSE-TECHNOLOGIEN

SeminarDr. Harald Sack / Jörg Waitelonis

Bernhard Quehl / Haojin Yang / Christian HentschelHasso-Plattner-Institut für Softwaresystemtechnik

1

Page 2: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

2

Multimedia Analyse-Technologien

1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)

2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)

3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)

4. Visuelle Analyse

1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)

2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)

3. Analysemethoden (analytische Methoden, Lernverfahren)

4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )

5. SEMEX Demo

6. naive Verfahren zur Key-Frame Extraction

2

Page 3: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Multimedia-Analyse-Technologien1.1 Multimedia und Kodierung

Multimediale Daten im Computer

•Definition Multimedia

•Kommen bei der Darstellung von Information mehrere, verschiedenartige Medien zum Einsatz, wie z.B. Text, Bild und Ton, so spricht man von einer multimedialen Darstellung der Information.

•Multimediale Darstellung soll dem Betrachter die Wissensaufnahme von Inhalten erleichtern, da der Benutzer die Informationen mit verschiedenen Sinnesorganen aufnimmt

alphanumerischeInformation

graphischeInformation

Audio-information

Video-information

3

Page 4: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Multimedia-Analyse-Technologien1.1 Multimedia und Kodierung

Medientypen•zeitunabhängige Medien

•Zeitkomponente während der Aufzeichnung ohne Bedeutung

•z.B. Text, Grafik

•„diskrete Medien“

•zeitabhängige Medien

•Information verändert sich mit der Zeit

•Gehalt einer Einzelinformation (zu einem diskreten Zeitpunkt) nicht signifikant

•Gesamtinformation erschließt sich erst aus dem zeitlichen Ablauf

•Zeitkomponente kritisch sowohl bei Aufzeichnung als auch bei Wiedergabe

•z.B. Audio, Video

4

Page 5: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Multimedia-Analyse-Technologien1.1 Multimedia und Kodierung

Multimediakodierung•Audio- /Videoinformation

•Audio-/Videoinformation liegt analog vor und muss vor einer entsprechenden Kodierung zunächst (zeitabhängig) digitalisiert werden.

•man unterscheidet verlustfreie und verlustbehaftete Kodierung von Audio-/Videoinformation

•verlustfreie Kodierung:

•Audio: AU, WAV, ...

•Video: DV

•verlustbehaftete Kodierung:

•Audio: MP3, MPEG-2 AAC, MPEG-4 AAC, ...

•Video: MPEG-1, MPEG-2, MPEG-4, H.264, X.264, DVCPro, ...

5

Page 6: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle

Farbe und Farbmodelle•Was ist Farbe?

•Farben sind die Grundbestandteile des weißen Lichts

•Prisma zerlegt weißes Licht in seine spektralen Bestandteile

•Lichtstrahlen besitzen keine Farbe sondern eine spektrale Energieverteilung

1648 Marcus Marci1672 Isaac Newton

λ=780 nm λ=380 nm

Infrarot UVsichtbares Licht

Elektromagnetisches Spektrum

PrismaIsaac Newton(1643-1727)

Marcus Marci(1595-1667)

6

Page 7: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Farbe und Farbmodelle•1931 wurde als erstes Modell

zur objektiven Farbbestimmungdie Farbnormtafel von derinternationalen Beleuchtungs-kommision festgelegt(Commission Internationale d´Eclairage, CIE)

•Farben werden aus Farbanteilen derGrundfarben (Rot, Grün, Blau)gemischt und in ein 2-dimensionalesKoordinatensystem projiziert

CIE Farbnormtafel, 1931

Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle

7

Page 8: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Farbe und Farbmodelle•RGB-Farbmodell

•additive Farbmischung

•Mischung selbstleuchtender Grundfarben

•Rot (700nm)

•Grün (546,1nm)

•Blau (435,8nm)

•Farbe wird als Tripel (r,g,b) aus den jeweiligen Farbanteilen angegeben

•z.B. bei 8 Bit pro Farbkanal:gelb = (255,255,0)

additive Farbmischung

Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle

8

Page 9: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Farbe und Farbmodelle•RGB-Farbmodell

•Bsp.:

R

G

B

additive Farbmischung

Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle

9

Page 10: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Farbe und Farbmodelle•CMY(K)-Farbmodell

•subtraktive Farbmischung

•Farbe entsteht durch Reflektion/Absorbtion an unterschiedlichen Oberflächen

•Grundfarben Cyan / Magenta / Yellow

•Druckprinzip: Farbpigmente der Grundfarben werden auf weiße Oberfläche aufgetragen

Lichtstrahl bestimmte Farbanteilewerden reflektiert,andere absorbiert

subtraktive Farbmischung

Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle

10

Page 11: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Farbe und Farbmodelle•CMY(K)-Farbmodell

•subtraktive Farbmischung

•Farbe entsteht durch Reflektion/Absorbtion an unterschiedlichen Oberflächen

•Grundfarben Cyan / Magenta / Yellow

•Druckprinzip: Farbpigmente der Grundfarben werden auf weiße Oberfläche aufgetragen

Lichtstrahl bestimmte Farbanteilewerden reflektiert,andere absorbiert

subtraktive Farbmischung

Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle

10

Page 12: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Farbe und Farbmodelle•CMY(K) Farbmodell

•Bsp.:

C

YM

subtraktive Farbmischung

Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle

11

Page 13: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Farbe und Farbmodelle•YUV-Farbmodell

•Zerlegung der Farben in

•Helligkeitsanteil (Luminanz) – Y-Komponente

•Farbanteil (Chrominanz) – U und V Komponente

•Historisch in Verbindung mit dem Farbfernsehens entstanden

•Rückwärtskompatibilität mit Schwarzweiß-Empfängern

•daher separater Helligkeitskanal

•Ausnutzung der unterschiedlichen Empfindlichkeit des menschlichen Auges für Helligkeits- und Farbunterschiede

Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle

12

Page 14: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Farbe und Farbmodelle•YUV-Farbmodell

rot grün blau

Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle

13

Page 15: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Farbe und Farbmodelle•YUV-Farbmodell

Y U V

Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle

14

Page 16: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

15

Multimedia Analyse-Technologien

1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)

2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)

3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)

4. Visuelle Analyse

1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)

2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)

3. Analysemethoden (analytische Methoden, Lernverfahren)

4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )

5. SEMEX Demo

6. naive Verfahren zur Key-Frame Extraction

15

Page 17: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Multimedia-Analyse-Technologien2. Digitalisierung / Visuelle Wahrnehmung

Visuelle Wahrnehmung des Menschen•Das menschliche Auge

16

Page 18: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Visuelle Wahrnehmung des Menschen•Licht- / Farbempfindlichkeit

•Netzhaut enthält zwei Typen von Licht-rezeptoren im menschlichen Auge:

•ZapfenFarb- und Helligkeitsempfindlich,verantwortlich für Farbsehen,im zentralen Retinabereich,ca. 6 Millionen, man unterscheidet drei Typen von Zapfen, die jeweils über unterschiedliches Sehpigment verfügen

•StäbchenHelligkeitsempfindlichauch bei geringer Beleuchtungim peripheren Retinabereichca. 120 Millionen

Multimedia-Analyse-Technologien2. Digitalisierung / Visuelle Wahrnehmung

17

Page 19: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Verlustbehaftete JPEG Kodierung•JPEG, Joint Photographic Experts Group

•verlustbehaftete Komprimierung, sehr gut geeignet für natürliche Bildquellen

•Komprimierung bis 1:20 bei kaum nennenswerten Verlust der Darstellungsqualität

•Ausnutzung der Physiologie der menschlichen Wahrnehmung

•Das menschliche Auge reagiert auf Änderungen der Helligkeit empfindlicher als auf Farbänderungen

•Natürliche Bildquellen besitzen

•häufig Farb- / Helligkeitsverläufe

•häufig keine starken Kontrastschwankungen

Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung

18

Page 20: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Verlustbehaftete JPEG Kodierung•Natürliche Bildquellen besitzen

•häufig Farb- / Helligkeitsverläufe

•häufig keine starken Kontrastschwankungen

Helligkeit benachbarte Bildpunkte unterscheidet sich kaum

Idee: Das Herausfiltern von Bildanteilen mit starken Kontrastschwankungen fällt bei den meisten „natürlichen“ Bildern nicht auf

Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung

19

Page 21: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Verlustbehaftete JPEG Kodierung•Natürliche Bildquellen besitzen

•häufig Farb- / Helligkeitsverläufe

•häufig keine starken Kontrastschwankungen

Helligkeit benachbarte Bildpunkte unterscheidet sich kaum

Idee: Das Herausfiltern von Bildanteilen mit starken Kontrastschwankungen fällt bei den meisten „natürlichen“ Bildern nicht auf

Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung

19

Page 22: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

JPEG Komprimierung - Ablauf•

Farbraum-wechsel

DiskreteCosinus-

Transformation

Chroma-Subsampling

Quantisierungmodifizierte

HuffmanKodierung

Originalbild komprimiertes Bild

schwächereFarbempfindlichkeitdes menschlichenAuges

Filterung von Bildanteilenmit starken Kontrastschwankungen

Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung

20

Page 23: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

JPEG Komprimierung - Ablauf

(1) Farbraumwechsel (r,g,b) →(Y,Cb,Cr)

Farbraum-wechsel

Originalbild

(r,g,b)

Y

Cb

Cr

Luminanz

Chrominanz

+0,299 +0,587 +0,114+0,1687 −0,3313 +0,5

+0,5 −0,4187 −0,081

⎜ ⎜ ⎜

⎟ ⎟ ⎟ ⋅

rgb

⎜ ⎜ ⎜

⎟ ⎟ ⎟

=

YCb

Cr

⎜ ⎜ ⎜

⎟ ⎟ ⎟

Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung

21

Page 24: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

JPEG Komprimierung - Ablauf(2) Chroma Subsampling

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Y-Pixel

Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung

22

Page 25: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

JPEG Komprimierung - Ablauf(2) Chroma Subsampling

Cr-Pixel

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Y-Pixel

Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung

22

Page 26: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Cb-Pixel

JPEG Komprimierung - Ablauf(2) Chroma Subsampling

Cr-Pixel

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Y-Pixel

Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung

22

Page 27: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Cb-Pixel

JPEG Komprimierung - Ablauf(2) Chroma Subsampling

Cr-Pixel

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Y-Pixel

Statt 4·(r,g,b) 4·Y+1·(Cb+Cr)

4·(8+8+8)=96 Bit 4·8+(8+8)=48 Bit

Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung

22

Page 28: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

JPEG Komprimierung - Ablauf(2) Chroma Subsampling

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

4:4:4 – kein Subsampling

Luminanzpixel

Chrominanzpixel

4:2:2 – horizontales Subsampling um Faktor 2

Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung

23

Page 29: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

JPEG Komprimierung - Ablauf(2) Chroma Subsampling

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Luminanzpixel

Chrominanzpixel

4:1:1 – horizontales Subsampling um Faktor 4

4:2:0 – horizontales und vertikales Subsampling um Faktor 2

Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung

24

Page 30: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

JPEG Komprimierung - Ablauf(2) Chroma Subsampling

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

4:2:0 Subsampling285 KB

Original PNG968 KB

Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung

25

Page 31: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)

•versetzt einzelne Helligkeitswerte von Ortsraum in Frequenzraum

•Jede Komponente (Y,Cb,Cr) wird separat transformiert

•Bild wird dazu in Blöcke 8x8-Pixel zerlegt

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

(0,0)

(7,7)8x8 Block

DCT

F(0,0)

F(7,7)

transformierter 8x8 Block

Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung

26

Page 32: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)

•Das Prinzip der Fouriertransformation:Jede periodische Funktion lässt sich als Summevon Sinus- und Cosinus-Funktionen darstellen.

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Jean-Babtiste Joseph Baron de Fourier

(1768-1830)

Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung

27

Page 33: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)

•Das Prinzip der Fouriertransformation:Jede periodische Funktion lässt sich als Summevon Sinus- und Cosinus-Funktionen darstellen.

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Jean-Babtiste Joseph Baron de Fourier

(1768-1830)

A

x

Ortsraum

Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung

27

Page 34: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)

•Das Prinzip der Fouriertransformation:Jede periodische Funktion lässt sich als Summevon Sinus- und Cosinus-Funktionen darstellen.

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Jean-Babtiste Joseph Baron de Fourier

(1768-1830)

A

x

Ortsraum

Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung

27

Page 35: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)

•Das Prinzip der Fouriertransformation:Jede periodische Funktion lässt sich als Summevon Sinus- und Cosinus-Funktionen darstellen.

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Jean-Babtiste Joseph Baron de Fourier

(1768-1830)

A

f

Frequenz-Spektrum

A

x

Ortsraum

Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung

27

Page 36: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT)

Frequenzraum

uv

F(u,v)

• Jeder Punkt bezeichnet Anteil einer bestimmten Frequenz

• F(0,0) - niedrigste Frequenz• F(7,7) - höchste Frequenz

Niedrige Frequenz = langsame ÄnderungHohe Frequenz = rasche Änderung

„natürliche“ Bilder besitzen viele kontinuierliche Farb-/Helligkeitsübergänged.h. Hauptanteil der Bildinformation liegt in den niedrigen Frequenzen

Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung

28

Page 37: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT)

45 5045 45 50

50 5045

50

53

56

56

56

5653 53

535350

58 48

43 48

48

43 48 61 63

68 504858

45 48 56

56

50 45

48

6168

61

61

61

61

63

53635656

56 56

50

50

53

53 53

45 5050 61 61

58

48

425 -6-25 -5

-1 -710

9

-4

0

3-15

-3

-17 0

-5

-3 -3 4

-3

0 0 0 -1

4

1-43

-8 3

3

1

4

2

-3 2 -1

5

-6

DCT

Orts

raum

Freq

uenz

raum

-15

3

4

-6

-2-10

13

10

0 -22

4

6 66

1

0

3

2

-4

-3

-3

0 4

Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung

29

Page 38: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT) - Quantisierung

Hohe Frequenzenwerden entfernt

Niedrige Frequenzenbleiben erhalten

Qua

ntis

ieru

ngsm

atrix

– Q

(u,v

)1 11 1 8

1 41

2

16

4

4

8

161 4

888

1 16

1 1

2

1 1 4 8

16 16168

4 8 8

8

8 16

4

3216

16

64

32

32

32

3216168

8 8

8

4

8

8 16

16 328 8 16

16

8

Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung

30

Page 39: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT) - Zig-Zag-Encodierung

DC

Mittelwert

Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung

31

Page 40: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT) - Zig-Zag-Encodierung

DC

Mittelwert

Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung

31

Page 41: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT) - mod. Huffman Kodierung

• Kodierung variabler Länge mit fester Kodierungsvorschrift• Zusammenfassung von Null-Ketten mit Lauflängenkodierung (RLE-Kodierung)

Bits Wertebereich1 -1, +1

2 -3,-2, +2,+3

3 -7…-4, +4…7

4 -15…-8, 8…15

5 -31…-16, 16…31

6 -63…-32, 32…63

7 -127…-64, 64…127

8 -255..-128, 128…255

9 -511…-256, 256…511

Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung

32

Page 42: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

JPEG Komprimierung - Ablauf•

Farbraum-wechsel

DiskreteCosinus-

Transformation

Chroma-Subsampling

Quantisierungmodifizierte

HuffmanKodierung

Originalbild komprimiertes Bild

schwächereFarbempfindlichkeitdes menschlichenAuges

Filterung von Bildanteilenmit starken Kontrastschwankungen

Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung

33

Page 43: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT) - mod. Huffman Kodierung

Quality : 90%Size: 21,868 bytes

Quality : 50%Size: 9,096 bytes

Quality : 10%Size: 3,519 bytes

Quality : 100%Size: 54,124 bytes

Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung

34

Page 44: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

35

Multimedia Analyse-Technologien

1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)

2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)

3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)

4. Visuelle Analyse

1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)

2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)

3. Analysemethoden (analytische Methoden, Lernverfahren)

4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )

5. SEMEX Demo

6. naive Verfahren zur Key-Frame Extraction

35

Page 45: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Videokodierung und Bewegungswahrnehmung•Grundlagen

•Video (Film):kontinuierliche Abfolge von aufeinander folgenden Einzelbildern, die aufgrund der Netzhautträgheit des Menschen als zusammen-hängende, bewegte Sequenz erscheint.

•Netzhautträgheit:das von der Netzhaut (Retina) wahrgenommene Bild bleibt für 1/16s auf dieser bestehen, ehe es verlischt

•Kodierung einer Video(Film)sequenz erfordert sehr viel Speicherplatz

•Bild und Ton müssen synchron ablaufen

•erfordert hohe Bandbreite

Multimedia-Analyse-Technologien3. Videokodierung und Kompression

36

Page 46: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Videokodierung und Bewegungswahrnehmung•Analoge Videotechnik

•Farbfernsehen – PAL

•PAL (Phase Alternation Line, Europa) sendet mit Bildwiederholfrequenz von 25 Hz und einer Bildauflösung von 720x576 Pixeln, wobei 2 gegenseitig verschränkte Halbbilder mit im Takt von jeweils 1/50s gesendet werden

gerade Zeilen ungerade Zeilen

+

1/50s 1/50s

=

1/25s

PAL interlaced

Multimedia-Analyse-Technologien3. Videokodierung und Kompression

37

Page 47: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Videokodierung und Bewegungswahrnehmung•PAL (SD576i)- notwendige Bandbreite

•Bildauflösung: 720 x 576 Pixel

•Bildwiederholfrequenz: 25 Hz

•Farbtiefe: 8 Bit

•Subsampling: 4:2:2

•Benötigte Bandbreite: 720 x 576 x 25 x 8 + 2 x (360 x 576 x 25 x 8) = 166 Mbps

Luminanz Chrominanz

Multimedia-Analyse-Technologien3. Videokodierung und Kompression

38

Page 48: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Videokodierung und Bewegungswahrnehmung•HDTV (HD1080p) - notwendige Bandbreite

•Bildauflösung: z.B. 1920 x 1080 Pixel

•Bildwiederholfrequenz: bis 60 Hz

•Farbtiefe: 8 Bit

•Subsampling: 4:2:2

•Benötigte Bandbreite (Beispiel): 1920x1080x60x8 + 2x(960x1080x60x8) = 1,99 Gbps

Multimedia-Analyse-Technologien3. Videokodierung und Kompression

39

Page 49: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Prediktive Kodierung•Ausnutzung von inhärenten Redundanzen in Videosequenzen

•z.B. Hintergrund statisch, nur Objekt im Vordergrund bewegt

•Objekte und Objektbewegungen müssen erkannt werden

•Bewegung kann als Grauwertveränderungder Position von Bildpunkten definiert werden

•Bei fester Kameraeinstellung ändert sich derBildinhalt durch Bewegung der Objekte in der Szene

•Verfahren zur Bewegungsprädiktion:

• Vorhersage ohne semantischen Kontext

• Modellbasierte Verfahren, z.B. bei Videotelefonie, Nachrichtensprecher, etc.

• Objekt-/Regionenbasierte Verfahren, d.h. Bildsegmentierung und Extraktion von Objekten

Multimedia-Analyse-Technologien3. Videokodierung und Kompression

40

Page 50: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Prediktive Kodierung•Block-Matching

Referenzbild RIn-k

• Annahme:

• benachbarte Bildpunkte führen die gleiche Bewegung aus.

• Vorgehen

• Unterteile das vorherzusagende Bild In in gleich große Blöcke (Segmente)

• Für jedes Segment bestimme im Referenzbild RIn-k einen Block mit möglichst gleichem Inhalt

Originalbild In

Multimedia-Analyse-Technologien3. Videokodierung und Kompression

41

Page 51: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Prediktive Kodierung•Block-Matching

Referenzbild RIn-k

• Vorgehen (Fortsetzung):

• Ist ein passendes Segment gefunden, bestimme den Verschiebevektor v=(vx,vy)

• Vollständige Prädiktion ist nur möglich, wenn für jedes Segment in In ein passender Block im Referenzbild gefunden wird.

• Das Prädiktionsbild PIn wird wie eine Collage aus den gefundenen Segmenten des Referenzbildes zusammengesetzt und sieht bei erfolgreicher Prädiktion dem Originalbild In sehr ähnlich.

Originalbild In

v

Multimedia-Analyse-Technologien3. Videokodierung und Kompression

42

Page 52: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Video Codecs und Komprimierverfahren

Codec Komprimierungs-verfahrenDatencontainer implementiertverpackt kodierte

Daten in

WMV9

DivXRealVideo

XviD

h.261

h.263

MPEG 1

MPEG 2

MPEG 4

h.264

avi

RealMedia

mpg

ogm

mkv

vobasf QuickTime Nero

HDX4mp4

Multimedia-Analyse-Technologien3. Videokodierung und Kompression

43

Page 53: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Videokomprimierung nach MPEG•MPEG - Moving Pictures Experts Group

•eigentlich ISO/IEC JTC1/SC29/WG11

•seit 1988, ca. 360 Mitglieder aus Industrie/Forschung

•MPEG-1 Standard 1992

•VCD, MP3-Audiokomprimierung

•Datenrate 1,5 Mbps erfordert Komprimierung von >100:1

•MPEG-2 Standard 1995

•Digitalfernsehen (DVB), DVD

•MPEG-3 Standard in MPEG-2 integriert (HDTV)

•MPEG-4 Standard 1999

•Interaktives Audio und Video über drahtlose Netze und Internet

•HDTV, DRM, komplexe Objektverwaltung

Multimedia-Analyse-Technologien3. Videokodierung und Kompression

44

Page 54: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

MPEG-1 Videokodierung - Prinzipieller Ablauf•

Farbkonversionnach YCrCb

DCTTransformation Quantisierung Lauflängen

KodierungBlock-

vergleich

Videoeinzelbilder

Referenz-bild

HuffmanKodierung

RGB YUV

YUV Fehler-/Differenzwerte DCT-Werte quantisierte

DCT-WerteNullen

unterdrückt

Codevariabler Länge

MPEG Bitstrom

InverseQuantisierungInverse DCT

quantisierteDCT-Werte

DCT-WerteYUV

Multimedia-Analyse-Technologien3. Videokodierung und Kompression

45

Page 55: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

MPEG-1 Videokodierung - Datenstrom Struktur•

Videosequenz

Group of Pictures

Einzelbild

Slice

Makroblock

16 x 16 Pixel

Block

8 x 8 Pixel

Multimedia-Analyse-Technologien3. Videokodierung und Kompression

46

Page 56: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

MPEG-1 Videokodierung •Farbraumkonvertierung → YCrCb (4:2:2)

•Aufteilung der Einzelbilder in Zeilenabschnitte (Slices) und Makroblöcke

•16 x 16 Pixel Luminanz (Makroblock)

• 8 x 8 Pixel Chrominanz (Block)

•Bewegungsvorhersagealgorithmus

•Vergleiche Luminanzmakroblöcke aufeinander folgender Einzelbilder

•Ortsveränderungen von Luminanzmakroblöcken werden über Vektoren kodiert

•Qualität abhängig von Suchraumgröße

Multimedia-Analyse-Technologien3. Videokodierung und Kompression

47

Page 57: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

MPEG-1 Videokodierung •Farbraumkonvertierung → YCrCb (4:2:2)

•Bewegungsvorhersagealgorithmus

•DCT – Transformation

•Unterscheide Einzelbildvarianten:

•Intra-Frame (I-Frame)vollständiges Einzelbild, keine Bewegungsvorhersage, stets erstes Bild einer Sequenz (Standbild)

•Predictive Frame (P-Frame)nutzt zusätzlich Bewegungsvorhersage, bezieht sich auf vorhergehendes I-Frame

•Bidirectional Frame (B-Frame)Bewegungsvorhersage, bezieht sich auf vorhergehendes/nachfolgendes P-/I-Frame

Multimedia-Analyse-Technologien3. Videokodierung und Kompression

48

Page 58: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

MPEG-1 Videokodierung •Frametypen

•I-Frame muss nach spätestens 12 Frames wieder folgen

•Reihenfolge und jeweilige Wiederholungsanzahl der einzelnen Framessonst nicht vorgeschrieben

Zeit

I B B B P B B B P B B B P B B B I

Multimedia-Analyse-Technologien3. Videokodierung und Kompression

49

Page 59: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

MPEG-1 Videokodierung •P-Frame Kodierung

Referenz-Frame Ziel-Frame

Multimedia-Analyse-Technologien3. Videokodierung und Kompression

50

Page 60: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

MPEG-1 Videokodierung •P-Frame Kodierung

Referenz-Frame Ziel-Frame

Multimedia-Analyse-Technologien3. Videokodierung und Kompression

50

Page 61: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

MPEG-1 Videokodierung •P-Frame Kodierung

Referenz-Frame Ziel-Frame

1. Suche Best Match

Multimedia-Analyse-Technologien3. Videokodierung und Kompression

50

Page 62: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

MPEG-1 Videokodierung •P-Frame Kodierung

Referenz-Frame Ziel-Frame

2. Verschiebungsvektor1. Suche Best Match

Multimedia-Analyse-Technologien3. Videokodierung und Kompression

50

Page 63: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

MPEG-1 Videokodierung •P-Frame Kodierung

Referenz-Frame Ziel-Frame

2. Verschiebungsvektor1. Suche Best Match

3. Differenzbildung

-

Multimedia-Analyse-Technologien3. Videokodierung und Kompression

50

Page 64: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

MPEG-1 Videokodierung •B-Frame Kodierung

Past Referenz Ziel-Frame Future Referenz

- ( + )/2

Multimedia-Analyse-Technologien3. Videokodierung und Kompression

51

Page 65: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

MPEG-1 Videokodierung •B-Frame Kodierung

Past Referenz Ziel-Frame

1. Suche Best Match

Future Referenz

- ( + )/2

Multimedia-Analyse-Technologien3. Videokodierung und Kompression

51

Page 66: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

MPEG-1 Videokodierung •B-Frame Kodierung

Past Referenz Ziel-Frame

1. Suche Best Match2. Verschiebungsvektoren

3. Differenzbildung

Future Referenz

- ( + )/2

Multimedia-Analyse-Technologien3. Videokodierung und Kompression

51

Page 67: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

MPEG-1 Videokodierung •Typische Kompressionsfaktoren (SD576)

Frame Size Rate

I 92 kB 7:1

P 32 kB 20:1

B 13 kB 50:1

average 26 kB 25:1

Multimedia-Analyse-Technologien3. Videokodierung und Kompression

52

Page 68: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

MPEG-1 Videokodierung •MPEG Datenstrom

Sequence…SequenceSequence

GOP…GOPQTsStrParVidParSqc SC

Pict…PictGOPParTCodeGOP SC

Slice…SliceSliceEncodeBufferTypeP SC

MB…MBQscaleVPosS SC

… b5b0CBPQScaleMVTypeAddrln

Sequence Layer

Group of PicturesLayer

Picture Layer

Slice Layer

Macroblock Layer

Block Layer

Multimedia-Analyse-Technologien3. Videokodierung und Kompression

53

Page 69: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

54

Multimedia Analyse-Technologien

1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)

2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)

3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)

4. Visuelle Analyse

1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)

2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)

3. Analysemethoden (analytische Methoden, Lernverfahren)

4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )

5. SEMEX Demo

6. naive Verfahren zur Key-Frame Extraction

54

Page 70: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

55

Multimedia Analyse-Technologien

1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)

2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)

3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)

4. Visuelle Analyse

1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)

2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)

3. Analysemethoden (analytische Methoden, Lernverfahren)

4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )

5. SEMEX Demo

6. naive Verfahren zur Key-Frame Extraction

55

Page 71: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Verfahren zur Bildbearbeitung und Bildanalyse (Low-Level)•Punktweise-Bildbearbeitung (Binärbilder, Grauwerttransformation)

•Lineare lokale Filter (LSI-Filter, Faltung, Laplace & Co.)

•Nichtlineare lokale Filter (Erosion, Dilatation, Rangordnungsfilter)

•Konturen (Kantenrichtung)

•Bildsegmentierung (Skeleton)

•Optical Flow

•Bildtransformationen (diskrete Fourier-Transformation, Cosinus-Transformation)

•...

Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing

56

Page 72: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

G{0, .., 255}→ B{0, 1}

g(x, y) =

�1, if f(x, y) >= T

0, OtherwiseT = threshold

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Binärbild: Das Bild bestehen aus zwei Farben (z.B. Schwarz und Weiß)

Binarisierung:

T = 128

T = 80

cv.Threshold(...)

Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing

Binarisierung

57

Page 73: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Ir,g,b(x, y) → Ig(x, y) = 0.299 ∗ Ir + 0.587 ∗ Ig + 0.114 ∗ Ib

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

cv.cvtColor(img, img, CV_RGB2gray);

Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing

Grauwerttransformation

Überführen eines RGB-Bildes in einGrauwertbild (mit z.B. 256 Grauwerten).

58

Page 74: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

cv.Filter2D(src, dst, kernel)

Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing

Faltung (Convolution)

Pixel für Pixel wird aus der Nachbarschaft (definiert durch den Faltungs-Kern) der neue Wert für den Pixel im resultierenden Bild berechnet.

Image: https://developer.apple.com/

59

Page 75: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

BildFaltungsbereich

Ableitung

cv.Sobel(src, dst, xorder, yorder, apertureSize = 3)

Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing

Faltung (Convolution): Sobel Operator

60

Page 76: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

45 44 4839 255 50

42 51 54

3942444548505154255

Ähnlich wie Faltung, benutzt jedoch eine Sortieroperation.

Wahl der Position bestimmt die Art des Rangordnungsfilters (z.B. Median)

Faltungsbereich

Median

Median

cv.MedianBlur(src, dst, size)

Rangordnungsfilter: Median

Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing

Median Filter:

•3x3 Nachbarschaft

•Kantenerhaltend

•Robustheit gegen Ausreißer

61

Page 77: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Dilatation: Faltung des Bildes durch Maximum Rangordnungsfilter

Erosion: Faltung des Bildes durch Minimum Rangordnungsfilter

Opening: Erosion und Dilatation(kleine helle Strukturen Filtern)

Closing: Dilatation und Erosion (kleine dunkle Strukturen filtern)

BEB DB

DB CB=EDB EEDB OCB=DEEDB

cv.Dilate(image,image,element,2)cv.Erode(image,image,element,2)

Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing

Morphologische Operationen: Dilatation, Erosion

62

Page 78: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Die Kantenrichtung ermittelt sich aus der Richtung (bzw. dem Winkel) des stärksten Anstiegs des Gradienten

Gradient Berechnung mittels Sobel Filter :

Richtung des Gradienten:

vgl. OpenCV motion analysis and object tracking

Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing

Kantenrichtung

63

Page 79: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Berechnung einer innere Skelettlinie von einen flächenhaften Bildobjekt

Berechnung: Distanzfunktion D(x,y) die den Abstand eines inneren Punktes (x,y) zu dem naheliegendsten Randpunkt angibt.

Mittelachse Definition:Punkte p, für die D(p) ein lokales Maximum in einer bestimmten Richtung ist.

Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing

Skelletierung (Sceleton)

64

Page 80: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

65

Multimedia Analyse-Technologien

1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)

2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)

3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)

4. Visuelle Analyse

1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)

2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)

3. Analysemethoden (analytische Methoden, Lernverfahren)

4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )

5. SEMEX Demo

6. naive Verfahren zur Key-Frame Extraction

65

Page 81: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Multimedia Analyse-Technologien4. Visuelle Analyse: Features

Analyse Features und Invarianten•Histogramme

•Entropie

•Local Binary Pattern

•Distanzmaße

•uvm.

66

Page 82: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

h = Höhe, b = Breite des Bildes

Definitionsmenge (Grauwert) :

Wertebereich entspricht dann der Größe des Bildes:

Der Wert des Histogramms H an der Stelle i gibt an,wie viele Pixel des Bildes die Intensität i haben

•(graphische) Darstellung der Häufigkeitsverteilung metrisch skalierter Merkmale•Grauwert-Histogramm beschreibt die Grauwert Verteilung in einem Bild

Multimedia Analyse-Technologien4. Visuelle Analyse: Features

Histogramme

67

Page 83: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

•RGB-Histogramm

•Kantenrichtungs-Histogramm / Histogram of Oriented Gradients (HOG)

•Optical Flow Histogramm•

Histogramme sind invariant gegenüber:•Rotation•Translation (Verschiebung)

Histogramme

Multimedia Analyse-Technologien4. Visuelle Analyse: Features

68

Page 84: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

• Maß für den Informationsgehalt einer Nachricht

Definition Entropie:

pi = normalisierte Häufigkeit des Grauwertes i

Merkmale :

• minimal bei homogenen Bildern

• maximal bei gleich verteilten Grauwert Häufigkeiten

Multimedia Analyse-Technologien4. Visuelle Analyse: Features

Entropie

69

Page 85: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

23 57 8912 50 2455 20 11

0 1 10 01 0 0

1 2 48 1632 64 128

LBP=2+4+32=38

Table 1: Local Binary Pattern (LBP) feature

LBP (x, y) =7�

n=0

Se(in − ic) ∗ 2n (1)

Se(x) =

�1, x >= 00, x < 0

(2)

•Texture Filter invariant zu monotonen Grau-Level-Änderungen

•Parameter unabhängig

Bildquelle Vergleichsoperation (2) Nominierung 2^n Ergebnis LBP Operator (1)

Punktoperation mit 3x3 Nachbarschaft:

Vergleichsoperation des aktuellen Punktes:

Multimedia Analyse-Technologien4. Visuelle Analyse: Features

Local Binary Pattern (LBP)

70

Page 86: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Histogramm-Differenz:

Pixel-Differenz (Norm):

Earth-Movers-Distance (EMD):

Multimedia Analyse-Technologien4. Visuelle Analyse: Features

Distanzmaße• werden zum Beispiel für Ähnlichkeitsbetrachtungen benötigt

71

Page 87: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

72

Multimedia Analyse-Technologien

1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)

2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)

3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)

4. Visuelle Analyse

1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)

2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)

3. Analysemethoden (analytische Methoden, Lernverfahren)

4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )

5. SEMEX Demo

6. naive Verfahren zur Key-Frame Extraction

72

Page 88: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

•Anwendung zum Beispiel bei der Binarisierung von Bildern

•Globale Schwellwertverfahren

• Das gesamte Signal (z.B. Bild) wird berücksichtigt.

• Genau ein Schwellwert wird (manuell) festgelegt.

•Lokale Schwellwertverfahren

• Das Signal wird in Regionen unterteilt.

• Für jede Region wird ein Schwellwert festgelegt.

•Dynamische Schwellwertverfahren

• Weiterentwicklung des lokalen Verfahrens.

• Die Nachbarschaft der Region wird berücksichtigt.

• Der Schwellwert wird aufgrund der Nachbarschaft automatisch festgelegt.

Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden

Schwellwertverfahren

73

Page 89: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

•Ziel: optimale Parameter für ein komplexes System finden

•optimal heisst: eine bestimmte Zielfunktion wird maximiert oder minimiert

• lokale Optimierung: finde nächstgelegene Maximum/Minimum

•globale Optimierung: finde das absolute Maximum/Minimum

•im Allgemeinen werden komplexe mathematische Verfahren gewählt, die die Topologie der Zielfunktion berücksichtigen

•die einfachste Methode sich der optimalen Lösung zu nähern, ist das “Abrastern”

•also das systematische Ausprobieren aller möglichen Parameterkombinationen

Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden

Parameter-Optimierung

74

Page 90: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

•Lernen: induktives Schließen durch Beobachten von Beispielen, die eine unvollständige Information repräsentieren

•Unüberwacht (unsupervised): Suche nach Regularitäten/Mustern in beobachteten Beispielen, Bsp.: Suche nach Ausreißern (mit Hilfe von Clustering)

•Überwacht (supervised): Jedes beobachtete Beispiel trägt ein Label, Ziel des Lernens ist es, dieses Label auf unbeobachtete Fälle zu übertragen (Generalisieren statt Erinnern), Bsp: Klassifikation

Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden

Maschinelle Lernverfahren

75

Page 91: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

• K-Nearest-Neighbor

• Stimmenmehrheit der k ähnlichsten Beispiele

• Linear Discriminant Analysis (LDA)

• Minimiert Intra-Klassen Varianz und maximiert Distanz (”Unähnlichkeit”) zwischen zwei Klassen

Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden

Maschinelle Lernverfahren

76

Page 92: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

•Neuronale Netze

• Können jede beliebige Zielfunktion approximieren

• Neuron: gewichtete Summe aus Eingaben, nicht-lineare Funktion der Summe als Ausgabe

• Decision Trees

Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden

Maschinelle Lernverfahren

77

Page 93: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

•Support Vector Machines (SVM)

• Large Margin Optimizer: Generalisierbarkeit

• Nicht-lineare Probleme können gelöst werden

Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden

Maschinelle Lernverfahren

78

Page 94: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

79

Multimedia Analyse-Technologien

1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)

2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)

3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)

4. Visuelle Analyse

1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)

2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)

3. Analysemethoden (analytische Methoden, Lernverfahren)

4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )

5. SEMEX Demo

6. naive Verfahren zur Key-Frame Extraction

79

Page 95: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Structural Video Analysis

80

Page 96: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Structural Video Analysis

video

• Decomposition of time-based media into meaningful media fragments of coherent content that can be used as basic element for indexing and classification

scenes

shots

subshots

frameskey frames

81

Page 97: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

•Shot Boundary Detection

• Automated Identification of• Hard Cuts• Defects, as e.g.,

• Drop Outs, White Outs, etc.• Soft Cuts, as e.g.,

• Fade-In/Out, • Dissolve, Wipe, Cross-Fade, etc.

• Automated Structural Analysis based on• Analytical Shot Boundary Detection• Machine Learning Based Shot Detection

time

Structural Video Analysis

82

Page 98: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

• Shot Boundary Detection• Automated Identification of

Hard Cuts based on

• Luminance/ChrominanceHistogram Differences & Derivatives

• Edge Distribution/Density

576 577 578575574573

Structural Video Analysis

83

Page 99: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Hardcut: if and is true for all Subregions a

i i+1 i+2i-1i-2i-3

1 2

3 4

tha(i) = α ·

i+W−1�

k=i−W

Da(k, k − 1)

−Da(i, i− 1)

+ β

Da(i, i− 1) > thα(i)

Da(i+ 1, i) < thα(i)

1

Window Size=4 (W=2)

Decompose Frame into a=4 Subregions

Da(i,i-1) ... Histogram Difference (L2-norm) between Frames i and i-1 of Subregion a

tha(i) ... adaptive Threshold for Frame i of Subregion a

Adaptive Threshold

tha(i) = α ·

i+W−1�

k=i−W

Da(k, k − 1)

−Da(i, i− 1)

+ β

Da(i, i− 1) > thα(i)

Da(i+ 1, i) < thα(i)

1

tha(i) = α ·

i+W−1�

k=i−W

Da(k, k − 1)

−Da(i, i− 1)

+ β

Da(i, i− 1) > thα(i)

Da(i+ 1, i) < thα(i)

1

Structural Video Analysis

84

Page 100: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

• Shot Boundary Detection / Defect Analysis• Automated Identification of Defects

Drop Out

Histogram/Chrominance Difference Analysis

Flashlight / White Out

Histogram/Chrominance Difference Analysis

Structural Video Analysis

i i+10i+9i+8 i+11 i+12 i+13i+1

85

Page 101: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

• Shot Boundary Detection

• Automated Identification of Soft Cuts, , as e.g. Fade Out / Fade In

• Features applied for machine learning:

• luminance histogram (Fade In / Fade Out)• luminance average Yµ

and luminance variance Yσ2 follow distinct patterns

• image decomposition

• component-based analysis to distinguish regional and global changes in image content

• entropy

• motion vectors

1 2 3

4 5 6

7 8 9

Structural Video Analysis

86

Page 102: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

• Shot Boundary Detection

• Automated Identification of Soft Cuts, , as e.g. Fade Out / Fade In

• Features deployed for machine learning:

• luminance/chrominance histogram

• entropy

• motion vectors• image decomposition

• compute average motion vectors for all areas

• identify camera movements(zoom, pan, etc.) andmoving objects

1 2

3 4

Structural Video Analysis

87

Page 103: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Intelligent Character Recognition

88

Page 104: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

• Preprocessing

• Character Identification

• Text Preprocessing

• Text Filtering

• Adaption of script geometry (Deskew)

• Image Quality Enhancement

• Optical Character Recognition (OCR)

• Standard OCR software (OCRopus)

• Postprocessing

• Lexical analysis

• Statistical / context based filtering

Rostock

Text Filtering

Image QualityEnhancement

OCR

Intelligent Character Recognition

89

Page 105: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

• Character Identification• Robust filter to extract text candidate frames

• 25 fps results in 90.000 frames per 60 min

• too expensive for single frame preprocessing & OCR

• fast and robust text identification for preprocessing

TTTTT T TT T T

Frame Frame with CandidateTextboxes

Intelligent Character Recognition

90

Page 106: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Features used for Character Identification:• Edge Based Detection

• DCT

• Fourier Transformation

• Sobel-/Canny Edge Filter

• Histogram of Oriented Gradients (HOG)

• Constant Gradient Variance (CGV)

• Texture Based Detection

• Local Binary Patterns (eLBP)

• Spatial Variance

• Region Based Detection

• Connected Component Analysis (cvBlobs)

• Stroke Width Analysis (SWA)

Intelligent Character Recognition

91

Page 107: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

• Analytical Textbox Filtering• Horizontal & Vertical Projection Profile

• Stroke Width Analysis Based Verification

Frame with Verified

Textboxes

Frame with CandidateTextboxes

Intelligent Character Recognition

92

Page 108: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Analytical Edge Based Character Identification

Intelligent Character Recognition

93

Page 109: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Analytical Edge Based Character Identification

Intelligent Character Recognition

94

Page 110: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Character Binarization

Original Video

Frames

TextboxQuality

Enhancement

TextboxNormalization

andBinarization

Intelligent Character Recognition

95

Page 111: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Character Binarization• Skeleton Mapping

Intelligent Character Recognition

96

Page 112: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Standard Optical Character Recognition• OCRopus 0.4.4 (Open Source, Apache License v2.0)

• Tesseract 3.01 (Open Source, Apache License v2.0)

Quality EnhancedNormalized Textboxes

Ueutsche Bank

Weubrandenburg

Raw OCR Results

Intelligent Character Recognition

97

Page 113: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

OCR Post Processing• OCR-adapted Spell Correction (hunspell 1.3.2, OPen Source GNU lGPL)

• Kontextbasierte Spell Correction (siehe kontextbasierte Named Entity Recognition, AP 4.1.5)

Deutsche Bank

Neubrandenburg

OCR Results after Spell Correction

Ueutsche Bank

Weubrandenburg

Raw OCR ResultsOCR-adapted

hunspell

Intelligent Character Recognition

98

Page 114: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Face DetectionFace TrackingFace Clustering

99

Page 115: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

• Face DetectionDetektion von Gesichtern in Einzelbildern

• Kaskade unterschiedlicher Filter

lbpcscade

haarcscade

libface

Face Detection Tasks

100

Page 116: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

• Face TrackingVerfolgung eines detektierten Gesichts in einer Szene innerhalb eines Videos

• probabilistische Mappingkriterien:

• Zentrumsdistanz der aufeinanderfolgenden Bounding Boxes

• Überlappungsfläche der aufeinanderfolgenden Bounding Boxes

• Größenänderung aufeinanderfolgender Bounding Boxes

Face Detection Tasks

101

Page 117: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

• Face ClusteringGruppierung der entdeckten Gesichter in einem Video nach Ähnlichkeitskriterien

Face Detection Tasks

102

Page 118: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

• Face ClusteringGruppierung der entdeckten Gesichter in einem Video nach verschiedenen Ähnlichkeitskriterien

• Bounding Box Extension:

• Einbeziehung von Bereichen oberhalb (Haare) und unterhalb (Kleidung) der Bounding Box in die Feature Extraktion

• Feature Extraction:

• Texturbasierte Features (eLBP, GVC)

• Farbbezogene Features (Chrominanz Histogramme)

• Clustering:

• Bestimmung der Clusteranzahl k (via Silhuettenkoeffizient-Optimierung)

• k-means Clustering / Mean Shift Clustering / Hierarchical Clustering

Face Detection Tasks

103

Page 119: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Visual Concept Detection

104

Page 120: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

• Adaption des ,Bag of Words‘ Ansatzes aus dem Textretrieval

• Dictionary/Codeword Vocabulary

• Sätze werden als Vektoren über Dictionary dargestellt

Visual Concept Detection

105

Page 121: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

• Adaption des ,Bag of Words‘ Ansatzes aus dem Textretrieval

• Dictionary/Codeword Vocabulary

• Sätze werden als Vektoren über Dictionary dargestellt

• Diskretisierung eines Einzelbildes mit Hilfe der Codewörter

Visual Concept Detection

106

Page 122: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

• Adaption des ,Bag of Words‘ Ansatzes aus dem Textretrieval

• Dictionary/Codeword Vocabulary

• Sätze werden als Vektoren über Dictionary dargestellt

• Diskretisierung eines Einzelbildes mithilfe der Codewörter

• Repräsentiere Einzelbild als Histogramm der 4000 Codewortfrequenzen

• Konzeptzuordnung durch maschinelles Lernverfahren (hier Support Vector Machines)

Visual Concept Detection

107

Page 123: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Mediaglobe Related Concepts• Konzepte, die in Mediaglobe erkannt werden sollen:

• Personen

• Porträt / Kleingruppe / Menschenmassen

• Day / Night

• Indoor / Outdoor

• Architektur:

• Brücken

• Baudenkmäler, wie z.B. Kirchen, Schlösser, Burgen

• repräsentative Einzeldenkmale (experimentell)

• Stadt / Natur

• Park / Felder / Grünflächen

• Wald / Gewässer / Gebirge

• Objekte

• Fahrzeuge (Auto / Bahn / Schiff / Flugzeug)

Visual Concept Detection

108

Page 124: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

109

Multimedia Analyse-Technologien

1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)

2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)

3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)

4. Visuelle Analyse

1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)

2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)

3. Analysemethoden (analytische Methoden, Lernverfahren)

4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )

5. SEMEX Demo

6. naive Verfahren zur Key-Frame Extraction

109

Page 125: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

110

Multimedia Analyse-Technologien

1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)

2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)

3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)

4. Visuelle Analyse

1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)

2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)

3. Analysemethoden (analytische Methoden, Lernverfahren)

4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )

5. SEMEX Demo

6. naive Verfahren zur Key-Frame Extraction

110

Page 126: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Idee: ■ Finde das Frame in einem Video-Segment, dass den geringsten

Abstand zu allen anderen Frames des Segments hat.

Also:

■ (1) das Durchschnittsframe D eines Segmentes berechnen

■ (2) alle Frames Fi mit D vergleichen (z.B. via L2-Norm)

■ (3) das Frame mit geringsten Abstand gewinnt

Multimedia Analyse-TechnologienNaive-Keyframe-Extraction

111

Page 127: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam

Literatur

• Gibbon, D. ; Liu, Z. : Introduction to Video Search Engines. Berlin : Springer, 2008

• Bradski, G. ; Kaehler, A. : Learning OpenCV. Beijing : O'Reilly, 2008

• Blog zur Webseite:http://mumat2012.blogspot.com/

Multimedia Analyse-Technologien

112