BTU Cottbus, Lehrstuhl Grafische Systeme Seminar Mustererkennung in Bildern und 3D-Daten Computer Vision, Einführung und Grundbegriffe der 3D-Datenverarbeitung

BTU Cottbus, Lehrstuhl Grafische SystemeSeminar „Mustererkennung in Bildern und 3D-Daten“

Computer Vision, Einführung und Grundbegriffe der 3D-Datenverarbeitung

Computer Vision

Einführung und Grundbegriffe der 3D- Datenverarbeitung

vonOliver Kammler

Seminar „Mustererkennung in Bildern und 3D-Daten“BTU Cottbus, Lehrstuhl Grafische Systeme

SS 2004



Inhalt

1. Einleitung2. Warum ist die automatische Objekterkennung

ein schwieriges Thema?3. Motivation und Bedeutung4. Klassifikation bestehender Systeme5. Zerlegung eines Problems6. Wichtige Aspekte der Objekterkennung7. Aufnahmesysteme8. Zusammenfassung9. Literaturverzeichnis



1. Einführung

Versuch, alle biologischen Prozesse technisch nachzubilden

z.B. - menschlicher Bewegungsapparat- Sprache - Wahrnehmung

Ziel:

Es soll ein System geschaffen werden, das den menschlichenWahrnehmungsprozess detailliert und naturgetreu nachbildet.



Computer Vision/ maschinelles Sehen:

„...beschäftigt sich mit den theoretischen und praktischen Grundlagen, mit denen nützliche Informationen über die Welt

aus Bildern oder Bildsequenzen automatisch extrahiert undanalysiert werden können...“

Wichtige Schritte:- extrahieren- charakterisieren- interpretieren



Anwendungsgebiete:

- Physiologie- Künstliche Intelligenz- Physik - Objekt- und Mustererkennung- Vermessungswesen

Problem:

Verständnis des menschlichen Wahrnehmungsvermögens



2. Warum ist automatische Objekterkennung ein schwieriges Problem?

Die genauen Abläufe des menschlichen Sehens sind noch nicht vollständig analysiert.

z.B. - Schwierigkeiten beim Nachbilden des Sehprozesses- Rotation des Auges- Stellung zum Objekt

Folge:- Probleme beim Erstellen von exakten mathematischen Formulierungen- Finden von effizienten Algorithmen



Durch die Psychologie haben wir ein grobes Verständnis von der Funktionsweise des menschlichen Gehirns.

Die Nachbildung eines Gehirns ist sehr schwer.

Grund:- Anzahl der Nervenzellen (10 Billionen)- komplizierte Vernetzung- Zusammenhang: Wahrnehmung, Denken und Wissen

Schwierigkeit:

Die vielfältigen Prinzipien des Sehens sind in demerforderlichen Umfang nicht parallel abarbeitungsfähig.

Abbildung 1: Beispiel für menschliche Wahrnehmung [2]



3. Motivation und Bedeutung

Industrie:

- Kontrollez.B. - Plan-Ist-

Qualitätskontrolle - visuelle Inspektion

- Sicherheitskontrollen

- Navigationz.B. - Roboternavigation

- Navigation durch ein Gebiet

anhand einer Planskizze

Abbildung 2: Serviceroboter

HERMES [2]



Gesellschaft:

- Medizinz.B. - Augenersatz

- Operationshilfen

- Kontrolle

- Alltagz.B. - Hilfen für

Haushalt

Landschaftsbau

Straßenverkehr...

Abbildung 3:

Verkehrsbeobachtung [3]



4. Klassifizierung bestehender Computer-Vision-Systeme

Module eines Computer-Vision-Systems:

1. Datenaufnahme, dieser Prozess liefert einsichtbares Bild (pixelidentisches Grauwertbild)

2. Vorverarbeitung, beschäftigt sich mit Techniken derReduktion (Rauschglättung) und

Tiefengewinnung3. Segmentierung, teilt ein Bild in Partitionen, die von

Interesse oder Belang sind 4. Beschreibung, beschäftigt sich mit der Berechnung von

Merkmalen für eine Unterscheidung5. Wiedererkennung, Objektidentifizierung und

Merkmalsextraktion z.B. bei Drehung, etc.



zwei Methoden, um von einem Problem zu einer Lösung zu gelangen:

Bottom-Up-Ansatz:

Allg. Annäherung, die aus den Daten des Sensors eine Skizze und eine

Beschreibung herleitet.z.B.: Theorie von Marr

Top-Down-Ansatz:

Anhand von definierten Objekten oder Objektgruppen werden in demBild oder der Bildsequenz diese Muster gesucht.

z.B. modellbasierte Objekterkennung



Theorie von Marr

3 Stufen eines Computer-Vision-Systems:

- Berechnungstheoriebeschreibt das Umfeld, z.B. Operationen, etc.

- Darstellung und Algorithmenbeschreiben detailliert die Berechnungen

- Implementation effizient berechenbare Umsetzung der

Algorithmen



Theorie von Marr

aus einer Szene wird ein Bild gewonnen

Extraktion von starken Veränderungen Form: Kanten und Pixelhaufen 2.5D, weil zwischen erster Skizze und 3D 2.5D, weil Tiefengewinnung bzw. Abstandsberechnung nur von sichtbaren Teilen Umwandlung in ein auswertbares Format Übertragung in ein Koordinatensystem zur Auswertung oder Identifikation

Bild

erste Skizze

2.5DSkizze

Referenz-struktur

Abbildung 4: Objekterkennung nach Marr



Modellbasierte Objekterkennung

Prinzip:- die 3D-Szene wird in ein 2D-Bild transformiert- die Pixel werden so gruppiert, dass sie die Natur des Bildes wiedergeben- Abgleich mit vorhandene Modellen- Ergebnisdarstellung

Transformation z.B. durch Verwendung von:

- Projektor (strukturiertes Licht)- Kamera



Modellbasierte Objekterkennung

- Erstellung von Modellen, die erkannt werden sollen- Anlegen einer Datenbank

Modell-Repräsentation

Objekt-Repräsentation

VergleichErgebnis-

darstellung

Datenbank

- Extrahieren von Daten aus einer Szene

- Datenvergleich, Objekterkennung

Modell-daten

Szene erkanntes

Objekt

Abbildung 5: modellbasierte

Objekterkennung



5. Zerlegung eines Problems

Ein 3D-Objekterkennungssystem besteht aus 3 Teilen:

ModellgewinnungFür jedes Objekt, dass in Betracht kommen könnte, muss einModell erstellt und in einer Datenbank abgelegt werden.

Erkennung Für jedes Objekt, dass von dem Sensor betrachtet wird, wird einAbgleich mit den Modellen der Datenbank durchgeführt.

Ergänzung Objekte, die nicht in der Datenbank verfügbar sind, werden in diese aufgenommen.



6. Wichtige Aspekte der Objekterkennung

Komplexität der Objektform- Anlehnung an geometrische Formen- je detaillierter die Form, desto schwieriger die Berechnungen- detaillierte Formen sollten das Ziel sein

Größe der Modelldatenbank- je größer die Modelldatenbank, desto länger der Prozess, um ein Objekt zu identifizieren.- Optimierung durch gute Suchalgorithmen

Lernfähigkeit- limitierte Anzahl von Modellen in der Datenbank- das System sollte in der Lage sein, neue Objekte, die mit keinem Modell aus der Datenbank übereinstimmen, zu ergänzen.



Modelleinteilung- Zusammenfassung von Objekten mit gleichen Eigenschaften- zwei Ebenen des Vergleichens: allgemein speziell

Informationserhaltende Repräsentation- diese Informationen werden benötigt, wenn das Originalobjekt aus der Objektrepräsentation wieder rekonstruiert werden soll

Verdeckung von Teilen- manche Szenen enthalten Objekte, die sich überlagern- es muss möglich sein, anhand von nur wenigen Eigenschaften ein Objekt zu erkennen

Veränderliche Objekte- es muss ein Annäherungsverfahren geben, das erlaubt, eine Dynamik von Objekten zu erkennen



7. Aufnahmesysteme

2D-Bilder

- die Aufgabe besteht darin, ein reales Objekt in eine digitale Form zu übertragen- es wird eine N x M Matrix erstellt, deren Einträge

z.B. Helligkeit oder Pixel symbolisieren können.

[0,0] [0,1] ... [0,M-1][1,0] [1,1] ... [1,M-1]

Matrix = ... ...... ...[N-1,0] [N-1,1] ... [N-1,M-1]



3D-Bilder

Beim menschliches Sehen gewinnen wir die Tiefeninformationendurch unsere zwei Augen. Gewinnung von Tiefeninformationen beim maschinellen Sehen

durch:

- Passive TiefengewinnungStandard-Stereogeometrie

- Aktive TiefengewinnungStrukturiertes LichtLauflängenverfahren

z.B. Ultraschall, Radar, Sonar



Standard-Stereogeometrie

- der Objektpunkt ist in der linken und rechten Projektion- Tiefenberechnung erfolgt mittels Triangulation

- d.h. aus zwei Kamera-

aufnahmen kann die

dritte Dimension

rekonsturiert werden

Abbildung 6: Basis- Stereogeometrie [5]



Strukturiertes Licht

- Projektion von strukturiertem Licht auf das Objekt- Aufnahme durch eine Kamera- aus den Linien können die 3D-Koordinaten berechnet werden

- ist nur in kontrollier-

baren Umgebungen

möglich

- Erfassung der

gesamten Ober-

flächenstruktur

Abbildung 7: Objekterkennung mittels

strukturiertem Licht [4]



Lauflängenverfahren

durch Verwendung von:- Radar- Laser- Ultraschall

Vorteile:- Tiefenvermessen des Umfeldes mit aktivem physikalischem Verfahren und relativ klar interpretierbaren Messwerten

Nachteile:- begrenzte Möglichkeiten einer umfassenden Szeneninterpretation- gegenseitige Störung bei hohem Ausstattungsgrad ?

Abbildung 8: Laserkamera [4]



Moiré-Technik

- mit Hilfe der Moiré-Technik ist es möglich, aus einer zweidimensionalen Aufnahme Tiefeninformationen zu gewinnen

- dazu wird die Szene mit Streifengittern beleuchtet, eines vor der Kamera und eines wird auf das Objekt projiziert

- die Form und Lage der Streifen erlauben eine Berechnung des Abstandes zur Kamera

- aus diesen Daten kann ein Bild rekonstruiert werden



8. Zusammenfassung

Maschinelles Sehen ist ein kompliziertes Problem:

- Nachbildung des menschlichen Wahrnehmungsvermögens- mathematische Umsetzung- effiziente Algorithmen und Genauigkeit

Wichtige Bestrebungen:- Gewinnung von Tiefeninformationen- realistische Abbildung der Wirklichkeit



9. Literaturverzeichnis

[1] M. Bennamoun, G. J. Mamic:„Object Recognition - Fundamentals and case studies“,Springer, London, 2002, S. 3-27

[2] V. Graefe, R. Bischoff:„Maschinelles Sehen zur Steuerung autonomer mobiler Systeme“,Universität der Bundeswehr, Münchenwww.unibw-muenchen.de/campus/LRT6/PDF/MaSteSy.pdf

[3] H. Winter:„Entwicklung visueller Sensorik für innovativeFahrerassistenzsysteme“ www.aglaia-gmbh.de/ videos/doc/Vortrag-IIR-2003-10-14-www.pdf



[4] M. Födisch, M. Horstmann, Th. Hermes:Vorlesung 3D-Bildverarbeitung 2,Universität Bremenwww.informatik.uni-bremen.de/~hermes/

lectures/ss04/10.05.2004.folien.pdf

[5] H. Bischof:”Robot Vision”TU Grazwww.icg.tu-graz.ac.at/~Education/Vorlesung/

MAB/Slides/robvis-3FR.pdf

Documents

BTU Cottbus, Lehrstuhl Grafische Systeme Seminar Mustererkennung in Bildern und 3D-Daten Computer Vision, Einführung und Grundbegriffe der 3D-Datenverarbeitung