19
Grundlagen der Bildverarbeitung Klaus D. Tönnies ein Imprint von Pearson Education München • Boston • San Francisco • Harlow, England Don Mills, Ontario • Sydney • Mexico City Madrid • Amsterdam

Grundlagen der Bildverarbeitung - bücher.de

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Grundlagen der Bildverarbeitung

Klaus D. Tönnies

ein Imprint von Pearson EducationMünchen • Boston • San Francisco • Harlow, England

Don Mills, Ontario • Sydney • Mexico CityMadrid • Amsterdam

ÜB

ER

BL

IC

K

3

Einflüsse bei der Bildaufnahme

3.1 Informationsreduktion bei der Aufnahme . . . . . . . . 473.1.1 Transformation und Projektion . . . . . . . . . . . . . . . . . . . . 473.1.2 Abtastung der Szene. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.2 Deterministische Einflüsse . . . . . . . . . . . . . . . . . . . . . . . . 513.2.1 Verschiebungsinvariante, lineare Operatoren . . . . . . . . . 513.2.2 Andere Operatoren. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.3 Stochastische Einflüsse. . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.4 Vertiefende und weiterführende Literatur . . . . . . . . 59

EINFLÜSSE BEI DER BILDAUFNAHME

46

3

Durch Bildinterpretation werden Daten auf der Basis einer Erwartungshaltung überden möglichen Bildinhalt erklärt. Dazu muss die Bedeutung des aufgenommenen undabgebildeten Signals bekannt sein. Das Signal sollte darüber hinaus nur die gesuchteInformation widerspiegeln. Dies ist aber nur unter idealen Bedingungen möglich. Inder Praxis unterliegt das Bildsignal einer Vielzahl von Einflüssen, durch die die Bild-information verändert wird. Diese lassen sich unterscheiden in

� informationsreduzierende Einflüsse, durch die ein Teil der Information verlorengeht. Aufgabe der Bildverarbeitung ist es, den Informationsverlust zu beziffern undunter Umständen durch zusätzliches Wissen auszugleichen.

� deterministische Einflüsse, die auf berechenbare und wiederholbare Veränderun-gen bei der Bildaufnahme zurückzuführen sind. Ziel ist es hier, die Veränderung zubeschreiben, nötigenfalls geeignet zu parametrisieren und rückgängig zu machen.

� stochastische Einflüsse, durch die das Bild in statistisch beschreibbarer Weise ver-ändert wird. Die Parameter der statistischen Beschreibung sollen berechnet wer-den, damit der Einfluss bei der Verarbeitung berücksichtigt oder näherungsweiserückgängig gemacht werden kann.

Fragestellungen, Begriffe und Voraussetzungen

Fragestellungen

Wenn eine Szene durch ein Aufnahmesystem abgebildet wird, wird die in der Szene vorhan-dene Information nicht vollständig oder nicht unverändert in das Bild übernommen. Wesent-liche Fragestellungen sind, welche Art von Reduktion und Veränderung stattgefunden hat undwie sich diese Prozesse beschreiben lassen.

Eingeführte Begriffe und Konzepte

Bei der Aufnahme finden eine Transformation und eine Projektion statt. Als Definitionsberei-che für diese Operationen werden Bild-, Kamera- und Weltkoordinatensystem definiert. Von-einander unterschieden werden extrinsische und intrinsische Parameter, welche die Abbildungzwischen Welt-, Kamera- und Bildkoordinatensystem beeinflussen.

Die Abtastung bei der Aufnahme wird durch Multiplikation mit einer Impulsfolge modelliert.Die Impulsfolge kann aus einer Impulsfunktion (Dirac-Funktion) erzeugt werden.

Viele Veränderungen bei der Aufnahme können durch lineare Operatoren beschrieben werden.Die zusätzliche Annahme von Verschiebungsinvarianz führt zur Definition der Konvolutions-operation (auch Faltung genannt). Die Veränderung selbst wird durch Faltung mit einer sogenannten Point Spread Function erzeugt.

Einer Reihe von Störungen (Intensitätsvariationen, Über- oder Unterbelichtung und die Linsen-verzerrung) können durch einfache, aber nicht verschiebungsinvariante Operatoren beschrie-ben werden.

Rauschen im Bild ist ein stochastischer Einfluss, der nicht exakt rückgängig gemacht, sondernnur charakterisiert werden kann.

Vorausgesetzte Kenntnisse aus vorangegangenen Kapiteln

keine

47

3.1 Informationsreduktion bei der Aufnahme

Die genaue Art der Informationsreduktion oder -veränderung hängt wesentlich vomAufnahmesystem ab und muss im konkreten Fall systemspezifisch festgestellt wer-den. Die Strategien zu ihrer Beschreibung, Beseitigung, Unterdrückung oder Berück-sichtigung sind jedoch ähnlich, so dass eine Erläuterung anhand eines konkreten Auf-nahmesystems auf andere Systeme übertragbar ist. Nachfolgend werden daher die dreiArten der Störeinflüsse am Beispiel der digitalen Kameraaufnahme näher erläutert.

3.1 Informationsreduktion bei der AufnahmeEin aufgenommenes und durch eine endliche Anzahl von Pixeln repräsentiertes Bildenthält sicher weniger Information als die Welt, von der diese Aufnahme stammt. Füreine spätere Interpretation muss der Informationsverlust möglichst genau modelliertwerden, um bei einer automatischen Analyse keine falschen Schlüsse aus nicht vor-handener und dann falsch ergänzter Information zu ziehen.

3.1.1 Transformation und Projektion

Die wohl offensichtlichste Informationsreduktion findet bei der Projektion einer drei-dimensionalen Welt auf das zweidimensionale Bild statt. Insgesamt können drei For-men der Reduktion unterschieden werden (siehe Abbildung 3.1):

Abbildung 3.1: Bei der Bildaufnahme wird die 3-D-Information in mehrfacher Hinsicht reduziert. Alle Strukturenaußerhalb der Sichtpyramide werden nicht abgebildet. Verdeckte Strukturen innerhalb der Sichtpyramide werdenebenfalls nicht abgebildet.

� Alle außerhalb der durch Bildfläche und Linsenmittelpunkt gebildeten, nach hin-ten offenen Sichtpyramide liegenden Punkte werden nicht abgebildet.

� Alle aus Kamerasicht von anderen Flächen verdeckten Objektanteile werden nichtabgebildet.

� Es werden nur die Reflexionseigenschaften von sichtbaren Punkten entlang einerAchse vom Punkt durch das Linsenzentrum der Kamera auf das Bild projiziert. DieInformation über den Abstand des Punktes zur Kamera geht verloren.

Der Vorgang kann durch eine Koordinatentransformation, die mit einem Hidden Sur-face Removal (Entfernung verdeckter Flächenanteile) kombiniert wird, modelliertwerden. Für die Bestimmung der Sichtpyramide und der Sichtbarkeit von Flächenwerden Koordinatensysteme definiert, durch die Projektionsfläche, Kamera und drei-dimensionale Welt zueinander in Relation gesetzt werden (siehe Abbildung 3.2).

3-D Szene-

Kamerasystem

2-D Bild-

Linse

Sichtpyramide

EINFLÜSSE BEI DER BILDAUFNAHME

48

3

Abbildung 3.2: Weltkoordinatensystem und Kamerakoordinatensystem sind 3-D-Koordinatensysteme. Das Weltkoor-dinatensystem ist von der Position der Kamera unabhängig, so dass durch die extrinsische Kalibrierung Translations-und Rotationsparameter zwischen beiden Systemen berechnet werden müssen. Das Bildkoordinatensystem ist ein2-D-System, dessen xb- und yb-Achse parallel zur xc- und yc-Achse des Kamerakoordinatensystems ausgerichtet sind.

Diese Koordinatensysteme sind:

� ein zweidimensionales Bildkoordinatensystem für das erzeugte Bild. Der Ursprungdieses Koordinatensystems ist meist die linke untere oder die linke obere Bildecke.Für die Einheiten entlang den Achsen gibt es sowohl ein Koordinatensystem aufreellen Zahlen (xb,yb), um die Projektion vor der Abtastung zu bezeichnen, als auchein System auf ganzen Zahlen (m,n), um den Zustand nach der Abtastung zubeschreiben.

� ein dreidimensionales Kamerakoordinatensystem xc,yc,zc für die Relation vonOrten der dreidimensionalen Welt zur Kamera. Zwei der drei Achsen sind parallelzu den beiden Achsen des Bildkoordinatensystems ausgerichtet. Die dritte Achseist die so genannte optische Achse vom Bildmittelpunkt durch das Linsenzentrum.Der Linsenmittelpunkt ist der Ursprung des Koordinatensystems. Das Kamerakoor-dinatensystem ist orthogonal. Abweichungen hiervon werden als deterministischeStöreinflüsse betrachtet und als intrinsische Parameter einer Kamerakalibrierungberechnet und korrigiert.

� ein dreidimensionales, objektbezogenes Weltkoordinatensystem (xw,yw,zw). Die Lageunbewegter Objekte ist konstant bezüglich dieses Koordinatensystems. Falls keineKamerabewegung stattfindet oder die Bewegung für die weitere Analyse nicht rele-vant ist, können Kamera- und Weltkoordinatensystem auch gleichgesetzt werden.Andernfalls müssen die Parameter einer Transformation zwischen Kamera- undWeltkoordinatensystem im Zuge einer Kalibrierung von extrinsischen Parameternberechnet werden.

Die Sichtpyramide ist über die in Kamerakoordinaten bekannten Eckpunkte des Bildesund den Linsenmittelpunkt definiert. Ist die Transformation zwischen Kamerakoordi-naten und Weltkoordinaten bekannt, so kann der potentiell sichtbare Ausschnitt inWeltkoordinaten bestimmt werden. Die Transformation besteht – falls Welt- undKamerakoordinatensystem die gleiche Skalierung verwenden – aus einer Rotation undeiner Translation, die durch Matrixmultiplikationen im homogenen Koordinatensys-tem repräsentiert werden können:

2-D Bild-

Bildhaupt-punkt

Linse

Kamera-koordinaten

Weltkoordinaten

3-D Szene-optische Achse

Bild-koordinaten

xb

yb

zc

yc

xw

yw

zw

xc

( )

11 12 13

21 22 23

31 32 33

1 .

0 0 0 1 1

x c

y cw w w

z c

r r r t x

r r r t yx y z

r r r t z

=

49

3.1 Informationsreduktion bei der Aufnahme

Hierbei ist r11,…,r33 eine 3×3 Rotationsmatrix, d.h. eine orthogonale Matrix mit Deter-minante 1. Die Spaltenvektoren sind die gedrehten Achsen des Koordinatensystems.Der Spaltenvektor (tx ty tz) ist der Translationsvektor vom Ursprung des Kamerakoordi-natensystems in den des Weltkoordinatensystems. Diese zwölf Parameter müssenbekannt sein oder durch einen Kalibrierungsschritt bestimmt werden. Falls Kamera-und Weltkoordinatensystem übereinstimmen, ist die Transformationsmatrix die Ein-heitsmatrix.

Die Transformation von Kamerakoordinaten in die reellen Bildkoordinaten bestehtaus einer perspektivischen Projektion und einer Verschiebung (dx,dy). Durch die Ver-schiebung wird der unterschiedliche Ort des Koordinatenursprungs in Bildkoordina-ten (oben oder unten links) und in projizierten Kamerakoordinaten (am Schnittpunktder optischen Achse mit der Sensorfläche, der so genannte Bildhauptpunkt) ausgegli-chen. Diese Transformation sieht in homogenen Koordinaten wie folgt aus (wobei f diefokale Länge, also der Abstand zwischen Linse und Bild ist):

Alle Orte auf einem Strahl von (xi yi −f 1) durch den Ursprung (0 0 0 1) des Kamera-koordinatensystems werden auf den gleichen Punkt (xb yb) in Bildkoordinaten abge-bildet. Falls die Szene nur opake Objekte beinhaltet, wird dasjenige Pixel abgebildet,das der Linse auf dieser Linie am nächsten ist. Andernfalls handelt es sich um einegewichtete Kombination der Reflexionen aller hintereinander angeordneten, trans-parenten Oberflächen. Die zuletzt genannte Möglichkeit wird allerdings bei einerInvertierung des Informationsverlusts meist ausgeschlossen. Dann brauchen nurdie Abstände der am dichtesten liegenden Punkte berechnet zu werden. DieseAbstandsangaben können unter anderem benutzt werden, um bei einem vorhandenen3-D-Modell verdeckte Flächenanteile zu rekonstruieren.

Für die Anwendung von Methoden der Bildverarbeitung, d.h. der Datenaufberei-tung bis hin zur Berechnung von klassifizierenden Merkmalen, wird häufig vorausge-setzt, dass entweder Einflüsse aus dem Verlust der Tiefeninformation und aus der Ent-fernung nicht sichtbarer Flächen korrigiert worden sind oder dass diese Einflüssekeine wesentliche Rolle für die Berechnung von Bildmerkmalen spielen. Letzteres istder Fall, wenn die Dimensionalität der Daten bei der Aufnahme nicht reduziert wurde(das gilt etwa für Schichtbildverfahren oder für durch einen Flachbettscanner abgetas-tete Dokumente) oder wenn die Daten „nahezu“ zweidimensional sind, die verlorengegangene Abstandsinformation also eine geringe Rolle bei der Bildinterpretationspielt. Das ist z.B. bei Satelliten- oder Luftaufnahmen der Fall. Die Abstandsinforma-tion ist auch dann nicht wichtig, wenn die Projektionsart immer gleich ist und diedurch die Projektion verursachten Einflüsse im Zuge einer Kalibrierung berechnetund ausgeglichen werden können (beispielsweise wenn Aufnahmen von nahezuflachen Objekten auf einem Förderband gemacht werden, welche immer unter demgleichen Winkel und den gleichen Beleuchtungsverhältnissen aufgenommen werden).Gerade bei Prüfaufgaben wird man solch eine Aufnahmesituation anstreben, um denAnalyseaufwand gering zu halten.

( )

1 0 0

0 1 01 : 1 .0 0 1 0

10 0 0 1

xc

yc y cc xi i

cc c

d xdy d yx d

x y f f f fzz z

f

++ − = − − − = −

EINFLÜSSE BEI DER BILDAUFNAHME

50

3

3.1.2 Abtastung der Szene

Eine weitere, nicht ganz so offensichtliche Informationsreduktion erfolgt durch dieAbtastung. Helligkeiten werden nur an einer begrenzten Anzahl von Orten registriert(abgetastet) und Intensitätsunterschiede werden nur erfasst, wenn sie einen bestimm-ten Mindestunterschied überschreiten.

Um den Abtastvorgang zu beschreiben, brauchen wir eine mathematische Opera-tion, die aus einer gegebenen Funktion f(x) mit reellem Definitionsbereich eine neueFunktion fd(x) generiert, so dass fd(x) = f(x) an allen Abtastpunkten x0,x1,…,xN−1 ist.An allen anderen Orten x sollte fd(x) = 0 gelten. Die Funktionswerte an den Orten x0,x1,…,xN−1 sind die Werte der abgetasteten Funktion f(n). Die gesuchte Operation isteine Multiplikation von f(x) mit einer Impulsfolge δd. Die Impulsfolge besteht aus Num x0 bis xN−1 verschobenen Impulsfunktionen δ(x) mit Abstand d zwischen denImpulsen. Die Impulsfunktion (oder Dirac-Funktion) ist eine Funktion, deren Integralvon −∞ bis ∞ gleich eins und deren Wert für alle Orte x ≠ 0 gleich Null ist.

Damit ist der Wert der Impulsfunktion an der Stelle 0 bestimmt. Er ist gerade sohoch, dass das Gesamtintegral den Wert eins hat. Das lässt sich durch eine Grenzwert-betrachtung ermitteln. Beginnen wir mit einer Funktion δ∆(x) mit δ∆(x) = 1/∆, falls−∆/2 < x ≤ ∆/2 und δ∆(x) = 0 sonst. Die Multiplikation von f mit einer aus δ∆ generier-ten Impulsfolge δ∆,d ergibt eine Funktion f∆(x), deren Integral über jedes dieser Inter-valle den Durchschnittswert von f in diesem Intervall liefert (siehe Abbildung 3.3).Das Integral von δ∆ ändert sich für kleiner werdende ∆ nicht, der Funktionswert zwi-schen −∆/2 und ∆/2 erhöht sich aber stetig. Für ∆ → 0 geht die Intervallgröße gegenNull und δ∆,d gegen δd. Der Funktionswert der mit der Impulsfolge multipliziertenFunktion nähert sich der gesuchten Funktion fd an. Die Multiplikation von f mit einerFolge von Dirac-Impulsen erzeugt daher die abgetastete Funktion.

Abbildung 3.3: Abtastung einer kontinuierlichen Funktion (gestrichelt) durch immer bessere Annäherungen an dieideale Impulsfolge. Die durchgezogene Kurve ist das Resultat der Multiplikation der Funktion mit der angenähertenImpulsfolge. Die schwarzen Balken bezeichnen das Integral über die Intervallbreite.

Abtastintervall 16 Pixel Abtastintervall 8 Pixel Abtastintervall 1 Pixel

Multiplikationmit Rechteck-impuls

Integral über Impulsbreite

tatsächlicherFunktionswert

51

3.2 Deterministische Einflüsse

3.2 Deterministische EinflüsseViele deterministische Veränderungen lassen sich durch lineare Operatoren beschrei-ben. Ein Operator O ist linear, wenn für zwei Funktionen f1 und f2 sowie Skalare a1

und a2 gilt:

.

Daraus lässt sich ableiten, dass ein linearer Operator unabhängig vom Funktionswertsein muss. Es bedeutet auch, dass der Operator für einen gegebenen Funktionswertnur eine gewichtete Summe aller Funktionswerte sein kann. Damit lässt sich jederlineare Operator als lineares Gleichungssystem schreiben:

,

wobei die hintereinander geschriebenen Pixel des ungestörten Bildes sind und das Ergebnis durch die Störung bedeutet. Jede Zeile i von A beinhaltet die Gewichtun-gen, mit denen alle Pixel von gewichtet wurden, um den gestörten Wert yi zu erzeu-gen. Die Matrix A muss quadratisch sein, da die Anzahl der gestörten und ungestörtenPixel gleich ist. Also lässt sich eine durch einen linearen Operator beschreibbare Stö-rung invertieren, falls die Determinante von A von Null verschieden ist.

Man kann davon ausgehen, dass sich die meisten verändernden Einflüsse einerKameraaufnahme durch einen linearen Operator beschreiben lassen. Durch einennichtlinearen Operator würde der Wert eines Pixels die Wertveränderung des Pixelsselbst oder anderer Pixel beeinflussen. Das ist bei einem passiven System, so wie eseine Kamera ist, eigentlich nur möglich, wenn der Arbeitsbereich des Aufnahmesensorsüberschritten wird (etwa bei einer Über- oder Unterbelichtung). Durch aktives Eingrei-fen (z.B. die Pre-kneeing-Schaltung zur Vergrößerung des Empfindlichkeitsbereichs)kann nichtlineares Verhalten verursacht werden, doch ist in solchen Fällen dieser Ein-fluss bei der Aufnahme abschaltbar. Das ist uns Motivation genug, uns bei der Betrach-tung von verändernden Operatoren größtenteils auf lineare Operatoren zu beschränken.

3.2.1 Verschiebungsinvariante, lineare Operatoren

Unter den linearen Operatoren sind verschiebungsinvariante Operatoren eine spezi-elle Gruppe, bei denen das Operatorergebnis nicht vom Ort der Operation abhängt.Für einen verschiebungsinvarianten Operator gilt zusätzlich:

.

Viele Einflüsse bei der Bildaufnahme sind unabhängig vom Ort im Bild und lassensich durch einen verschiebungsinvarianten Operator beschreiben. Beispiele sind etwaeine gleichmäßige Unschärfe des Bildes durch Defokussierung oder Unschärfen aufGrund einer Kamerabewegung.

Der Einfluss dieser Operation hängt nicht vom Ort des Einwirkens ab. Auch andere,deterministische, aber möglicherweise nicht genau analytisch beschreibbare Einflüssedurch das Aufnahmesystem können durch einen solchen Operator repräsentiert wer-den. Wir werden im Folgenden sehen, dass der Operator selbst dann bestimmt werdenkann, wenn die Ursache des Einflusses nicht bekannt ist. Das macht die Repräsentationvon Störungen durch einen linearen, verschiebungsinvarianten Operator attraktiv.

( ) ( ) ( )1 1 2 2 1 1 2 2O a f a f a O f a O f+ = ⋅ + ⋅

y x= A� �

x�

y�

x�

( ) ( ), ,O f x a y b O f x a y b + + = + + � �

EINFLÜSSE BEI DER BILDAUFNAHME

52

3

Die Operation kann durch

(3.1)

beschrieben werden. Dieser Ausdruck besagt, dass der Funktionswert des verändertenBilds f *g an der Stelle (m,n) durch Addition der umgebenden Funktionswerte miteiner nach (m,n) verschobenen Gewichtungsfunktion entsteht (siehe Abbildung 3.4).Zunächst wollen wir davon ausgehen, dass der Definitionsbereich des Bildes und derGewichtungsfunktion von −∞ bis +∞ reicht, um uns die gesonderte Betrachtung einerüber die Bildgrenzen hinaus reichenden Gewichtungsfunktion zu ersparen. Für wei-tere Betrachtungen brauchen wir eine andere Repräsentation des Bildes, die durch dieim nächsten Kapitel behandelte Fourier-Transformation generiert werden kann.

Abbildung 3.4: Für die Konvolution zwischen zwei Funktionen f und g wird die Konvolutionsfunktion f über die Funk-tion g verschoben. Für einen Verschiebevektor (m,n) ist das Konvolutionsergebnis die mit den Werten der verschobe-nen Funktion f gewichtete Summe der von g überdeckten Werte.

Die Operation in Gleichung (3.1) wird Konvolution oder Faltung genannt. Die Funktiong heißt Konvolutionsfunktion oder Faltungsfunktion. Die Operation wird durch denOperator „*“ gekennzeichnet. Faltungsoperationen werden nicht nur zur Beschreibungvon Bildstörungen eingesetzt, sondern auch als Filter für verschiedene Methoden derBildverbesserung.

Neben Linearität und Verschiebungsinvarianz ist die Konvolution kommutativ undassoziativ. Für Operationen g1, g2 und g3 gilt also:

� [g1*g2](m,n) = [g2*g1](m,n).

� g1*([g2*g3](m,n)) = [g1*g2](m,n)*g3(m,n).

Bei der Anwendung von Konvolutionen für die Bildverbesserung ermöglicht dieAssoziativitätseigenschaft eine effiziente Ausführung. Falls nämlich die Verarbeitungdurch mehrere hintereinander ausgeführte Konvolutionen g1,g2,…,gk erfolgen soll,kann man einen gemeinsamen Operator g = g1*g2*…*gk erzeugen und auf das Bildanwenden, anstatt die Konvolutionen nacheinander auf das Bild anzuwenden. Das istein Vorteil, weil solche Operationen in der Regel nicht nur auf ein, sondern auf meh-rere Bilder angewendet werden.

( ) ( ) ( ) ( )* , , ,i jg f m n g i j f i m j n∞ ∞

=−∞ =−∞= ⋅ − −∑ ∑

Bild g

Konvolutionsfunktion f

m

n

53

3.2 Deterministische Einflüsse

Aus der Gleichung ist ableitbar, dass sich ein linearer, verschiebungsinvarianter Ope-rator leicht aus einem Experiment mit einem einfachen Testbild berechnen lässt. DasTestbild muss so aufgebaut sein, dass dessen Abbildung an genau einem Bildelementan einer Stelle (p,q) einen von Null verschiedenen Wert a erzeugt. Gemäß Gleichung(3.1) ist das tatsächlich abgebildete Resultat dann

. (3.2)

Die Abbildung (g * f) an allen Orten (m,n) ist also eine um a skalierte und nach (p,q)verschobene Operatorfunktion g. Es ist zwar nicht einfach, für ein Bild zu sorgen, beidem der abgebildete Punkt genau ein Pixel groß und die abzubildende Helligkeitbekannt ist, aber Grenzwertbetrachtungen im Anschluss an das folgende Kapitel wer-den zeigen, dass es auf diese Weise möglich ist, einen linearen Operator durch einExperiment zu bestimmen, bei dem das abgebildete Objekt eine infinitesimal kleineFläche (ein Punkt) mit Helligkeit 1 ist. Die Funktion ist also nichts anderes als einezweidimensionale Impulsfunktion. Die durch das Experiment ermittelte Funktionheißt daher Punktantwort (engl. Point Spread Function – PSF, also Punktverteilungs-funktion).

Abbildung 3.5: Skizze für die Berechnung der Bewegungsunschärfe bei bewegter Kamera. Durch die Bewegung derKamera ändert sich die Position des Punktes P in Kamerakoordinaten.

Als Beispiel für einen durch Konvolution mit einer PSF beschreibbaren Einfluss solldie Unschärfe durch Bewegung beschrieben werden. Nehmen wir an, dass eineKamera den CCD-Chip für eine gegebene Zeit von 30 msec belichtet und in dieser Zeitum d = 2,5 cm entlang der x-Achse bewegt wird (siehe Abbildung 3.5). Alle Objekteder aufgenommenen Szene befinden sich in einer Entfernung von z = 1 m zum Linsen-zentrum. Die fokale Länge f (Abstand zwischen Linse und CCD-Chip) sei 8 mm unddie Größe eines Sensorelements sei p = 0,04 mm. Durch Anwendung der Strahlensätzeergibt sich für die Verschiebung dv

Damit ergibt sich eine Verschiebung von dv = 25 ⋅ (8/1.000) mm = 0,20 mm = 5 Pixel.Da die gleiche Lichtenergie, die ohne Bewegung auf ein einziges Pixel fällt, nun auffünf Pixel verteilt wird, ergibt sich die folgende Konvolutionsfunktion g:

( ) ( ) ( ) ( ) ( )* , , , ,i jg f m n g i j f i m j n g p m q n a∞ ∞

=−∞ =−∞= ⋅ − − = + + ⋅∑ ∑

x-Achse

Linse

Bildf

z

z-Achsedv

d

P

.vv

d d z f fd d

d z z+ +

= ⇔ =

( )0.2, 2 2 0

,0, sonst

i jg i j

− ≤ ≤ ∧ ==

EINFLÜSSE BEI DER BILDAUFNAHME

54

3

Die Annahme, dass alle Punkte gleich weit entfernt sind, bedeutet eine erhebliche Ein-schränkung für die Art der analytisch hergeleiteten Konvolutionsfunktion. Doch da dieFunktion näherungsweise auch für Objekte gilt, die geringfügig größere oder kleinereEntfernungen zur Linse haben, kann man auch die Unschärfe einer Szene beschreiben,bei der es kleinere Abstandsunterschiede zwischen den abgebildeten Objekten gibt.Genau wie die Bewegungsunschärfe kann man auch eine Fokussierungsunschärfeableiten. In diesem Fall müssten Objektentfernung, Linsendurchmesser und Abstanddes Objekts von der Linse bekannt sein. Beispiele für PSFs für Bewegungsunschärfeund Fokussierungsunschärfe zeigen Abbildung 3.6 und Abbildung 3.7.

Abbildung 3.6: Störung durch Bewegungsunschärfe. Während der Aufnahme wurde die Kamera in einem Winkel von25° zur X-Achse bewegt. Die Point Spread Function (PSF) zeigt das auch deutlich an.

Abbildung 3.7: Störung durch Fokussierungsunschärfe. Im Gegensatz zur Bewegungsunschärfe ist keine Richtungs-präferenz zu erkennen.

Die Konvolutionsfunktion hätte man auch durch die Messung eines Testbilds herlei-ten können. Dazu hätte man ein Bild mit einer ein Pixel großen Region auf schwarzemHintergrund erzeugen müssen (wäre das Bild 1 m entfernt, dann müsste diese Regioneine Größe von 5×5 mm haben) und unter derselben Kamerabewegung aufnehmenmüssen. Da die reflektierte Intensität der hellen Region nicht bekannt ist, müssen dieHelligkeitswerte im aufgenommenen Bild addiert werden. Das Resultat ist dergesuchte Normierungsfaktor a aus Gleichung (3.2).

Lineare Operatoren können invertiert werden, falls die Operatormatrix eine vonNull verschiedene Determinante hat. Das ist aber bei Konvolutionen nicht automa-tisch der Fall. Eine Faltung mit einer Funktion g(x,y) = 0 bedeutet beispielsweise, dassdie entsprechende Matrix kein von Null verschiedenes Element hat, die Determinantealso Null ist.

PSF

PSF

55

3.2 Deterministische Einflüsse

Der Rang der Matrix ist aber in der Regel hoch, wenn die Faltungsfunktion örtlichstark variiert. Iterative Invertierungsmethoden mit geeigneten Regularisierungsverfah-ren führen daher bei vielen Konvolutionsfunktionen zu akzeptablen Resultaten. Esgibt jedoch ein einfacheres Verfahren, das zuvor eine Transformation mit einem linea-ren, orthogonalen Operator voraussetzt. Invertierungsmethoden für durch lineareFilter beschreibbare Störungen werden wir daher bis zur Behandlung von orthogo-nalen Funktionstransformationen zurückstellen und zunächst andere Operationendiskutieren.

3.2.2 Andere Operatoren

Bei nicht verschiebungsinvarianten Einflüssen muss die Gewichtungsmatrix des Opera-tors bekannt sein. Bekannte, nicht verschiebungsinvariante Einflüsse bei der Kamera-aufnahme sind:

� Intensitätsvariationen durch unterschiedliche Sensorsensitivität. Dies ist ein multi-plikativer Einfluss, dessen Parameter durch die Aufnahme eines Testbilds vonhomogener Reflexion geschätzt werden kann.

� Sensoraktivität ohne Intensitätseinfall. Manche Sensoren geben Aktivität weiter,ohne dass durch die Linse Licht auf den Sensor einfällt. Dies ist ein additiver Ein-fluss, der durch ein so genanntes Schwarzbild beschrieben werden kann, welchesman erhält, wenn eine Aufnahme ohne Lichteinfall erzeugt wird.

� Variation der Ausleuchtung. Im Regelfall geht man davon aus, dass die Ausleuch-tung in einem Bild, also der Einfall von Licht auf die Oberfläche, überall gleich ist,so dass Helligkeitsvariationen nur durch unterschiedliche Oberflächeneigenschaf-ten verursacht werden. Das ist eine Voraussetzung für eine helligkeitsbasierteZerlegung eines Bildes, mit der man verschiedene Objekte unterscheiden möchte.Ausleuchtungsunterschiede (so genanntes Shading) sind ein multiplikativer Ein-fluss, dessen Parameter ähnlich wie beim Ausgleich unterschiedlicher Sensorsensi-tivität durch eine Testaufnahme gewonnen werden (siehe Abbildung 3.8).

Abbildung 3.8: (Simuliertes) Shading-Artefakt, der bei manchen Verschlusssystemen und schnellen Verschlusszeiteneiner Kamera auftritt: Der Rand des Bildes ist schlechter ausgeleuchtet als das Zentrum.

EINFLÜSSE BEI DER BILDAUFNAHME

56

3

� Über- oder Unterbelichtung (siehe Abbildung 3.9). Dieser Fehler kann nicht korri-giert werden, da er nichtlinear ist und zu Informationsverlust führt. Zu viel oder zuwenig Lichteinfall führt dazu, dass an der betreffenden Stelle im Bild der kleinstebzw. größte repräsentierbare Intensitätswert gespeichert wird. Besonders unange-nehm ist Über- oder Unterbelichtung in einem einzelnen Farbkanal bei Farbbil-dern. Dies führt bei der üblichen Farbrepräsentation zu Farbverfälschungen, dieunter Umständen gar nicht als Über- oder Unterbelichtung erkannt werden.

Abbildung 3.9: Unter- und Überbelichtung sind nichtlineare Störungen, die nicht vollständig rückgängig gemacht werdenkönnen, weil der Teil der Information, der unterhalb bzw. oberhalb des Wertebereichs liegt, verloren gegangen ist.

� Radiale Linsenverzerrung (siehe Abbildung 3.10). Idealerweise wird davon ausge-gangen, dass die Projektion bei der Aufnahme durch ein Linsensystem durch eineZentralprojektion beschrieben ist. Allerdings sind optische Linsen nicht perfektund es kann zu (minimalen) Abweichungen von der Zentralprojektion in Abhän-gigkeit vom Winkel zwischen optischer Achse und Projektionsrichtung kommen.

Abbildung 3.10: Die radiale Linsenverzerrung ist kaum erkennbar. Die eigentlich gerade Horizontlinie ist im Bild abergebogen.

Betrachtet man diese Einflüsse, dann fällt auf, dass es sich um einfache Operationenhandelt, die neben den Parametern des Störeinflusses nur das jeweilige Pixel betreffen.Damit ist auch die Beseitigung der Fehler verhältnismäßig einfach. Natürlich gibt es,ähnlich wie bei verschiebungsinvarianten Operatoren, auch solche lineare Störungen,bei denen sich Pixel gegenseitig beeinflussen. Das ist insbesondere bei rekonstruieren-den Aufnahmeverfahren (z.B. Röntgen-CT) der Fall, wo diese Störungen auf Abwei-chungen der tatsächlichen Messwertsituation von der zur Rekonstruktion angenomme-

57

3.3 Stochastische Einflüsse

nen beruhen. Allerdings werden diese Einflüsse oft nicht beschrieben, weil eineanalytische Herleitung zu aufwändig wäre. Eine Herleitung auf Grund von Experimen-ten würde dagegen die Lösung eines sehr komplexen inversen Problems erfordern.

3.3 Stochastische EinflüsseStochastische Einflüsse sind nicht wiederholbar, lassen sich aber über eine Wahr-scheinlichkeitsverteilung beschreiben. Für die Kameraaufnahme ist dabei vor allemdas durch Quantenrauschen verursachte Bildrauschen von Interesse. Grundsätzlichwird davon ausgegangen, dass sich Photonen geradlinig ausbreiten und auf die Sen-sorfläche auftreffen. Quanteneffekte sorgen jedoch dafür, dass ein bestimmter Anteilder Photonen nicht oder nicht an der richtigen Stelle auftrifft. Der Effekt wird durchdie Wahrscheinlichkeit beschrieben, dass ein ausgesendetes Photon auch auf die Sen-sorfläche trifft. Die Wahrscheinlichkeitsfunktion ist poissonverteilt und lässt sich fürhohe Anzahlen von Photonen durch eine Gauß-Verteilung annähern.

Das Bild ist daher eine Kombination von Helligkeitsanteilen aus sich regulär verhal-tenden Photonen (Signal) und einer zufallsverteilten Komponente (Rauschen). DerProzess ist additiv, d.h. die gemessene Intensität g(m,n) in einem Bild ist eine Addi-tion von Signal f(m,n) und zufallsverteiltem Rauschen η(m,n):

g(m,n) = f(m,n) + η(m,n).

Da ein wesentlicher Anteil des Rauschens aus dem poissonverteilten Quantenrauschenherrührt, wird die Wahrscheinlichkeit einer Abweichung des gemessenen Grauwertsvom tatsächlichen Grauwert durch eine Gauß’sche Normalverteilung mit Erwartungs-wert Null modelliert. Quantenrauschen wird als räumlich unkorrelliert angenommen.Ziel einer Analyse des Rauscheinflusses ist es, die Varianz der Verteilungsfunktion zubestimmen. Sie lässt sich auf Basis einer ausreichend großen Anzahl von Stichprobenmit bekanntem Erwartungswert schätzen. Kennt man also einen homogenen Bild-bereich B mit Pixeln p, deren nicht durch Rauschen gestörter Grauwert f0 sein sollte, solässt sich die Varianz σ2 für diesen Bildbereich durch

berechnen. Mit |B | ist die Anzahl der Elemente der Menge B gemeint. Unter derAnnahme, dass das Rauschen im Bild überall die gleiche Charakteristik hat, kann die-ser Wert als Varianz für das ganze Bild benutzt werden.

Neben der Normalverteilung wird manchmal auch eine einfache Gleichverteilungverwendet, um die Abweichung durch Rauschen zu beschreiben. In diesem Fall isteine Abweichung des gemessenen vom tatsächlichen Grauwert für jede Differenzinnerhalb eines vorgegebenen Intervalls gleichwahrscheinlich (Abbildung 3.11 zeigtnormal- und gleichverteiltes Rauschen im Vergleich).

Das Verhältnis zwischen Signalstärke und durchschnittlicher Stärke des Rauschenswird als Signal-Rausch-Verhältnis (SNR – Signal-to-Noise-Ratio) bezeichnet. Es gibtverschiedene Wege, das SNR bei gegebener Varianz des Rauschens zu bestimmen.Falls über den Bildinhalt nichts bekannt ist, kann für den Signalabstand angenommenwerden, dass das Hintergrundsignal den Wert Null hat und das maximale Signal derhöchste im Bild vorkommende Wert ist.

( )( ) 220

11 p B f p f

B ∈σ = −−

EINFLÜSSE BEI DER BILDAUFNAHME

58

3

Abbildung 3.11: Gleichverteiltes (links) und normalverteiltes (rechts) Rauschen mit unterschiedlich hohem Signal-Rausch-Verhältnis (Signal-to-Noise-Ratio = SNR).

Je nachdem, ob man den durchschnittlichen oder den maximalen Signalabstand zumStörsignal ins Verhältnis setzt, ergeben sich zwei verschiedene Definitionen für das SNR:

oder .

Original

SNR =1max

SNR =5max

SNR =2max

( ) maxmax

fSNR f =

σ

( )1 2

0 0

1,M N

m n

avg

f m nMNSNR

− −

= ==

σ

∑ ∑

59

3.4 Vertiefende und weiterführende Literatur

Wenn bekannt ist, was das tatsächliche Signal und was der Hintergrund ist, dannkann der Ausdruck im Zähler auch durch den tatsächlichen Abstand zwischen Signalund Hintergrund ersetzt werden. Das Signal charakterisiert in der Regel das oder diegesuchten Objekte. Diese müssen nicht unbedingt die hellsten Grauwerte im Bildhaben. Das berechnete SNR kann sich also von SNRmax oder SNRavg erheblich unter-scheiden. Wegen dieser Unterschiede ist das SNR nur dann ein taugliches Maß zumVergleich der Rauschcharakteristik, wenn die Berechnungsart angegeben wird.

Unkorreliertheit und die angenommene Gauß-Verteilung für das Rauschen sind nurNäherungen und gelten vor allem nicht für andere stochastische Einflüsse bei derBildaufnahme. Das muss berücksichtigt werden, wenn Analysemethoden auf derBasis eines gaußverteilten Rauschens mit Erwartungswert Null entwickelt und getes-tet werden. Unerwartetes Verhalten im realen Einsatz ist manchmal darauf zurückzu-führen, dass die stochastischen Störeinflüsse eben nicht durch das verwendeteRauschmodell modellierbar sind.

Räumliche Korrelation existiert z.B. bei Impulsrauschen. Dabei ist die Veränderungdes Funktionswerts entweder maximal positiv oder negativ und nur wenige Orte sindvon der Störung betroffen. Bilder, die durch Impulsrauschen gestört sind, zeichnensich daher dadurch aus, dass sich in der Umgebung eines durch Rauschen veränder-ten Pixels meist keine anderen gestörten Pixel befinden. Diese räumliche Korrelation,die auch bei anderen Arten des Rauschens auftritt, lässt sich schwer beschreiben, weilsie eine summarische Betrachtung des Bildwerts in Abhängigkeit vom Abstand zwi-schen Bildpunkten verlangt. Hierzu ist eine Repräsentation im Frequenzbereich, sowie sie im folgenden Kapitel vorgestellt wird, besser geeignet.

3.4 Vertiefende und weiterführende LiteraturDas Thema des Informationsverlusts bei der Bildaufnahme durch Projektion und Hid-den Surface Removal wird in Standardtexten der 3-D-Computergrafik (z.B.[Foley1995]) behandelt. Die verschiedenen Koordinatensysteme, die bei einer Abbil-dung der dreidimensionalen Welt auf das zweidimensionale Bild eine Rolle spielen,und die automatische Berechnung der Transformationsparameter sind Gegenstand inBüchern zur 3-D Computer Vision (z.B. [Hartley2004] oder [Forsyth2003]; das häufigverwendete Kalibrierungsverfahren von Tsai ist in [Tsai1987] zu finden).

Lineare Operatoren werden als Teil der Systemtheorie gelehrt. Die Systemtheoriewird in der Regel für eindimensionale Signale (z.B. Signale als Funktion der Zeit) ent-wickelt und auf mehrdimensionale Signale (z.B. Bilder) erweitert. Der klassische Texthierzu ist [Oppenheim1996]. Ein deutscher Text zu linearen und nichtlinearen Syste-men ist [Unbehauen2002].

Die Beschreibung der Informationsveränderung in Bildern durch verschiebungs-invariante, lineare Operatoren ist Gegenstand fast aller Lehrbücher zur Bildverarbei-tung (z.B. [Pratt2001] oder [Gonzalez2002]).

EINFLÜSSE BEI DER BILDAUFNAHME

60

3

Z U S A M M E N F A S S U N G

Die Information einer dreidimensionalen Szene wird bei der Aufnahme in mehrfacher Hinsichtreduziert und modifiziert.

Die Reduktion der Dimension wird durch Transformation und Projektion vom Weltkoordinatensys-tem über das Kamerakoordinatensystem in das Bildkoordinatensystem modelliert. Die Parametervon Transformation und Projektion müssen während einer Kamerakalibrierung berechnet werden.

Die Reduktion bei der Abtastung wird durch Multiplikation des projizierten Bildes mit einer Folgevon verschobenen Dirac-Impulsen modelliert.

Die meisten Veränderungen bei der Bildaufnahme können durch lineare Operatoren beschriebenwerden. Ein linearer Operator auf einer Bildfunktion kann als lineares Gleichungssystem auf denBildfunktionswerten repräsentiert werden. Verschiebungsinvariante lineare Operatoren sind alsKonvolution beschreibbar. Die Veränderung durch einen verschiebungsinvarianten Operator isteine Konvolution mit einer Point Spread Function.

Intensitätsvariationen und Linsenverzerrung können durch nicht verschiebungsinvariante, lineareOperatoren beschrieben werden. Der Einfluss durch Über- oder Unterbelichtung ist ein nichtlinea-rer Operator.

Rauschen lässt sich nur als stochastischer Prozess charakterisieren.

Z U S A M M E N F A S S U N G

61

3.4 Vertiefende und weiterführende Literatur

Aufgaben

� Erklären Sie die unterschiedlichen Rollen von Bild-, Kamera- und Weltkoor-dinatensystem.

� Was sind Bildhauptpunkt und optische Achse in einem Aufnahmesystem?

� Was wird bei der Kalibrierung extrinsischer Parameter kalibriert und wasbei einer Kalibrierung von intrinsischen Parametern?

� Was ist eine Dirac-Funktion und welche Rolle spielt sie bei der Abtastungeines Bildes?

� [Projekt] Schreiben Sie ein Programm, das das Bild „KonzentrischeKreise“auf der Companion Website einliest, und simulieren Sie eine Unterabtas-tung, indem Sie ein neues Bild erzeugen, bei dem Sie nur jedes zweite Pixelje Zeile und Spalte auswählen. Beschreiben Sie, wie das Resultat aussieht.

� Was ist ein linearer Operator und wann ist dieser Operator verschiebungs-invariant?

� Was ist der Vorteil der Verschiebungsinvarianz bei linearen Operatoren?

� Was ist eine Point Spread Function (PSF) und welche Rolle spielt sie bei derBeschreibung einer Störung?

� Nennen und beschreiben Sie wenigstens drei nicht verschiebungsinvari-ante, deterministische Störungen bei der Bildaufnahme.

� Ein Flachbettscanner wird zur Digitalisierung von Dokumenten benutzt.Was wären mögliche Störungen bei der Aufnahme durch einen Flachbett-scanner?

� Während der Digitalisierung durch einen Flachbettscanner wird das zu digita-lisierende Dokument mit gleichmäßiger Geschwindigkeit bewegt (also vomScanner gezogen). Wie ließe sich diese Störung beschreiben? Handelt es sichum eine verschiebungsinvariante Operation? Tipp: Überlegen Sie erst, wie derProzess des Scannens technisch realisiert ist.

� Was ist der Unterschied zwischen gleich- und normalverteiltem Rauschen?

� [Projekt] Schreiben Sie ein Programm, das ein Grauwertbild von der Com-panion Website einliest und daraus ein durch gleichverteiltes Rauschen mitvorgegebenem Signal-Rausch-Verhältnis gestörtes Bild erzeugt und ausgibt.Wie könnte eine Methode aussehen, mit der (unter Umständen mit einerinteraktiven Komponente) das SNR aus einem Bild geschätzt werden kann?Tipp: Bedenken Sie, dass für das Rauschen oft ein Erwartungswert von Nullangenommen wird.

Übung 3.1

EINFLÜSSE BEI DER BILDAUFNAHME

62

3

Literatur[Foley1995] J. D. Foley, A. van Dam, S. K. Feiner, J. F. Hughes. Computer Graphics. Addison-Wesley, 2. Auf-

lage, 1995.

[Forsyth2003] D. A. Forsyth, J. Ponce. Computer Vision: A Modern Approach. Prentice Hall, 2003.

[Gonzalez2002] R. C. Gonzalez, R. E. Woods. Digital Image Processing. Prentice Hall, 2. Auflage, 2002.

[Hartley2003] R. Hartley, A. Zisserman. Multiple View Geometry in Computer Vision. 2. Auflage, Cam-bridge University Press, 2003.

[Oppenheim1996] A. V. Oppenheim, A. C. Willsky, S. H. Nawab. Signals and Systems. Prentice Hall, 2. Auf-lage, 1996.

[Pratt2001] W. K. Pratt. Digital Image Processing. Wiley, 3. Auflage, 2001.

[Tsai1987] R. Tsai. A versatile camera-calibration technique for high-accuracy 3d machine vision metrologyusing off-the-shelf TV cameras. IEEE Journal of Robotics and Automation, Vol. 3(4), 1987, 323-344.

[Unbehauen2002] R. Unbehauen. Systemtheorie 1: Allgemeine Grundlagen, Signale und lineare Systemeim Zeit- und Frequenzbereich. Oldenbourg-Verlag, 2002.