Versuchsplanung und multivariate Statistik · R. Wehrens, Chemometrics with R: Multivariate Data Analysis in the Natural and Life Sciences, Springer-Verlag, 2011 (als E-Book an der

Versuchsplanung und multivariate Statistik

Kapitel 2: Signalverarbeitung und Zeitreihenanalyse

Prof. Dr. Hans-Jorg Starkloff

TU Bergakademie FreibergInstitut fur Stochastik

Sommersemester 2019

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 1

2.1 Signalverarbeitung

I Ergebnisse von Messungen sind haufig Zahlenwerte in Abhangigkeitvon (einem oder mehreren) Parametern, die als Signal betrachtetwerden konnen. Beispiele sind

I Spektren,I Chromatogramme,I Voltammogramme,I Titrationskurven.

I Die nutzliche Information wird dabei oft durch die Messprozedurtransformiert und zusatzlich gibt es Fehler- und Rauscheinflusse, diedie Messergebnisse verfalschen.

I Heutzutage werden viele Messergebnisse automatisch digitalisiert, sodass eine Weiterverarbeitung durch Computerprogramme erfolgenkann.

I Die Algorithmen (und die zugehorigen mathematischen Operatorenetc.) zur Weiterverarbeitung der Messergebnisse werden oft Filtergenannt.


Beispiel: NIR-Spektren von 60 Benzinproben

I Erstes Beispiel: Nahinfrarot-Spektren von 60 Benzinproben furWellenlangen von 900 bis 1700 nm in 2nm Intervallen.

I Reproduktion der Grafik ausR. Wehrens, Chemometrics with R: Multivariate Data Analysis inthe Natural and Life Sciences, Springer-Verlag, 2011 (als E-Book ander TUBAF verfugbar).

I Fur dieses Buch wurde ein entsprechendes R-PaketChemometricsWithR entwickelt.

I Der Datensatz gasoline ist im R-Paket pls enthalten.


Grafik NIR-Spektren von 60 Benzinproben


Grafik erstes der 60 NIR-Spektren von den Benzinproben


Beispiel: Massenspektren von Prostatagewebe

I Zweites Beispiel: Massenspektren von Prostatagewebe (Ausschnittvon 200 bis 250 Dalton, 500 Datenpunkte). Eine Probe (gesundePerson) wurde doppelt vermessen. Die Spektren wurden schonvorverabeitet: Ausdunnung (”binning”), Basislinienkorrektur,Normalisierung.

I Es ist ein deutlicher Einfluss eines Messrauschens zu sehen.

I Nachempfinden einer Grafik ausR. Wehrens, Chemometrics with R: Multivariate Data Analysis inthe Natural and Life Sciences, Springer-Verlag, 2011 (als E-Book ander TUBAF verfugbar).

I Der Datensatz Prostate2000Raw ist im R-PaketChemometricsWithRData enthalten.


Grafik Massenspektren von Prostatagewebe


Grafik Mittelwertfunktion der beiden Massenspektren


Einige Aufgabenstellungen der Signalverarbeitung

I Glattung von Signalen,

I Hervorhebung bestimmter Eigenschaften (Peakerkennung, etc.),zum Beispiel durch Differenzieren,

I Integration zur Flachenbestimmung,

I Basislinienkorrektur (Untergrundkorrektur),

I Datenreduktion,

I Entfaltung (Dekonvolution).

Bem.

I Mathematisch gesehen ist ein Signal eine Funktion, hier definiert aufeinem endlichen Gitter in einem Intervall der reellen Zahlen.

I Es entsteht aus der eigentlich”wahren“ Abhangigkeit eines

Merkmals von dem Parameter, der in der Regel fur alle reellenZahlen des Intervalls definiert ist.


Mehrfache Messungen

I Liegen mehrfache Messungen vor, kann wie in der klassischenStatistik durch Mittelwertbildung der Einfluss zufalliger Messfehlerverringert werden.

I Bei N Messungen y`,k , ` = 1, . . . ,N , jeweils der Werte fur denParameter k (z.B. eine bestimmte Wellenlange), kann mit demarithmetischen Mittelwert

y∗k =1

N

N∑`=1

y`,k

weiter gerechnet werden.

I Kann angenommen werden, dass die Messungenauigkeiten bei demParameter k fur verschiedene ` = 1, . . . ,N durch unabhangigeZufallsgroßen mit Varianz σ2k > 0 beschrieben werden konnen,

resultiert fur den berechneten Schatzwert y∗k eine Varianz vonσ2kN

.


Mittelwert 60 NIR-Spektren Benzinproben


Interessierende Charakteristiken eines Peaks

I Unverfalschte (nicht verrauschte) Signale entstehen oft durchUberlagerung typischer Signalformen, insbesondere Peaks.

I Von besonderem Interesse von einem Peak (einer Bande) sindI die Position des Zentrums des Peaks,I die Hohe des Peaks,I die Halbwertsbreite des Peaks,I der Flacheninhalt des Peaks.


Typische Signalformen

I Oft werden Gauss- oder Lorentz-Kurven (oder Peaks) genutzt.Diese entsprechen auch Dichtefunktionen fur symmetrische stetigeZufallsgroßen (Normal- oder Gauß-Verteilung bzw. Cauchy- oderCauchy-Lorentz-Verteilung). Weitere Beispiele sindVoigt-Kurven oder spezielle asymmetrische Kurven.

I Die Funktionsgleichung fur eine Gauß-Kurve ist mitb1, b2 ∈ R , b2 > 0, b3 6= 0

y(x) = b3 exp

(−(x − b1)2

b22

).

I Die Funktionsgleichung fur eine Lorentz-Kurve ist mitb1, b2, b3 ∈ R , b2 > 0, b2 · b3 6= 0

y(x) =b3

1 + b2(x − b1)2.


Grafik (Standard-)Gauß- und Lorentz-Kurve

b1 = 0 , Gauss: b2 =√

2 , b3 = 1√2π

; Lorentz: b2 = 1 , b3 = 1π .

Der Flacheninhalt unter den Kurven ist jeweils 1.


Gauß- und Lorentz-Kurve mit gleicher Hohe undHalbwertsbreite

b1 = 0 , Gauss: b2 =√

2 , b3 = 1√2π

; Lorentz: b2 = 12 ln(2) , b3 = 1√

2π.


Charakteristiken Gauß- und Lorentz-Kurve

Gauß : b3 exp

(−(x − b1)2

b22

), Lorentz : y(x) =

b31 + b2(x − b1)2

.

I Position des Zentrums des Peaks: b1 .

I Hohe des Peaks: b3 .

I Halbwertsbreite des Peaks:

Gauß: 2√

ln(2)b2 , Lorentz:2√b2

.

I Flacheninhalt des Peaks:

Gauß: b2b3√π , Lorentz:

b3π√b2

.


Additive Uberlagerung verschobener Kurven

I Bei einer additiven Uberlagerung von Gauss- bzw.Lorentz-Kurven kann es passieren, dass die Spitzen derSummanden nicht mehr deutlich unterschieden werden konnen.

I Dies wird in den folgenden Folien demonstriert, in dem jeweils dieSumme zweier Kurven mit d1 = −2 und d1 = 2 (erste Grafik),d1 = −1 und d1 = 1 (zweite Grafik) und d1 = −0.5 und d1 = 0.5(dritte Grafik) dargestellt wird.

I Addiert man eine verschobene Gauss-Kurve und eine andersverschobene Lorentz-Kurve erhalt man asymmetrische Kurven.

I Die anderen Parameter bleiben ungeandert fur die folgendenGrafiken und entsprechen den Standardkurven, d.h. sie entsprechenWahrscheinlichkeitsdichten.

I Werden die Funktionswerte der Summenkurven durch 2 geteilt,erhalt man wieder Dichtefunktionen von Zufallsgroßen.


Grafik Summe zweier verschobener Kurven, d1 = −2 / 2


Grafik Summe zweier verschobener Kurven, d1 = −1 / 1


Grafik Summe zweier verschobener Kurven, d1 = −0.5/0.5


Grafik Summe Gauß d1 = −0.5, Lorentz d1 = 0.5


Grafik Summe Gauß d1 = 1, Lorentz d1 = −1


Ableitungen von Gauß- und Lorentz-Kurven

Gauß: y(x) = b3 exp

(−(x − b1)2

b22

)y ′(x) =

2b3b22

(b1 − x) exp

(−(x − b1)2

b22

)y ′′(x) =

2b3b22

(2

b22(x − b1)2 − 1

)exp

(−(x − b1)2

b22

)

Lorentz: y(x) =b3

1 + b2(x − b1)2

y ′(x) =−2b2b3x

(1 + b2(x − b1)2)2

y ′′(x) =2b2b3

(3b2(x − b1)2 − 1

)(1 + b2(x − b1)2)3


1. Ableitung Standard-Gauß-Kurve


2. Ableitung Standard-Gauß-Kurve


1. Ableitung Standard-Lorentz-Kurve


2. Ableitung Standard-Lorentz-Kurve


2. Abl. Summe verschobene Gauss-Kurven, d1 = ±1


2. Abl. Summe verschobene Gauss-Kurven, d1 = ±0.5


2. Abl. Summe verschobene Lorentz-Kurven, d1 = ±1


2. Abl. Summe verschobene Lorentz-Kurven, d1 = ±0.5


Glattung von Signalen

I Enthalten Signale Rauschanteile, konnen diese durchGlattungsalgorithmen verringert werden.

I Oft werden lineare Filter zum Glatten benutzt. Diese sind fur Dateny1, . . . , yn auf einem Gitter dadurch gekennzeichnet, dass sich derfur den k-ten Gitterpunkt berechnete Wert durch eine gewichteteSumme berechnet:

y∗k = wk,1y1 + . . .+ wk,nyn .

I Als einfache Moglichkeit kann man einfache gleitende Mittelwerte(Durchschnitte) nutzen mit gleich großen Gewichten, unabhangigvon k , fur eine gewisse Anzahl von Nachbarindizes.

I Bessere Ergebnisse werden oft mit Savitzky-Golay-Filtern erzielt,bei der eine lokale polynomielle Anpassung die Grundlage bildet.

I Parameter dieser Filteralgorithmen mussen in der Regel an diejeweilige Datensituation angepasst werden.


Beispielsignal

I Zur Illustration folgen wir dem Beispiel aushttp://wresch.github.io/2014/06/26/savitzky-golay.html

I Das unverrauschte Signal wird fur x ∈ [0, 1] beschrieben durch

y(x) =1

3(exp(1.2x) + 1.5 sin(7x)) .

I Dazu werden in den Gitterpunkten xk = k/100 , k = 1, . . . , 100 ,Realisierungen unabhangiger normalverteilter Zufallsgroßen mitErwartungswert 0 und Varianz 1.22 addiert.

I Diese Werte seien durch Messung verfugbar, wobei der Rauschanteilnicht extra beobachtbar ist und folglich die unverrauschten(exakten) Werte nicht berechenbar sind.

I Die unverrauschten (exakten) Werte konnen nur geschatzt werden.Die geschatzten Werte enthalten auch einen Fehleranteil, der aber(viel) geringer als der Rauschanteil sein sollte.


http://wresch.github.io/2014/06/26/savitzky-golay.html

Unverrauschtes und verrauschtes Beispielsignal


Gleitende Mittel

I Bei einer Glattung durch gleitende Mittel wird der Schatzwert y∗k ander Stelle xk berechnet durch

y∗k =1

2m + 1

m∑j=−m

yk+j .

I m ∈ N ist die Anzahl der genutzten benachbarten Werte links undrechts. 2m + 1 ist die Filterbreite. Fur jeweils m Randwerte konnenmit dieser Formel keine Schatzwerte berechnet werden. Hier kannman Mittelwerte uber 2m + 1 mogliche benachbarte Werte nutzen.

I Fur unabhangige additive Rauschterme in den Gitterpunkten mitubereinstimmenden Varianzen mitteln sich die Rauschterme wie inder klassischen Statistik aus: aus der Varianz σ2 fur Yk wird dieVarianz σ2

2m+1 fur Y ∗k .

I Gleichzeitig andert sich aber der Erwartungswert an der Stelle xk :aus dem Erwartungswert fur Yk wird der arithmetische Mittelwertder Erwartungswerte von Yk−m,Yk−m−1, . . . ,Yk , . . . ,Yk+m .


Gleitendes Mittel m = 1 Beispielsignal












Glattung mit Savitzky-Golay-Filtern

I Bei einer Glattung mit Savitzky-Golay-Filtern wird derSchatzwert y∗k an der Stelle xk berechnet durch

y∗k =1

NORM

m∑j=−m

cjyk+j

mit speziell gewahlten Gewichtskoeffizienten cj und einemNormalisierungsfaktor NORM =

∑mj=−m cj .

I 2m + 1 ist wieder die Filterbreite und fur jeweils m Randwertekonnen mit dieser Formel keine Schatzwerte berechnet werden.

I Die Gewichtskoeffizienten werden so bestimmt, dass y∗k der Wert desRegressionspolynoms eines gewahlten Grades p an der Stelle xk istund die Punkte (xk−m, yk−m), . . . , (xk+m, yk+m) gegeben sind. DieseKoeffizienten sind unabhangig von k (bei gleichabstandigenGitterpunkten xk), aber abhangig von den gewahlten Parametern mund p . Sie konnen einmal im voraus berechnet werden und in derLiteratur sind Tabellen fur diese Koeffizienten zu finden.


Savitzky-Golay-Glattung m = 2, p = 3 Beispielsignal


















Bemerkungen

I Zur Erzeugung der Grafiken wurden die R-Befehle movav undsavitzkyGolay aus dem R-Paket prospectr genutzt.

I Bei der Savitzky-Golay-Glattung erfolgt implizit eine Anpassungmit Hilfe der Methode der kleinsten Quadrate eines Polynoms vomGrad p an die Punkte (xk−m, yk−m), . . . , (xk+m, yk+m) . Da derSchatzwert fur den mittleren Punkt der Punktfolge (mit einerungeraden Anzahl von Punkten) berechnet wird, benotigt man hiernur den Schatzwert fur das Absolutglied des Regressionspolynom.

I Setzt man als Indexvariable τ = k − j kann man von Punkten(−m, y−m), . . . , (m, ym) ausgehen und dem Gitterpunkt xkentspricht der Indexwert τ = 0 . Der Wert des Regressionspolynomsa0 + a1τ + . . .+ apτ

p fur τ = 0 ist aber gerade das Absolutglieda0 .

I Die Savitzky-Golay-Glattung mit Polynomgraden 0 oder 1entspricht der Nutzung des gleitenden Mittels.


Gewichtskoeffizienten fur p = 2, 3

Fur eine lokale Anpassung eines Polynoms zweiten oder dritten Gradesgelten so z.B. (vgl. z.B. Otto, Chemometrics, 2017, Kap.3)

m 2 3 4 5

M = 2m + 1 5 7 9 11

c−5 -36

c−4 -21 9

c−3 -2 14 44

c−2 -3 3 39 69

c−1 12 6 54 84

c0 17 7 59 89

NORM 35 21 231 429

und außerdem cj = c−j .


Rauschanteile

I Der additive Rauschanteil in dem gemessenen Signal werde durchein Weißes Rauschen modelliert: unabhangige Zufallsgroßen (Rτ )mit E[Rτ ] = 0 und Var[Rτ ] = σ2 > 0 .

I Dann ist bei einer Savitzky-Golay-Glattung mit p = 3 undm = 2 der Rauschanteil in y∗0

1

35(−3R−2 + 12R−1 + 17R0 + 12R1 − 3R2)

mit Varianz ≈ 0.486σ2 wegen

1

352((−3)2σ2 + 122σ2 + 172σ2 + 122σ2 + (−3)2σ2

)=

595

1225σ2 .

I Bei Nutzung der gleitenden Mittel mit m = 5 erhalt mandemgegenuber bei den gemachten Annahmen eine Varianz des

Rauschanteils von5

25σ2 =

1

5σ2 = 0.2σ2 .

I Man nutzt also eine Savitzky-Golay-Glattung, um ungunstigeVerfalschungen des unverrauschten Signals zu vermindern.


Vergleich Varianzen der Rauschanteile

Vergleich der Koeffizienten bei σ2 fur einfache gleitende Mittelwerte undSavitzky-Golay-Glattung mit p = 3 und unterschiedliche Filterbreiten

m 2 3 4 5

M = 2m + 1 5 7 9 11

gleitende Mittelwerte 0.200 0.143 0.111 0.091

Savitzky-Golay 0.485 0.333 0.255 0.207


Verfalschungen von unverrauschten Signalen

I Nun sollen exemplarisch Verfalschungen von unverrauschten Signalendurch Glattungsalgorithmen (Glattungsfilter) untersucht werden.

I In Anwendungen sind vor allem die Peakhohe, der Flacheninhaltunter einem Peak und die Maximumsstelle des Peaks von Interesse.

I Untersucht werden wieder Gauß- und Lorentz-Kurven .

I Bei Gauß-Kurven werden fur das Beispielsignal die Parameterb1 = 0, b3 = 1 und b2 = 0.1 gewahlt, so dass dieFunktionsgleichung lautet

y(x) = exp

(− x2

0.01

), x ∈ R .

Außerhalb des Intervalls (−0.4; 0.4) sind die Funktionswertepraktisch Null.

I Genutzt werden Funktionswerte in diskreten Punkten xk = k∆x , sodass der Funktionswert der Maximumsstelle zur Verfugung steht undSymmetrie vorliegt.


Peakhohe bei SG-Glattung von Gauß-Kurven

I Als erstes wird fur die Beispiel-Gauss-Kurve der Einfluss derSavitzky-Golay-Glattung (

”SG-Glattung“) auf die Peakhohe

untersucht.

I In der Literatur wird die Verzerrung von Signalparametern bei derGlattung vor allem in Abhangigkeit von der relativen Filterbreite

brel =bfil

b0.5

mit der effektiven Filterbreite bfil = (2 ·m + 1)∆x und derSignalbreite in halber Hohe (

”Halbwertsbreite“) b0.5 beschrieben.

I Fur eine Gauß-Kurve gilt b0.5 = 2b2√

ln(2) ; im Bsp. ≈ 0.167 .

I Zuerst wird die Peakhohe des mit dem Savitzky-Golay-Filter mitm = 2 und p = 3 geglatteten Signals bei ∆x = 0.04 bzw. bei∆x = 0.06 untersucht, die relativen Filterbreiten sind dabei 1.201bzw. 1.802.


Hohen bei SG-Glattung von Gauß-Kurven, ∆x = 0.04

schwarz: exakte Kurve,blau: interpolierte Kurve mit exakten Werten in den Punkten xk = k∆x ,rot: interpolierte Kurve durch SG-Glattung mit m = 2, p = 3 .


Differenz exakte und SG-geglattete Kurve, ∆x = 0.04

Differenz interpolierter Kurven: exakt – SG-Glattung


Hohen bei SG-Glattung von Gauß-Kurven, ∆x = 0.06






Abhangigkeit von der relativen Filterbreite

I Die nachsten Folien enthalten Grafiken, in denen systematischer dieAbhangigkeit des relativen Fehlers der Peakhohe (in Prozent) vonder relativen Filterbreite dargestellt wird.

I Dabei werden fur die Savitzky-Golay-Glattung die ParameterI m = 2, p = 3 ;

I m = 3, p = 3 ;

I m = 5, p = 3 und

I m = 3, p = 5

untersucht.

I Desweiteren wird der Einfluss einer Glattung durch ein gleitendesMittel mit m = 2 (d.h. es wird uber 2 · 2 + 1 = 5 benachbartePunkte gemittelt) auf die Peakhohe in einer Grafik dargestellt.


Hohen bei SG-Glattung (m = 2, p = 3), Gauß-Kurven








Vergleich Hohen bei SG-Glattung, Gauß-Kurven

schwarz: m = 2, p = 3 , rot: m = 3, p = 3 ,grun: m = 5, p = 3 , blau: m = 3, p = 5 .


Hohen bei MA-Glattung (m = 2), Gauß-Kurven


Ahnliche Gauß- und Lorentz-Kurven

I Mit dem Ziel einer besseren Vergleichbarkeit der Ergebnisse werdendie analogen Untersuchungen fur eine Lorentz-Kurve mitdemselben Maximumswert und einer ahnlichen Signalbreite in halberHohe b0.5 durchgefuhrt.

I Fur das Beispielsignal sind so die Parameter b1 = 0 und b3 = 1 .

I Die Formel fur die Signalbreite in halber Hohe lautet furLorentz-Kurve

b0.5 =2√b2.

I Einen zur Beispiel-Gauß-Kurve ahnlichen Wert erhalt man furb2 = 144 (mit b0.5 = 0.166 im Vergleich zu 0.1665109 bei derGauß-Kurve) , so dass die Beispiel-Lorentz-Kurve gegeben istdurch

y(x) =1

1 + 144x2, x ∈ R .


Grafik Beispiel-Gauß- und Lorentz-Kurve

schwarz: Lorentz-Kurve, rot: Gauß-Kurve.


Hohen bei SG-Glattung Lorentz-Kurve, ∆x = 0.04






Hohen bei SG-Glattung Lorentz-Kurve, ∆x = 0.06






Hohen bei SG-Glattung (m = 2, p = 3), Lorentz-Kurven








Vergleich Hohen bei SG-Glattung, Lorentz-Kurven

schwarz: m = 2, p = 3 , rot: m = 3, p = 3 ,grun: m = 5, p = 3 , blau: m = 3, p = 5 .


Hohen bei MA-Glattung (m = 2), Lorentz-Kurven


Flacheninhalte unter einem Peak

I Flacheninhalte unter einem Peak sind oft proportional zurAnalytkonzentration.

I Auch fur den Flacheninhalte unter einem Peak eines unverrauschtenSignals ergeben sich durch die Anwendung von GlattungsfilternVerzerrungen.

I Diese sind aber nicht so stark wie bei den Peakhohen. Bemerkbarerelative Fehler ergeben sich in der Regel erst fur relative Filterbreitengroßer 1 (siehe z.B. Otto, 2017, Kap. 3).

I Der Flacheninhalt unter einer Gauss- oder Lorentz-Kurve kannexplizit in Abhangigkeit von den Parametern b2 und b3 berechnetwerden.

I Sind nur fur Gitterwerte xk Funktionswerte verfugbar, konnenQuadraturformeln genutzt werden.


Trapezregel zur angenaherten Quadratur

I Geg.:Gitterpunkte x0, . . . , xn ; xk+1 − xk = h > 0 , k = 0, . . . , n − 1 ;Signalwerte y0, . . . , yn , yk ≥ 0 , k = 0, . . . , n .

I Naherungswert fur den Flacheninhalt unter der Signalkurve:∫ xn

x0

y(x)dx ≈ AT := h

[y0 + yn

2+

n−1∑k=1

yk

].

I Diese Formel basiert auf der Approximation der Flache unter derSignalkurve durch Trapeze auf den durch die Gitterpunkte erzeugtenbenachbarten Teilintervalle.

I Die Genauigkeit kann fur zwei mal stetig differenzierbareSignalfunktionen abgeschatzt werden durch∣∣∣∣∫ xn

x0

y(x)dx − AT

∣∣∣∣ ≤ h2

12(xn − x1) max

x0≤x≤xn|y ′′(x)| .


Simpson-Regel zur angenaherten Quadratur

I Geg.:Gitterpunkte x0, . . . , x2m ; xk+1 − xk = h > 0 , k = 0, . . . , 2m − 1 ;Signalwerte y0, . . . , y2m , yk ≥ 0 , k = 0, . . . , 2m .

I Naherungswert fur den Flacheninhalt unter der Signalkurve:

AS :=h

3

y0 + y2m + 42m−1∑

k=1,ungerade

yk + 22m−1∑

k=1,gerade

yk

.I Diese Formel basiert auf der Approximation der Flache unter der

Signalkurve durch Parabeln auf den m benachbartenDoppelintervallen [x0; x2], [x2; x4], . . . , [x2m−2; x2m].

I Die Genauigkeit kann fur vier mal stetig differenzierbareSignalfunktionen abgeschatzt werden durch∣∣∣∣∫ x2m

x0

y(x)dx − AS

∣∣∣∣ ≤ h4

180(x2m − x0) max

x0≤x≤x2m|y (4)(x)| .


Simpson-Regel bei einer geraden Anzahl vonGitterpunkten

I Ist eine gerade Anzahl von Gitterpunkten gegeben, z.B.

x0, . . . , x2m, x2m+1, x2m+2, x2m+3

und der Flacheninhalt unter dem Signal gesucht, kann man z.B. dieletzten 3 der entstehenden Teilintervalle zusammenfassen und denFlacheninhalt darunter durch die sogenannte 3/8-tel Regelberechnen:

A3/8 =3

8[y2m + 3y2m+1 + 3y2m+2 + y2m+3] .


Quadratur bei verrauschten Daten

I Konnen die Signalwerte yk als unabhangige Realisierungen vonZufallsgroßen mit dem jeweils korrekten Erwartungswert und einerVarianz von jeweils σ2 > 0 angesehen werden, sind die mit derTrapezregel bzw. Simpson-Regel berechneten zufalligenNaherungswerte erwartungstreue Schatzwerte fur die exaktenNaherungswerte.

I Die Varianz des Schatzwertes bei Nutzung der Trapezregel kann

dann durch(xn − x0)2

nσ2 und so die Standardabweichung durch

xn − x0√n

σ von oben abgeschatzt werden.

I Im Falle der Nutzung der Simpson-Regel erhalt man als obere

Schranken fur die Varianz16

9

(xn − x0)2

2mσ2 und entsprechend fur

die Standardabweichung4

3

xn − x0√2m

σ .


Peakpositionen

I Durch die Anwendung von Glattungsfiltern kann auch diePeakposition verzerrt werden.

I Dies kann insbesondere bei der Anwendung symmetrischerGlattungsalgorithmen auf unsymmetrische Signale erfolgen.

I Eine Rolle spielt aber auch die genaue Position der Gitterpunktehinsichtlich des

”theoretischen Maximumspunktes“. In den obigen

Beispielen fiel dieser immer mit einem Gitterpunkt zusammen.


Nutzung von Ableitungen

I Ableitungen konnen in der Signalverarbeitung unter anderem dazugenutzt werden,

I einen Untergrund eines Signals zu eliminieren,I die Peakposition zu bestimmen oderI die visuelle Auflosung von Peaks zu verbessern.

I Bei explizit gegebenen analytischen Signalkurven kann manAbleitungen formelmaßig ausrechnen und die Funktionswerte derAbleitungen nutzen.

I Fur nur auf den Gitterpunkten gegebene Signalwerte muss manwieder auf entsprechende numerische Naherungsverfahrenzuruckgreifen.

I Insbesondere erste und zweite Ableitungen konnen von Interesse sein.


Differenzenquotienten

I Fur auf (gleichabstandigen mit Abstand h) Gitterpunktenxk , k = 0, . . . , n gegebene Signalwerte konnen prinzipiellNaherungen der Ableitungen durch entsprechendeDifferenzenquotienten berechnet werden:

y ′(xk) ≈ yk+1 − ykh

, k = 0, . . . , n − 1 ;

y ′(xk) ≈ yk − yk−1h

, k = 1, . . . , n ;

y ′′(xk) ≈ yk+1 − 2yk + yk−1h2

, k = 1, . . . , n − 1 .

Die erste Formel definiert den Vorwartsdifferenzenquotienten ersterOrdnung, die zweite den Ruckwartsdifferenzenquotienten ersterOrdnung. Mit der dritten Formel wird der ublicheDifferenzenquotient zweiter Ordnung definiert.


Instabilitat fur verrauschte Daten

I Bei kleinen Werten h sind diese Berechnungsvorschriften anfalliggegenuber auftretenden Fluktuationen.

I Konnen wieder die Signalwerte yk als Realisierungen vonunabhangigen Zufallsgroßen mit einer Varianz von σ2 > 0angesehen werden, sind die Varianzen

I fur die Differenzenquotienten erster Ordnung2

h2σ2 und

I fur den Differenzenquotienten zweiter Ordnung6

h4σ2 .

I Da in der Regel Naherungswerte der Ableitung bis aufProportionalitat ausreichen, kann man oft mit den Differenzen

I erster Ordnung yk+1 − yk oder yk − yk−1 bzw.

I zweiter Ordnung yk+1 − 2yk + yk−1

rechnen.Die Varianzen fur die Schatzwerte betragen dann 2σ2 bzw. 6σ2 .


Ableitungen bei Savitzky-Golay-Glattung

I Nutzt man bei verrauschten Daten die Savitzky-Golay-Glattung,kann man auch direkt Schatzwerte fur die Ableitungen berechnen.Diese ergeben sich, in dem man die entsprechende Ableitung desangepassten Polynoms im Punkt xk berechnet.

I Diese Werte sind wieder gewichtete Mittelwerte der Signalwerteyk−m, . . . , yk , . . . , yk+m . Die notwendigen Koeffizienten undNormierungswerte sind tabelliert, siehe z.B. Otto, 2017, Anhang.

I Fur die erste Ableitung bei einer Savitzky-Golay-Glattung mitm = 2, p = 3 sind die Koeffizienten z.B. −2,−1, 0, 1, 2 mit einemNormierungswert von 10; fur die zweite Ableitung entsprechend2,−1,−2,−1, 2 mit einem Normierungswert von 7.

I Die Varianzen der so berechneten Schatzwerte waren bei obigenVoraussetzungen fur die erste Ableitung 0.1σ2 und fur die zweite

Ableitung2

7σ2 ≈ 0.286σ2 .


Beispieldatensatz

Beispieldatensatz aus dem Institut fur Analytische Chemie, 100Datenwerte geteilt durch 10 000.


Beispiel: gleitende Mittel mit m = 1, Daten


Beispiel: gleitende Mittel mit m = 1, Residuen


Beispiel: gleitende Mittel mit m = 3, Daten


Beispiel: gleitende Mittel mit m = 3, Residuen


Beispiel: Savitzky-Golay mit p = 3,m = 3, Daten


Beispiel: Savitzky-Golay mit p = 3,m = 3, Residuen


Beispiel: Savitzky-Golay mit p = 5,m = 3, Daten


Beispiel: Savitzky-Golay mit p = 5,m = 3, Residuen


Documents

Versuchsplanung und multivariate Statistik · R. Wehrens, Chemometrics with R: Multivariate Data Analysis in the Natural and Life Sciences, Springer-Verlag, 2011 (als E-Book an der