Upload
lytuyen
View
224
Download
0
Embed Size (px)
Citation preview
Versuchsplanung und multivariate Statistik
Kapitel 2: Signalverarbeitung und Zeitreihenanalyse
Prof. Dr. Hans-Jorg Starkloff
TU Bergakademie FreibergInstitut fur Stochastik
Sommersemester 2019
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 1
2.1 Signalverarbeitung
I Ergebnisse von Messungen sind haufig Zahlenwerte in Abhangigkeitvon (einem oder mehreren) Parametern, die als Signal betrachtetwerden konnen. Beispiele sind
I Spektren,I Chromatogramme,I Voltammogramme,I Titrationskurven.
I Die nutzliche Information wird dabei oft durch die Messprozedurtransformiert und zusatzlich gibt es Fehler- und Rauscheinflusse, diedie Messergebnisse verfalschen.
I Heutzutage werden viele Messergebnisse automatisch digitalisiert, sodass eine Weiterverarbeitung durch Computerprogramme erfolgenkann.
I Die Algorithmen (und die zugehorigen mathematischen Operatorenetc.) zur Weiterverarbeitung der Messergebnisse werden oft Filtergenannt.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 2
Beispiel: NIR-Spektren von 60 Benzinproben
I Erstes Beispiel: Nahinfrarot-Spektren von 60 Benzinproben furWellenlangen von 900 bis 1700 nm in 2nm Intervallen.
I Reproduktion der Grafik ausR. Wehrens, Chemometrics with R: Multivariate Data Analysis inthe Natural and Life Sciences, Springer-Verlag, 2011 (als E-Book ander TUBAF verfugbar).
I Fur dieses Buch wurde ein entsprechendes R-PaketChemometricsWithR entwickelt.
I Der Datensatz gasoline ist im R-Paket pls enthalten.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 3
Grafik NIR-Spektren von 60 Benzinproben
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 4
Grafik erstes der 60 NIR-Spektren von den Benzinproben
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 5
Beispiel: Massenspektren von Prostatagewebe
I Zweites Beispiel: Massenspektren von Prostatagewebe (Ausschnittvon 200 bis 250 Dalton, 500 Datenpunkte). Eine Probe (gesundePerson) wurde doppelt vermessen. Die Spektren wurden schonvorverabeitet: Ausdunnung (”binning”), Basislinienkorrektur,Normalisierung.
I Es ist ein deutlicher Einfluss eines Messrauschens zu sehen.
I Nachempfinden einer Grafik ausR. Wehrens, Chemometrics with R: Multivariate Data Analysis inthe Natural and Life Sciences, Springer-Verlag, 2011 (als E-Book ander TUBAF verfugbar).
I Der Datensatz Prostate2000Raw ist im R-PaketChemometricsWithRData enthalten.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 6
Grafik Massenspektren von Prostatagewebe
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 7
Grafik Mittelwertfunktion der beiden Massenspektren
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 8
Einige Aufgabenstellungen der Signalverarbeitung
I Glattung von Signalen,
I Hervorhebung bestimmter Eigenschaften (Peakerkennung, etc.),zum Beispiel durch Differenzieren,
I Integration zur Flachenbestimmung,
I Basislinienkorrektur (Untergrundkorrektur),
I Datenreduktion,
I Entfaltung (Dekonvolution).
Bem.
I Mathematisch gesehen ist ein Signal eine Funktion, hier definiert aufeinem endlichen Gitter in einem Intervall der reellen Zahlen.
I Es entsteht aus der eigentlich”wahren“ Abhangigkeit eines
Merkmals von dem Parameter, der in der Regel fur alle reellenZahlen des Intervalls definiert ist.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 9
Mehrfache Messungen
I Liegen mehrfache Messungen vor, kann wie in der klassischenStatistik durch Mittelwertbildung der Einfluss zufalliger Messfehlerverringert werden.
I Bei N Messungen y`,k , ` = 1, . . . ,N , jeweils der Werte fur denParameter k (z.B. eine bestimmte Wellenlange), kann mit demarithmetischen Mittelwert
y∗k =1
N
N∑`=1
y`,k
weiter gerechnet werden.
I Kann angenommen werden, dass die Messungenauigkeiten bei demParameter k fur verschiedene ` = 1, . . . ,N durch unabhangigeZufallsgroßen mit Varianz σ2k > 0 beschrieben werden konnen,
resultiert fur den berechneten Schatzwert y∗k eine Varianz vonσ2kN
.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 10
Mittelwert 60 NIR-Spektren Benzinproben
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 11
Interessierende Charakteristiken eines Peaks
I Unverfalschte (nicht verrauschte) Signale entstehen oft durchUberlagerung typischer Signalformen, insbesondere Peaks.
I Von besonderem Interesse von einem Peak (einer Bande) sindI die Position des Zentrums des Peaks,I die Hohe des Peaks,I die Halbwertsbreite des Peaks,I der Flacheninhalt des Peaks.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 12
Typische Signalformen
I Oft werden Gauss- oder Lorentz-Kurven (oder Peaks) genutzt.Diese entsprechen auch Dichtefunktionen fur symmetrische stetigeZufallsgroßen (Normal- oder Gauß-Verteilung bzw. Cauchy- oderCauchy-Lorentz-Verteilung). Weitere Beispiele sindVoigt-Kurven oder spezielle asymmetrische Kurven.
I Die Funktionsgleichung fur eine Gauß-Kurve ist mitb1, b2 ∈ R , b2 > 0, b3 6= 0
y(x) = b3 exp
(−(x − b1)2
b22
).
I Die Funktionsgleichung fur eine Lorentz-Kurve ist mitb1, b2, b3 ∈ R , b2 > 0, b2 · b3 6= 0
y(x) =b3
1 + b2(x − b1)2.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 13
Grafik (Standard-)Gauß- und Lorentz-Kurve
b1 = 0 , Gauss: b2 =√
2 , b3 = 1√2π
; Lorentz: b2 = 1 , b3 = 1π .
Der Flacheninhalt unter den Kurven ist jeweils 1.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 14
Gauß- und Lorentz-Kurve mit gleicher Hohe undHalbwertsbreite
b1 = 0 , Gauss: b2 =√
2 , b3 = 1√2π
; Lorentz: b2 = 12 ln(2) , b3 = 1√
2π.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 15
Charakteristiken Gauß- und Lorentz-Kurve
Gauß : b3 exp
(−(x − b1)2
b22
), Lorentz : y(x) =
b31 + b2(x − b1)2
.
I Position des Zentrums des Peaks: b1 .
I Hohe des Peaks: b3 .
I Halbwertsbreite des Peaks:
Gauß: 2√
ln(2)b2 , Lorentz:2√b2
.
I Flacheninhalt des Peaks:
Gauß: b2b3√π , Lorentz:
b3π√b2
.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 16
Additive Uberlagerung verschobener Kurven
I Bei einer additiven Uberlagerung von Gauss- bzw.Lorentz-Kurven kann es passieren, dass die Spitzen derSummanden nicht mehr deutlich unterschieden werden konnen.
I Dies wird in den folgenden Folien demonstriert, in dem jeweils dieSumme zweier Kurven mit d1 = −2 und d1 = 2 (erste Grafik),d1 = −1 und d1 = 1 (zweite Grafik) und d1 = −0.5 und d1 = 0.5(dritte Grafik) dargestellt wird.
I Addiert man eine verschobene Gauss-Kurve und eine andersverschobene Lorentz-Kurve erhalt man asymmetrische Kurven.
I Die anderen Parameter bleiben ungeandert fur die folgendenGrafiken und entsprechen den Standardkurven, d.h. sie entsprechenWahrscheinlichkeitsdichten.
I Werden die Funktionswerte der Summenkurven durch 2 geteilt,erhalt man wieder Dichtefunktionen von Zufallsgroßen.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 17
Grafik Summe zweier verschobener Kurven, d1 = −2 / 2
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 18
Grafik Summe zweier verschobener Kurven, d1 = −1 / 1
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 19
Grafik Summe zweier verschobener Kurven, d1 = −0.5/0.5
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 20
Grafik Summe Gauß d1 = −0.5, Lorentz d1 = 0.5
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 21
Grafik Summe Gauß d1 = 1, Lorentz d1 = −1
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 22
Ableitungen von Gauß- und Lorentz-Kurven
Gauß: y(x) = b3 exp
(−(x − b1)2
b22
)y ′(x) =
2b3b22
(b1 − x) exp
(−(x − b1)2
b22
)y ′′(x) =
2b3b22
(2
b22(x − b1)2 − 1
)exp
(−(x − b1)2
b22
)
Lorentz: y(x) =b3
1 + b2(x − b1)2
y ′(x) =−2b2b3x
(1 + b2(x − b1)2)2
y ′′(x) =2b2b3
(3b2(x − b1)2 − 1
)(1 + b2(x − b1)2)3
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 23
1. Ableitung Standard-Gauß-Kurve
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 24
2. Ableitung Standard-Gauß-Kurve
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 25
1. Ableitung Standard-Lorentz-Kurve
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 26
2. Ableitung Standard-Lorentz-Kurve
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 27
2. Abl. Summe verschobene Gauss-Kurven, d1 = ±1
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 28
2. Abl. Summe verschobene Gauss-Kurven, d1 = ±0.5
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 29
2. Abl. Summe verschobene Lorentz-Kurven, d1 = ±1
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 30
2. Abl. Summe verschobene Lorentz-Kurven, d1 = ±0.5
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 31
Glattung von Signalen
I Enthalten Signale Rauschanteile, konnen diese durchGlattungsalgorithmen verringert werden.
I Oft werden lineare Filter zum Glatten benutzt. Diese sind fur Dateny1, . . . , yn auf einem Gitter dadurch gekennzeichnet, dass sich derfur den k-ten Gitterpunkt berechnete Wert durch eine gewichteteSumme berechnet:
y∗k = wk,1y1 + . . .+ wk,nyn .
I Als einfache Moglichkeit kann man einfache gleitende Mittelwerte(Durchschnitte) nutzen mit gleich großen Gewichten, unabhangigvon k , fur eine gewisse Anzahl von Nachbarindizes.
I Bessere Ergebnisse werden oft mit Savitzky-Golay-Filtern erzielt,bei der eine lokale polynomielle Anpassung die Grundlage bildet.
I Parameter dieser Filteralgorithmen mussen in der Regel an diejeweilige Datensituation angepasst werden.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 32
Beispielsignal
I Zur Illustration folgen wir dem Beispiel aushttp://wresch.github.io/2014/06/26/savitzky-golay.html
I Das unverrauschte Signal wird fur x ∈ [0, 1] beschrieben durch
y(x) =1
3(exp(1.2x) + 1.5 sin(7x)) .
I Dazu werden in den Gitterpunkten xk = k/100 , k = 1, . . . , 100 ,Realisierungen unabhangiger normalverteilter Zufallsgroßen mitErwartungswert 0 und Varianz 1.22 addiert.
I Diese Werte seien durch Messung verfugbar, wobei der Rauschanteilnicht extra beobachtbar ist und folglich die unverrauschten(exakten) Werte nicht berechenbar sind.
I Die unverrauschten (exakten) Werte konnen nur geschatzt werden.Die geschatzten Werte enthalten auch einen Fehleranteil, der aber(viel) geringer als der Rauschanteil sein sollte.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 33
Unverrauschtes und verrauschtes Beispielsignal
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 34
Gleitende Mittel
I Bei einer Glattung durch gleitende Mittel wird der Schatzwert y∗k ander Stelle xk berechnet durch
y∗k =1
2m + 1
m∑j=−m
yk+j .
I m ∈ N ist die Anzahl der genutzten benachbarten Werte links undrechts. 2m + 1 ist die Filterbreite. Fur jeweils m Randwerte konnenmit dieser Formel keine Schatzwerte berechnet werden. Hier kannman Mittelwerte uber 2m + 1 mogliche benachbarte Werte nutzen.
I Fur unabhangige additive Rauschterme in den Gitterpunkten mitubereinstimmenden Varianzen mitteln sich die Rauschterme wie inder klassischen Statistik aus: aus der Varianz σ2 fur Yk wird dieVarianz σ2
2m+1 fur Y ∗k .
I Gleichzeitig andert sich aber der Erwartungswert an der Stelle xk :aus dem Erwartungswert fur Yk wird der arithmetische Mittelwertder Erwartungswerte von Yk−m,Yk−m−1, . . . ,Yk , . . . ,Yk+m .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 35
Gleitendes Mittel m = 1 Beispielsignal
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 36
Gleitendes Mittel m = 2 Beispielsignal
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 37
Gleitendes Mittel m = 3 Beispielsignal
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 38
Gleitendes Mittel m = 4 Beispielsignal
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 39
Gleitendes Mittel m = 10 Beispielsignal
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 40
Gleitendes Mittel m = 20 Beispielsignal
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 41
Glattung mit Savitzky-Golay-Filtern
I Bei einer Glattung mit Savitzky-Golay-Filtern wird derSchatzwert y∗k an der Stelle xk berechnet durch
y∗k =1
NORM
m∑j=−m
cjyk+j
mit speziell gewahlten Gewichtskoeffizienten cj und einemNormalisierungsfaktor NORM =
∑mj=−m cj .
I 2m + 1 ist wieder die Filterbreite und fur jeweils m Randwertekonnen mit dieser Formel keine Schatzwerte berechnet werden.
I Die Gewichtskoeffizienten werden so bestimmt, dass y∗k der Wert desRegressionspolynoms eines gewahlten Grades p an der Stelle xk istund die Punkte (xk−m, yk−m), . . . , (xk+m, yk+m) gegeben sind. DieseKoeffizienten sind unabhangig von k (bei gleichabstandigenGitterpunkten xk), aber abhangig von den gewahlten Parametern mund p . Sie konnen einmal im voraus berechnet werden und in derLiteratur sind Tabellen fur diese Koeffizienten zu finden.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 42
Savitzky-Golay-Glattung m = 2, p = 3 Beispielsignal
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 43
Savitzky-Golay-Glattung m = 3, p = 3 Beispielsignal
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 44
Savitzky-Golay-Glattung m = 4, p = 3 Beispielsignal
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 45
Savitzky-Golay-Glattung m = 10, p = 3 Beispielsignal
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 46
Savitzky-Golay-Glattung m = 20, p = 3 Beispielsignal
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 47
Savitzky-Golay-Glattung m = 3, p = 5 Beispielsignal
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 48
Savitzky-Golay-Glattung m = 4, p = 5 Beispielsignal
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 49
Savitzky-Golay-Glattung m = 10, p = 5 Beispielsignal
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 50
Savitzky-Golay-Glattung m = 20, p = 5 Beispielsignal
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 51
Bemerkungen
I Zur Erzeugung der Grafiken wurden die R-Befehle movav undsavitzkyGolay aus dem R-Paket prospectr genutzt.
I Bei der Savitzky-Golay-Glattung erfolgt implizit eine Anpassungmit Hilfe der Methode der kleinsten Quadrate eines Polynoms vomGrad p an die Punkte (xk−m, yk−m), . . . , (xk+m, yk+m) . Da derSchatzwert fur den mittleren Punkt der Punktfolge (mit einerungeraden Anzahl von Punkten) berechnet wird, benotigt man hiernur den Schatzwert fur das Absolutglied des Regressionspolynom.
I Setzt man als Indexvariable τ = k − j kann man von Punkten(−m, y−m), . . . , (m, ym) ausgehen und dem Gitterpunkt xkentspricht der Indexwert τ = 0 . Der Wert des Regressionspolynomsa0 + a1τ + . . .+ apτ
p fur τ = 0 ist aber gerade das Absolutglieda0 .
I Die Savitzky-Golay-Glattung mit Polynomgraden 0 oder 1entspricht der Nutzung des gleitenden Mittels.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 52
Gewichtskoeffizienten fur p = 2, 3
Fur eine lokale Anpassung eines Polynoms zweiten oder dritten Gradesgelten so z.B. (vgl. z.B. Otto, Chemometrics, 2017, Kap.3)
m 2 3 4 5
M = 2m + 1 5 7 9 11
c−5 -36
c−4 -21 9
c−3 -2 14 44
c−2 -3 3 39 69
c−1 12 6 54 84
c0 17 7 59 89
NORM 35 21 231 429
und außerdem cj = c−j .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 53
Rauschanteile
I Der additive Rauschanteil in dem gemessenen Signal werde durchein Weißes Rauschen modelliert: unabhangige Zufallsgroßen (Rτ )mit E[Rτ ] = 0 und Var[Rτ ] = σ2 > 0 .
I Dann ist bei einer Savitzky-Golay-Glattung mit p = 3 undm = 2 der Rauschanteil in y∗0
1
35(−3R−2 + 12R−1 + 17R0 + 12R1 − 3R2)
mit Varianz ≈ 0.486σ2 wegen
1
352((−3)2σ2 + 122σ2 + 172σ2 + 122σ2 + (−3)2σ2
)=
595
1225σ2 .
I Bei Nutzung der gleitenden Mittel mit m = 5 erhalt mandemgegenuber bei den gemachten Annahmen eine Varianz des
Rauschanteils von5
25σ2 =
1
5σ2 = 0.2σ2 .
I Man nutzt also eine Savitzky-Golay-Glattung, um ungunstigeVerfalschungen des unverrauschten Signals zu vermindern.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 54
Vergleich Varianzen der Rauschanteile
Vergleich der Koeffizienten bei σ2 fur einfache gleitende Mittelwerte undSavitzky-Golay-Glattung mit p = 3 und unterschiedliche Filterbreiten
m 2 3 4 5
M = 2m + 1 5 7 9 11
gleitende Mittelwerte 0.200 0.143 0.111 0.091
Savitzky-Golay 0.485 0.333 0.255 0.207
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 55
Verfalschungen von unverrauschten Signalen
I Nun sollen exemplarisch Verfalschungen von unverrauschten Signalendurch Glattungsalgorithmen (Glattungsfilter) untersucht werden.
I In Anwendungen sind vor allem die Peakhohe, der Flacheninhaltunter einem Peak und die Maximumsstelle des Peaks von Interesse.
I Untersucht werden wieder Gauß- und Lorentz-Kurven .
I Bei Gauß-Kurven werden fur das Beispielsignal die Parameterb1 = 0, b3 = 1 und b2 = 0.1 gewahlt, so dass dieFunktionsgleichung lautet
y(x) = exp
(− x2
0.01
), x ∈ R .
Außerhalb des Intervalls (−0.4; 0.4) sind die Funktionswertepraktisch Null.
I Genutzt werden Funktionswerte in diskreten Punkten xk = k∆x , sodass der Funktionswert der Maximumsstelle zur Verfugung steht undSymmetrie vorliegt.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 56
Peakhohe bei SG-Glattung von Gauß-Kurven
I Als erstes wird fur die Beispiel-Gauss-Kurve der Einfluss derSavitzky-Golay-Glattung (
”SG-Glattung“) auf die Peakhohe
untersucht.
I In der Literatur wird die Verzerrung von Signalparametern bei derGlattung vor allem in Abhangigkeit von der relativen Filterbreite
brel =bfil
b0.5
mit der effektiven Filterbreite bfil = (2 ·m + 1)∆x und derSignalbreite in halber Hohe (
”Halbwertsbreite“) b0.5 beschrieben.
I Fur eine Gauß-Kurve gilt b0.5 = 2b2√
ln(2) ; im Bsp. ≈ 0.167 .
I Zuerst wird die Peakhohe des mit dem Savitzky-Golay-Filter mitm = 2 und p = 3 geglatteten Signals bei ∆x = 0.04 bzw. bei∆x = 0.06 untersucht, die relativen Filterbreiten sind dabei 1.201bzw. 1.802.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 57
Hohen bei SG-Glattung von Gauß-Kurven, ∆x = 0.04
schwarz: exakte Kurve,blau: interpolierte Kurve mit exakten Werten in den Punkten xk = k∆x ,rot: interpolierte Kurve durch SG-Glattung mit m = 2, p = 3 .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 58
Differenz exakte und SG-geglattete Kurve, ∆x = 0.04
Differenz interpolierter Kurven: exakt – SG-Glattung
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 59
Hohen bei SG-Glattung von Gauß-Kurven, ∆x = 0.06
schwarz: exakte Kurve,blau: interpolierte Kurve mit exakten Werten in den Punkten xk = k∆x ,rot: interpolierte Kurve durch SG-Glattung mit m = 2, p = 3 .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 60
Differenz exakte und SG-geglattete Kurve, ∆x = 0.06
Differenz interpolierter Kurven: exakt – SG-Glattung
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 61
Abhangigkeit von der relativen Filterbreite
I Die nachsten Folien enthalten Grafiken, in denen systematischer dieAbhangigkeit des relativen Fehlers der Peakhohe (in Prozent) vonder relativen Filterbreite dargestellt wird.
I Dabei werden fur die Savitzky-Golay-Glattung die ParameterI m = 2, p = 3 ;
I m = 3, p = 3 ;
I m = 5, p = 3 und
I m = 3, p = 5
untersucht.
I Desweiteren wird der Einfluss einer Glattung durch ein gleitendesMittel mit m = 2 (d.h. es wird uber 2 · 2 + 1 = 5 benachbartePunkte gemittelt) auf die Peakhohe in einer Grafik dargestellt.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 62
Hohen bei SG-Glattung (m = 2, p = 3), Gauß-Kurven
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 63
Hohen bei SG-Glattung (m = 3, p = 3), Gauß-Kurven
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 64
Hohen bei SG-Glattung (m = 5, p = 3), Gauß-Kurven
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 65
Hohen bei SG-Glattung (m = 3, p = 5), Gauß-Kurven
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 66
Vergleich Hohen bei SG-Glattung, Gauß-Kurven
schwarz: m = 2, p = 3 , rot: m = 3, p = 3 ,grun: m = 5, p = 3 , blau: m = 3, p = 5 .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 67
Hohen bei MA-Glattung (m = 2), Gauß-Kurven
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 68
Ahnliche Gauß- und Lorentz-Kurven
I Mit dem Ziel einer besseren Vergleichbarkeit der Ergebnisse werdendie analogen Untersuchungen fur eine Lorentz-Kurve mitdemselben Maximumswert und einer ahnlichen Signalbreite in halberHohe b0.5 durchgefuhrt.
I Fur das Beispielsignal sind so die Parameter b1 = 0 und b3 = 1 .
I Die Formel fur die Signalbreite in halber Hohe lautet furLorentz-Kurve
b0.5 =2√b2.
I Einen zur Beispiel-Gauß-Kurve ahnlichen Wert erhalt man furb2 = 144 (mit b0.5 = 0.166 im Vergleich zu 0.1665109 bei derGauß-Kurve) , so dass die Beispiel-Lorentz-Kurve gegeben istdurch
y(x) =1
1 + 144x2, x ∈ R .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 69
Grafik Beispiel-Gauß- und Lorentz-Kurve
schwarz: Lorentz-Kurve, rot: Gauß-Kurve.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 70
Hohen bei SG-Glattung Lorentz-Kurve, ∆x = 0.04
schwarz: exakte Kurve,blau: interpolierte Kurve mit exakten Werten in den Punkten xk = k∆x ,rot: interpolierte Kurve durch SG-Glattung mit m = 2, p = 3 .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 71
Differenz exakte und SG-geglattete Kurve, ∆x = 0.04
Differenz interpolierter Kurven: exakt – SG-Glattung
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 72
Hohen bei SG-Glattung Lorentz-Kurve, ∆x = 0.06
schwarz: exakte Kurve,blau: interpolierte Kurve mit exakten Werten in den Punkten xk = k∆x ,rot: interpolierte Kurve durch SG-Glattung mit m = 2, p = 3 .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 73
Differenz exakte und SG-geglattete Kurve, ∆x = 0.06
Differenz interpolierter Kurven: exakt – SG-Glattung
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 74
Hohen bei SG-Glattung (m = 2, p = 3), Lorentz-Kurven
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 75
Hohen bei SG-Glattung (m = 3, p = 3), Lorentz-Kurven
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 76
Hohen bei SG-Glattung (m = 5, p = 3), Lorentz-Kurven
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 77
Hohen bei SG-Glattung (m = 3, p = 5), Lorentz-Kurven
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 78
Vergleich Hohen bei SG-Glattung, Lorentz-Kurven
schwarz: m = 2, p = 3 , rot: m = 3, p = 3 ,grun: m = 5, p = 3 , blau: m = 3, p = 5 .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 79
Hohen bei MA-Glattung (m = 2), Lorentz-Kurven
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 80
Flacheninhalte unter einem Peak
I Flacheninhalte unter einem Peak sind oft proportional zurAnalytkonzentration.
I Auch fur den Flacheninhalte unter einem Peak eines unverrauschtenSignals ergeben sich durch die Anwendung von GlattungsfilternVerzerrungen.
I Diese sind aber nicht so stark wie bei den Peakhohen. Bemerkbarerelative Fehler ergeben sich in der Regel erst fur relative Filterbreitengroßer 1 (siehe z.B. Otto, 2017, Kap. 3).
I Der Flacheninhalt unter einer Gauss- oder Lorentz-Kurve kannexplizit in Abhangigkeit von den Parametern b2 und b3 berechnetwerden.
I Sind nur fur Gitterwerte xk Funktionswerte verfugbar, konnenQuadraturformeln genutzt werden.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 81
Trapezregel zur angenaherten Quadratur
I Geg.:Gitterpunkte x0, . . . , xn ; xk+1 − xk = h > 0 , k = 0, . . . , n − 1 ;Signalwerte y0, . . . , yn , yk ≥ 0 , k = 0, . . . , n .
I Naherungswert fur den Flacheninhalt unter der Signalkurve:∫ xn
x0
y(x)dx ≈ AT := h
[y0 + yn
2+
n−1∑k=1
yk
].
I Diese Formel basiert auf der Approximation der Flache unter derSignalkurve durch Trapeze auf den durch die Gitterpunkte erzeugtenbenachbarten Teilintervalle.
I Die Genauigkeit kann fur zwei mal stetig differenzierbareSignalfunktionen abgeschatzt werden durch∣∣∣∣∫ xn
x0
y(x)dx − AT
∣∣∣∣ ≤ h2
12(xn − x1) max
x0≤x≤xn|y ′′(x)| .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 82
Simpson-Regel zur angenaherten Quadratur
I Geg.:Gitterpunkte x0, . . . , x2m ; xk+1 − xk = h > 0 , k = 0, . . . , 2m − 1 ;Signalwerte y0, . . . , y2m , yk ≥ 0 , k = 0, . . . , 2m .
I Naherungswert fur den Flacheninhalt unter der Signalkurve:
AS :=h
3
y0 + y2m + 42m−1∑
k=1,ungerade
yk + 22m−1∑
k=1,gerade
yk
.I Diese Formel basiert auf der Approximation der Flache unter der
Signalkurve durch Parabeln auf den m benachbartenDoppelintervallen [x0; x2], [x2; x4], . . . , [x2m−2; x2m].
I Die Genauigkeit kann fur vier mal stetig differenzierbareSignalfunktionen abgeschatzt werden durch∣∣∣∣∫ x2m
x0
y(x)dx − AS
∣∣∣∣ ≤ h4
180(x2m − x0) max
x0≤x≤x2m|y (4)(x)| .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 83
Simpson-Regel bei einer geraden Anzahl vonGitterpunkten
I Ist eine gerade Anzahl von Gitterpunkten gegeben, z.B.
x0, . . . , x2m, x2m+1, x2m+2, x2m+3
und der Flacheninhalt unter dem Signal gesucht, kann man z.B. dieletzten 3 der entstehenden Teilintervalle zusammenfassen und denFlacheninhalt darunter durch die sogenannte 3/8-tel Regelberechnen:
A3/8 =3
8[y2m + 3y2m+1 + 3y2m+2 + y2m+3] .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 84
Quadratur bei verrauschten Daten
I Konnen die Signalwerte yk als unabhangige Realisierungen vonZufallsgroßen mit dem jeweils korrekten Erwartungswert und einerVarianz von jeweils σ2 > 0 angesehen werden, sind die mit derTrapezregel bzw. Simpson-Regel berechneten zufalligenNaherungswerte erwartungstreue Schatzwerte fur die exaktenNaherungswerte.
I Die Varianz des Schatzwertes bei Nutzung der Trapezregel kann
dann durch(xn − x0)2
nσ2 und so die Standardabweichung durch
xn − x0√n
σ von oben abgeschatzt werden.
I Im Falle der Nutzung der Simpson-Regel erhalt man als obere
Schranken fur die Varianz16
9
(xn − x0)2
2mσ2 und entsprechend fur
die Standardabweichung4
3
xn − x0√2m
σ .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 85
Peakpositionen
I Durch die Anwendung von Glattungsfiltern kann auch diePeakposition verzerrt werden.
I Dies kann insbesondere bei der Anwendung symmetrischerGlattungsalgorithmen auf unsymmetrische Signale erfolgen.
I Eine Rolle spielt aber auch die genaue Position der Gitterpunktehinsichtlich des
”theoretischen Maximumspunktes“. In den obigen
Beispielen fiel dieser immer mit einem Gitterpunkt zusammen.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 86
Nutzung von Ableitungen
I Ableitungen konnen in der Signalverarbeitung unter anderem dazugenutzt werden,
I einen Untergrund eines Signals zu eliminieren,I die Peakposition zu bestimmen oderI die visuelle Auflosung von Peaks zu verbessern.
I Bei explizit gegebenen analytischen Signalkurven kann manAbleitungen formelmaßig ausrechnen und die Funktionswerte derAbleitungen nutzen.
I Fur nur auf den Gitterpunkten gegebene Signalwerte muss manwieder auf entsprechende numerische Naherungsverfahrenzuruckgreifen.
I Insbesondere erste und zweite Ableitungen konnen von Interesse sein.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 87
Differenzenquotienten
I Fur auf (gleichabstandigen mit Abstand h) Gitterpunktenxk , k = 0, . . . , n gegebene Signalwerte konnen prinzipiellNaherungen der Ableitungen durch entsprechendeDifferenzenquotienten berechnet werden:
y ′(xk) ≈ yk+1 − ykh
, k = 0, . . . , n − 1 ;
y ′(xk) ≈ yk − yk−1h
, k = 1, . . . , n ;
y ′′(xk) ≈ yk+1 − 2yk + yk−1h2
, k = 1, . . . , n − 1 .
Die erste Formel definiert den Vorwartsdifferenzenquotienten ersterOrdnung, die zweite den Ruckwartsdifferenzenquotienten ersterOrdnung. Mit der dritten Formel wird der ublicheDifferenzenquotient zweiter Ordnung definiert.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 88
Instabilitat fur verrauschte Daten
I Bei kleinen Werten h sind diese Berechnungsvorschriften anfalliggegenuber auftretenden Fluktuationen.
I Konnen wieder die Signalwerte yk als Realisierungen vonunabhangigen Zufallsgroßen mit einer Varianz von σ2 > 0angesehen werden, sind die Varianzen
I fur die Differenzenquotienten erster Ordnung2
h2σ2 und
I fur den Differenzenquotienten zweiter Ordnung6
h4σ2 .
I Da in der Regel Naherungswerte der Ableitung bis aufProportionalitat ausreichen, kann man oft mit den Differenzen
I erster Ordnung yk+1 − yk oder yk − yk−1 bzw.
I zweiter Ordnung yk+1 − 2yk + yk−1
rechnen.Die Varianzen fur die Schatzwerte betragen dann 2σ2 bzw. 6σ2 .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 89
Ableitungen bei Savitzky-Golay-Glattung
I Nutzt man bei verrauschten Daten die Savitzky-Golay-Glattung,kann man auch direkt Schatzwerte fur die Ableitungen berechnen.Diese ergeben sich, in dem man die entsprechende Ableitung desangepassten Polynoms im Punkt xk berechnet.
I Diese Werte sind wieder gewichtete Mittelwerte der Signalwerteyk−m, . . . , yk , . . . , yk+m . Die notwendigen Koeffizienten undNormierungswerte sind tabelliert, siehe z.B. Otto, 2017, Anhang.
I Fur die erste Ableitung bei einer Savitzky-Golay-Glattung mitm = 2, p = 3 sind die Koeffizienten z.B. −2,−1, 0, 1, 2 mit einemNormierungswert von 10; fur die zweite Ableitung entsprechend2,−1,−2,−1, 2 mit einem Normierungswert von 7.
I Die Varianzen der so berechneten Schatzwerte waren bei obigenVoraussetzungen fur die erste Ableitung 0.1σ2 und fur die zweite
Ableitung2
7σ2 ≈ 0.286σ2 .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 90
Beispieldatensatz
Beispieldatensatz aus dem Institut fur Analytische Chemie, 100Datenwerte geteilt durch 10 000.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 91
Beispiel: gleitende Mittel mit m = 1, Daten
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 92
Beispiel: gleitende Mittel mit m = 1, Residuen
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 93
Beispiel: gleitende Mittel mit m = 3, Daten
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 94
Beispiel: gleitende Mittel mit m = 3, Residuen
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 95
Beispiel: Savitzky-Golay mit p = 3,m = 3, Daten
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 96
Beispiel: Savitzky-Golay mit p = 3,m = 3, Residuen
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 97
Beispiel: Savitzky-Golay mit p = 5,m = 3, Daten
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 98
Beispiel: Savitzky-Golay mit p = 5,m = 3, Residuen
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 2.1 22.4.2019 99