14.1 Neuronale Netze 14 Neuronale ... - Fakultät Statistik ?· 14 Neuronale Netze 14.1 Ubersicht 14.1…

  • View
    212

  • Download
    0

Embed Size (px)

Transcript

  • 14 Neuronale Netze 14.1 Übersicht

    14.1 Neuronale Netze

    Neuronale Netze

    14 Neuronale Netze

    Die Folien zu Neur(on)alen Netzen sind angelehnt an zwei Literaturstellen:

    Cross, S.S., Harrison, R.F., Kennedy, R.L. (1995): Introduction to neural networks; The Lancet 346, 1075–1079.

    Hwang, J.T.G., Ding, A.A. (1997): Prediction intervals for artificial neural networks; Journal of the American Statistical Association 92, 748–757.

    Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 488

    14 Neuronale Netze 14.1 Übersicht

    14.1 Neuronale Netze

    Künstliches Neuronales Netz:

    Ein künstliches Neuronales Netz besteht aus einer Menge von Verarbeitungseinheiten, sog. Knoten, die Neuronen simulieren sollen, und die durch eine Menge von Gewichten

    ” verbunden“

    sind, analog zu den synaptischen Verbindungen im Nervensystem. Die Knoten sind sehr einfache Berechnungselemente und basieren auf der Beobachtung, dass ein Neuron sich wie ein Schalter verhält: wenn sich genügend Neurotransmitter im Zellkörper angesammelt hat, wird ein Aktionspotential erzeugt. Dieses Potential wird mathematisch modelliert als gewichtete Summe aller den Knoten erreichender Signale im Vergleich zu einer vorgegebenen Schranke. Nur falls diese Schranke überschritten wird,

    ” feuert“ der Knoten.

    Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 489

    14 Neuronale Netze 14.1 Übersicht

    14.1 Neuronale Netze

    Dass mit neuronalen Netzen komplexe Sachverhalte modelliert werden können, liegt, wie bei einem Computer, nicht an der Komplexität eines einzelnen Berechnungselements, sondern an der Dichte und Komplexität der Verbindungen. Im Gegensatz zu einem herkömmlichen Computer, ist der Speicher eines Neuronalen Netzes verteilt über seine gesamte Struktur und wird modifiziert durch Erfahrung, sog. Lernen. Herkömmliche Computer arbeiten dagegen mit festen Programmen auf sehr komplexen zentralen Arbeitseinheiten. Strukturell ist ein künstliches Neuronales Netz dann auch eher vergleichbar mit einem natürlichen (biologischen) neuronalen Netz wie dem menschlichen Gehirn.

    Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 490

    14 Neuronale Netze 14.1 Übersicht

    14.1 Neuronale Netze

    Mehrschicht-Netze:

    Das verbreiteste Neuronale Netz ist das sogenannte Mehrschicht-Netz (Multilayer Perceptron). Ein solches Netz kann hierarchisch organisiert werden in Schichten (layers) von Neuronen, der Eingangsschicht (input layer), den Zwischenschichten (interior layers) und der Ausgangsschicht (output layer). Ein feedforward (vorwärts leitendes) Netz lässt nur Signale in einer Richtung zu, von den Eingangsknoten nach den Ausgangsknoten. Wie bei jedem Neuronalen Netz wird jede Verbindung zwischen zwei Knoten mit einem Gewicht belegt, das den Einfluss des Eingangsknotens auf den Ausgangsknoten repräsentiert.

    Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 491

  • 14 Neuronale Netze 14.1 Übersicht

    14.1 Neuronale Netze

    Abb. 13 : Neuronales Netz mit einer Zwischenschicht

    Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 492

    14 Neuronale Netze 14.1 Übersicht

    14.1 Neuronale Netze

    Im Folgenden werden nur spezielle Mehrschicht-Netze betrachtet, nämlich Netze mit nur einer Zwischenschicht (s. Abbildung). Die Eingangssignale X1, . . . ,XK werden dabei linear kombiniert mit individuellen Gewichten βk als Input für jeden Knoten der Zwischenschicht. Der Knoten bearbeitet dieses Eingangssignal dann mit einer Aktivierungsfunktion g zur Erzeugung von Ausgangssignalen. Diese Ausgangssignale werden dann ihrerseits linear kombiniert mit Gewichten αi zur Bestimmung des Wertes y des einzigen Knotens der Ausgangsschicht, d.h. des Ausgangssignals Y . Dabei wird ein Rauschen � überlagert.

    Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 493

    14 Neuronale Netze 14.1 Übersicht

    14.1 Neuronale Netze

    Die Aktivierungsfunktion wird im Allg. nicht wie ursprünglich als Sprungfunktion gewählt, die erst ab einem festgelegten Aktivierungspotential

    ” feuert“, sondern als symmetrische sigmoide

    Funktion, d.h. es gilt :

    g(x)→ 0 für x → −∞ (34) g(x)→ 1 für t →∞ und (35) g(x) + g(−x) = 1. (36)

    Eine beliebte Wahl der Aktivierungsfunktion ist die logistische Aktivierungsfunktion:

    g(x) = 1

    1 + e−x (37)

    Offenbar kommen aber auch Verteilungsfunktionen von symmetrischen Verteilungen in Frage.

    Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 494

    14 Neuronale Netze 14.1 Übersicht

    14.1 Neuronale Netze

    Insgesamt erhält man als Modell, dass einem wie eben definierten Neuronalen Netz entspricht:

    Y = a0 + d∑

    i=1

    aig(β T i X + βi0) + � =: f (X ; θ) + �, (38)

    wobei X = (X1, . . . ,XK ) T der Vektor der Eingangssignale ist,

    βTi = (βi1, . . . , βiK ) der Vektor der Gewichte der Eingangssignale für den i-ten Knoten der Zwischenschicht und � eine Zufallsgröße mit (mindestens) Erwartungswert 0 ist. Damit erhält man als Vektor der Modellkoeffizienten dieses Modells:

    θ = (α0, . . . , αd , β10, . . . , βd0, β T 1 , . . . , β

    T d )

    T .

    Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 495

  • 14 Neuronale Netze 14.1 Übersicht

    14.1 Neuronale Netze

    Diese Koeffizienten müssen geschätzt bzw. ” gelernt“

    werden. Die Koeffizienten eines Neuronalen Netzes können z.B. mit Hilfe der nichtlinearen Methode der Kleinsten Quadrate geschätzt werden.

    Leider gibt es bei der Modellfunktion ein entscheidendes Problem. Das Modell ist nämlich in dem Sinne nicht identifizierbar, dass es mehrere Koeffizientensätze gibt, die zu dem selben Wert der Modellfunktion f (X ; θ) führen.

    Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 496

    14 Neuronale Netze 14.1 Übersicht

    14.1 Neuronale Netze

    Tatsächlich sind Neuronale Netze vom Typ (38) mit logistischer Aktivierungsfunktion (37) niemals identifizierbar, und deshalb sollte von einer Interpretation der geschätzten Koeffizienten eines Modells (38) in jedem Fall Abstand genommen werden!

    Man kann die Identifizierbarkeit von Neuronalen Netzen unter gewissen Bedingungen sicherstellen, unter denen die zum Modell (38) gehörige Kovarianzmatrix B̂ der Modellkoeffizienten invertierbar ist, was zur Bestimmung von Prognoseintervallen wichtig ist.

    Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 497

    15 Zeitreihenanalyse 15.1 Grundbegriffe

    15.1 Zeitreihenanalyse

    Zeitreihenanalyse

    15 Zeitreihenanalyse 15.1 Grundbegriffe

    Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 498

    15 Zeitreihenanalyse 15.1 Grundbegriffe

    15.1 Zeitreihen – Grundbegriffe

    Grundbegriffe

    Ziel einer Zeitreihenanalyse ist die Bestimmung eines Modells für die Zeitabhängigkeit eines Merkmals.

    Die Zeit gibt den Daten also eine ” natürliche“ Struktur, und

    der zeitliche Verlauf ist entscheidend für die Interpretation!

    Die Zeitreihenanalyse besteht aus der Modellierung der Abhängigkeit des Merkmals von der Zeit. Dabei wird im Folgenden immer davon ausgegangen, dass die Beobachtungen des Merkmals äquidistant vorliegen.

    Definition 13 (Zeitreihe)

    Eine zeitliche Folge von Beobachtungswerten eines quantitativen Merkmals heißt Zeitreihe yt , t = 1, . . . ,T .

    Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 499

  • 15 Zeitreihenanalyse 15.1 Grundbegriffe

    15.1 Zeitreihen – Grundbegriffe

    Beispiele:

    Monatliche Durchschnittstemperatur

    Jährlicher Umsatz eines Unternehmens

    Verbraucherpreisindex

    DAX

    Jährliche Anzahl Studierende am Anfang (oder am Ende) von dieser Veranstaltung

    Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 500

    15 Zeitreihenanalyse 15.1 Grundbegriffe

    15.1 Zeitreihen – Grundbegriffe

    Beispiel ??: Umsatzentwicklung zweier Firmen (Erinnerung)

    Tab. 12 : Umsatzentwicklung zweier Firmen

    Maier Müller Quartal Umsatz xt xt/x0 xt/x4 Umsatz yt yt/y0 yt/y4 ab 1.1.’08 in 1000 EUR in 1000 EUR

    0 1240 1.00 1.08 960 1.00 1.07 1 1210 0.98 1.05 980 1.02 1.09 2 1180 0.95 1.03 980 1.02 1.09 3 1190 0.96 1.03 920 0.96 1.03 4 1150 0.93 1.00 900 0.94 1.00 5 1080 0.87 0.94 860 0.90 0.96 6 1120 0.90 0.97 880 0.92 0.98 7 1130 0.91 0.98 920 0.96 1.02

    Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 501

    15 Zeitreihenanalyse 15.1 Grundbegriffe

    15.1 Zeitreihen – Grundbegriffe

    ● ●

    ● ●

    0 1 2 3 4 5 6 7

    80 0

    90 0

    10 00

    11 00

    12 00

    13 00

    Umsatz zweier Firmen

    Quartal (= t−1)

    U m

    sa tz

    in M

    io E

    U R

    ● ●

    Müller

    Maier ●

    0 1 2 3 4 5 6 7

    0. 90