View
216
Download
0
Category
Preview:
Citation preview
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Wstęp do sieci neuronowych, wykład 09, Walidacjajakości uczenia. Metody statystyczne.
Maja Czoków, Jarosław Piersa
Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika
2013-12-03
Projekt pn. „Wzmocnienie potencjału dydaktycznego UMK w Toruniu w dziedzinach matematyczno-przyrodniczych”realizowany w ramach Poddziałania 4.1.1 Programu Operacyjnego Kapitał Ludzki
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
1 GeneralizacjaPrzykładGeneralizacjaPrzeuczenie sieci
2 Walidacja jakości uczeniaPrzypomnienie ze statystykiProblemModele walidacji danych
3 Błędy klasyfikacjiEksperyment myślowyBłędy pierwszego i drugiego rodzaju
4 Przypadek ciągłyPrzypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
PrzykładGeneralizacjaPrzeuczenie sieci
1 GeneralizacjaPrzykładGeneralizacjaPrzeuczenie sieci
2 Walidacja jakości uczeniaPrzypomnienie ze statystykiProblemModele walidacji danych
3 Błędy klasyfikacjiEksperyment myślowyBłędy pierwszego i drugiego rodzaju
4 Przypadek ciągłyPrzypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
PrzykładGeneralizacjaPrzeuczenie sieci
Przykład
Rozważmy problem XOR;
-1.5
-1
-0.5
0
0.5
1
1.5
-1.5 -1 -0.5 0 0.5 1 1.5
(Poprawnie) nauczona siećdaje poprawną odpowiedź nawszystkich 4 przykładach,
Tablica haszująca da ten samefekt (bez zaawansowanejteorii i przy mniejszymkoszcie pamięciowym),
Ale co się stanie gdyzapytamy się o klasyfikacjępunktu (1.3,−0.5)?
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
PrzykładGeneralizacjaPrzeuczenie sieci
Przykład
Co się stanie gdy zapytamy się o klasyfikację punktu (1.3,−0.5)?
Tablica haszująca: ObjectNotFoundException,ArrayIndexOutOfBoundsException, Segmentation faultitp.
Sieć neuronowa: zwróci odpowiedź dla każdego z punktów napłaszczyźnie,
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
PrzykładGeneralizacjaPrzeuczenie sieci
Wnioski
nie chcemy w zbiorze treningowym każdej możliwej wartości jakamoże paść,
ale chcemy „reprezentatywną próbkę” przestrzeni o jaką siećbędzie pytana podczas normalnego działania,
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
PrzykładGeneralizacjaPrzeuczenie sieci
Co to jest „reprezentatywna próbka”?
Co autor może mieć na myśli:-1-0.500.511.52 -1 -0.5 0 0.5 1 1.5 2M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
PrzykładGeneralizacjaPrzeuczenie sieci
Co to jest „reprezentatywna próbka”?
Co sieć może z tego zrozumieć:-1-0.500.511.52 -1 -0.5 0 0.5 1 1.5 2M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
PrzykładGeneralizacjaPrzeuczenie sieci
Generalizacja
Generalizacja jest zdolnością sieci do porawnej klasyfikacjidanych, na których sieć nie była uczona.
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
PrzykładGeneralizacjaPrzeuczenie sieci
Generalizacja
Dane uczące: -1-0.500.511.52 -1 -0.5 0 0.5 1 1.5 2M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
PrzykładGeneralizacjaPrzeuczenie sieci
Generalizacja
Sieć niedouczona:-1-0.500.511.52 -1 -0.5 0 0.5 1 1.5 2M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
PrzykładGeneralizacjaPrzeuczenie sieci
Generalizacja
Sieć dobrze nauczona:-1-0.500.511.52 -1 -0.5 0 0.5 1 1.5 2M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
PrzykładGeneralizacjaPrzeuczenie sieci
Generalizacja
Sieć przeuczona:-1-0.500.511.52 -1 -0.5 0 0.5 1 1.5 2M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
PrzykładGeneralizacjaPrzeuczenie sieci
Przeuczenie sieci
przeuczenie sieci jest sytuacją gdy sieć uczy się przykładów „napamięć”,
zdarza się to gdy sieć ma zbyt wiele punktów swobody (za dużoneuronów do nauczenia w porównaniu do skomplikowaniaproblemu i ilości danych),
przeuczona sieć traci możliwości generalizacji.
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
PrzykładGeneralizacjaPrzeuczenie sieci
Przeuczenie sieci
Dane uczące: -1-0.500.511.52 -1 -0.5 0 0.5 1 1.5 2M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
PrzykładGeneralizacjaPrzeuczenie sieci
Przeuczenie sieci
Wewnętrzna reprezentacja-1-0.500.511.52 -1 -0.5 0 0.5 1 1.5 2M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
PrzykładGeneralizacjaPrzeuczenie sieci
Wrażliwość sieci
E — przykład uczący
sensitivity :=
(ddE1Out(E ), ...,
ddEnOut(E )
)
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
PrzykładGeneralizacjaPrzeuczenie sieci
Wrażliwość sieci
Numerycznie:
E — przykład uczący,
h > 0
E i := [E1, ...,Ei−1,Ei + h,Ei+1, ...,EN ]
Przybliż dla wszystkich wejść (j = 1..N):
ddEjOut(E ) ' Out(E
j)− Out(E )
h
Uśrednij po przykładach uczących
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypomnienie ze statystykiProblemModele walidacji danych
1 GeneralizacjaPrzykładGeneralizacjaPrzeuczenie sieci
2 Walidacja jakości uczeniaPrzypomnienie ze statystykiProblemModele walidacji danych
3 Błędy klasyfikacjiEksperyment myślowyBłędy pierwszego i drugiego rodzaju
4 Przypadek ciągłyPrzypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypomnienie ze statystykiProblemModele walidacji danych
Przypomnienie ze statystyki
Dana jest próbka losowa x1, ..., xn wartości, losowanych niezależnie zrozkładu X .
Średnia z próby definiowana jest jako
x =
∑ni=1 xin
Średnia jest (mocno) zgodnym estymatorem wartości oczekiwanejrozkładu X (o ile EX istnieje!).
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypomnienie ze statystykiProblemModele walidacji danych
Przypomnienie ze statystyki
Estymator wariancji (o ile rozkład X posiada wariancję!):
σ2 =1n − 1
n∑i=1
(xi − x)2
Estymator odchylenia standardowego:
σ =
√√√√ 1n − 1
n∑i=1
(xi − x)2
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypomnienie ze statystykiProblemModele walidacji danych
Przypomnienie ze statystyki
Medianą próbki losowej xi1 , ..., xin będzie tą próbką po posortowaniu.Mediana jest zdefiniowana jako:
jeżeli n jest nieparzyste xi(n+1/2) (element na samym środkuposortowanej listy),
jeżeli n jest parzystexin/2+xin/2+1
2 (średnia dwóch „środkowych”elementów)
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypomnienie ze statystykiProblemModele walidacji danych
Zagadnienie
Dane niech będzie zbiór punktów uczących wraz z poprawnymiodpowiedziami,
Skonstruowana i nauczona została sieć neuronowa,
Chcemy ocenić jakość klasyfikacji i generalizacji uzyskanej sieci.
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypomnienie ze statystykiProblemModele walidacji danych
Proste rozwiązanie
Po nauczeniu sieci sprawdzamy ile z przykładów jestklasyfikowanych poprawnie,
Obliczamy ilość wszystkich przykładów,
Przypisujemy:
jakość uczenia :=ilość przykładów sklasyfikowanych poprawnie
ilość wszystkich przykładów
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypomnienie ze statystykiProblemModele walidacji danych
Proste rozwiązanie
Rozwiązanie jest aż za proste!
nie mówi nic o zachowaniu się sieci na danych, których niewidziała,
preferuje uczenie się danych na pamięć, ignoruje generalizację,
zaletą jest to, że maksymalnie wykorzystuje zestaw danych douczenia.
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypomnienie ze statystykiProblemModele walidacji danych
Walidacja prosta
dane uczące są losowo dzielone na dwa rozłączne zbiory:próbkę uczącą U,próbkę testową T ,
sieć jest uczona za pomocą próbki uczącej,
jakość sieci jest badana tylko za pomocą próbki testowej
jakość :=ilość przykładów T sklasyfikowanych poprawnie
ilość wszystkich przykładów w T
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypomnienie ze statystykiProblemModele walidacji danych
Walidacja prosta
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypomnienie ze statystykiProblemModele walidacji danych
Walidacja prosta
Uwagi i niebezpieczeństwa:
większy wpływ na wynik może mieć |U||U∪T | , niż
zaimplementowany algorytm,
rozsądnym minimum dla |U| jest około 14 całego zbioru,
z drugiej strony |U| nie powinno być większe niż 910 całegozbioru,
podając wynik, zawsze podajemy proporcje w jakich podzielonozbiór,
mamy informację o możliwości generalizacji, ale algorytmuczenia sieci korzystał tylko z ułamka dostępnej wiedzy,
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypomnienie ze statystykiProblemModele walidacji danych
k-krotna walidacja krzyżowa
Ang. k-fold cross-validation
dane uczące są losowo dzielone na k rozłącznych i równolicznychzbiorów: T1, ...,Tk ,dla i = 1...k powtarzamy
uczymy sieć na zbiorze uczącym T1 ∪ ...Ti−1 ∪ Ti+1 ∪ Tk ,testujemy tak nauczoną sieć na danych Ti (na tych danych siećnie była uczona),zapamiętujemy rezultat jako ri
podajemy wszystkie rezultaty ri ,
lub przynajmniej ich średnią, medianę, minimum, maksimum iodchylenie standardowe,
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypomnienie ze statystykiProblemModele walidacji danych
k-krotna walidacja krzyżowa
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypomnienie ze statystykiProblemModele walidacji danych
k-razy dwukrotna walidacja krzyżowa
Ang. k-times 2-fold cross-validation
odmiana walidacji krzyżowej,dla i = 1...k powtarzamy:
wykonujemy 2-krotną walidację, za każdym razem losujemyzbiory treningowy i testowy od nowa,zapamiętujemy wyniki ri1 ri2 (po dwa na każdą iterację),
zwracamy statystyki uzyskanych wyników,
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypomnienie ze statystykiProblemModele walidacji danych
k-razy dwukrotna walidacja krzyżowa
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypomnienie ze statystykiProblemModele walidacji danych
Leave One Out
odmiana walidacji krzyżowej, w której k = ilość elementów w T ,dla i = 1...n powtarzamy:
uczymy sieć na zbiorze uczącym T\Ti ,testujemy sieć na pozostałym przykładzie Ti ,zapamiętujemy wynik ri (będzie on albo +1, albo 0),
obliczamy średnią i odchylenie standardowe wyników,
można stosować w przypadku małej ilości danych w zbiorze T .
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypomnienie ze statystykiProblemModele walidacji danych
Leave One Out
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Eksperyment myślowyBłędy pierwszego i drugiego rodzaju
1 GeneralizacjaPrzykładGeneralizacjaPrzeuczenie sieci
2 Walidacja jakości uczeniaPrzypomnienie ze statystykiProblemModele walidacji danych
3 Błędy klasyfikacjiEksperyment myślowyBłędy pierwszego i drugiego rodzaju
4 Przypadek ciągłyPrzypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Eksperyment myślowyBłędy pierwszego i drugiego rodzaju
Błędy i błędy
jeżeli przyjmowana klasyfikacja jest binarna to możemy siępomylić na dwa sposoby:
przypadek, który powinien być prawdziwy, oceniamy jakofałszywy, (ang. false negative error)przypadek fałszywy oceniamy jako prawdziwy (ang. falsepositive),
który błąd jest gorszy?
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Eksperyment myślowyBłędy pierwszego i drugiego rodzaju
Przykład
egzamin z przedmiotu (np. WSN) powinien testować wiedzęzdających
jeżeli zdający zna materiał i dostał ocenę pozytywną, toegzaminator poprawnie ocenił wiedzę,jeżeli zdający nie zna materiału i nie zaliczył, to ocena jestpoprawna,jeżeli zdający umiał, ale mimo tego nie zaliczył, to egzaminatorpopełnił błąd (false negative),jeżeli zdający nie umiał a zaliczył, to egzaminator popełnił(dramatyczny) błąd (false positive).
ponieważ zawsze przysługuje egzamin poprawkowy, to ostatniaopcja jest najgorsza...
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Eksperyment myślowyBłędy pierwszego i drugiego rodzaju
Błędy pierwszego i drugiego rodzaju
klasyfikacja pozytywna klasyfikacja negatywna
faktyczny stan poprawna odpowiedź false negativejest pozytywny true positive (błąd II-go rodzaju)faktyczny stan false positive poprawna odpowiedźjest negatywny (błąd I-go rodzaju) true negative
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Eksperyment myślowyBłędy pierwszego i drugiego rodzaju
Bardziej życiowe przykłady
filtr antyspamowy,
kontrola bezpieczeństwa na lotnisku,
diagnoza lekarska,
diagnoza usterek technicznych,
kontrola jakości,
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Eksperyment myślowyBłędy pierwszego i drugiego rodzaju
Wrażliwość i specyficzność
wrażliwość testu (ang. sensitivity) jest odsetkiem poprawnychodpowiedzi wśród poprawnych przypadków, test o wysokiejwrażliwości popełnia mało błędów II-go rodzaju
TPR =true positives
positives
specyficzność testu (ang. specificity) jest odsetkiempoprawnych odpowiedzi wśród negatywnych przypadków, test owysokiej specyficzności popełnia mało błędów I-go rodzaju
TNR =true negatives
negatives
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Eksperyment myślowyBłędy pierwszego i drugiego rodzaju
Wrażliwość i specyficzność
stuprocentowa wrażliwość — tak na każdy przypadek,
stuprocentowa specyficzność — nie na każdy przypadek(„bardzo asertywny test”),
wysokie oba wskaźniki są cechą dobrych testów (co oznacza:trudne do osiągnięcia),
znając cel (np. unikanie fałszywych alarmów), szukamynajlepszego kompromisu kontrolując ważniejszą statystykę,
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Eksperyment myślowyBłędy pierwszego i drugiego rodzaju
Reciever Operation Characteristic
Funkcja wrażliwości testu w zależności od progu przyjmowaniaodpowiedzi:
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
1 GeneralizacjaPrzykładGeneralizacjaPrzeuczenie sieci
2 Walidacja jakości uczeniaPrzypomnienie ze statystykiProblemModele walidacji danych
3 Błędy klasyfikacjiEksperyment myślowyBłędy pierwszego i drugiego rodzaju
4 Przypadek ciągłyPrzypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
Co robić jeżeli wyniki są ciągłe?
błędy mierzymy jako odległość uzyskanego wyniku odoczekiwanego:
ERR =∑t
|E (t)− O(t)|
lub kwadrat odległości
ERR =∑t
(E (t)− O(t))2
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
Co robić jeżeli wyniki są ciągłe?
w przypadku wielowymiarowym dodatkowo suma powspółrzędnych
ERR =∑t
∑i
(Ei (t)− Oi (t))2
im mniejszy błąd tym lepsza klasyfikacja
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
Co robić jeżeli wyniki są ciągłe?
im więcej elementów w zbiorze, tym większy błąd nawet dladobrej sieci,
zatem uśrednimy wyniki:
ERR =1n
n∑i=1
(E (ti )− O(ti ))2
n — ilość przykładów w zbiorze
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
Regresja liniowa / Metoda najmniejszych kwadratów
danych mamy n punktów na R2: (x1, y1), ..., (xn, yn)
chcemy znaleźć równanie prostej y = ax + b „przybliżającej” tepunkty
idea: znajdziemy równanie prostej f , która minimalizujeodległość od tych punktów
n∑i=1
(f (xi )− yi )2
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
Regresja liniowa / Metoda najmniejszych kwadratów
danych mamy n punktów na R2: (x1, y1), ..., (xn, yn)
chcemy znaleźć równanie prostej y = ax + b „przybliżającej” tepunkty
idea: znajdziemy równanie prostej f , która minimalizujeodległość od tych punktów
n∑i=1
(f (xi )− yi )2
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
Regresja liniowa / Metoda najmniejszych kwadratów
-15
-10
-5
0
5
0 2 4 6 8 10-15
-10
-5
0
5
0 2 4 6 8 10
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
Regresja liniowa / Metoda najmniejszych kwadratów
Rozważania na tablicy
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
Regresja liniowa / Metoda najmniejszych kwadratów
Da tych, którzy wolą uczyć się ze slajdów
postać prostej f (x) = ax + b
błąd E (a, b) =∑i (f (xi )− yi )2 =
∑i (axi + b − yi )2
błąd chcemy minimalizować więc liczymy pochodne po a i po b
∂E∂a
=∑i
∂(axi + b − yi )2
∂a
∂E∂b
=∑i
∂(axi + b − yi )2
∂b
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
Regresja liniowa / Metoda najmniejszych kwadratów
Da tych, którzy wolą uczyć się ze slajdów
postać prostej f (x) = ax + b
błąd E (a, b) =∑i (f (xi )− yi )2 =
∑i (axi + b − yi )2
błąd chcemy minimalizować więc liczymy pochodne po a i po b
∂E∂a
=∑i
∂(axi + b − yi )2
∂a
∂E∂b
=∑i
∂(axi + b − yi )2
∂b
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
Regresja liniowa / Metoda najmniejszych kwadratów
Da tych, którzy wolą uczyć się ze slajdów
postać prostej f (x) = ax + b
błąd E (a, b) =∑i (f (xi )− yi )2 =
∑i (axi + b − yi )2
błąd chcemy minimalizować więc liczymy pochodne po a i po b
∂E∂a
=∑i
∂(axi + b − yi )2
∂a
∂E∂b
=∑i
∂(axi + b − yi )2
∂b
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
Regresja liniowa
∂E∂a
=∑i
∂(axi + b − yi )2
∂a=∑i
2(axi + b − yi )∂(axi + b − yi )
∂a=
∑i
2(axi + b − yi )xi = 2(a∑i
x2i + b∑i
xi −∑i
xiyi )
Podobnie
∂E∂b
=∑i
∂(axi + b − y i )2
∂b=∑i
2(axi + b − y i )∂(axi + b − y i )∂b
=
∑i
2(axi + b − y i )1 = 2(a∑i
xi + b∑i
1−∑i
yi )
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
Regresja liniowa
∂E∂a
=∑i
∂(axi + b − yi )2
∂a=∑i
2(axi + b − yi )∂(axi + b − yi )
∂a=
∑i
2(axi + b − yi )xi = 2(a∑i
x2i + b∑i
xi −∑i
xiyi )
Podobnie
∂E∂b
=∑i
∂(axi + b − y i )2
∂b=∑i
2(axi + b − y i )∂(axi + b − y i )∂b
=
∑i
2(axi + b − y i )1 = 2(a∑i
xi + b∑i
1−∑i
yi )
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
Regresja liniowa / Metoda najmniejszych kwadratów
Oznaczmy
S1 =∑i 1 = n
Sx =∑i xi
Sy =∑i yi
Sxy =∑i xiyi
Sxx =∑i x2i
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
Regresja liniowa / Metoda najmniejszych kwadratów
Nasze równania teraz wyglądają następująco:
2(aSxx + bSx − Sxy ) = 0
2(aSx + bS1 − Sy ) = 0
aSxx + bSx = SxyaSx + bS1 = Sy
a =n·Sxy−SxSyn·Sxx−S2x
b =SxxSy−SxySxn·Sxx−S2x
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
Regresja liniowa / Metoda najmniejszych kwadratów
Nasze równania teraz wyglądają następująco:
2(aSxx + bSx − Sxy ) = 0
2(aSx + bS1 − Sy ) = 0
aSxx + bSx = SxyaSx + bS1 = Sy
a =n·Sxy−SxSyn·Sxx−S2x
b =SxxSy−SxySxn·Sxx−S2x
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
Regresja liniowa / Metoda najmniejszych kwadratów
Nasze równania teraz wyglądają następująco:
2(aSxx + bSx − Sxy ) = 0
2(aSx + bS1 − Sy ) = 0
aSxx + bSx = SxyaSx + bS1 = Sy
a =n·Sxy−SxSyn·Sxx−S2x
b =SxxSy−SxySxn·Sxx−S2x
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
Regresja liniowa / Metoda najmniejszych kwadratów
Jeżeli f (x) = adxd + ad−1xd−1 + a1x + a0błąd E (a, b) =
∑i (f (xi )− yi )2
ponownie liczymy pochodne po każdym ze współczynników
∂E∂ai
=∑j
∂(adxdj + ...+ a1x1j + a0 − yj)2
∂ai
dla i = 0...d ,
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
Regresja liniowa / Metoda najmniejszych kwadratów
Jeżeli f (x) = adxd + ad−1xd−1 + a1x + a0błąd E (a, b) =
∑i (f (xi )− yi )2
ponownie liczymy pochodne po każdym ze współczynników
∂E∂ai
=∑j
∂(adxdj + ...+ a1x1j + a0 − yj)2
∂ai
dla i = 0...d ,
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
Aproksymacja wielomianem st. 2
-10
-5
0
5
10
0 2 4 6 8 10
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
Regresja liniowa / Metoda najmniejszych kwadratów
∂E∂ai
=∑j
((adxdj + ...+ a1x1j + a0 − yj
) ∂(adxdj + ...+ a0 − yj)∂ai
)
dla i = 0...d ,
∂E∂ai
=∑j
((adxdj + ...+ a1x1j + a0 − yj
)x ij)
dla i = 0...d ,
∂E∂ai
= ad∑j
xd+ij + ...+ a1∑j
x1+ij + a0∑j
x ij −∑j
yjx ij = 0
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
Regresja liniowa / Metoda najmniejszych kwadratów
∂E∂ai
=∑j
((adxdj + ...+ a1x1j + a0 − yj
) ∂(adxdj + ...+ a0 − yj)∂ai
)
dla i = 0...d ,
∂E∂ai
=∑j
((adxdj + ...+ a1x1j + a0 − yj
)x ij)
dla i = 0...d ,
∂E∂ai
= ad∑j
xd+ij + ...+ a1∑j
x1+ij + a0∑j
x ij −∑j
yjx ij = 0
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
Regresja liniowa / Metoda najmniejszych kwadratów
∂E∂ai
=∑j
((adxdj + ...+ a1x1j + a0 − yj
) ∂(adxdj + ...+ a0 − yj)∂ai
)
dla i = 0...d ,
∂E∂ai
=∑j
((adxdj + ...+ a1x1j + a0 − yj
)x ij)
dla i = 0...d ,
∂E∂ai
= ad∑j
xd+ij + ...+ a1∑j
x1+ij + a0∑j
x ij −∑j
yjx ij = 0
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
Regresja liniowa / Metoda najmniejszych kwadratów
Oznaczmy:Sxk =
∑j
xkj
Syxk =∑j
yjxkj
S1 =∑j
1
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
Regresja liniowa / Metoda najmniejszych kwadratów
Otrzymujemy układ równań:Sx2d Sx2d−1 ... Sxd+1 SxdSx2d−1 Sx2d−2 ... Sxd Sxd−1
......
Sxd Sxd−1 ... Sx1 Sx0
·anan−1
...a0
=
SyxdSyxd−1
...Syx0
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
GeneralizacjaWalidacja jakości uczenia
Błędy klasyfikacjiPrzypadek ciągły
Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d
Aproksymacja wielomianem zbyt wysokiego stopnia
dla wysokich stopni wielomianu d i złośliwych danych problemmoże być źle uwarunkowany (np. w danych jest para(xi , yi )(xj , yj) gdzie xi jest dość bliski xj , a odpowiadające im yznacznie się różnią),
wielomian trafia idealnie (niemal idealnie, jeżeli d < n − 1) wkażdy z punktów uczących, ale nie oddaje tego, co się dziejepoza nimi,
jeżeli d ' n (ilość danych), to prostszym rozwiązaniem jestinterpolacja wielomianowa Lagrange’a.
M. Czoków, J. Piersa WSN 2013/2014 Wykład 09
Recommended