Upload
truongkhanh
View
216
Download
0
Embed Size (px)
Citation preview
Data Mining
Klaudia Malinowska Simona Pikuła
Statystyka w SAS
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 1 / 98
Plan prezentacji
1 Data Mining-co to jest?
2 Metodologia SEMMA
3 Analiza danychSampleExploreModyfikowanie danychBadanie i przygotowanie danychOcena i wybór modelu
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 2 / 98
Data Mining-co to jest?
Data mining jest to proces analityczny, służący do odkrywanianietrywialnych, dotychczas nieznanych zależności, trendów w dużychbazach danych, wykorzystując przy tym między innymi metodystatystyczne. Gromadzonych danych jest coraz więcej, dlatego teżproblemem jest wydobycie z nich jak największej ilości informacji. Datamining, jako złożony proces selekcji i transformacji danych, ułatwiainterpretacje uzyskanych wyników.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 3 / 98
Główne zastosowania
W procesie data mining możemy wyróżnić sześć podstawowychzastosowań.
opis
szacowanie
klasyfikacja
grupowanie
odkrywanie reguł
odkrywanie anomalii.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 4 / 98
Metodologie
Aby eksploracja danych przebiegła sprawnie, stworzono metodologie, któreuporządkowują poszczególne etapy analizy. Do najbardziej popularnychnależą:
CRISP-DM
SEMMA
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 5 / 98
CRISP-DM
Rysunek: Etapy metodologii CRISP-DM
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 6 / 98
SEMMA
W tej prezentacji wykorzystamy drugą z metodologii SEMMA, któraskłada się z 5 etapów:
Sample-przygotowanie i podział wejściowej próby danych,
Explore-eksploracja danych, służąca ocenie ich jakości oraz wstępnejidentyfikacji zależności pomiędzy zmiennymi,
Modify-modyfikacja danych, służąca poprawie ich jakości, spełnieniuzałożeń metod modelowania lub zwiększaniu ich elastyczności poprzeztransformację zmiennych,
Model- modelowanie przy użyciu takich metod jak drzewa decyzyjne,regresja czy sieci neuronowe,
Asses-ocena jakości budowanych modeli i wybór najlepszego z nich, anastępnie monitorowanie jego skuteczności na nowo napływającychdanych.W systemie SAS model SEMMA realizowany jest w oparciu o tzw.diagramy przepływu, które można tworzyć przy użyciu wygodnego GUI
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 7 / 98
SEMMA
Została ona stworzona z myślą o oprogramowaniu Enterprise Miner.Koncentruje się na opracowywaniu modeli i kładzie mniejszy nacisk napoczątkowe fazy planowania objęte CRISP-DM (Rozumienie biznesowe ifazy Zrozumienia Danych) oraz całkowicie pomija fazę wdrożenia.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 8 / 98
Cel
Firma świadcząca usługi finansowe oferuje swoim klientom kredythipoteczny. Firma rozszerzyła w przeszłości kilka tysięcy linii kredytowych,a wiele z nich, które zaakceptowali wnioskodawcy (około 20 %) zalegają zpożyczkami. Używając zmiennych geograficznych, demograficznych ifinansowych, firma chce zbudować model aby przewidzieć, czywnioskodawca się nie wywiąże.Po przeanalizowaniu danych firma wybrała podzbiór 12 predyktorówzmiennych do modelowania.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 9 / 98
Opis danych
BAD - zmienna celu - przyjmuje wartość 1, gdy kredytobiorca niespłacił kredytuCLAGE- długość trwania najdłuższego z aktywnych zobowiązańkredytowych zaciągniętych przez kredytobiorcę (w miesiącach)CLNO - ilość aktywnych zobowiązań kredytowychDEBTINC - współczynnik zadłużenia do przychoduDELINQ - historyczna liczba zaległości kredytowychDEROG - ilość negatywnych informacji kredytowychJOB - wykonywany zawódLOAN - kwota pozostała do spłatyMORTDUE - kwota do spłaty bieżącej hipotekiNINQ - ilość ostatnio złożonych wniosków kredytowychREASON - przyjmuje wartość DebCon, gdy kredyt jest przeznaczonyna konsolidację innego kredytu, wartość Homelmp, gdy jestprzeznaczony na zwiększenie wartości hipotekiVALUE - wartość obecna hipotekiYOJ - staż w obecnej pracy (w latach)
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 10 / 98
Rodzaj i rola zmiennych
W zakresie ról zmiennych najczęściej wykorzystywanymi są:
Wejściowa (Input) - zmienna objaśniająca
Zmienna celu (Target) - zmienna objaśniana
Odrzucona (Rejected) - nie bierze udziału w analizie
ID - identyfikator
Dostępne jest pięć skal pomiarowych:
Przedziałowa (Interval) - zmienna ciągła
Nominalna (Nominal)
Porządkowa (Ordinal)
Binarna (Binary)
Unarna (Unary) - zmienna o jednej wartości
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 11 / 98
Sample
Węzeł Sample umożliwia pobieranie losowych, podzielonych losowo iklastrowych próbek zestawów danych.Pierwszy etap medodologii SEMMA składa się z trzech części:
Importowanie danych
Dobór próby (Sampling)
Partycjonowanie.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 12 / 98
Import danych
Ten węzeł może wykonać następujące działania:
Dla każdej zmiennej tworzy metadane pobierając losowo 2000obserwacji. W przypadku danych mających mniej niż 2000 obserwacjiSAS wykorzystuje wszystkie dane.
Na podstawie metadanych sprawdza poziom zmiennych oraz ichgranice.
Tworzy statystyki opisowe dla każdych zmiennych(na podstawiepobranych metadanych).
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 13 / 98
Sampling
Próbkowanie jest zalecane w przypadku bardzo dużych baz danych,ponieważ może znacznie zmniejszyć czas szkolenia modeli. Jeśli próbka jestwystarczająco reprezentatywna, można oczekiwać, że relacje znalezione wpróbce będą uogólniane do pełnego zestawu danych.Sampling polega na doborze próby z większego zbioru w taki sposób, abydobór próby był reprezentatywny.Można tego dokonać na kilka sposobów:
N pierwszych
Losowanie zwykłe-każda obserwacja ma to samoprawdopodobieństwo zostania wylosowanej.
Losowanie warstwowe- losowanie to ma następujące kryteria:
proporcjonalne (Udział obserwacji na każdej z warstw będzie taki samw populacji)równe(Węzeł losuje tę samą liczbę obserwacji z każdej z warstw)optymalne (Udział obserwacji na warstwach jak i wariancja będą takiesame jak w populacji)
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 14 / 98
Partycjonowanie
Partycjonowanie polega na podziale zbioru na 3 części:
Uczący-Służy do zbudowania modelu.Próba powinna być liczebności40-70 % próby wejściowej
Walidacyjna-Wykorzystuje się ją do porównywania skutecznościróżnych modeli między sobą , powinna być między 20-30 % próbywejściowej.
Testowa-próba używana do ostatecznej oceny modelu wybranego napodstawie danych walidacyjnych, powinna być między 20-30% próbywejściowej.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 15 / 98
Metody partycjonowania
Wyróżniamy następujące metody:
losowanie warstwowe (Stratified) - pozwala utrzymać rozkładzmiennej objaśnianej w powstających próbach
losowanie klastrowe (Cluster) - losowanie proporcjonalne z klastrówwykrytych w badanej populacji
prosta próba losowa (Simple random)
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 16 / 98
Identyfikacja danych wejściowych
Rozpoczynamy od dodania źródła danych do projektu.Źródło: tabela SASowaZ biblioteki SAMPSIO wybieramy zbiór HMEQW opcji Metadane kolumn dokonujemy następujących zmian:
Rysunek: Metadane kolumn
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 17 / 98
Identyfikacja danych wejściowych
Przetwarzanie decyzji - opcja Nie jest wybierana automatycznie.Oznacza to, że SAS nie podejmie decyzji co do przetwarzania danychdla tego źródła.
Utwórz próbkę - opcja Nie jest wybierana automatycznie. Oznacza to,że próbka nie zostanie utworzona. Zamiast tego wykorzystywany jestcały zestaw danych do analizy.
Atrybuty źródła danych - można zmienić nazwę pliku źródła danych,zmienić jego rolę, posegmentować źródło danych lub dodać uwagi.Nasz zbiór HMEQ zawiera znane wartości binarnej zmiennejdocelowej BAD, czyli użyjemy danych do szkolenia naszego modelupredykcyjnego. Ustawiamy rolę źródła danych na Uczące.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 18 / 98
Dodawanie węzłów i partycjonowanie
Prawym przyciskiem klikamy na Diagramy a następnie Utwórz diagram.Aby dodać dane wejściowe przeciągamy zestaw danych HMEQ z sekcjiŹródła danych do obszaru roboczego diagramu.Aby wykonać partycjonowanie przeciągamy ikonę Partycjonowania napole diagramu → łączymy węzeł Zbioru danych z węzłem Partycjonowania→ uruchamiamy.
Rysunek: Partycjonowanie
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 19 / 98
Eksploracja danych
W tym etapie będziemy starać się ”zrozumieć” dane. Będziemy badaćrozkłady poszczególnych zmiennych oraz ich statystyki opisowe, a takżeanalizować zależności występujące między nimi. Sprawdzimy, czywystępują braki danych, a także czy w zbiorze nie ma obserwacjiodstających (błędy w danych)
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 20 / 98
Sprawdzanie dystrybucji
Możesz sprawdzić rozkład wartości w zestawie danych wejściowych dlakażdej zmiennej. Aby wyświetlić dystrybucję dla zmiennej BAD, wykonajnastępujące kroki:1. Dodaj Eksploracja wykresów.2. W oknie Zmienne wybierz zmienną BAD.3. Kliknij ikonę Eksploruj w prawym dolnym rogu ekranu.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 21 / 98
Na wykresie słupkowym widać, że około 80% obserwacji w BAD mająwartość 0, a 20% ma wartość 1. Oznacza to, że około 20% klientów z tegoprzykładu danych nie wywiązała się ze swoich pożyczek.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 22 / 98
Badanie statystyki opisowej
Do naszego diagramu dorzucamy węzeł Eksploracja statystyk znajdującysię w zakładce Eksploracja. Węzeł ten umożliwia obliczenie podstawowychstatystyk opisowych oraz wstępną analizę współzależności zmiennych.Aby badane korelacje pomiędzy zmienną zależną a zmiennymi niezależnymiobliczane były jedną metodą, należy umożliwić obliczenie statystykChi-kwadrat również dla zmiennych ciągłych (przedziałowych).
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 23 / 98
Współczynnik V Cramera
Umożliwi to zastosowanie współczynnika V Cramera, przyjmującegowartości od 0 do 1. Współczynnik ten jest unormowaną miarąwspółzależności zmiennych. Współczynnik V Cramera oblicza się wnastępujący sposób:
χ2 =∑i ,j
(ni ,j −ninjn )2
ninjn
V =
√ϕ2
min(k − 1, r − 1)=
√χ2/n
min(k − 1, r − 1)
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 24 / 98
Rezultaty
Rysunek: Wykres współzależności zmiennych niezależnych ze zmienną zależną
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 25 / 98
Rezultaty
Rysunek: Statystyki opisowe dla zmiennych klasyfikujących
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 26 / 98
Rezultaty
Rysunek: Statystyki opisowe dla zmiennych przedziałowych
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 27 / 98
Rezultaty
Na tym etapie widzimy, że wszystkie zmienne są istotne.
Rysunek: Wartości statystyki Chi-kwadrat wraz z wartościami p
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 28 / 98
Modyfikowanie danych
Modyfikacja to etap w którym należy przygotować dane do modelowania.Przygotowanie danych do budowy drzew decyzyjnych różni się odprzygotowywania ich do regresji i sieci neuronowych. Podstawowamodyfikacja danych którą można zastosować zarówno do drzew,regresjioraz sieci neuronowych polega na:
Porzuceniu nieistotnych dla budowy modelu oraz silnie skorelowanychzmiennych
Sprawdzeniu obserwacji pod kątem zakodowanych braków danych
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 29 / 98
Regresja 1
Stworzymy teraz pierwszy model regresji. Przeciągamy węzeł Regresja dodiagramu i łączymy z Partycjonowaniem.Węzły modelowania wymagają zmiennej docelowej. Naszą zmiennądocelową jest zmienna BAD, która jest binarna. Dlatego domyślnymmodelem będzie regresja logistyczna. Uruchamiamy.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 30 / 98
Regresja 1 - rezultaty
Rysunek: Rezultaty-Regresja 1Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 31 / 98
Regresja 1 - rezultaty
Okno wykresu efektów zawiera wykres słupkowy bezwzględnej wartościefektów modelu. Im większa wartość, tym ważniejsza jest zmienna dlaregresji. W tym przykładzie najważniejsze zmienne prognostyczne toDELINQ, JOB, NINQ, DEROG.Okno nakładka rankingów wyników punktowych umożliwia przeglądaniewykresów oceny. Domyślny wykres przedstawia skumulowany lift. Innymjest np. skumulowana odpowiedź procentowa. Ten wykres rozmieszczaobserwacje w decylach na podstawie ich przewidywanegoprawdopodobieństwa odpowiedzi. To kreśli rzeczywisty odsetek badanych.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 32 / 98
Regresja 1 - rezultaty
W tym przykładzie osoby posortowane są w malejącej kolejności ichprzewidywanych prawdopodobieństw niewypłacalności kredytu. Oknowyniki wyświetla informacje zarówno dla zestawów danych treningowych,jak i walidacyjnych.Przypomnijmy, że zmienna DEBTINC ma wysoki procent brakującychwartości. Z tego powodu niewłaściwym jest stosowanie domyślnegomodelu regresji bezpośrednio do danych treningowych. Powinniśmyrozważyć węzeł imputancji przed dopasowaniem modelu regresji.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 33 / 98
Imputancja
Węzeł Imputancja umożliwia przypisywanie brakujących wartości danychwejściowych. Aby model był wiarygodny, należy pozbyć się braków danych.W tym węźle mamy możliwość określenia metody imputancji, którazastępuje każdą brakująca wartość pewną statystyką. Domyślnie zmienneprzedziałowe są zastępowane przez średnią tej zmiennej. Zmienne klasowesą zastępowane przez najczęściej występującą wartość. W tym przykładzieużyjemy domyślnych wartości.Na karcie Modyfikacja przeciągamy węzeł Imputancja do diagramu.Łączymy z węzłem Partycjonowanie.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 34 / 98
Regresja 2
Budujemy model regresji oparty na imputowanym zbiorze danych.Przeciągamy węzeł Regresja do diagramu i łączymy z węzłemImputancja. Użyjemy domyślnych ustawień węzła regresji. Model regresjipasuje do modeli zmiennych docelowych, porządkowych, nominalnych ibinarnych. Ponieważ zmienna BAD jest zmienną binarną, domyślnymmodelem jest regresja logistyczna.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 35 / 98
Rezultaty
Ten wykres rozmieszcza obserwacje w decylach na podstawie ichprzewidywanego prawdopodobieństwa odpowiedzi. Nakreśla rzeczywistyodsetek respondentów. Jeśli najedziemy kursorem na miejsce przecięcia sięwykresów, będziemy mogli odczytać, że przy 10% najlepszych danychokoło 69% pożyczkobiorców nie wywiązuje się z zaciągniętej pożyczki.
Rysunek: Skumulowana odpowiedź procentowaKlaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 36 / 98
Rezultaty
Wykresy lift przedstawiają te same informacje, ale w innej skali. Jakwspomniałyśmy wcześniej, ogólny odsetek respondentów wynosi 20%.Odsetek respondentów w pierwszym decylu wynosił 69%. Więc wzrost dlatego decyla wynosi 6920 = 3, 44. Jak ustawimy kursor na wykresie napierwszym decylu, możemy zobaczyć, że wartość dla tego punktu wynosi3,4. Wskazuje to na to, że odsetek respondentów w pierwszym decylu jestponad 3 razy większy niż odsetek respondentów w populacji.
Rysunek: Skumulowany lift
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 37 / 98
Rezultaty
Można wyświetlić również wykres efektów dla tego modelu. Wykresefektów zawiera wartości dla zmiennych z wartościami imputowanymi.Zmiennymi imputowanymi są identyfikowane przez prefiks ”IMP ”.Zauważmy, że w tym modelu najważniejsze zmienne w Wykresie efektówto DELINQ (IMP DELINQ), JOB (IMP JOBOFFICE, IMP JOBSALES,IMP JOBPROFEXE, IMP JOBMGR), DEROG (IMP DEROG), NINQ(IMP NINQ) i REASON (IMP REASONDEBTCON).
Rysunek: Wykres efektów
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 38 / 98
Wstępne badanie
Aby zbadać rozkład wszystkich zmiennych w zbiorze, należy kliknąć nawęzeł Partycjonowanie, a następnie w właściwościach w nagłówkuUczenie na trzy kropki przy Zmienne. Zaznaczamy wszystkie zmienne iklikamy Eksploruj.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 39 / 98
Wstępne badanie
Okno podglądu zawiera próbki statystyk dla wszystkich zmiennych,histogram dla zmiennych interwałowych i wykresy słupkowe dla każdejklasy zmiennych.
Rysunek: Eksploracja zmiennych
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 40 / 98
Wstępne badanie
Okno właściwości próby zawiera informacje o próbkach zbioru danych,które użyto do statystyk i grafik w oknie podglądu.Wielkość pobrania wskazuje liczbę obserwacji użytych w próbce.Okno próbek statystycznych pokazuje obliczoną średnią,minimum,maksimum dla zmiennych interwałowych i liczbę poziomu klas, wartośćmodalną, oraz procent obserwacji w wartości modalnej dla zmiennejklasowej. Procent brakującej zmiennej jest obliczany dla każdej zmiennej.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 41 / 98
Wstępne badanie
Zmienna CLAGE długość trwania najstarszej linii kredytowej klienta wmiesiącu. Szary słupek w lewej części histogramu prezentuje brakującewartości. Zauważmy, że zdecydowana większość obserwacji jest mniejszaod 350. Zbiór danych CLAGE jest przekrzywiony w prawo.
Rysunek: CLAGE
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 42 / 98
Wstępne badanie
Okno przyczyn pokazuje podane powody, dla których klient wziąłpożyczkę. Nieopisany słupek pokazuje brakujące wartości.Zauważmy, żewięcej ludzi bierze pożyczkę na kredyt konsolidacyjny niż ulepszanie domu.
Rysunek: REASON
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 43 / 98
Przekształcanie zmiennych
Po przejrzeniu próbek statystycznych i zmiennych dystrybucyjnych,możemy zauważyć ,że rozkład niektórych zmiennych ma asymetrię. W tymrozkładzie mały procent danych możne mieć duży wpływ na końcowymodel. Czasami wykonując transformacje na wejściowej zmiennej możnaotrzymać lepsze dopasowanie modelu. Do diagramu dorzucamy węzełPrzekształcanie zmiennych w module Modyfikacja i łączymy zPartycjonowaniem.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 44 / 98
Przekształcanie zmiennych
Skośność wskazuje poziom i kierunek asymetrii. Wartość skośności równazero mówi, że rozkład jest perfekcyjnie symetryczny. Dodatnia wartośćskośności pokazuje że ma prawostronną asymetrię, co opisuje wszystkiezmienne w tym zbiorze danych. Ujemna wartość skośności wskazuje, żerozkład ma lewostronną asymetrię. Kurtoza pokazuje spłaszczenierozkładu. Jednakże ten przykład skupia się tylko na skośności statystycznej.Węzeł przekształconych zmiennych umożliwia szybkie przekształceniezmiennych interwałowych używając standardowych przekształceń.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 45 / 98
Przekształcanie zmiennych
Aby zmniejszyć skośność w naszych zmiennych, klikamy na węzełPrzekształcanie zmiennych. Po lewej stronie we właściwościachodnajdujemy Metody domyślne i przy Przedziałowe zmiennewejściowe zmieniamy na Logarytmiczna. Następnie uruchamiamy węzeł.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 46 / 98
Przekształcanie zmiennych
W oknie Statystyki przekształceń znajdują się statystyki dla oryginalnychzmiennych i przekształconych. Kolumna Formuła wskazuje wyrażenie użytedo przekształcenia każdej zmiennej. Zauważmy,że wartość bezwzględnaskośności statystycznej dla przekształconej zmiennej jest typowo mniejszaniż dla oryginalnej zmiennej.
Rysunek: Statystyki-skośność
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 47 / 98
Interakcyjne dzielenie na klasy
Dodatkową techniką procesowa przed modelowaniem jest interaktywnedzielenie, do którego odnosi się grupowanie. Metoda ta pozwalaautomatycznie grupować zmienne w klasy na podstawie ustawień węzła.Przez używanie interaktywnego grupowania węzła, można kontrolowaćliczbę grup zmiennych, udoskonalić moc przewidywania zmiennej, wybraćzmienne przewidujące, generować wagi danych dla każdej grupy zmiennych(WOE-Weight of evidence) oraz sprawić by zmieniało się płynnie przezgrupy.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 48 / 98
Interakcyjne dzielenie na klasy
WOE dla grup zdefiniowane jest jako logarytm stosunku proporcjinieważnych obserwacji w grupie przez proporcje ważnych obserwacji wgrupie. Dla binarnego celu zmiennej BAD w tym przykładzie, BAD= 1jest poziomem ważnym, a BAD= 0 jest poziomem nieważnym. WOEmierzy relatywne ryzyko grup. Wysokie negatywne wartości WOE odnosząsię do wysokiego ryzyka domyślnej pożyczki. Wysokie pozytywne wartościodnoszą się do niskiego ryzyka.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 49 / 98
Interakcyjne dzielenie na klasy
Po dzieleniu interakcyjnym wartości zdefiniowanej zmiennej możnaoszacować jej moc predykcyjną. Moc przewidywań jest umiejętnościązmiennej do rozróżniania zdarzeń i nieistniejących obserwacji. W naszymprzykładzie jest to umiejętność oddzielenia złych od dobrych klientówkredytowych. Siłę predykcyjną możemy ocenić za pomocą jednego znastępujących kryteriów:
wartość informacji - jest ważoną sumą WOE w stosunku do grup.Waga jest różnicą między proporcją nieistniejących elementów iproporcją zdarzeń w każdej grupie,
współczynnik Giniego - jest taki sam jak współczynnik Giniego wdrzewach decyzyjnych.
Zmienne WOE są zwykle używane jako dane wejściowe w kolejnychwęzłach modelujących.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 50 / 98
Interakcyjne dzielenie na klasy
Zmienna NINQ była to ilość ostatnio złożonych indywidualnych wnioskówkredytowych. NINQ jest zmienną obliczeniową, ale większość obserwacjima wartość zarówno 0, 1 albo 2. Może być to użyteczne przy tworzeniuzgrupowanej wersji NINQ, gdzie wartości są większe od 2, na nowypoziom ”2+” Taki zabieg stworzy nową 3-poziomową zmienną grupującą zNINQ. Prawdą jest że tworzenie zgrupowanej zmiennej, która kondensujewiele poziomów w jeden złożony poziom może skutkować utratą informacjio dokładnej liczbie zapytań kredytowych. Jednakże taki zabieg umożliwiaobsługę nieliniowości w relacji pomiędzy NINQ a zmienną odpowiadająca.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 51 / 98
Interakcyjne dzielenie na klasy
By dokonać podziału NINQ, dodajemy Interakcyjne dzielenie na klasydo diagramu. Jednakże nie wolno transformować za pomocą tego węzła.Należy zablokować tę funkcje. Używamy tej funkcji do ręcznego podziałuzmiennych wejściowych. Prawym przyciskiem myszy klikamy na węzełPrzekształcanie zmiennych i wybieramy opcje Edytuj zmienne.Zmieniamy metodę przy NINQ na Brak. Węzeł ten nie przekształci wtedytej zmiennej. Uruchamiamy węzeł.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 52 / 98
Interakcyjne dzielenie na klasy
Przed podziałem NINQ, zauważmy że większość zmiennych ma Wyliczanąrolę Rejected (Odrzucony). W celu użycia tych zmiennych w procesieeksploracji danych, należy ustawić im nową role jako wejście.
Rysunek: Interakcyjne dzielenie na klasy
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 53 / 98
Interakcyjne dzielenie na klasy
W właściwościach uczenie klikamy na trzy kropki przy Interakcyjnychdzieleniach na klasy. Zaznaczamy wszystkie zmienne i prawym przyciskiemmyszy klikając na Nową rolę zmieniamy na Input.
Rysunek: Interakcyjne dzielenie na klasy-wejście
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 54 / 98
Interakcyjne dzielenie na klasy
Następnie klikamy na zakładkę Grupowanie, aby wyświetlić poszczególnepodziały zmiennych.
Rysunek: Grupowanie
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 55 / 98
Interakcyjne dzielenie na klasy
Węzeł interakcyjnego dzielenia tworzy pięć grup dla NINQ. Zauważmy ze 2grupy zawierają odpowiednio brakujące i ujemne wartości. Grupazawierająca ujemne wartości jest pusta. Dla rozpatrywanego przykładuoznacza to, że ostatnio żadne wnioski kredytowe nie zostały złożone.Dlatego chcemy połączyć te dwie grupy w trzecią.Prawym przyciskiem myszy klikamy na grupę 1 a następnie Przypisz do iwybieramy grupę 3. Zauważmy, że grupy zostały ponownie ponumerowane.Następnie powtarzamy ten proces dla pustej grupy zawierającej wartościujemne, z tym, że przypisujemy to do grupy 2. Nasze grupy ponowniezostają ponumerowane.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 56 / 98
Interakcyjne dzielenie na klasy
Mamy teraz trzy grupy dla zmiennej NINQ. Chcemy dodać czwartą grupę,która zawiera wszystkie wartości > 2 i zachowuje grupę zawierającą tylko2.
Rysunek: Grupowanie
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 57 / 98
Interakcyjne dzielenie na klasy
Aby to zrobić, wybieramy wiersz NINQ>= 2 i klikamy prawym przyciskiemmyszy. Następnie Podziel klasę. Nazwę nowego obcięcia wpisujemy 2.5(ponieważ wartości NINQ to tylko liczby całkowite, możemy wybraćdowolną wartość między 2 a 3). Tworzy to nowy zbiór, ale wciąż należy ondo tej samej grupy. Aby stworzyć z niego nową grupę klikamy prawymprzyciskiem myszy na 2.5 >=NINQ i Grupa= 4. Aby wprowadzić zmianyklikamy Zastosuj w lewym dolnym rogu.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 58 / 98
Regresja 3
Wykonamy teraz kolejny model regresji. Przeciągamy węzeł Regresja dodiagramu i łączymy z Interakcyjnym dzieleniem na klasy. Wewłaściwościach odszukujemy Wybór modelu. Możemy wybrać jedną znastępujących opcji:
wsteczna-uczenie rozpoczyna się przy obecności w modelu wszystkichkandydujących efektów. Usuwanie efektów trwa aż do osiągnięciapoziomu istotności pozostania lub spełnienia kryterium stopu.
postępująca-uczenie rozpoczyna się przy nieobecności w modeluwszystkich kandydujących efektów i towarzyszy mu dodawanieefektów aż do osiągnięcia poziomu istotności wejścia lub spełnieniakryterium stopu.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 59 / 98
Regresja 3
krokowa- uczenie rozpoczyna się jak w modelu Postępującym, leczmoże towarzyszyć mu usuwanie efektów już istniejących w modelu. Itak aż do osiągnięcia poziomu istotności pozostania lub spełnieniakryterium stopu.
brak-do dopasowania modelu użyte zostaną wszystkie dane wejściowe.
W tym przykładzie wybierzemy model Postępujący. W opcji Użyjwyborów domyślnych wybieramy Nie. Opcje wyboru stają się dostępne.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 60 / 98
Regresja 3
Rysunek: Opcje wyboru
Okno Opcje wyboru otwiera okienko służące do dostosowania ustawieńwyboru do własnych potrzeb.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 61 / 98
Regresja 3
Rysunek: Opcje wyboru
W tym przykładzie ustawiamy wartość poziomu istotności pozostaniana 0.025, a początkową liczbę zmiennych na 10 (zapewnia to użycie conajmniej 10 efektów modelu regresji).
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 62 / 98
Regresja 3
Analizę tej regresji możemy wykonać analogicznie jak w poprzednichprzykładach. Ocenę tego modelu przedstawimy na końcu, podczasporównania wszystkich modeli.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 63 / 98
Drzewa decyzyjne
W praktycznych zastosowaniach modeli predykcyjnych istotna jest łatwośćinterpretacji i wyjaśnienia generowanych wyników. Bardzo pomocne sąprzy tym drzewa decyzyjne, które generują zależności w postaci zbioruwarunków logicznych.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 64 / 98
Budowa drzewa
Budowę drzewa zaczynamy od podziału korzenia.W pierwszym krokuposzukujemy podziału,który pozwoli odnaleźć grupy charakteryzujące siędużą jednorodnością ze względu na wartość zmiennejobjaśnianej.Warunkiem koniecznym jest poprawa stopnia takiejjednorodności względem elementu,który jest dzielony.Szukany jestpodział,który zmaksymalizuje różnicę:
∆Z = Z0 −r∑
i=1
nin0
Zi
gdzie:Z0-stopień niejednorodności dzielonego elementu;Zi -stopień niejednorodności i-tego elementu powstającego w wynikupodziału;n0-liczebność dzielonego elementu;ni -liczebność i-tego elementu powstającego w wyniku podziału;r-liczba elementów powstających w wyniku podziału;Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 65 / 98
Stopień niejednorodności
Stopień niejednorodności (zanieczyszczenia) może być oceniany przyużyciu następujących miar:
Współczynnik Diniego
Z = 1−k∑
i=1
p2i
gdzie k - liczba kategorii przyjmowanych przez zmienną objaśnianą, pi -odsetek obserwacji przyjmujących i-tą wartość zmiennej objaśnianej.
Współczynnik entropii
Z = H(p1, .., pk) = −k∑
i=1
pi log2(pi )
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 66 / 98
Węzeł drzewa decyzyjnego
W zakładce Modelowanie wybieramy ikonę Drzewa decyzyjne iprzeciągamy na pole diagramu analogicznie jak w przypadkuPartycjonowania → łączymy węzeł Drzewa decyzyjnego z węzłemPartycjonowania.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 67 / 98
Nakładka rankingów ocen punktowych
Porównanie wykresów wzrostu liftu dla zbioru treningowego iwalidacyjnego. Jeżeli krzywe się istotnie różnią,to świadczy to oprzetrenowaniu lub niedotrenowaniu modelu.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 68 / 98
Statystyki liściowe
Wykres porównuje procentowy udział wartości zmiennej objaśnianej równej1 we wszystkich liściach dla danych treningowych i walidacyjnych.Dużeróżnice w wysokości słupków wskazują, że dany liść należy przyciąć.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 69 / 98
Mapa drzewa
Mapa drzewa pokazuje jego strukturę,powierzchnia prostokątówodpowiada liczebności w danych węzłach drzewa.Natężenie kolorupokazuje stopień jednorodności populacji w danym węźle.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 70 / 98
Statystyki dopasowania
Tabela pokazuje statystyki dopasowania na zbiorach treningowym,walidacyjnym i ewentualnie testowym. Duże różnice w wartościachstatystyk dopasowania mogą wskazywać na przetrenowanie lubniedotrenowanie modelu.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 71 / 98
Wynik
W wyniku warto zwrócić uwagę na tabelę klasyfkacji,pokazującą udziałdobrze i źle sklasyfkowanych obserwacji na zbiorach treningowym iwalidacyjnym.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 72 / 98
Analiza danych-drzewo
1 Wartość zmiennej objaśnianej.2 Dane treningowe.3 Dane walidacyjne.4 Liczba obserwacji.5 Udział procentowy dla każdej wartości zmiennej objaśnianej.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 73 / 98
Interpretacja fragmentu drzewa
W zbiorze jest 19,94% zadłużonych ludzi, zaś w podzbiorze ludzi owysokim współczynniku zadłużenia mniejszym niż 44.7337 jest 7,25%.Dzieląc dalej ten podzbiór poprzez wartość obecną hipoteki dostajemy, żespośród zadłużonych ludzi 6.55% z nich ma wartość hipoteki mniejszą niż303 749.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 75 / 98
Wykres Klasyfikacji
Wybieramy Rezultaty → Widok → Ocena → Wykres klasyfikacji.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 76 / 98
Budowa odpowiedniego drzewa
Zbyt złożone drzewo (wielokrotnść podziałów,duża głębokość i ilość liści)jest nadmiernie dopasowane do zależności charakterystycznych dla zbiorutreningowego,przez co jest bardziej niestabilne (przetrenowanie).Zbytmałe drzewo ma większy odsetek błędnych klasyfikacji.Optymalną wielkośćdrzewa możemy wybrać posługując się wykresem błęduśredniokwadratowego lub skuteczności klasyfkacji względem liczby liścidrzewa.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 77 / 98
MSE
W rezultatach klikamy: widok → model → wykres oceny poddrzewa
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 78 / 98
Sieci neuronowe
Definicja1Zbiór prostych jednostek obliczeniowych przetwarzających dane,komunikujących się ze sobą i pracujących równolegle.
Definicja2Zbiór połączonych ze sobą jednostek wejściowo-wyjściowych. Z każdympołączeniem skojarzona jest waga, która może zostać zmieniona w trakcieuczenia.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 79 / 98
Czym jest sieć neuronowa?
Sieci neuronowe w założeniu są to obiekty, które swoim działaniemnaśladują aktywność rzeczywistych układów nerwowych w mózgachorganizmów żywych.W skutek połączenia szeregu neuronów o stosunkowoprostej budowie i niewielkich możliwościach uzyskuje się strukturę zdolnądo przeprowadzania bardzo skomplikowanych procesów rozpoznawaniawzorców i klasyfikacji.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 80 / 98
Poniżej jest przedstawiony prosty model regresyjny w postaci siecineuronowej. Warstwa wejściowa zawiera n neuronów (odpowiadającychzmiennym) oraz warstwę wyjściową sumującą ważone impulsy itransformującą je do skali oryginalnej zmiennej Y.
Rysunek: Przykład sieci neuronowejKlaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 81 / 98
Sieci neuronowe
Rozszerzeniem tak opisanej architektury jest model perceptronuwielowarstwowego (MLP - Multi Layer Perceptron), który dodatkowozawiera warstwę ukrytą.Składa się ona z określonej ilości neuronów, które nieliniowo przekształcająkombinację liniową otrzymanych sygnałów.Pojedynczy neuron z warstwyukrytej składa się z dwóch elementów:
sumatora (funkcji łączenia)
funkcji aktywacji
Pierwszy z nich dokonuje sumowania ważonych sygnałów z warstwywejściowej oraz wyrazu wolnego, drugi tak otrzymaną sumę przekształcaprzy użyciu określonej funkcji ciągłej.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 82 / 98
Rysunek: Przykład sieci neuronowej
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 83 / 98
Funkcja łączenia odpowiada za wytworzenie jednej wartości wejściowej dladanego neuronu z wartości jego poprzedników. Duża część dostępnych wSAS Enterprise Miner funkcji opiera się na radialnej funkcji bazowej -jest to funkcja, której wartości zależą tylko od odległości od ustalonegopunktu.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 84 / 98
Rodzaj funkcji łączenia Charakterystykaaddytywna sumuje wszystkie wartości wejścioweliniowa stanowi kombinację liniową wartości
wejściowych i wagEQSlopes stanowi kombinację liniową wartości
wejściowych i wag, przy czym w da-nej warstwie używa się tej samej wa-gi, dodając inną wartość współczynni-ka przesunięcia( ang.bias) dla każdejwartości wejściowej
EQRadial radialna funkcja bazowa z równymiwysokościami i szerokościami w obrę-bie warstwy
EHRadial radialna funkcja bazowa z równymiwysokościami i nierównymi szeroko-ściami w obrębie warstwy
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 85 / 98
Rodzaj funkcji aktywacji Wzórtożsamościowa g
liniowa g ∗ weight + b
wykładnicza exp(g)
odwrotna 1g
kwadratowa g2
logistyczna 11+e−g
Gaussa exp(−g2)sinus sin g
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 86 / 98
Przetwarzanie informacji w neuronach
Pobudzeniem neuronu p domyślnie jest liniowa funkcja sygnałówwejściowych z wagami połączeń jako współczynnikami (combinationfunction).
p =n∑
i=1
wixi ,
gdzie:xi - wartość zmiennej;wi - waga zmiennej.
Sygnał wyjściowy y jest zależny od całkowitego pobudzenia neuronu,transformowanego przez funkcję aktywacji. Pozwala to wprowadzićnieliniowość.
y = f (p) = f (n∑
i=1
wixi )
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 87 / 98
Węzeł sieci neuronowej
Węzeł sieci neuronowej umożliwia konstruowanie, szkolenie i sprawdzaniewielowarstwowych sieci neuronowych feedforward. Użytkownicy mogąwybierać spośród kilku predefiniowanych architektur lub ręcznie wybieraćfunkcje i opcje wejściowe, ukryte i docelowe warstwy.Dołączamy do diagramu węzeł Sieć neuronowa i łączymy z węzłemInterakcyjne dzielenie na klasy, a następnie uruchamiamy.Domyślnie węzeł ten tworzy wielowarstwowy model perceptonu(MLP-multilayer percepton) bez bezpośrednich połączeń, a liczba ukrytychwarstw zależy od danych. Uruchamiamy węzeł.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 88 / 98
Sieć neuronowa - rezultaty
Okno Statystyki dopasowania wyświetla różne obliczone statystyki dlamodelu sieci neuronowej. Okno Wykres iteracji wyświetla różnestatystyki, które zostały obliczone w każdej iteracji podczas tworzenia siecineuronowej.Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 89 / 98
Sieć neuronowa - rezultaty
Wybieramy Widok → Ocena → Wykres klasyfikacji.
Rysunek: Wykres klasyfikacji
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 90 / 98
Ocena i porównanie modeli
W zakładce Ocena wybieramy Porównanie modeli → przeciągamy na polediagramu i łączymy z węzłami wszystkich prezentowanych metod.
Rysunek: Porównanie modeli
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 91 / 98
Ocena i porównanie modeli
Po wybudowaniu wielu konkurencyjnych modeli predykcyjnych pozostajezagadnienie wyboru najlepszego z nich, który będzie mógł być zastosowanydla nowo napływających danych. Dopasowanie modelu może być ocenioneprzy użyciu różnych statystyk. Przykładowe z nich to:
Skuteczność klasyfkacji - odsetek poprawnie zaklasyfikowanychprzypadków. Miara często używana do oceny modeli klasyfikacyjnychwtedy, gdy każdy z obserwowanych przypadków można traktować zrówną wagą.
Błąd średniokwadratowy - średnia wartość kwadratu różnicy pomiędzypredykcją a rzeczywistą wartością. W przypadku binarnych zagadnieńklasyfikacyjnych wartością przewidywaną jest prawdopodobieństwo, awartością rzeczywistą 0 lub 1.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 92 / 98
Statystyki dopasowania
Maksymalny błąd bezwzględny - wartość bezwzględna największejróżnicy pomiędzy wartością przewidywaną a rzeczywistą. Miaraoceniająca maksymalny spodziewany błąd predykcji.
Statystyka Kołmogorowa-Smirnowa - określa, jak dobrze dwie klasyzmiennej objaśnianej są rozróżniane przez model. Jej wartośćobliczana jest jako:
maxt|F1(t)− F0(t)|
F0(t), F1(t) - wartości dystrybuanty empirycznej predykcji dla grupobserwacji, w których zmienna objaśniana przyjmuje odpowiedniowartości 0 i 1. Im większa wartość tej statystyki, tym większe różnicew prawdopodobieństwach przydzielanych obu grupom, a więc tymwiększa moc dyskryminacyjna modelu.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 93 / 98
Wzrost (Lift) - miara dla określonego odsetka populacji będącejprzedmiotem zagadnienia klasyfikacyjnego. Obliczana jest poprzezpodzielenie odsetka zaobserwowanych zdarzeń w górnych n%populacji posortowanej malejąco według przewidywanychprawdopodobieństw przez procent tych samych zdarzeń w całejpopulacji.
Indeks ROC - miara określająca skuteczność modelu w rozpoznawaniuróżnic pomiędzy popopulacjami o różnych wartościach zmiennejobjaśnianej. Powstaje poprzez obliczenie pola pod krzywą ROC, którakonstruowana jest w następujący sposób:
z populacji posortowanej malejąco według przydzielonychprawdopodobieństw wybierane jest górne k% obserwacji;przy założeniu, że w wybranej podpopulacji znajduje się x jedynek i yzer oraz oznaczając przez n1 in0 liczności tych klas w całejrozpatrywanej próbie, obliczane są następujące wartości:1-specyficzność= y
n0wrażliwość = x
n1
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 94 / 98
tak opisane operacje powtarzane są dla różnych wartości k, aotrzymane wartości łączone są w krzywą.W związku z powyższym im bardziej wykres krzywej skierowany jest wstronę lewego górnego rogu, tym lepsze własności klasyfikacyjnebadanego modelu.
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 95 / 98
Skumulowany lift
Wykres przyrostu pokazuje o ile częściej niż w danych źródłowychprzewidywana klasa występuje w próbie wskazanej przez dany model.Uzyskana w ten sposób krzywa powinna gładko spadać od największejwartości do 1. Gwałtowne skoki w górę sugerują, że model jestnieodpowiedni (oznaczają one, że model niezgodnie z rzeczywistościąprzewiduje szansę przynależności do klasy: tam gdzie według modelu jestona mniejsza, w rzeczywistości jest większa).
Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 97 / 98