Data Mining - mif.pg.gda.plM6] DM/[Czw... · Data mining jest to proces analityczny, służący do odkrywania nietrywialnych, dotychczas nieznanych zależności, trendów w dużych

Data Mining

Klaudia Malinowska Simona Pikuła

Statystyka w SAS

Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 1 / 98

Plan prezentacji

1 Data Mining-co to jest?

2 Metodologia SEMMA

3 Analiza danychSampleExploreModyfikowanie danychBadanie i przygotowanie danychOcena i wybór modelu


Data Mining-co to jest?

Data mining jest to proces analityczny, służący do odkrywanianietrywialnych, dotychczas nieznanych zależności, trendów w dużychbazach danych, wykorzystując przy tym między innymi metodystatystyczne. Gromadzonych danych jest coraz więcej, dlatego teżproblemem jest wydobycie z nich jak największej ilości informacji. Datamining, jako złożony proces selekcji i transformacji danych, ułatwiainterpretacje uzyskanych wyników.


Główne zastosowania

W procesie data mining możemy wyróżnić sześć podstawowychzastosowań.

opis

szacowanie

klasyfikacja

grupowanie

odkrywanie reguł

odkrywanie anomalii.


Metodologie

Aby eksploracja danych przebiegła sprawnie, stworzono metodologie, któreuporządkowują poszczególne etapy analizy. Do najbardziej popularnychnależą:

CRISP-DM

SEMMA


CRISP-DM

Rysunek: Etapy metodologii CRISP-DM


SEMMA

W tej prezentacji wykorzystamy drugą z metodologii SEMMA, któraskłada się z 5 etapów:

Sample-przygotowanie i podział wejściowej próby danych,

Explore-eksploracja danych, służąca ocenie ich jakości oraz wstępnejidentyfikacji zależności pomiędzy zmiennymi,

Modify-modyfikacja danych, służąca poprawie ich jakości, spełnieniuzałożeń metod modelowania lub zwiększaniu ich elastyczności poprzeztransformację zmiennych,

Model- modelowanie przy użyciu takich metod jak drzewa decyzyjne,regresja czy sieci neuronowe,

Asses-ocena jakości budowanych modeli i wybór najlepszego z nich, anastępnie monitorowanie jego skuteczności na nowo napływającychdanych.W systemie SAS model SEMMA realizowany jest w oparciu o tzw.diagramy przepływu, które można tworzyć przy użyciu wygodnego GUI


SEMMA

Została ona stworzona z myślą o oprogramowaniu Enterprise Miner.Koncentruje się na opracowywaniu modeli i kładzie mniejszy nacisk napoczątkowe fazy planowania objęte CRISP-DM (Rozumienie biznesowe ifazy Zrozumienia Danych) oraz całkowicie pomija fazę wdrożenia.


Cel

Firma świadcząca usługi finansowe oferuje swoim klientom kredythipoteczny. Firma rozszerzyła w przeszłości kilka tysięcy linii kredytowych,a wiele z nich, które zaakceptowali wnioskodawcy (około 20 %) zalegają zpożyczkami. Używając zmiennych geograficznych, demograficznych ifinansowych, firma chce zbudować model aby przewidzieć, czywnioskodawca się nie wywiąże.Po przeanalizowaniu danych firma wybrała podzbiór 12 predyktorówzmiennych do modelowania.


Opis danych

BAD - zmienna celu - przyjmuje wartość 1, gdy kredytobiorca niespłacił kredytuCLAGE- długość trwania najdłuższego z aktywnych zobowiązańkredytowych zaciągniętych przez kredytobiorcę (w miesiącach)CLNO - ilość aktywnych zobowiązań kredytowychDEBTINC - współczynnik zadłużenia do przychoduDELINQ - historyczna liczba zaległości kredytowychDEROG - ilość negatywnych informacji kredytowychJOB - wykonywany zawódLOAN - kwota pozostała do spłatyMORTDUE - kwota do spłaty bieżącej hipotekiNINQ - ilość ostatnio złożonych wniosków kredytowychREASON - przyjmuje wartość DebCon, gdy kredyt jest przeznaczonyna konsolidację innego kredytu, wartość Homelmp, gdy jestprzeznaczony na zwiększenie wartości hipotekiVALUE - wartość obecna hipotekiYOJ - staż w obecnej pracy (w latach)


Rodzaj i rola zmiennych

W zakresie ról zmiennych najczęściej wykorzystywanymi są:

Wejściowa (Input) - zmienna objaśniająca

Zmienna celu (Target) - zmienna objaśniana

Odrzucona (Rejected) - nie bierze udziału w analizie

ID - identyfikator

Dostępne jest pięć skal pomiarowych:

Przedziałowa (Interval) - zmienna ciągła

Nominalna (Nominal)

Porządkowa (Ordinal)

Binarna (Binary)

Unarna (Unary) - zmienna o jednej wartości


Sample

Węzeł Sample umożliwia pobieranie losowych, podzielonych losowo iklastrowych próbek zestawów danych.Pierwszy etap medodologii SEMMA składa się z trzech części:

Importowanie danych

Dobór próby (Sampling)

Partycjonowanie.


Import danych

Ten węzeł może wykonać następujące działania:

Dla każdej zmiennej tworzy metadane pobierając losowo 2000obserwacji. W przypadku danych mających mniej niż 2000 obserwacjiSAS wykorzystuje wszystkie dane.

Na podstawie metadanych sprawdza poziom zmiennych oraz ichgranice.

Tworzy statystyki opisowe dla każdych zmiennych(na podstawiepobranych metadanych).


Sampling

Próbkowanie jest zalecane w przypadku bardzo dużych baz danych,ponieważ może znacznie zmniejszyć czas szkolenia modeli. Jeśli próbka jestwystarczająco reprezentatywna, można oczekiwać, że relacje znalezione wpróbce będą uogólniane do pełnego zestawu danych.Sampling polega na doborze próby z większego zbioru w taki sposób, abydobór próby był reprezentatywny.Można tego dokonać na kilka sposobów:

N pierwszych

Losowanie zwykłe-każda obserwacja ma to samoprawdopodobieństwo zostania wylosowanej.

Losowanie warstwowe- losowanie to ma następujące kryteria:

proporcjonalne (Udział obserwacji na każdej z warstw będzie taki samw populacji)równe(Węzeł losuje tę samą liczbę obserwacji z każdej z warstw)optymalne (Udział obserwacji na warstwach jak i wariancja będą takiesame jak w populacji)


Partycjonowanie

Partycjonowanie polega na podziale zbioru na 3 części:

Uczący-Służy do zbudowania modelu.Próba powinna być liczebności40-70 % próby wejściowej

Walidacyjna-Wykorzystuje się ją do porównywania skutecznościróżnych modeli między sobą , powinna być między 20-30 % próbywejściowej.

Testowa-próba używana do ostatecznej oceny modelu wybranego napodstawie danych walidacyjnych, powinna być między 20-30% próbywejściowej.


Metody partycjonowania

Wyróżniamy następujące metody:

losowanie warstwowe (Stratified) - pozwala utrzymać rozkładzmiennej objaśnianej w powstających próbach

losowanie klastrowe (Cluster) - losowanie proporcjonalne z klastrówwykrytych w badanej populacji

prosta próba losowa (Simple random)


Identyfikacja danych wejściowych

Rozpoczynamy od dodania źródła danych do projektu.Źródło: tabela SASowaZ biblioteki SAMPSIO wybieramy zbiór HMEQW opcji Metadane kolumn dokonujemy następujących zmian:

Rysunek: Metadane kolumn


Identyfikacja danych wejściowych

Przetwarzanie decyzji - opcja Nie jest wybierana automatycznie.Oznacza to, że SAS nie podejmie decyzji co do przetwarzania danychdla tego źródła.

Utwórz próbkę - opcja Nie jest wybierana automatycznie. Oznacza to,że próbka nie zostanie utworzona. Zamiast tego wykorzystywany jestcały zestaw danych do analizy.

Atrybuty źródła danych - można zmienić nazwę pliku źródła danych,zmienić jego rolę, posegmentować źródło danych lub dodać uwagi.Nasz zbiór HMEQ zawiera znane wartości binarnej zmiennejdocelowej BAD, czyli użyjemy danych do szkolenia naszego modelupredykcyjnego. Ustawiamy rolę źródła danych na Uczące.


Dodawanie węzłów i partycjonowanie

Prawym przyciskiem klikamy na Diagramy a następnie Utwórz diagram.Aby dodać dane wejściowe przeciągamy zestaw danych HMEQ z sekcjiŹródła danych do obszaru roboczego diagramu.Aby wykonać partycjonowanie przeciągamy ikonę Partycjonowania napole diagramu → łączymy węzeł Zbioru danych z węzłem Partycjonowania→ uruchamiamy.

Rysunek: Partycjonowanie


Eksploracja danych

W tym etapie będziemy starać się ”zrozumieć” dane. Będziemy badaćrozkłady poszczególnych zmiennych oraz ich statystyki opisowe, a takżeanalizować zależności występujące między nimi. Sprawdzimy, czywystępują braki danych, a także czy w zbiorze nie ma obserwacjiodstających (błędy w danych)


Sprawdzanie dystrybucji

Możesz sprawdzić rozkład wartości w zestawie danych wejściowych dlakażdej zmiennej. Aby wyświetlić dystrybucję dla zmiennej BAD, wykonajnastępujące kroki:1. Dodaj Eksploracja wykresów.2. W oknie Zmienne wybierz zmienną BAD.3. Kliknij ikonę Eksploruj w prawym dolnym rogu ekranu.


Na wykresie słupkowym widać, że około 80% obserwacji w BAD mająwartość 0, a 20% ma wartość 1. Oznacza to, że około 20% klientów z tegoprzykładu danych nie wywiązała się ze swoich pożyczek.


Badanie statystyki opisowej

Do naszego diagramu dorzucamy węzeł Eksploracja statystyk znajdującysię w zakładce Eksploracja. Węzeł ten umożliwia obliczenie podstawowychstatystyk opisowych oraz wstępną analizę współzależności zmiennych.Aby badane korelacje pomiędzy zmienną zależną a zmiennymi niezależnymiobliczane były jedną metodą, należy umożliwić obliczenie statystykChi-kwadrat również dla zmiennych ciągłych (przedziałowych).


Współczynnik V Cramera

Umożliwi to zastosowanie współczynnika V Cramera, przyjmującegowartości od 0 do 1. Współczynnik ten jest unormowaną miarąwspółzależności zmiennych. Współczynnik V Cramera oblicza się wnastępujący sposób:

χ2 =∑i ,j

(ni ,j −ninjn )2

ninjn

V =

√ϕ2

min(k − 1, r − 1)=

√χ2/n

min(k − 1, r − 1)


Rezultaty

Rysunek: Wykres współzależności zmiennych niezależnych ze zmienną zależną


Rezultaty

Rysunek: Statystyki opisowe dla zmiennych klasyfikujących


Rezultaty

Rysunek: Statystyki opisowe dla zmiennych przedziałowych


Rezultaty

Na tym etapie widzimy, że wszystkie zmienne są istotne.

Rysunek: Wartości statystyki Chi-kwadrat wraz z wartościami p


Modyfikowanie danych

Modyfikacja to etap w którym należy przygotować dane do modelowania.Przygotowanie danych do budowy drzew decyzyjnych różni się odprzygotowywania ich do regresji i sieci neuronowych. Podstawowamodyfikacja danych którą można zastosować zarówno do drzew,regresjioraz sieci neuronowych polega na:

Porzuceniu nieistotnych dla budowy modelu oraz silnie skorelowanychzmiennych

Sprawdzeniu obserwacji pod kątem zakodowanych braków danych


Regresja 1

Stworzymy teraz pierwszy model regresji. Przeciągamy węzeł Regresja dodiagramu i łączymy z Partycjonowaniem.Węzły modelowania wymagają zmiennej docelowej. Naszą zmiennądocelową jest zmienna BAD, która jest binarna. Dlatego domyślnymmodelem będzie regresja logistyczna. Uruchamiamy.


Regresja 1 - rezultaty

Rysunek: Rezultaty-Regresja 1Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 31 / 98


Okno wykresu efektów zawiera wykres słupkowy bezwzględnej wartościefektów modelu. Im większa wartość, tym ważniejsza jest zmienna dlaregresji. W tym przykładzie najważniejsze zmienne prognostyczne toDELINQ, JOB, NINQ, DEROG.Okno nakładka rankingów wyników punktowych umożliwia przeglądaniewykresów oceny. Domyślny wykres przedstawia skumulowany lift. Innymjest np. skumulowana odpowiedź procentowa. Ten wykres rozmieszczaobserwacje w decylach na podstawie ich przewidywanegoprawdopodobieństwa odpowiedzi. To kreśli rzeczywisty odsetek badanych.



W tym przykładzie osoby posortowane są w malejącej kolejności ichprzewidywanych prawdopodobieństw niewypłacalności kredytu. Oknowyniki wyświetla informacje zarówno dla zestawów danych treningowych,jak i walidacyjnych.Przypomnijmy, że zmienna DEBTINC ma wysoki procent brakującychwartości. Z tego powodu niewłaściwym jest stosowanie domyślnegomodelu regresji bezpośrednio do danych treningowych. Powinniśmyrozważyć węzeł imputancji przed dopasowaniem modelu regresji.


Imputancja

Węzeł Imputancja umożliwia przypisywanie brakujących wartości danychwejściowych. Aby model był wiarygodny, należy pozbyć się braków danych.W tym węźle mamy możliwość określenia metody imputancji, którazastępuje każdą brakująca wartość pewną statystyką. Domyślnie zmienneprzedziałowe są zastępowane przez średnią tej zmiennej. Zmienne klasowesą zastępowane przez najczęściej występującą wartość. W tym przykładzieużyjemy domyślnych wartości.Na karcie Modyfikacja przeciągamy węzeł Imputancja do diagramu.Łączymy z węzłem Partycjonowanie.


Regresja 2

Budujemy model regresji oparty na imputowanym zbiorze danych.Przeciągamy węzeł Regresja do diagramu i łączymy z węzłemImputancja. Użyjemy domyślnych ustawień węzła regresji. Model regresjipasuje do modeli zmiennych docelowych, porządkowych, nominalnych ibinarnych. Ponieważ zmienna BAD jest zmienną binarną, domyślnymmodelem jest regresja logistyczna.


Rezultaty

Ten wykres rozmieszcza obserwacje w decylach na podstawie ichprzewidywanego prawdopodobieństwa odpowiedzi. Nakreśla rzeczywistyodsetek respondentów. Jeśli najedziemy kursorem na miejsce przecięcia sięwykresów, będziemy mogli odczytać, że przy 10% najlepszych danychokoło 69% pożyczkobiorców nie wywiązuje się z zaciągniętej pożyczki.

Rysunek: Skumulowana odpowiedź procentowaKlaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 36 / 98

Rezultaty

Wykresy lift przedstawiają te same informacje, ale w innej skali. Jakwspomniałyśmy wcześniej, ogólny odsetek respondentów wynosi 20%.Odsetek respondentów w pierwszym decylu wynosił 69%. Więc wzrost dlatego decyla wynosi 6920 = 3, 44. Jak ustawimy kursor na wykresie napierwszym decylu, możemy zobaczyć, że wartość dla tego punktu wynosi3,4. Wskazuje to na to, że odsetek respondentów w pierwszym decylu jestponad 3 razy większy niż odsetek respondentów w populacji.

Rysunek: Skumulowany lift


Rezultaty

Można wyświetlić również wykres efektów dla tego modelu. Wykresefektów zawiera wartości dla zmiennych z wartościami imputowanymi.Zmiennymi imputowanymi są identyfikowane przez prefiks ”IMP ”.Zauważmy, że w tym modelu najważniejsze zmienne w Wykresie efektówto DELINQ (IMP DELINQ), JOB (IMP JOBOFFICE, IMP JOBSALES,IMP JOBPROFEXE, IMP JOBMGR), DEROG (IMP DEROG), NINQ(IMP NINQ) i REASON (IMP REASONDEBTCON).

Rysunek: Wykres efektów


Wstępne badanie

Aby zbadać rozkład wszystkich zmiennych w zbiorze, należy kliknąć nawęzeł Partycjonowanie, a następnie w właściwościach w nagłówkuUczenie na trzy kropki przy Zmienne. Zaznaczamy wszystkie zmienne iklikamy Eksploruj.


Wstępne badanie

Okno podglądu zawiera próbki statystyk dla wszystkich zmiennych,histogram dla zmiennych interwałowych i wykresy słupkowe dla każdejklasy zmiennych.

Rysunek: Eksploracja zmiennych


Wstępne badanie

Okno właściwości próby zawiera informacje o próbkach zbioru danych,które użyto do statystyk i grafik w oknie podglądu.Wielkość pobrania wskazuje liczbę obserwacji użytych w próbce.Okno próbek statystycznych pokazuje obliczoną średnią,minimum,maksimum dla zmiennych interwałowych i liczbę poziomu klas, wartośćmodalną, oraz procent obserwacji w wartości modalnej dla zmiennejklasowej. Procent brakującej zmiennej jest obliczany dla każdej zmiennej.


Wstępne badanie

Zmienna CLAGE długość trwania najstarszej linii kredytowej klienta wmiesiącu. Szary słupek w lewej części histogramu prezentuje brakującewartości. Zauważmy, że zdecydowana większość obserwacji jest mniejszaod 350. Zbiór danych CLAGE jest przekrzywiony w prawo.

Rysunek: CLAGE


Wstępne badanie

Okno przyczyn pokazuje podane powody, dla których klient wziąłpożyczkę. Nieopisany słupek pokazuje brakujące wartości.Zauważmy, żewięcej ludzi bierze pożyczkę na kredyt konsolidacyjny niż ulepszanie domu.

Rysunek: REASON


Przekształcanie zmiennych

Po przejrzeniu próbek statystycznych i zmiennych dystrybucyjnych,możemy zauważyć ,że rozkład niektórych zmiennych ma asymetrię. W tymrozkładzie mały procent danych możne mieć duży wpływ na końcowymodel. Czasami wykonując transformacje na wejściowej zmiennej możnaotrzymać lepsze dopasowanie modelu. Do diagramu dorzucamy węzełPrzekształcanie zmiennych w module Modyfikacja i łączymy zPartycjonowaniem.



Skośność wskazuje poziom i kierunek asymetrii. Wartość skośności równazero mówi, że rozkład jest perfekcyjnie symetryczny. Dodatnia wartośćskośności pokazuje że ma prawostronną asymetrię, co opisuje wszystkiezmienne w tym zbiorze danych. Ujemna wartość skośności wskazuje, żerozkład ma lewostronną asymetrię. Kurtoza pokazuje spłaszczenierozkładu. Jednakże ten przykład skupia się tylko na skośności statystycznej.Węzeł przekształconych zmiennych umożliwia szybkie przekształceniezmiennych interwałowych używając standardowych przekształceń.



Aby zmniejszyć skośność w naszych zmiennych, klikamy na węzełPrzekształcanie zmiennych. Po lewej stronie we właściwościachodnajdujemy Metody domyślne i przy Przedziałowe zmiennewejściowe zmieniamy na Logarytmiczna. Następnie uruchamiamy węzeł.



W oknie Statystyki przekształceń znajdują się statystyki dla oryginalnychzmiennych i przekształconych. Kolumna Formuła wskazuje wyrażenie użytedo przekształcenia każdej zmiennej. Zauważmy,że wartość bezwzględnaskośności statystycznej dla przekształconej zmiennej jest typowo mniejszaniż dla oryginalnej zmiennej.

Rysunek: Statystyki-skośność


Interakcyjne dzielenie na klasy

Dodatkową techniką procesowa przed modelowaniem jest interaktywnedzielenie, do którego odnosi się grupowanie. Metoda ta pozwalaautomatycznie grupować zmienne w klasy na podstawie ustawień węzła.Przez używanie interaktywnego grupowania węzła, można kontrolowaćliczbę grup zmiennych, udoskonalić moc przewidywania zmiennej, wybraćzmienne przewidujące, generować wagi danych dla każdej grupy zmiennych(WOE-Weight of evidence) oraz sprawić by zmieniało się płynnie przezgrupy.



WOE dla grup zdefiniowane jest jako logarytm stosunku proporcjinieważnych obserwacji w grupie przez proporcje ważnych obserwacji wgrupie. Dla binarnego celu zmiennej BAD w tym przykładzie, BAD= 1jest poziomem ważnym, a BAD= 0 jest poziomem nieważnym. WOEmierzy relatywne ryzyko grup. Wysokie negatywne wartości WOE odnosząsię do wysokiego ryzyka domyślnej pożyczki. Wysokie pozytywne wartościodnoszą się do niskiego ryzyka.



Po dzieleniu interakcyjnym wartości zdefiniowanej zmiennej możnaoszacować jej moc predykcyjną. Moc przewidywań jest umiejętnościązmiennej do rozróżniania zdarzeń i nieistniejących obserwacji. W naszymprzykładzie jest to umiejętność oddzielenia złych od dobrych klientówkredytowych. Siłę predykcyjną możemy ocenić za pomocą jednego znastępujących kryteriów:

wartość informacji - jest ważoną sumą WOE w stosunku do grup.Waga jest różnicą między proporcją nieistniejących elementów iproporcją zdarzeń w każdej grupie,

współczynnik Giniego - jest taki sam jak współczynnik Giniego wdrzewach decyzyjnych.

Zmienne WOE są zwykle używane jako dane wejściowe w kolejnychwęzłach modelujących.



Zmienna NINQ była to ilość ostatnio złożonych indywidualnych wnioskówkredytowych. NINQ jest zmienną obliczeniową, ale większość obserwacjima wartość zarówno 0, 1 albo 2. Może być to użyteczne przy tworzeniuzgrupowanej wersji NINQ, gdzie wartości są większe od 2, na nowypoziom ”2+” Taki zabieg stworzy nową 3-poziomową zmienną grupującą zNINQ. Prawdą jest że tworzenie zgrupowanej zmiennej, która kondensujewiele poziomów w jeden złożony poziom może skutkować utratą informacjio dokładnej liczbie zapytań kredytowych. Jednakże taki zabieg umożliwiaobsługę nieliniowości w relacji pomiędzy NINQ a zmienną odpowiadająca.



By dokonać podziału NINQ, dodajemy Interakcyjne dzielenie na klasydo diagramu. Jednakże nie wolno transformować za pomocą tego węzła.Należy zablokować tę funkcje. Używamy tej funkcji do ręcznego podziałuzmiennych wejściowych. Prawym przyciskiem myszy klikamy na węzełPrzekształcanie zmiennych i wybieramy opcje Edytuj zmienne.Zmieniamy metodę przy NINQ na Brak. Węzeł ten nie przekształci wtedytej zmiennej. Uruchamiamy węzeł.



Przed podziałem NINQ, zauważmy że większość zmiennych ma Wyliczanąrolę Rejected (Odrzucony). W celu użycia tych zmiennych w procesieeksploracji danych, należy ustawić im nową role jako wejście.

Rysunek: Interakcyjne dzielenie na klasy



W właściwościach uczenie klikamy na trzy kropki przy Interakcyjnychdzieleniach na klasy. Zaznaczamy wszystkie zmienne i prawym przyciskiemmyszy klikając na Nową rolę zmieniamy na Input.

Rysunek: Interakcyjne dzielenie na klasy-wejście



Następnie klikamy na zakładkę Grupowanie, aby wyświetlić poszczególnepodziały zmiennych.

Rysunek: Grupowanie



Węzeł interakcyjnego dzielenia tworzy pięć grup dla NINQ. Zauważmy ze 2grupy zawierają odpowiednio brakujące i ujemne wartości. Grupazawierająca ujemne wartości jest pusta. Dla rozpatrywanego przykładuoznacza to, że ostatnio żadne wnioski kredytowe nie zostały złożone.Dlatego chcemy połączyć te dwie grupy w trzecią.Prawym przyciskiem myszy klikamy na grupę 1 a następnie Przypisz do iwybieramy grupę 3. Zauważmy, że grupy zostały ponownie ponumerowane.Następnie powtarzamy ten proces dla pustej grupy zawierającej wartościujemne, z tym, że przypisujemy to do grupy 2. Nasze grupy ponowniezostają ponumerowane.



Mamy teraz trzy grupy dla zmiennej NINQ. Chcemy dodać czwartą grupę,która zawiera wszystkie wartości > 2 i zachowuje grupę zawierającą tylko2.

Rysunek: Grupowanie



Aby to zrobić, wybieramy wiersz NINQ>= 2 i klikamy prawym przyciskiemmyszy. Następnie Podziel klasę. Nazwę nowego obcięcia wpisujemy 2.5(ponieważ wartości NINQ to tylko liczby całkowite, możemy wybraćdowolną wartość między 2 a 3). Tworzy to nowy zbiór, ale wciąż należy ondo tej samej grupy. Aby stworzyć z niego nową grupę klikamy prawymprzyciskiem myszy na 2.5 >=NINQ i Grupa= 4. Aby wprowadzić zmianyklikamy Zastosuj w lewym dolnym rogu.


Regresja 3

Wykonamy teraz kolejny model regresji. Przeciągamy węzeł Regresja dodiagramu i łączymy z Interakcyjnym dzieleniem na klasy. Wewłaściwościach odszukujemy Wybór modelu. Możemy wybrać jedną znastępujących opcji:

wsteczna-uczenie rozpoczyna się przy obecności w modelu wszystkichkandydujących efektów. Usuwanie efektów trwa aż do osiągnięciapoziomu istotności pozostania lub spełnienia kryterium stopu.

postępująca-uczenie rozpoczyna się przy nieobecności w modeluwszystkich kandydujących efektów i towarzyszy mu dodawanieefektów aż do osiągnięcia poziomu istotności wejścia lub spełnieniakryterium stopu.


Regresja 3

krokowa- uczenie rozpoczyna się jak w modelu Postępującym, leczmoże towarzyszyć mu usuwanie efektów już istniejących w modelu. Itak aż do osiągnięcia poziomu istotności pozostania lub spełnieniakryterium stopu.

brak-do dopasowania modelu użyte zostaną wszystkie dane wejściowe.

W tym przykładzie wybierzemy model Postępujący. W opcji Użyjwyborów domyślnych wybieramy Nie. Opcje wyboru stają się dostępne.


Regresja 3

Rysunek: Opcje wyboru

Okno Opcje wyboru otwiera okienko służące do dostosowania ustawieńwyboru do własnych potrzeb.


Regresja 3

Rysunek: Opcje wyboru

W tym przykładzie ustawiamy wartość poziomu istotności pozostaniana 0.025, a początkową liczbę zmiennych na 10 (zapewnia to użycie conajmniej 10 efektów modelu regresji).


Regresja 3

Analizę tej regresji możemy wykonać analogicznie jak w poprzednichprzykładach. Ocenę tego modelu przedstawimy na końcu, podczasporównania wszystkich modeli.


Drzewa decyzyjne

W praktycznych zastosowaniach modeli predykcyjnych istotna jest łatwośćinterpretacji i wyjaśnienia generowanych wyników. Bardzo pomocne sąprzy tym drzewa decyzyjne, które generują zależności w postaci zbioruwarunków logicznych.


Budowa drzewa

Budowę drzewa zaczynamy od podziału korzenia.W pierwszym krokuposzukujemy podziału,który pozwoli odnaleźć grupy charakteryzujące siędużą jednorodnością ze względu na wartość zmiennejobjaśnianej.Warunkiem koniecznym jest poprawa stopnia takiejjednorodności względem elementu,który jest dzielony.Szukany jestpodział,który zmaksymalizuje różnicę:

∆Z = Z0 −r∑

i=1

nin0

Zi

gdzie:Z0-stopień niejednorodności dzielonego elementu;Zi -stopień niejednorodności i-tego elementu powstającego w wynikupodziału;n0-liczebność dzielonego elementu;ni -liczebność i-tego elementu powstającego w wyniku podziału;r-liczba elementów powstających w wyniku podziału;Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 65 / 98

Stopień niejednorodności

Stopień niejednorodności (zanieczyszczenia) może być oceniany przyużyciu następujących miar:

Współczynnik Diniego

Z = 1−k∑

i=1

p2i

gdzie k - liczba kategorii przyjmowanych przez zmienną objaśnianą, pi -odsetek obserwacji przyjmujących i-tą wartość zmiennej objaśnianej.

Współczynnik entropii

Z = H(p1, .., pk) = −k∑

i=1

pi log2(pi )


Węzeł drzewa decyzyjnego

W zakładce Modelowanie wybieramy ikonę Drzewa decyzyjne iprzeciągamy na pole diagramu analogicznie jak w przypadkuPartycjonowania → łączymy węzeł Drzewa decyzyjnego z węzłemPartycjonowania.


Nakładka rankingów ocen punktowych

Porównanie wykresów wzrostu liftu dla zbioru treningowego iwalidacyjnego. Jeżeli krzywe się istotnie różnią,to świadczy to oprzetrenowaniu lub niedotrenowaniu modelu.


Statystyki liściowe

Wykres porównuje procentowy udział wartości zmiennej objaśnianej równej1 we wszystkich liściach dla danych treningowych i walidacyjnych.Dużeróżnice w wysokości słupków wskazują, że dany liść należy przyciąć.


Mapa drzewa

Mapa drzewa pokazuje jego strukturę,powierzchnia prostokątówodpowiada liczebności w danych węzłach drzewa.Natężenie kolorupokazuje stopień jednorodności populacji w danym węźle.


Statystyki dopasowania

Tabela pokazuje statystyki dopasowania na zbiorach treningowym,walidacyjnym i ewentualnie testowym. Duże różnice w wartościachstatystyk dopasowania mogą wskazywać na przetrenowanie lubniedotrenowanie modelu.


Wynik

W wyniku warto zwrócić uwagę na tabelę klasyfkacji,pokazującą udziałdobrze i źle sklasyfkowanych obserwacji na zbiorach treningowym iwalidacyjnym.


Analiza danych-drzewo

1 Wartość zmiennej objaśnianej.2 Dane treningowe.3 Dane walidacyjne.4 Liczba obserwacji.5 Udział procentowy dla każdej wartości zmiennej objaśnianej.


Drzewo


Interpretacja fragmentu drzewa

W zbiorze jest 19,94% zadłużonych ludzi, zaś w podzbiorze ludzi owysokim współczynniku zadłużenia mniejszym niż 44.7337 jest 7,25%.Dzieląc dalej ten podzbiór poprzez wartość obecną hipoteki dostajemy, żespośród zadłużonych ludzi 6.55% z nich ma wartość hipoteki mniejszą niż303 749.


Wykres Klasyfikacji

Wybieramy Rezultaty → Widok → Ocena → Wykres klasyfikacji.


Budowa odpowiedniego drzewa

Zbyt złożone drzewo (wielokrotnść podziałów,duża głębokość i ilość liści)jest nadmiernie dopasowane do zależności charakterystycznych dla zbiorutreningowego,przez co jest bardziej niestabilne (przetrenowanie).Zbytmałe drzewo ma większy odsetek błędnych klasyfikacji.Optymalną wielkośćdrzewa możemy wybrać posługując się wykresem błęduśredniokwadratowego lub skuteczności klasyfkacji względem liczby liścidrzewa.


MSE

W rezultatach klikamy: widok → model → wykres oceny poddrzewa


Sieci neuronowe

Definicja1Zbiór prostych jednostek obliczeniowych przetwarzających dane,komunikujących się ze sobą i pracujących równolegle.

Definicja2Zbiór połączonych ze sobą jednostek wejściowo-wyjściowych. Z każdympołączeniem skojarzona jest waga, która może zostać zmieniona w trakcieuczenia.


Czym jest sieć neuronowa?

Sieci neuronowe w założeniu są to obiekty, które swoim działaniemnaśladują aktywność rzeczywistych układów nerwowych w mózgachorganizmów żywych.W skutek połączenia szeregu neuronów o stosunkowoprostej budowie i niewielkich możliwościach uzyskuje się strukturę zdolnądo przeprowadzania bardzo skomplikowanych procesów rozpoznawaniawzorców i klasyfikacji.


Poniżej jest przedstawiony prosty model regresyjny w postaci siecineuronowej. Warstwa wejściowa zawiera n neuronów (odpowiadającychzmiennym) oraz warstwę wyjściową sumującą ważone impulsy itransformującą je do skali oryginalnej zmiennej Y.

Rysunek: Przykład sieci neuronowejKlaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 81 / 98

Sieci neuronowe

Rozszerzeniem tak opisanej architektury jest model perceptronuwielowarstwowego (MLP - Multi Layer Perceptron), który dodatkowozawiera warstwę ukrytą.Składa się ona z określonej ilości neuronów, które nieliniowo przekształcająkombinację liniową otrzymanych sygnałów.Pojedynczy neuron z warstwyukrytej składa się z dwóch elementów:

sumatora (funkcji łączenia)

funkcji aktywacji

Pierwszy z nich dokonuje sumowania ważonych sygnałów z warstwywejściowej oraz wyrazu wolnego, drugi tak otrzymaną sumę przekształcaprzy użyciu określonej funkcji ciągłej.


Rysunek: Przykład sieci neuronowej


Funkcja łączenia odpowiada za wytworzenie jednej wartości wejściowej dladanego neuronu z wartości jego poprzedników. Duża część dostępnych wSAS Enterprise Miner funkcji opiera się na radialnej funkcji bazowej -jest to funkcja, której wartości zależą tylko od odległości od ustalonegopunktu.


Rodzaj funkcji łączenia Charakterystykaaddytywna sumuje wszystkie wartości wejścioweliniowa stanowi kombinację liniową wartości

wejściowych i wagEQSlopes stanowi kombinację liniową wartości

wejściowych i wag, przy czym w da-nej warstwie używa się tej samej wa-gi, dodając inną wartość współczynni-ka przesunięcia( ang.bias) dla każdejwartości wejściowej

EQRadial radialna funkcja bazowa z równymiwysokościami i szerokościami w obrę-bie warstwy

EHRadial radialna funkcja bazowa z równymiwysokościami i nierównymi szeroko-ściami w obrębie warstwy


Rodzaj funkcji aktywacji Wzórtożsamościowa g

liniowa g ∗ weight + b

wykładnicza exp(g)

odwrotna 1g

kwadratowa g2

logistyczna 11+e−g

Gaussa exp(−g2)sinus sin g


Przetwarzanie informacji w neuronach

Pobudzeniem neuronu p domyślnie jest liniowa funkcja sygnałówwejściowych z wagami połączeń jako współczynnikami (combinationfunction).

p =n∑

i=1

wixi ,

gdzie:xi - wartość zmiennej;wi - waga zmiennej.

Sygnał wyjściowy y jest zależny od całkowitego pobudzenia neuronu,transformowanego przez funkcję aktywacji. Pozwala to wprowadzićnieliniowość.

y = f (p) = f (n∑

i=1

wixi )


Węzeł sieci neuronowej

Węzeł sieci neuronowej umożliwia konstruowanie, szkolenie i sprawdzaniewielowarstwowych sieci neuronowych feedforward. Użytkownicy mogąwybierać spośród kilku predefiniowanych architektur lub ręcznie wybieraćfunkcje i opcje wejściowe, ukryte i docelowe warstwy.Dołączamy do diagramu węzeł Sieć neuronowa i łączymy z węzłemInterakcyjne dzielenie na klasy, a następnie uruchamiamy.Domyślnie węzeł ten tworzy wielowarstwowy model perceptonu(MLP-multilayer percepton) bez bezpośrednich połączeń, a liczba ukrytychwarstw zależy od danych. Uruchamiamy węzeł.


Sieć neuronowa - rezultaty

Okno Statystyki dopasowania wyświetla różne obliczone statystyki dlamodelu sieci neuronowej. Okno Wykres iteracji wyświetla różnestatystyki, które zostały obliczone w każdej iteracji podczas tworzenia siecineuronowej.Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 89 / 98

Sieć neuronowa - rezultaty

Wybieramy Widok → Ocena → Wykres klasyfikacji.

Rysunek: Wykres klasyfikacji


Ocena i porównanie modeli

W zakładce Ocena wybieramy Porównanie modeli → przeciągamy na polediagramu i łączymy z węzłami wszystkich prezentowanych metod.

Rysunek: Porównanie modeli


Ocena i porównanie modeli

Po wybudowaniu wielu konkurencyjnych modeli predykcyjnych pozostajezagadnienie wyboru najlepszego z nich, który będzie mógł być zastosowanydla nowo napływających danych. Dopasowanie modelu może być ocenioneprzy użyciu różnych statystyk. Przykładowe z nich to:

Skuteczność klasyfkacji - odsetek poprawnie zaklasyfikowanychprzypadków. Miara często używana do oceny modeli klasyfikacyjnychwtedy, gdy każdy z obserwowanych przypadków można traktować zrówną wagą.

Błąd średniokwadratowy - średnia wartość kwadratu różnicy pomiędzypredykcją a rzeczywistą wartością. W przypadku binarnych zagadnieńklasyfikacyjnych wartością przewidywaną jest prawdopodobieństwo, awartością rzeczywistą 0 lub 1.



Maksymalny błąd bezwzględny - wartość bezwzględna największejróżnicy pomiędzy wartością przewidywaną a rzeczywistą. Miaraoceniająca maksymalny spodziewany błąd predykcji.

Statystyka Kołmogorowa-Smirnowa - określa, jak dobrze dwie klasyzmiennej objaśnianej są rozróżniane przez model. Jej wartośćobliczana jest jako:

maxt|F1(t)− F0(t)|

F0(t), F1(t) - wartości dystrybuanty empirycznej predykcji dla grupobserwacji, w których zmienna objaśniana przyjmuje odpowiedniowartości 0 i 1. Im większa wartość tej statystyki, tym większe różnicew prawdopodobieństwach przydzielanych obu grupom, a więc tymwiększa moc dyskryminacyjna modelu.


Wzrost (Lift) - miara dla określonego odsetka populacji będącejprzedmiotem zagadnienia klasyfikacyjnego. Obliczana jest poprzezpodzielenie odsetka zaobserwowanych zdarzeń w górnych n%populacji posortowanej malejąco według przewidywanychprawdopodobieństw przez procent tych samych zdarzeń w całejpopulacji.

Indeks ROC - miara określająca skuteczność modelu w rozpoznawaniuróżnic pomiędzy popopulacjami o różnych wartościach zmiennejobjaśnianej. Powstaje poprzez obliczenie pola pod krzywą ROC, którakonstruowana jest w następujący sposób:

z populacji posortowanej malejąco według przydzielonychprawdopodobieństw wybierane jest górne k% obserwacji;przy założeniu, że w wybranej podpopulacji znajduje się x jedynek i yzer oraz oznaczając przez n1 in0 liczności tych klas w całejrozpatrywanej próbie, obliczane są następujące wartości:1-specyficzność= y

n0wrażliwość = x

n1


tak opisane operacje powtarzane są dla różnych wartości k, aotrzymane wartości łączone są w krzywą.W związku z powyższym im bardziej wykres krzywej skierowany jest wstronę lewego górnego rogu, tym lepsze własności klasyfikacyjnebadanego modelu.


Krzywa ROC


Skumulowany lift

Wykres przyrostu pokazuje o ile częściej niż w danych źródłowychprzewidywana klasa występuje w próbie wskazanej przez dany model.Uzyskana w ten sposób krzywa powinna gładko spadać od największejwartości do 1. Gwałtowne skoki w górę sugerują, że model jestnieodpowiedni (oznaczają one, że model niezgodnie z rzeczywistościąprzewiduje szansę przynależności do klasy: tam gdzie według modelu jestona mniejsza, w rzeczywistości jest większa).



Na podstawie przedstawionych statystyk najlepszym modelem jest drzewodecyzyjne.


Documents

Data Mining - mif.pg.gda.plM6] DM/[Czw... · Data mining jest to proces analityczny, służący do odkrywania nietrywialnych, dotychczas nieznanych zależności, trendów w dużych