Korelasyon tabanlı nitelik seçimi

Preview:

Citation preview

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

Korelasyon Tabanlı Nitelik Seçimi

F.Özgür ÇATAK

İstanbul Üniversitesi

Enformatik Doktora Programı

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Konular

1. Giriş

2. Nitelik Seçim Algoritmaları

1. Sezgisel Aramalar

2. Filtreleme Algoritmaları

3. Sarmal Algoritmalar

3. Korelasyon Tabanlı Nitelik Seçimi

4. Uygulama Örnekleri

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Giriş

• Veri madenciliğinde Nitelikler Üzerinde ki Sorunlar

• Hesaplama Karmaşıklığında Artış

Yüksek Sayıda

• Model Hassasiyetinde Düşüş

İlişkisiz

Kirli

Korelasyon

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Giriş

Nitelik Azaltımında HedefYüksek Boyutlu Verilerde Zorluğun Azaltılması

Verinin anlaşılması ve görselleştirilmesinin sağlanması

Öğrenme Algoritmasının Hız artışı

Modelin Birlikte Çalışabilirliği

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Örnek Veriseti

Nitelikler

• HAVA

• ISI

• NEM

• RÜZGAR

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Örnek Veriseti Nitelik Alt Küme Uzayı

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Nitelik Seçim Algoritmalarının Özellikleri

Başlangıç Noktası

Arama Düzeni

Ölçüm Yöntemi

Duruş Kriteri

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Nitelik Seçim Algoritmalarının Özellikleri

Başlangıç Noktası

• Nitelik Küme uzayında seçilecek olan bir nokta aramanın yönüne belirlemektedir.

• Kümeye Nitelik Ekleme

• Kümeden Nitelik Çıkarma

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Nitelik Seçim Algoritmalarının Özellikleri

Arama Düzeni

• Tüm Nitelik Alt kümesini aramak yüksek maliyetli

• N tane nitelik için 2^n adet alt küme

• Sezgisel arama yöntemleri kullanılabilinir.

• Her zaman en iyi sonuç çıkmaz

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Nitelik Seçim Algoritmalarının Özellikleri

Ölçüm Yöntemi

• Nitelik Alt Kümeleri Nasıl Doğrulanacak

• Filtreleme Yöntemi ile istenmeyen özellikleri kaldır işleme devam et

• Sarmal(Wrapper) Yöntemlerle çarpraz doğrulama(CrossValidation)

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Nitelik Seçim Algoritmalarının Özellikleri

Duruş Kriteri

• Nitelik Alt küme uzayında arama yaparken nerede duracağız.

• Genellikle yeni bir nitelik eklendiğinde yada çıkarıldığında ölçümde iyileşme yoksa durulmalıdır.

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Sezgisel Arama Algoritmaları

• Kullanılan Yöntemler

– Algoritma nitelik kümesine sadece ekleme yapıyorsa ileri yönelimli seçim(forward selection)

– Algoritma nitelik kümesine sadece çıkarma yapıyorsa geri yönelimli seçim(backward selection)

– Hem ekleme hem de çıkarma işlemi yapılıyorsa çift yönlü arama(stepwise bi-directional search)

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Sezgisel Arama Algoritmaları

• Hırslı Seçim Algoritması(Greedy Hill Climbing)

• En iyi ilk algoritması(Best First)

• Genetik Algoritmalar(Genetic Algorithms)

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Sürekli Niteliklerin Ayrıklaştırılması

• Korelasyon tabanlı nitelik seçimi ayrık giriş değerlerine sahip nitelikler için uygulanabilir.

• Çeşitli Yöntemler mevcut

– Eğitimli-Eğitimsiz

– Genel-Yerel

– Statik-Dinamik

• Korelasyon Tabanlı Nitelik Seçiminde kullanılan yöntem “Minimum Entropi Sezgisi” dir.

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Minimum Entropi Sezgisi

• Bir S kümesi için, A niteliği T kesim noktasında oluşan sınıf entopi değeri

• Kesim noktaları son bulma kriteri ise

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Korelasyon Tabanlı Nitelik Seçimi

Eğer iki niteliğin sahip olduğu değerler birbirleri ile simetrik olarak değişmekteyse, bu iki nitelik birbiri ile ilişkilidir.

Korelasyon, olasılık kuramı ve istatistikte iki rassal değişken arasındaki doğrusal ilişkinin yönünü ve gücünü belirtir.

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Değerleri Sürekli Değişkenlerin Korelasyonu

Korelasyon katsayısı, bağımsız değişkenler arasındaki ilişkinin yönü ve büyüklüğünü belirten katsayıdır. Bu katsayı, (-1) ile (+1) arasında bir değer alır.

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

NOMİNAL DEĞERLERE SAHİP ÖZELLİKLERİN KORELASYONU

Simetrik Belirsizlik(SymmetricalUncertainty)

RELIEF

MDL(En düşük Tanımlama Uzaklığı)

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

1. Simetrik Belirsizlik

• Entropi kullanılarak yapılmaktadır

• X niteliğinin gözlemine göre Y niteliğinin entropi değeri hesaplanmaktadır.

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

1. Simetrik Belirsizlik

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

2. RELIEF

• Relief algoritması veri setinde yer alan niteliklerin ağırlıklandırmasındakullanılmaktadır.

• En yakın k komşuluğu kullanılmaktadır.

• Iterasyona dayalı bir algoritmadır

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

2. RELIEF

• Denklem

• Wx = X niteliğinin ağırlığı

• Diff(X,R,H) (HIT): Veri seti kümesinde ki X örneklemine en yakın aynı sınıfta yer alan niteliklerin m ortalama uzaklığı

• Diff(X,R,M) (MISS): Veri seti kümesinde ki X örneklemine en yakın farklı sınıfta yer alan niteliklerin m ortalama uzaklığı

• m rassal olarak seçilen örneklerin sayısı

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

2. RELIEF

set all W[A] = 0.0

for i=1 to m do begin

randomly select instance Ri

find nearest hit H and nearest miss M

for A=1 to all attribute do

W(A) = W(A) – diff(A,Ri,H) + diff(A,Ri,M)

end

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

3. MDL(En Küçük Tanımlama Uzaklığı)

• Enformasyon Teorisinde Veri Sıkıştırma kullanılan kuraldır.

• Nitelik seçiminde nominal değişkenlerin korelasyonu için kullanılmaktadır

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

3. MDL(En düşük Tanımlama Uzaklığı)

• n eğitim verisinin sayısı, C sınıf değerlerinin sayısı, ni, Ci’ye ait olan eğitim setinin sayısı, nj j. Elemanın sahip olduğu değerin eğitim seti sayısı, nij ise Ci sınıf değerine ait olan eğitim setinin sayısı

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Korelasyon Tabanlı Nitelik Seçimi

• Ana hedef, hedef nitelik ile yüksek korelasyonlu birbirleri ile düşük korelasyonlu niteliklerin seçilmesi

• Veri seti “MERİT” değeri

• Burada , k farklı nitelik içeren S nitelik alt kümesinin merit değeri, ortalama sınıf-nitelik korelasyonu, ortalama nitelik-nitelik korelasyonu

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Korelasyon Tabanlı Nitelik Seçimi

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Oyun Veri Seti

Nitelik Kümesi k Merit

[] 0 N/A N/A 0

[HAVA] 1 0,13 1 0,13

[ISI] 1 0,25 1 0,025

[NEM] 1 0,185 1 0,185

[RUZGAR] 1 0,081 1 0,081

[HAVA NEM] 2 0,158 0,022 0,22

[ISI NEM] 2 0,105 0,258 0,133

[NEM RUZGAR] 2 0,133 0 0,188

[HAVA ISI NEM] 3 0,133 0,132 0,175

[HAVA NEM RUZGAR] 3 0,132 0,0096 0,226

[HAVA ISI NEM RUZGAR] 4 0,105 0,0718 0,191

Nitelikler ve Hedef değişken korelasyon değerleri

Veri seti nitelik MERIT değerleri

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Örnek Uygulama

• UCI Machine Learning Database

– California Üniversitesi’nin Enformatik ve Bilgisayar Bilimleri bölümü tarafından yayınlanmakta

– Kullanılan veri setleri

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Örnek Uygulama – Weka Modeli

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Örnek Uygulama

KNS Tüm Nitelikler KNS Tüm Nitelikler KNS Tüm Nitelikler KNS Tüm Nitelikler

C4.5 Naive Bayes Random Forest Instance Based Learning(knn)

vo DOĞRU 96.77 97.23 95.39 91.24 97.67 98.16 97.7 94.47

86

88

90

92

94

96

98

100

Test

ve

ri s

eti

do

ğru

luk

ora

Voting data seti Algoritma Hassasiyeti

VERİ MADENCİLİĞİ Korelasyon Tabanlı Nitelik Seçimi

İstanbul Üniversitesi Enformatik Doktora Programı - Ferhat Özgür ÇATAK

Sonuç

• Her veri seti için kullanılabilecek tek bir nitelik seçim algoritması yoktur.

• Genellikle, KNS sınıflandırma algoritmasının performansını artırmaktadır.(zaman ve sonuç)

• Fakat birbiri ile yüksek ilişki bulunan niteliklerde hatalı sonuçlar üretebilir.

Recommended