83
Verilerin Önişlenilmesi Kullanılan kaynak: Jiawel Han, Micheline Kamber, Data Mining: Concepts and Techniques,Morgan Kaupmann Publishers June 12, 2022 Data Mining: Concepts and Techniques 1 Sarı arka planlı sayfalar ilave bilgi amaçlıdır

Verilerin Önişlenilmesi

  • Upload
    gwen

  • View
    53

  • Download
    0

Embed Size (px)

DESCRIPTION

Verilerin Önişlenilmesi. Kullanılan kaynak: Jiawel Han, Micheline Kamber, Data Mining: Concepts and Techniques,Morgan Kaupmann Publishers. Sarı arka planlı sayfalar ilave bilgi amaçlıdır. Verilerin Önişlenmesi. Verilerin önişlenmesi nedenleri Veri temizleme Veri bütünleştirme ve dönüştürme - PowerPoint PPT Presentation

Citation preview

Page 1: Verilerin Önişlenilmesi

Verilerin Önişlenilmesi

Kullanılan kaynak:Jiawel Han, Micheline Kamber, Data Mining: Concepts and Techniques,Morgan Kaupmann Publishers

April 21, 2023Data Mining: Concepts and

Techniques 1

Sarı arka planlı sayfalar ilave bilgi amaçlıdır

Page 2: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 2

Verilerin Önişlenmesi

Verilerin önişlenmesi nedenleri

Veri temizleme

Veri bütünleştirme ve dönüştürme

Veri küçültme

Ayrıklaştırma ve kavram hiyerarşisi

Page 3: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 3

Verilerin çok boyutlu niteliği

Verilerin projenin amacına uygunluk derecesini belirlemek için onların çeşitli boyutlarda değerlendirilmesi gerekmektedir:

kesinlik tamlık tutarlılık zamanlama güvenilirlik Yorumlanabilirlik Erişebilirlik

Çoğu zaman çeşitli nedenlerden dolayı veriler bu boyutlardan bir veya birkaçı üzere gereken koşulları sağlamıyor. Bu durumda verilerin önişlenmesine ihtiyaç duyuluyor.

Page 4: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 4

Verilerin Önişlenmesi nedenleri

Kullanılmadan önce verilerin önişlenmesinin nedenleri:

Veriler tam değil: özelliklerin bazı değerlerinin bulunmaması

örneğin., maaşı=“ ” Veriler gürültülüdür(parazit): hatalar veya

sapmalar içerir Örn., maaş=“-10”

Veriler tutarlı değil: Değişkenlerin değerleri arasında tutarsızlık bulunmaktadır

Yaş=“42” Doğum günü=“03/07/1997” Bir sıralamada “1,2,3”, diğerinde “A, B, C”

Page 5: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 5

Veriler neden «kirlidir»

Verilerin tam olmamasının nedenleri: Verilere erişilememesi Verilere, toplandığı ve çözümlendiği zaman

dilimlerinde farklı yanaşmalar(bazı verilerin değerini önemsememe)

insan/donanım/yazılım sorunları Gürültülü (düzgün olmayan) verilerin

nedenleri Veri toplama araçlarında hatalar Veri girişinde insan veya bilgisayar hatası Veri aktarımında hatalar

Tutarsız verilerin nedenleri Farklı veri kaynakları İşlevsel bağlılıklarda yanlışlar (bağımlı

değişkenlerin değerlerinin doğru hesaplanmaması)

Page 6: Verilerin Önişlenilmesi

Veri kirliliği örneği-1

kapsam

sorun Kirli veriler sebep

özellik Yanlış değer Doğum_günü =30.13.1990

Değerler alan dışındadır

Kayıt Özellikler arasında bağımlılığın yanlış olması

Yaş=42Doğum_günü=12.02.1990

«yaş»la doğum günü değerleri tutarsızdır

Kayıt türü

Eşsizliğin bozulması

Pers1=(ad=«Ali Yavuz», pno=«123456»

Pers1=(ad=«Metin SAĞLAM», pno=«123456»

Personel numarasının eşsiz olması koşulu bozulmuştur

kaynak Erişimsel bütünlüğün bozulması

Pers1=(ad=«Metin SAĞLAM», şube_no=«123456»

«123456»no’lu şube tanımlanmamıştır

April 21, 2023 6

Page 7: Verilerin Önişlenilmesi

Veri kirliliği örneği-2

kapsam sorun Kirli veriler sebep

özellik Değer yoktur Tel:=285218 163 Rakam eksiktir

özellik Kelimenin yanlış yazılışı Kent=«Trabzun» Fonetik hata

özellik yanlış alan değeri Kent=«İtalya» «Italya» «kent» alanına dahil değil

kayıt Özellikler arası bağımlılığın bozulması

Kent=«Çanakkale»; plaka_no=19

«Çanakkale’nin plaka numarası 19 değil

Kayıt türü Kelimelerin farklı dizilişi Ad1 =«Kerim UĞUR»Ad2=«YILMAZ Temel»

Ad ve soyadların sıraları farklıdır

Kayıt türü Kayıtlarda zıtlık Pers1=(ad=«Ali Yavuz», doğum_tar=12.12.1995

Pers2=(ad=«Ali Yavuz», doğum_tar=10.09.1995

Aynı varlık farklı değerlerle tanımlanmıştır

7

Page 8: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 8

Farklı veri kaynakları: Veri Ambarı mimarisiFarklı veri kaynakları: Veri Ambarı mimarisi

Veri AmbarıVeri çıkarmaDönüştürmeYüklemeYenileme

OLAP Birimi

AnalizSorguRaporVeri madenciliği

İzleme ve BütünlemeMetaveri

Veri Kaynakları Son Kull.Araçları

hizmet

Veri Dükkanları

İşletimsel VT’ler

Diğer kaynaklar

Veri Depoları

OLAP Server

Page 9: Verilerin Önişlenilmesi

Veri Ambarı Nedir?

Veri tabanları ve diğer veri kaynaklarından yönetici sorunlarının çözümünde kullanılacak veriyi elde etmek için gerekli olan algoritmaları, araçları içeren sistemdir

Yönetici verilerini sorgulama ve raporlama için kullanılmaktadır.

Bir veri ambarı ilgili veriyi kolay, hızlı, ve doğru bicimde analiz etmek için gerekli işlemleri yerine getirir. Veri ambarı, işletimsel sistemlerdeki veriyi karar verme işlemi için uygun biçimde saklar.

Page 10: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 10

Veri Önişlemenin önemi

Nitelikli veri olmadan nitelikli sonuç almak mümkün değil Nitelikli karar, nitelikli verilere

dayanmalıdır Yönetici kararları için veri kaynaklarını

sağlayan veri ambarları, nitelikli verilerin tutarlı bütünleşmesini gerektiriyor

Veri çıkarma, temizleme ve dönüştürme veri ambarı oluşturma sürecinin esasıdır

Page 11: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 11

Veri Önişlemenin temel meseleleri

Veri temizleme Olmayan verilerin yerinin doldurulması, gürültülü

verilerin düzlendirilmesi, sapmaların tanımlanması ve ya aradan kaldırılması, tutarsızlıkların çözülmesi

Veri bütünleşmesi Çoklu veri tabanlarının, dosyaların bütünleştirilmesi

Veri dönüştürme Normalleştirme ve bir yere yığma (aggregation)

Veri küçültme Aynı veya benzer sonuçlar almak koşuluyla verilerin ifade

boyutlarının küçültülmesi Veri ayrıklaştırma

Özellikle, sayısal değerler için, önemli verileri dikkate almakla veri küçültme

Page 12: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 12

Veri Önişleme biçimleri

Page 13: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 13

Veri temizleme

Page 14: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 14

Veri Temizleme

Önemi: “Veri temizleme, veri ambarları

oluşturulmasında en esas sorunlardandır”

Veri temizleme meseleleri

Eksik değerlerin yerinin doldurulması

Sapmaların tanımlanması ve gürültülü verilerin

düzlendirilmesi

Tutarsız verilerin düzeltilmesi

Veri bütünleşmesi ile bağlı fazlalığın aradan

götürülmesi

Page 15: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 15

Veri temizleme- Eksik veriler

Veri erişilemezdir: Bazı özelliklerin değerleri kaydedilmemiştir; (satış

verilerinde müşteri gelirleri gibi…) Veri eksikliğinin nedenleri:

Donanım hatası Diğer kaydedilmiş verilerle tutarsızlık ve bu nedenle

silinmesi Doğru anlaşılmadığı için veri girilmemiştir Veri girişi sürecinde bazı veriler önemsiz sayılarak

girilmemiştir Verinin oluşma veya değişme tarihi yoktur

Eksik veriler karar alma zamanı gerekli olabilir.

Page 16: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 16

Veri temizleme- Eksik verilerle işleme

Neler yapıla bilir:

Eksik veri olan satırı dikkate almamalı

Veri değerini elle girmeli:

Değerleri

Genel sabit gibi, örn. “belli değil” olarak ;

Özellik değerlerinin ortalaması olarak (sınıfın gno’su bir

öğrencinin gno’su olarak);

Aynı sınıfa ait tüm örneklerin özellik ortalaması olarak girmeli;

(öğrencinin matematik puanı belli değilse, gno’ları aynı olan

öğrencilerin matematik puanlarının ortalaması olarak);

En ihtimal olunan değerin-Bayes formülü veya karar ağacı gibi

çıkarıma yönelik değerin girilmesi; (öğrencinin diğer notlarına

bakmakla matematik notunun karar ağacı ile tahmin edilmesi )

Page 17: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 17

Veri temizleme- Gürültülü Değer

Gürültü: ölçülen değişkende tesadüfü hata veya değişme

Özellik değerlerinin düzgün olmaması nedenleri: Veri toplama araçlarında hata Veri girişi sorunları Veri iletişimi sorunları Teknoloji sınırlamalar Dönüştürme zamanı tutarsızlık

Veri temizlemesinde ortaya çıkan diğer sorunlar: Tekrarlanan kayıtlar Tam olmayan veriler Tutarsız veriler

Page 18: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 18

Veri temizleme- Gürültülü verilerle işleme

Sepetlere ayırma-Binning Verileri sıralamalı ve eşit sıklıklı sepetlere-

bölümlere ayırmalı Bölümler bölüm ortalamasına, bölüm

medyanına, bölüm sınırlarına… göre düzlendirilir Regresyon

Regresyon fonksiyonları üzere düzlendirme Kümeleme-Clustering

Sapmaları bulma ve silme Bilgisayar ve insan gözlemlerinin birleştirilmesi

Kuşkulu değerleri bulma ve yoklama

Page 19: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 19

Veri temizleme- Veri düzleştirme için sepetlere bölme yöntemleri-Binning Methods for

Data

1. Verileri değerlerine göre sıralamalı: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 342. Sıralanmış verileri eşit derinlikli (aynı sayıda elementlerden oluşan) sepetlere ayırmalı - Sepet1: 4, 8, 9, 15 - Sepet2: 21, 21, 24, 25 - Sepet3: 26, 28, 29, 343. Verilerin değerini değiştirmeli (düzleştirme –(smooth) yapmalı)* Bölüm ortalamasına göre düzleştirme - Sepet1: 9, 9, 9, 9 - Sepet2: 23, 23, 23, 23 - Sepet3: 29, 29, 29, 29* Bölüm sınırlarına göre düzleştirme - Sepet1: 4, 4, 15, 15 - Sepet2: 21, 21, 25, 25 - Sepet3: 26, 26, 34, 34

Page 20: Verilerin Önişlenilmesi

Korelasyon

Korelasyon, olasılık kuramı ve istatistikte iki rassal değişken arasındaki doğrusal ilişkinin yönünü ve gücünü belirtir

Korelasyon katsayısı, bağımsız değişkenler arasındaki ilişkinin yönü ve büyüklüğünü belirten katsayıdır. Bu katsayı, (-1) ile (+1) arasında bir değer alır. Pozitif değerler doğru yönlü doğrusal ilişkiyi; negatif değerler ise ters yönlü bir doğrusal ilişkiyi belirtir. Korelasyon katsayısı 0 ise söz konusu değişkenler arasında doğrusal bir ilişki yoktur

Korelasyon veya doğrusal ilişki nedensellik değildir.

April 21, 2023 Data Mining: Concepts and Techniques 20

Page 21: Verilerin Önişlenilmesi

Korelasyon ve nedensellik

A ve B arasında korelasyon incelenince üç tür mümkün ilişki olabileceği görülür:A nedendir B sonuçtur; B nedendir A sonuçtur; C neden A sonuçtur VE C neden B sonuçtur.

A ve B arasında görülen ilişkinin sebep-sonuç ilişkisi olması her zaman doğru olmayabilir. Bu sahte korelasyondur.

April 21, 2023 Data Mining: Concepts and Techniques 21

Page 22: Verilerin Önişlenilmesi

Sahte korelasyon örnekleri

Bir sahil şehrinde aylık dondurma satışları ile aylık denizde boğulma sayıları yıl içinde birlikte artıp eksilime gösterip yakın pozitif korelasyon gösterirler. Bu demek değildir ki fazla dondurma fazla boğulmalara sebep-sonuç olmakta veya boğulmaların azalması dondurma satışlarına aksi tesirde bulunmaktadır. Her ikisi de mevsim değiştiği için aynı yönde değişik etki görmektedir.

1950lerden beri hava kirliği göstergeleri ile polise bildirilen hırsızlık olayları sayısı pozitif korelasyon göstermektedir. Bu demek değildir ki hava kirliği artışı hırsızlık olaylarının artışına; yahut hava kirliğinin artışı hırsızlık sayısı artışına neden olmuştur. Her iki değişken de hızlı şehirleşme dolayısı ile artış göstermektedir.

April 21, 2023 Data Mining: Concepts and Techniques 22

Page 23: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 23

Korelasyon ilişki analizi (Sayısal Veriler)

Korelasyon katsayısı

n- satırlar sayısı, Ᾱ ve Ḃ uygun olarak A ve B’nin ortalamaları, σA ve σB - A ve B’nin standart sapmaları, Σ(AB) - AB çapraz

çarpımının toplamıdır.

Eğer rA,B > 0 ise, A ve B – pozitif ilişkilidir (A’nın

değeri yükseldikçe B de yükseliyor). Ne kadar yüksek ise, ilişki o kadar güçlüdür

rA,B = 0: bağımsız; rA,B < 0: negatif ilişkili

BABA n

BAnAB

n

BBAAr BA )1(

)(

)1(

))((,

Page 24: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 24

Korelasyon Analizi (Kategorik veriler)

Χ2 (chi-square) denemesi

Χ2 değeri büyük olması , değişkenlerin yakınlığının az olmasını gösteriyor

Korelasyon nedensellik anlamına gelmez Kentteki hastaneler sayısı ve araba hırsızlığı sayısı

ilişkilidir. Her ikisi nedensel olarak üçüncü bir değişkene- nüfuz

sayısına bağlıdır

Beklenen

BeklenenGözlenen 22 )(

Page 25: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 25

Regresyon Analizi

Regresyon analizi, bilinen bulgulardan, bilinmeyen veya gelecekteki olaylarla ilgili tahminler yapılmasına izin verir. Regresyon, bağımlı ve bağımsız değişken(ler) arasındaki ilişkiyi ve doğrusal eğri kavramını kullanarak, bir tahmin eşitliği geliştirir.

Bağımlı Değişken (y); Bağımlı değişken, regresyon modelinde açıklanan ya da tahmin edilen değişkendir.

Bağımsız Değişken (x); Bağımsız değişken, regresyon modelinde açıklayıcı değişken olup; bağımlı değişkenin değerini tahmin etmek için kullanılır.

Değişkenler arasında doğrusal ilişki olabileceği gibi, doğrusal olmayan bir ilişki de olabilir.

Page 26: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 26

Regresyon Analizi (devamı)

Bağımlı değişken ile bağımsız değişken arasındaki doğrusal ilişkiyi açıklayan tek değişkenli regresyon modeli aşağıdaki gibidir:

y=ax+b Buraday = Bağımlı değişkenin değeri

a = Regresyon doğrusunun kesişim değeri (Sabit değer)

b = Regresyon doğrusunun eğimi

x = Bağımsız değişkenin değerini göstermektedir

Page 27: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 27

Veri temizleme- Regresyon Analizi -örnek

Kardiyoloji kliniğine başvuran erkek hastalar üzerinde yapılan bir araştırmada, yaş(x) ve kolesterol(y) değişkeni arasındaki korelasyondan yola çıkılarak kurulan regresyon modeli aşağıdaki gibi elde edilmiştir:

Bu modele göre, yaştaki bir birimlik artışın, kolesterol değerinde 0.326 birimlik bir artışa neden olacağı, yeni doğan bir erkeğin (X=0) kolesterol değerinin ise 3.42 olacağı söylenebilir.

Kurulan bu modele göre, 50 yaşında bir erkeğin kolesterol değerinin ne kadar olacağını tahmin edebiliriz

X=50 için 50 yaşında bir erkeğin kolesterol değerinin 19.52

olacağı söylenebilir.

Page 28: Verilerin Önişlenilmesi

Korelasyon Analizi ve Regresyon Analizi Arasındaki fark

April 21, 2023 Data Mining: Concepts and Techniques 28

Korelasyon Analizi; iki veya daha çok değişken arasında ilişkinin varlığını, ilişki varsa yönünü ve gücünü inceler.

Regresyon Analizi; değişkenlerden birisi belirli bir birim değiştiği zaman, diğer değişkenlerin nasıl bir tepki verdiğini inceler.

İkisi arasındaki fark; korelasyon analizinde değişkenler arası ilişkiler incelenirken, diğer yanda regresyon analizinde ise; bir değişkenin değişiminde diğer değişkenlerin izlediği yol incelenir.

Page 29: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 29

Veri temizleme- Regresyon-doğrusal ilişki

x

y

y = x + 1

X1

Y1

Y1’

Page 30: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 30

sınıflandırma

Sınıflandırma veya Danışmanlı öğrenme:

Önceden etiketlenmiş (sınıflandırılmış) örnekler esasında yeni örneğin sınıfının belirlenmesi

Sınıflar (dörtgenler) dışındaki veri, benzer (yakın) özellikleri bulunan sınıfa dahil edilir

Page 31: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 31

Kümeleme

Kümeleme veya Danışmansız öğrenme:

Etiketlenmemiş (sınıflandırılmamış) verilerin “doğal” gruplaştırılması

Benzer(yakın) veriler küme oluşturuyor

Page 32: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 32

Veri temizleme- Basit kümeleme: K-ortalama yöntemi

Yalnız sayısal değerler üzerinde1) K sayıda küme merkezi belirle (tesadüfi) 2) Her örneği, Öklid mesafesi uygulamakla

ona en yakın küme merkezine ata3) Atanmış örneklerin ortalamasına göre

küme merkezinin yerini değiş4) 2,3 adımlarını, küme atamalarındaki

değişmeler eşik değerinden(yol verilen sapma) az olana dek tekrarlamalı

Page 33: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 33

Veri temizleme- K-ortalama örneği, adım 1

k1

k2

k3

X

Y

Tesadüfi 3 küme merkezi belirlemeli

Page 34: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 34

K-ortalama örneği, adım 2

k1

k2

k3

X

Y

Her noktayı, ona en yakın merkeze atamalı

Page 35: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 35

K-ortalama örneği, adım 3

X

Y

Her bir küme merkezini, uygun kümenin ortalamasına doğru hareket ettirmeli

k1

k2

k2

k1

k3

k3

Page 36: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 36

K-ortalama örneği, adım 4

X

Y

NoktalarıEn yakın merkezlere yeniden atamalı

soru: hangi noktaları yeniden atamalı?

k1

k2

k3

Page 37: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 37

Veri temizleme- K-ortalama örneği, adım 4a

X

Y

kümelerinin yeniden belirlenmeli olduğu 3 nokta

k1

k3k2

Page 38: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 38

Veri temizleme- K-ortalama örneği-adım 4b

X

Y

Küme ortalamasının yeniden hesaplanması

k1

k3k2

Page 39: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 39

Veri temizleme- K-ortalama örneği, adım 5

X

Y

Küme merkezlerinin küme ortalamalarına hareket ettirilmesi

k2

k1

k3

Page 40: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 40

Veri temizleme: K-ortalama-sonuçlar

K ortalama sonucu başlangıç seçime çok bağlıdır

Yerel minimumu vere bilir örnek:

Genel optimumu bulmak için farklı seçimlerle yeniden başlamalı

noktalar

Başlangıç küme merkezleri

Page 41: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 41

Veri temizleme- Uzaklık (Mesafe)

fonksiyonu

tek bir parametre ile belirlenen mesafe mesafe(X,Y) = A(X) – A(Y)

Birkaç sayısal parametre ile belirlenen mesafe: mesafe(X,Y) = X,Y arasında

Öklid(Euclidean) mesafesi Nominal özellikler: değerler farklı ise

mesafe 1, eşit ise 0 Özelliklerin hepsi aynı derecede önemli

olmayabilir; bu durumda özelliklere ağırlık katsayıları verilmelidir

Page 42: Verilerin Önişlenilmesi

Verilerin önişlenilmesi

Veri Bütünleme ve Dönüştürme

April 21, 2023 Data Mining: Concepts and Techniques 42

Page 43: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 43

Veri Bütünlemede fazlalığın aradan kaldırılması

Çoklu veritabanlarının bütünleşmesi zamanı veri fazlalığı ortaya çıkıyor

Nesne tanımlanması: Aynı nesne veya özellik farklı veri tabanlarında farklı adlar taşımaktadır

Alınma veriler: Bir tablodaki özellik değeri, diğer bir tablodaki özellik değerlerinden alınabilir.

Fazla (önemsiz) özelliklerin korelasyon analiz yöntemleriyle silinmesi mümkündür

Farklı kaynaklardan alınmış verilerin bütünleştirilmesi sürecine özenli yaklaşımla veri fazlalığını ve tutarsızlığı azaltmak/küçültmek mümkündür. Bununla da gereken veriyi bulma hızı ve kalitesi yükselmiş olur.

Page 44: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 44

Veri Bütünleme- Data Integration

Veri bütünleme: Pek çok kaynaktan verilerin bir depoda tutarlı

biçimde birleşmesi Bütünleşme şeması: örn., A.müşt-id B.müşt-#

Farklı kaynaklardaki metaverilerin bütünleşmesi Varlık tanımlama sorunu:

Çoklu veri kaynaklarından gerçek dünya varlıklarının tanımlanması, örn., Bill Clinton = William Clinton

Veri değerleri tutarsızlıklarını bulma ve çözme Aynı gerçek dünya varlığı için , farklı kaynaklardan

alınan özellik değerleri farklı olabilir Mümkün nedenler: farklı sunumlar; farklı ölçekler,

örn., metrik ve İngiliz ölçüm birimleri

Page 45: Verilerin Önişlenilmesi

Veri Bütünleme örneği

April 21, 2023 Data Mining: Concepts and Techniques 45

Müşteriler hakkında bilgiler iki farklı kaynaktan (customer ve client tablolarından) alınmıştır. Customers tablosu bu tablolardaki verileri temizlemekle alınmıştır.

Page 46: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 46

Veri Dönüştürme

düzleşdirme: verilerdeki gürültüleri silmek Bir yere toplama (Aggregation): verileri özetleme Genelleştirme: kavram hiyerarşisi Normalleştirme: değerin belirtilen aralık içine

düşmesi için ölçekleme yapılması min-max normalleştirme z-score normalleştirme Onluk ölçekte normalleştirme

Page 47: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 47

Veri dönüştürme

Min-max normalleştirme: [new_minA, new_maxA]

Örnek: $12,000- $98,000 aralığındaki gelirleri [0.0, 1.0]

aralığında normalleştirmek gerekmektedir. Varsayalım ki,

gelir $73,600 değerindedir. O zaman

716.00)00.1(000,12000,98

000,12600,73

AAA

AA

A

minnewminnewmaxnewminmax

minvv _)__('

Page 48: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 48

Veri dönüştürme

Z-score normalleştirme (μ: ortalama, σ: standard sapma):

Örnek: μ = 54,000, σ = 16,000. O zaman

Onluk ölçekte normalleştirme

A

Avv

'

j

vv

10' ; j –Max(|ν’|) < 1 yapan en küçük tam sayıdır

225.1000,16

000,54600,73

Örnek: X özelliğinin değeri -500 - 45 aralığındadır. X’in en büyük mutlak değeri=500. Onluk ölçekte normalleştirmek için her değer 1000’e (j=3) bölünmelidir. Bizim örnekte -500 -0.5’e dönüştürülecek. 45 ise 0.045 olacak

Page 49: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 49

Dönüştürme: İkiliden sayısala

İkili alan Cinsiyet=M, F

0,1 değerli alana dönüştürme Cinsiyet = M Cinsiyet_0_1 = 0 Cinsiyet = F Cinsiyet_0_1 = 1

Page 50: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 50

Dönüştürme: Sıralıdan sayısala

Sıralı özellikler, doğal sıralamayı sağlayan sayılara dönüştürüle biler: A 4.0 A- 3.7 B+ 3.3 B 3.0

Doğal sıralama, anlamsal karşılaştırma yapmak için önemlidir

Page 51: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 51

Verilerin Önişlenmesi

Veri küçültme

Page 52: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 52

Veri Küçültme Stratejileri

Neden veri küçültme gerekiyor? Veritabanı/veri ambarı çok büyük ola bilir Büyük sayıda veriler üzerinde karmaşık

analizler çok zaman gerektiriyor Veri küçültme

Aynı (veya hemen hemen aynı) analitik sonuçları veren , fakat daha küçük boyutlu veri kümesinin alınması

Veri küçültme stratejileri Veri küpünde toplama Boyutsal küçültme — önemsiz özelliklerin

silinmesi Veri sıkıştırma Ayrıklaştırma ve kavram hiyerarşisi

Page 53: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 53

Veri Küpü Yığılması-Data Cube Aggregation

Veri küpünün en aşağı seviyesi- temel küp (base cuboid) İlgi alanı için verilerin bir yere yığılması

Veri küplerinde çok seviyeli yığılma Yukarı seviyelere doğru veri boyutu

küçülüyor Uygun seviyeye erişim

Sorunun çözümü için yeterli olacak en küçük sunum seviyesini seçmeli

Page 54: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 54

Verilerin özetlenmesi

Yıl=1997

Aylık satış

ocak 224.000

şubat 408.000

mart 350.000

… …

aralık 586.000

YIL= 1998

YIL=1999 Yıl Satışlar

1997 2.568.000

1998 2.356.000

1999 1.598.000

Üst yöneticilerin karar vermeleri için işletimsel (günlük ,aylık) veriler değil, özetlenmiş veriler daha önemlidir

Yıllara göre satış değerleri aylık satışların toplamıdır

Page 55: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 55

Çokboyutlu veriler

Satış hacmi, ürün, ay ve bölge değerlerinin fonksiyonudur

ürün

bölg

e

ay

Boyutlar: Ürün, Mekan, ZamanYolların hiyerarşik özetlenmesi

Sanayi Bölge Yıl

kategori Ülke Çeyrek

Ürün kent ay hafta

şube gün

Page 56: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 56

Basit veri küpü

ABD’de toplam yıllık TV satışıZaman

Ürün

Ülk

e

toplam

toplam TV

VCRPC

1Qtr 2Qtr 3Qtr 4Qtr

U.S.A

Canada

Mexico

sum

Page 57: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 57

Veri sıkıştırma

Kaynak Veri Sıkıştırılmış veri

kayıpsız

Yaklaşık kaynak veri kayıpla

Page 58: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 58

Veri küçültme yöntemi: Kümeleme

Verilerin benzerliklerine göre kümelere

dağıtılması

Çokseviyeli kümeleme mümkündür; bu

halde kümeler çok boyutlu ağaç yapıları

indeksleri ile sunulur

Çeşitli kümeleme algoritmaları mevcuttur

Page 59: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 59

Veri küçültme Yöntemi: Örnekleme

Örnekleme: N sayıda veriden oluşan tam veri kümesini ifade etmek için küçük s örneğinin elde edilmesi

Veri kümesini temsil edecek altkümenin seçilmesi Basit rastgele seçim iyi sonuçlar vermeye

bilir Bütün veri tabanında kümelerin

örneklerinin temsil oranlarını yakınlaştırmalı

Page 60: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 60

Örnekleme: yerdeğişmeli ve yerdeğişmesiz

SRSWOR(simple random sample without Replacement

-yerdeğişme olmadan örneklerin rasgele seçimi)

SRSWR

Ham veri

Page 61: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 61

Örnekleme: Kümeleme

Ham veri Küme

Yeni kümeler uygun kaynak kümelerden alınmış örneklerden oluşturulur

Page 62: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 62

Verilerin Önişlenmesi

Ayrıklaştırma ve kavram

hiyerarşisi

Page 63: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 63

Ayrıklaştırma-Discretization

Özelliklerin üç türü:

Nominal — sıralanmamış kümedeki değerler; örneğin,

renk, meslek

Sıralı (Ordinal) — sıralanmış kümedeki değerler; örneğin,

akademik unvanlar

Sürekli (Continuous) — gerçek sayılar;

Ayrıklaştırma:

özelliklerin sürekli değer alanını aralıklara bölme

Ayrıklaştırma yolu ile verilerin boyutunu küçültme

Page 64: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 64

Ayrıklaştırma ve kavram hiyerarşisi

ayrıklaştırma

Kesilmez türlü özelliğin değerler sayısını, değer alanını aralıklara

bölmekle küçültmek

Aralık etiketleri (değerleri) gerçek veri değerlerinin yerine

kullanıla bilir

Ayrıklaştırma , özelik üzerinde özyinelemeli olarak gerçekleştirile

bilir

Kavram hiyerarşisi

Aşağı seviye kavramlarını (örneğin, yaş için sayısal

değerler)toplamak ve daha üst seviye kavramları ile (genç, orta

yaşlı, yaşlı) değiştirmekle verilerin özyinelemeli olarak

küçültülmesi

Page 65: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 65

Ayrıklaştırma: Eşit genişlikli

[64,67) [67,70) [70,73) [73,76) [76,79) [79,82) [82,85]

Sıcaklık değerleri: 64 65 68 69 70 71 72 72 75 75 80 81 83 85

2 2

sayı

42 2 20

Çok sayıda veri yerine, bu verileri değerlerine göre eşit aralıklara bölmekle, veri dizininin aralıklarla ifade edilmesi

Page 66: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 66

Eşit Genişlikli yöntem (2.örnek)

[0 – 200,000) … ….

1

Personelsayısı

Şirkette maaş dağılımı

[1,800,000 – 2,000,000]

Page 67: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 67

Eşit boylu

Boy= 4, yalnız sonuncu sepet dışındaBu yöntemde tüm veri dizini eşit sayıda veri içeren

aralıklarla ifade edilir

[64 .. .. .. .. 69] [70 .. 72] [73 .. .. .. .. .. .. .. .. 81] [83 .. 85]

Sıcaklık değerleri: 64 65 68 69 70 71 72 72 75 75 80 81 83 85

4

boy

4 42

Page 68: Verilerin Önişlenilmesi

April 21, 2023 Data Mining: Concepts and Techniques 68

Kavram hiyerarşi

Veri kümesinde her özellik üzere farklı değerler sayısını analiz etmekle hiyerarşileri üretmek mümkündür En az farklı değeri bulunan özellik hiyerarşinin

en üst seviyesine yerleştirilir İstisnalar, örn., haftanın günleri, ay, çeyrek, yıl

ülke

eyalet

kent

cadde

15 farklı değer (kıta ülkelerinin sayısı)

365 farklı değer

3567 farklı değer

674,339 farklı değer

Page 69: Verilerin Önişlenilmesi

İlaveler

Zorunlu değildir, ama okunması gereklidir. Verilen örnekler sınavda yararlı olabilir

April 21, 2023 Data Mining: Concepts and Techniques 69

Page 70: Verilerin Önişlenilmesi

Verilerin niteliği neden düşüktür

Verilerin kalitesi çoğu zaman yüksek olmaz• Neden?– Veriler başkaları tarafından oluşturuluyor; sonra ise onları bütünleştirmek gerekiyor– İnsanlar hata yapar– İnsanlar çok meşgul olduklarından verilerin kalitesi onları çok düşündürmez ( «bu yeterlidir»)

April 21, 2023 Data Mining: Concepts and Techniques 70

Page 71: Verilerin Önişlenilmesi

Hata örnekleri

1,Dept. of Transportation, New York City,NY2,Dept. of Finance,City of New York,NY3,Office of Veteran's Affairs,New York,NY• bu cümleleri tek biçimli ifade etmek gerekmektedir

April 21, 2023 Data Mining: Concepts and Techniques 71

Page 72: Verilerin Önişlenilmesi

Hata örnekleri

April 21, 2023 Data Mining: Concepts and Techniques 72

1,Dept. of Transportation,New York,NYTwo,Dept. of Finance,New York,NYOffice of Veteran's Affairs,3,New York,NY• hatalı numaralama

Page 73: Verilerin Önişlenilmesi

1,Dept. of Transportation,New York,NY2,Dept. of Finance,New York,NY3,Commission for the United Nations ConsularCorps and Protocol,New York,NY• 3. satırdaki cümle gerekenden fazla alan kapsamaktadır

April 21, 2023 Data Mining: Concepts and Techniques 73

Page 74: Verilerin Önişlenilmesi

Hata örnekleri

1,Dept. of Transportation,New York,NY2,Dept. of Finance,New York,NY2,Office of Veteran's Affairs,New York,NY• Birincil anahtar (2) tekrarlanır

April 21, 2023 Data Mining: Concepts and Techniques 74

Page 75: Verilerin Önişlenilmesi

Biçimlendirme hataları

• zamanın farklı biçimlerde ifadesi:– 12/19/77– 12/19/1977– 12-19-77– 19/12/77– Dec 19, 1977– 19 December 1977– 9 in Tevet, 5738 (İbrani takvimi ile)

April 21, 2023 Data Mining: Concepts and Techniques 75

Page 76: Verilerin Önişlenilmesi

Farklı derecelendirme

– Bize gereken yaş aralığı 20-30, 30-40, 40-50, …– Elimizdeki veriler ise : 15-30;0-45; 45-60,…aralığındadır

April 21, 2023 Data Mining: Concepts and Techniques 76

Page 77: Verilerin Önişlenilmesi

Veri Temizleme adımları

1. Yarım Yapılandırma2. Standartlaştırma3. Yerel tutarlılık yoklaması4. Genel Tutarlılık yoklaması5. Belge

April 21, 2023 Data Mining: Concepts and Techniques 77

Page 78: Verilerin Önişlenilmesi

Veri Temizleme adımlarına örnekler

Örnek «Kirli veriler»Ralph Kimball DBMS, September 1996 kaynağından uyarlanmıştır

Yapısal olmayan dosyadan adres verileri:Ralph B ve Julianne KimballSte. 11613150 Hiway 9Box 1234 Boulder CrkColo 95006

April 21, 2023 Data Mining: Concepts and Techniques 78

Page 79: Verilerin Önişlenilmesi

Yarım-yapılandırma

Çözülme (parsing) de denir:Addressee First Name(1): RalphAddressee Middle Initial(1): BAddressee Last Name(1): KimballAddressee First Name(2): JulianneAddressee Last Name(2): KimballStreet Address Number: 13150Street Name: Hiway 9Suite Number: 116Post Office Box Number: 1234City: Boulder CrkState: ColoFive Digit Zip: 95006

April 21, 2023 Data Mining: Concepts and Techniques 79

Page 80: Verilerin Önişlenilmesi

Standartlaşma

• aynı anlamlı kelimeleri tek bir kelime ile ifade etmeliyizstandard term• Hiway 9 ‡ Highway 9• Boulder Crk ‡ Boulder Creek• Colo ‡ Colorado

April 21, 2023 Data Mining: Concepts and Techniques 80

Ralph B and Julianne KimballSte. 11613150 Hiway 9Box 1234 Boulder CrkColo 95006

Page 81: Verilerin Önişlenilmesi

Yerel Tutarlılık yoklaması

Her veri parçası kendiliğinde bir anlam ifade ediyor mu?• Boulder Creek ve Zip Code 95006 California eyaletindedir• Devlet (State) Colorado olarak gösterilmiştir• 3 özellikten 2_si eyalet olarak California’nı gösteriyor. Eyaleti (state) California olarak değişmeli

April 21, 2023 Data Mining: Concepts and Techniques 81

Ralph B and Julianne KimballSte. 11613150 Hiway 9Box 1234 Boulder CrkColo 95006

Page 82: Verilerin Önişlenilmesi

GENEL TUTARLILIK YOKLAMASI

• Ralph Kimball veya Julianne Kimball’ın kayıtlarını diğer müşteri kayıtlarında aramalı; adresteki tüm elementlerin aynı olduğuna eminlik sağlamalı• Genel yoklamanın yerelden farkı, yalnız mevcut veri parçalarına değil, diğer parçalara da bakmasıdır

April 21, 2023 Data Mining: Concepts and Techniques 82

Page 83: Verilerin Önişlenilmesi

BELGELEME

Belge, metaverilerde yarım yapılandırma, standartlaştırma ve tutarlık yoklamaları yapma sonucudur• Bütünleşik veritabanı oluşturmak için önemlidir• Veritabanının gelecek güncellenmeleri için önemlidir

April 21, 2023 Data Mining: Concepts and Techniques 83