44
Semi - Supervised Learning

Semi supervised learning Türkçe

Embed Size (px)

Citation preview

Page 1: Semi supervised learning Türkçe

Semi-Supervised Learning

Page 2: Semi supervised learning Türkçe

İÇERİK

1.Supervised Learning

2.Unsupervised Learning

3.Semi-Supervised Learning

4.Semi-Supervised Learning Algorithms

Page 3: Semi supervised learning Türkçe

Supervised Learning

Supervised Learning: etiketli verilerden

öğrenmedir. Yapay öğrenmede yoğun olarak

kullanılır.

Ör: Spam mailleri önemli mesajlardan ayıran

bir email sınıflayıcısını ele alalım:

Page 4: Semi supervised learning Türkçe

Supervised Learning

M adet örnek alarak spam olanları ve olmayanları

etiketleyelim.

Page 5: Semi supervised learning Türkçe

Supervised Learning

M örnek kümesi Destek Vektör Makineleri, Karar

Ağaçları gibi yöntemlerle eğitilir.

Elde edilen eğitim kümesi yeni emaillerin

ayıklanmasında kullanılır.

Page 7: Semi supervised learning Türkçe

UnSupervised Learning

Etiketli veri elde etmek pahalıdır ve her zaman

verileri etiketlemek mümkün olamayabilir.

Bunun yanında,

Etiketsiz veriler çok daha ucuzdur.

Page 8: Semi supervised learning Türkçe

UnSupervised Learning

Görev: Konuşma analizi

Telefon Görüşme Kayıtları

1 saatlik veriyi tanımlayabilmek için 400 saatlik

fonetik seviyede veri setine ihtiyaç duyulur

film f ih_n uh_gl_n m

be all bcl b iy iy_tr ao_tr ao l_dl

Page 9: Semi supervised learning Türkçe

Etiketli küçük veri setleri ve etiketsiz büyük veri setleri

ile öğrenmedir.

Semi-Supervised Learning Algoritmaları:

Self Training

Generative Models

S3VMs (Transductive SVM)

Graph-Based Algorithms

Multiview Algorithms

Semi-Supervised Learning

Page 10: Semi supervised learning Türkçe

Self-Training Algorithm

Algoritma

»»𝑋𝑢 : Etiketsiz veri »»(𝑋1, 𝑌1): etiketli veri »» 𝑓: öğrenici

1. 𝑋1, 𝑌1 veri setinden 𝑓 ‘yi eğit

2. 𝑥 ∈ 𝑋𝑢 tahmin et

3. 𝑥, 𝑓 𝑥 etiketli verilere ekle

4. Tekrar et

Page 11: Semi supervised learning Türkçe

Self-Training Algorithm

Çeşitli uygulama şekilleri:

Yüksek güven düzeyine sahip olanları 𝑥, 𝑓 𝑥 ekle

Etiketlenen tüm verileri 𝑥, 𝑓 𝑥 ekle

Belli ağırlık ölçütüne göre ekle

Page 12: Semi supervised learning Türkçe

Self-Training Algorithm

Örnek: Görüntü Tanıma

Resim 10x10 ‘luk küçük parçalara bölünür

Page 13: Semi supervised learning Türkçe

Self-Training Algorithm

Her parça normalize edilir

200 görselden oluşan bir sözlük tanımlanır

Renk yoğunluğuna göre

etiketleme yapılır

Page 14: Semi supervised learning Türkçe

Self-Training Algorithm

1:0 2:1 3:2 4:2 5:0 6:0 7:0 8:3 9:0 10:3 11:3 12:0 13:0 14:0 15:0 16:3 17:1

18:0 19:0 20:1 21:0 22:0 23:0 24:0 25:6 26:0 27:6 28:0 29:0 30:0 31:1 32:0 33:0 34:0

35:0 36:0 37:0 38:0 39:0 40:0 41:0 42:1 43:0 44:2 45:0 46:0 47:0 48:0 49:3 50:0 51:3

52:0 53:0 54:0 55:1 56:1 57:1 58:1 59:0 60:3 61:1 62:0 63:3 64:0 65:0 66:0 67:0 68:0

69:0 70:0 71:1 72:0 73:2 74:0 75:0 76:0 77:0 78:0 79:0 80:0 81:0 82:0 83:0 84:3 85:1

86:1 87:1 88:2 89:0 90:0 91:0 92:0 93:2 94:0 95:1 96:0 97:1 98:0 99:0 100:0 101:1

102:0 103:0 104:0 105:1 106:0 107:0 108:0 109:0 110:3 111:1 112:0 113:3 114:0 115:0

116:0 117:0 118:3 119:0 120:0 121:1 122:0 123:0 124:0 125:0 126:0 127:3 128:3

129:3 130:4 131:4 132:0 133:0 134:2 135:0 136:0 137:0 138:0 139:0 140:0 141:1

142:0 143:6 144:0 145:2 146:0 147:3 148:0 149:0 150:0 151:0 152:0 153:0 154:1

155:0 156:0 157:3 158:12 159:4 160:0 161:1 162:7 163:0 164:3 165:0 166:0 167:0

168:0 169:1 170:3 171:2 172:0 173:1 174:0 175:0 176:2 177:0 178:0 179:1 180:0

181:1 182:2 183:0 184:0 185:2 186:0 187:0 188:0 189:0 190:0 191:0 192:0 193:1

194:2 195:4 196:0 197:0 198:0 199:0 200:0

Page 15: Semi supervised learning Türkçe

Self-Training Algorithm

1.Adım:

İki etiketli resmi Naive Bayes ile eğit

Page 16: Semi supervised learning Türkçe

Self-Training Algorithm

2.Adım:

Etiketsiz veri setinden tahminde bulun

Page 17: Semi supervised learning Türkçe

Self-Training Algorithm

3.Adım:

Yüksek benzerlikteki resimleri etiketli kümeye ekle

Page 18: Semi supervised learning Türkçe

Self-Training Algorithm

4.Adım:

Tanımlayıcıyı yeniden eğit ve devam et

Page 19: Semi supervised learning Türkçe

Self-Training Avantaj-Dezavantaj

Avantajları:

• En basit semi-supervised learning yöntemidir

• Var olan sınıflandırıcılara uygulanabilir

• Doğal dil işleme gibi alanlarda etkin olarak

kullanılabilir

Dezavantajları:

• Güçlü bir eğitim kümesi oluşana kadar hata

yapılabilir

Page 20: Semi supervised learning Türkçe

Generative Models

Model parametreleri: 𝜃 = 𝑤1, 𝑤2, 𝜇1, 𝜇2, Σ1, Σ2

Ortak olasılık fonksiyonu:

𝑝 𝑥, 𝑦 𝜃 = 𝑝 𝑦 𝜃 𝑝 𝑥 𝑦, 𝜃

= 𝑤𝑦𝒩(𝑥; 𝜇𝑦 , Σ𝑦)

Bayes kuralı:

Sınıflandırma 𝑝 𝑦 𝑥, 𝜃 =𝑝 𝑥, 𝑦 𝜃

Σ𝑦′𝑝 𝑥, 𝑦 𝜃

Page 21: Semi supervised learning Türkçe

Generative Models

Etiketli veriler 𝑋1, 𝑌1 :

Her bir sınıfın Gauss dağılımına

sahip olduğu göz önüne

alındığında, sınır neresi

olmalıdır?

Page 22: Semi supervised learning Türkçe

Generative Models

En uygun model ve sınırları:

Page 23: Semi supervised learning Türkçe

Generative Models

Etiketsiz veriler eklendiğinde:

Page 24: Semi supervised learning Türkçe

Generative Models

Etiketsiz verilerle birlikte,

en uygun model ve sınırları:

Page 25: Semi supervised learning Türkçe

Generative Models

Sınıf sınırları farklı çünkü farklı miktarda veri içeriyorlar

𝑝 𝑋1, 𝑌1 𝜃 𝑝 𝑋1, 𝑌1, 𝑋𝑢 𝜃

Page 26: Semi supervised learning Türkçe

Transductive Support Vector Machines

Semi-Supervised SVMs = Transductive SVMs

(TSVMs)

Etiketli ve etiketsiz verilerin maksimum sınırı aranır

Page 27: Semi supervised learning Türkçe

Transductive Support Vector Machines

TSVM adımları:

• 𝑋𝑢 ‘daki tüm mümkün etiketlenebilecek verileri al

• Her birine standart SVM uygula

• En geniş çerçeveli SVM ‘i seç

Page 28: Semi supervised learning Türkçe

Transductive Support Vector Machines

TSVM

+

+

_

_

etiketli veriler

+

+

_

_

+

+

_

_

SVM

Page 29: Semi supervised learning Türkçe

Transductive Support Vector Machines

TSVM

+

+

_

_

etiketli veriler

+

+

_

_

+

+

_

_

SVM

Page 30: Semi supervised learning Türkçe

Transductive Support Vector Machines

TSVM

+

+

_

_

etiketli veriler

+

+

_

_

+

+

_

_

SVM

Page 31: Semi supervised learning Türkçe

Transductive Support Vector Machines

TSVM

+

+

_

_

etiketli veriler

+

+

_

_

+

+

_

_

SVM

Page 32: Semi supervised learning Türkçe

Transductive Support Vector Machines

TSVM

+

+

_

_

etiketli veriler

+

+

_

_

+

+

_

_

TSVMSVM

Page 33: Semi supervised learning Türkçe

Transductive Support Vector Machines

Avantajları:

• SVM uygulanan her durumda uygulanabilir

• Matematiksel sistemi kolay anlaşılabilirdir

Dezavantajları:

• Optimizasyonu zordur

• Yanlış çözümde hapsolabilir

Page 34: Semi supervised learning Türkçe

Graph-Based Methods

Çok sayıda etiketli veri varsa En Yakın Komşuluk Algoritması

kullanılabilir

Çok sayıda etiketsiz veri varsa

bunlar çözüm için bir araç

olarak kullanılabilir

Page 35: Semi supervised learning Türkçe

Graph-Based Methods

Elyazısı tanımlamada:

Page 36: Semi supervised learning Türkçe

Graph-Based Methods

Metin Sınıflandırma örneği

Astronomi ve Seyahat sınıf

Benzerlik örtüşen kelimelerle

ölçülür

Page 37: Semi supervised learning Türkçe

Graph-Based Methods

Etiketli verilerin tek başına yetersiz kaldığı durumlarda,

Örtüşen kelime yok!

Page 38: Semi supervised learning Türkçe

Graph-Based Methods

Etiketsiz veriler kullanıldığında:

Etiketler benzer etiketsiz kelimelerle eşleşir.

Page 39: Semi supervised learning Türkçe

Graph-Based Methods

• Nodes: 𝑋𝑙 ∪ 𝑋𝑢

• Edges: özelliklerden hesaplanmış benzerlik ağırlıkları

• K-en yakın komşuluk grafiği, ağırlıklandırılmamış (0,1)

• Mesafeye göre ağırlıklandırma

𝑤 = exp −𝑥𝑖−𝑥𝑗

2

𝜎2ile hesaplanır.

• İstenilen: tüm düğümlerde örtüşen benzerlikler

Page 40: Semi supervised learning Türkçe

Graph-Based Methods Algorithms

Kullanılan Algoritmalar

• Mincut

• Harmonic

• Local and Global Consistency

• Manifold Regularization

Page 41: Semi supervised learning Türkçe

Co-Training

Her bir örnek ya da örneği açıklayan özellik iki alt kümeye

bölünebilir.

Bunların her biri hedef fonksiyonu öğrenmek için yeterlidir.

İki sınıflandırıcı aynı verileri kullanarak öğrenebilir

Ör: web sayfası sınıflandırması için link ve sayfa içeriği

Multiview Algorithms

Page 42: Semi supervised learning Türkçe

Co-Training Algoritması

Giriş: İşaretli veri seti L

İşaretsiz veri seti U

Döngü:

L yi kullanarak h1 i eğit (ör: link sınıflandırıcı)

L yi kullanrak h2 yi eğit (ör: sayfa sınıflandırıcı)

h1 ile U da p tane pozitif, n tane negatif veri etiketle

h2 ile U da p tane pozitif, n tane negatif veri etiketle

Etiketlenen en güvenli verileri L ye ekle

Page 43: Semi supervised learning Türkçe

Co-Training Deneysel Sonuçlar

12 etiketli web sayfası (L)

1000 etiketsiz web sayfası (U)

Ortalama hata: etiketli veriler ile öğrenmede %11.1

Ortalama hata: Co-training ile öğrenmede %5.0

Sayfa bazlı

sınıflandırma

Link bazlı

sınıflandırma

Birleşik

sınıflandırma

Supervised

Learning

12.9 12.4 11.1

Co-training 6.2 11.6 5.0

Page 44: Semi supervised learning Türkçe

Kaynaklar

Olivier Chapelle, Alexander Zien, Bernhard Sch¨olkopf (Eds.). (2006) Semi-

supervised learning. MIT Press.

Xiaojin Zhu (2005). Semi-supervised learning literature survey. TR-1530. University

of Wisconsin-Madison Department of Computer Science.

Matthias Seeger (2001). Learning with labeled and unlabeled data.Technical

Report. University of Edinburgh.