buradan

KARAR AĞAÇLARI
ALGORİTMALARI
J48 - C5.0 - LOJISTIK - MLP - ID3 - BAYES - IB1 – IBK - KSTAR
Hazırlayan;
Caner FINDIKLI
J48 Algoritması
Temel olarak Weka'nın sınıflandırma algoritmalarından. C4.5 decision
tree algoritmasını kullanır. Her satır ağaçtan bir düğümü; alt satırlar üst
satırın child düğümlerini kullanır. Algoritma, basit olarak dataset
içerisindeki düğümler ile oluşturulur. Bu düğümler, doğru ve yanlış
gösterilenler diye ayrılır ve üzerinde çalışılan dataset içerisindeki
vakalardır. Algoritmaya göre sırayla data mining yapıldıkça machine
learning yapılmış oluyor. Bu bağlamda J48, sınıflandırma algoritmaları
içinde en hızlı ve yüksek yüzdeyle ve doğru çalışan karar ağaçlarından
birisidir diyebiliriz.
J48 Algoritması
Karışıklık Matrisi:
a
40629
6849
b <-- Öngörülen Sınıf
1459
12011
|
|
a=1
b=2
J48 Algoritması
Karşılaştırma Ölçütleri:
KStar Algoritması
NaiveBayes Algoritması
Doğruluk Kesinlik
%85.21
%85.80
Duyarlılık
F-Ölçütü
%94.15
%89.78
Doğruluk Kesinlik
%85.44
%85.36
%86.30
Duyarlılık
F-Ölçütü
%93.66
%89.83
%98.00
F-Ölçütü
%90.28
J48 Algoritması
Lojistik Regresyon Algoritması
Doğruluk Kesinlik
%83.70
Duyarlılık
Doğruluk Kesinlik
%86.36
%85.57
Duyarlılık
F-Ölçütü
%96.53
%90.72
J48 Sonuç ve Öneriler
Sonuç ve Öneriler:
Çalışma sonuçları incelendiğinde J48 algoritmasının model testine ait %86.36 doğruluk
derecesiyle en iyi sonucu ürettiği söylenebilir. Doğruluk ölçütü oldukça basit ve önemli bir
kriterdir. Bu ölçüte göre J48 algoritmasını sırasıyla KStar, Lojistik Regresyon ve NaiveBayes
algoritmaları izlemektedir.
Kesinlik ölçütü bakımından lojistik regresyon en iyi sonucu oluşturmuş olup, diğer
algoritmalar bu ölçüte göre NaiveBayes, J48 ve KStar şeklinde sıralanabilir. Ancak kesinlik
ölçütü tek başına yorumlanırsa değerlendirme yanlış sonuçlara götürebilir. Bu ölçütü
duyarlılık ölçütüyle beraber ele almak gerekir. Tablodan görüleceği üzere algoritmalar,
duyarlılık ölçütüne göre KStar, J48, NaiveBayes ve Lojistik Regresyon olarak sıralanabilir.
Görüleceği üzere, kesinlik ölçütü ve duyarlılık ölçütü birbiriyle zıt bir sıralama ortaya
koymuştur.
J48 Sonuç ve Öneriler
Kesinlik ve duyarlılık ölçütlerini beraber değerlendirmek için, her iki değerin harmonik ortalaması
olan F-Ölçütüne baktığımızda sıralamanın J48, KStar, Lojistik Regresyon ve NaiveBayes şeklinde
olduğunu görüyoruz. Bu sıralamanın yine doğruluk kriter sıralamasıyla birebir aynı olduğu
görülmektedir.
Veri madenciliğinde bilgiye erişmede farklı metotlar kullanılmaktadır. Bu metotlara ait pek çok
algoritma vardır. Bu algoritmalardan hangisinin daha üstün olduğu üzerine pek çok çalışma
yapılmış, yapılan bu çalışmalarda farklı sonuçlar elde edilmiştir. Bunun en önemli sebebi, işlem
başarımının, kullanılan veri kaynağına, veri üzerinde yapılan önişleme, algoritma parametrelerinin
seçimine bağlı olmasıdır. Farklı kişiler tarafından, farklı veri kaynakları üzerinde, farklı parametrelerle
yapılan çalışmalarda farklı sonuçlar oluşması doğaldır. Ancak, yaptığımız çalışma, “benzer veri
kümelerinde belli yöntemlerin daha başarılı olduğu” şeklindeki çıkarıma[5] uygun olarak, diğer
çalışmalarla[12,13] benzer sonuç vermiştir. Göğüs kanseri vakalarının farklı yıllarını içeren SEER veri
kaynağının kullanıldığı her iki çalışmada da, bir karar ağacı algoritması olan C4.5 algoritmasının
diğer algoritmalardan daha iyi sonuç ürettiği sonucuna ulaşıldığı belirtilmiştir[12,13]. Bu çalışmada
da, yapılan karşılaştırma sonucunda, C4.5 algoritmasının Weka implementasyonu olan J48 karar
ağacı algoritması, benzer şekilde diğer algoritmalara göre daha başarılı bulunmuştur.
J48 Sonuç ve Öneriler
Bu çalışmada, modellerin oluşturulması için ücretsiz bir yazılım olan Weka aracı
kullanılmıştır. Var olan diğer veri madenciliği araçları üzerinde aynı algoritmalar
çalıştırılarak farklı araçların benzer sonuçlar üretip üretmediği kontrol edilebilir.
Algoritmaların veri kaynağı üzerinde çalıştı-rılması sırasında algoritma parametreleri
olarak her algoritmanın o parametre için varsayılan değeri kullanılmıştır. Her algoritma ve
her veri kaynağı için başarım derecesini maksimize edecek parametre değerleri tespit
ederek bu parametrelerle algoritma sonuçlarını karşılaştırmak farklı sonuçlara
götürebilecektir. Ancak, böyle bir karşılaştırmada yanlılık oluşabilecektir.
Bu çalışmada, algoritmaların ürettiği modellerin başarım sonuçları karşılaştırılmıştır. Benzer
şekilde, algoritmaların hızı ve hafıza kullanımı da karşılaştırılarak algoritmaların performans
karşılaştırması yapılabilir.
C5.0 Algoritması
Karar ağaçlarını oluşturmak için CART (classification and
regression trees), C4.5, C5.0, CHAID (chi_squared automatic
interaction detection) gibi farklı algoritmalar kullanılabilir.
Algoritmaya bağlı olarak her düğüm 2 ya da daha fazla
dala ayrılabilir. Binory ağaç olan CART' da, her düğüm 2 dal
içerir. C 4.5, C5.0 algoritmalarında bir düğüm 2 den fazla
dala sahip olabilir. Bu tip ağaçlara multiway tree denir.
C5.0 Algoritması
Bu yöntemler temel olarak karar ağacını oluştururken
farklı özellikleri seçmeleri ile birbirinden ayrılmaktadırlar. Bir
çok çalışmada C4.5 algoritmasının gelişmiş yeni şekli olan
C5.0 sınıflandırma yöntemi kullanılmıştır.
C5.0 Algoritması
C5.0 algoritması denetimli bir sınıflandırma algoritması
olup, öncelikle hedef değişkenin bilindiği bir veri kümesi
ile karar ağacı eğitilip bir model oluşturulmakta, daha
sonra oluşturulan bu model bağımlı değişkenin
belirtilmediği yeni bir veri kümesi üzerinde test edilerek
modelin performansı ölçülmektedir.
C5.0 Algoritması
Sınıflama ile ilgili olarak literatürde, farklı bir yaklaşım da söz konusudur.
Bu yaklaşıma göre sınıflama; tam sınıflama ve kısmi sınıflama olmak üzere
ikiye ayrılmaktadır. Buradaki tam sınıflama kavramı veri içindeki tüm sınıflar
ve örnekleri kapsayan modeller ile ilgilidir. Bunlara örnek olarak, yapay sinir
ağları, C&RT, CHAID, C4.5, C5.0 ve diğer karar ağaçları gibi akıllı teknikler
ile diskriminant analizi gibi istatistiksel araçlar verilebilir. Kısmi sınıflamada,
tam sınıflamada olduğu gibi veri sınıflarının özellikleri gösterilmektedir.
Ancak kısmi sınıflandırma modellerinde tüm sınıflar veya verilen sınıfın tüm
örnekleri kapsanmayabilir. Bu modellerden biri olarak birliktelik kuralları
verilebilir.
C5.0 Algoritması Özellikleri
 Her
düğümden çıkan çoklu dallar ile ağaç oluşturur.
 Dalların
 Tek
sayısı tahmin edicinin kategori sayısına eşittir.
bir sınıflayıcıda birden çok karar ağacını birleştirir.
 Ayırma
işlemi için bilgi kazancı kullanır.
 Budama
işlemi her yapraktaki hata oranına dayanır.
Lojistik Regrasyon Algoritması
 Lojistik regresyon, diğer bir adıyla Logit model, son yıllarda kullanımı giderek artan ileri
düzey bir regresyon yöntemidir. Sosyal bilimlerde oldukça yoğun bir şekilde kullanılan
lojistik regresyon bir ya da birden çok bağımsız değişken ile bağımlı değişken arasındaki
ilişkiyi modellemeyi amaçlamaktadır.
 Lojistik regresyonun yoğun olarak kullanılmasının önemli bir sebebi bağımlı değişkenin
kategorik bir değişken olduğu durumlarda bağımlı değişkenin modellenmesini
sağlamasındandır. Bağımsız değişkenler ise sürekli özellikte olabilirler.
 Lojistik regresyon analizi ile gözlemlerin bağımlı değişkenin kategorilerine göre
ayrılabilmekte ve yeni gözlemlerin hangi kategoriye gireceği değerlendirmeleri
yapılabilmektedir.
Lojistik Regrasyon Çeşitleri
 Lojistik regresyonda bağımlı değişken metrik
olmayan
değişkenlerden
oluşmaktadır.
Bağımsız değişken ise metrik ve metrik
olmayan değerler alabilir.
 Bağımlı ve bağımsız değişkenlerin sayısına
göre değişen “Lojistik Regresyon Çeşitleri”
aşağıdaki tablo da yer almaktadır.
Lojistik Regrasyon Kullanım Nedenleri
 Bağımlı değişken kategorik (kesikli, süreksiz) olmakla birlikte, bağımsız değişkenler sürekli
veya kategorik olabilir.
 Lojistik modelin parametreleri kolaylıkla yorumlanabilmekte ve matematiksel olarak
kullanımı kolay olan fonksiyonlar üretilmektedir.
 Lojistik modele dayalı analizleri yapabilmeyi sağlayan çok sayıda bilgisayar paket
programı (SPSS, SAS vb.) mevcuttur.
 Bağımsız değişkenlerin olasılık fonksiyonlarının dağılımı üzerinde kısıt olmaması (yari
parametrik) nedeni ile çeşitli testler uygulanabilmektedir.
 Lojistik regresyonda tüm olasılık değerleri pozitiftir ve 0 ile 1 arasında değişir.
 Lojistik regresyon bağımlı değişkene ilişkin verilerin dağılımının bir ya da daha fazla
bağımsız değişkenle doğrusal olmayan ilişki gösterdiğinin bilinmesi ya da beklenmesi
durumunda özellikle yaralıdır.
Lojistik Regrasyon Algoritması
 Lojistik regresyon, diğer bir adıyla Logit model, son yıllarda kullanımı giderek artan ileri
düzey bir regresyon yöntemidir. Sosyal bilimlerde oldukça yoğun bir şekilde kullanılan
lojistik regresyon bir ya da birden çok bağımsız değişken ile bağımlı değişken arasındaki
ilişkiyi modellemeyi amaçlamaktadır.
 Lojistik regresyonun yoğun olarak kullanılmasının önemli bir sebebi bağımlı değişkenin
kategorik bir değişken olduğu durumlarda bağımlı değişkenin modellenmesini
sağlamasındandır. Bağımsız değişkenler ise sürekli özellikte olabilirler.
 Lojistik regresyon analizi ile gözlemlerin bağımlı değişkenin kategorilerine göre
ayrılabilmekte ve yeni gözlemlerin hangi kategoriye gireceği değerlendirmeleri
yapılabilmektedir.
Multilayer Perceptron (MLP)
Çok Katmanlı Algılayıcı
Konuşmacı ayırt etme problemini çözmek için
yapay sinir ağları yapısını kullanmaya karar verdik. Bu
seçimi yapmamızın nedenleri
arasında,
eğitim
aşamasının uzun sürmesine rağmen test aşamasının
oldukça hızlı gerçekleşmesi ve hata yüzeyi üzerinde
minimum
hatayı
bulmaya
çalışırken
bölgesel
minimumlara takılma oranının çok düşük olması
sayılabilir ki her iki sebep de son derece önemlidir.
Ayrıca seçtiğimiz çok katmanlı algılayıcılar üzerinde
çalışan ileri beslemeli geri yayılımlı algoritma, yönetimli
bir metot olup, sisteme girdi olarak hangi sesin hangi
konuşmacıya ait olduğunu bilgisini de vermemize
olanak sağlamaktadır. Sonuç olarak seçilen yapı ve
algoritma
“bunu
söyleyen
kim”
sorusunu
cevaplandırmaya olanak sağlayan bir yöntemdir.
Multilayer Perceptron (MLP)
Çok Katmanlı Algılayıcı
Yapay sinir ağını çok katmanlı algılayıcılar üzerinde ileri
beslemeli geri yayılımlı algoritmayı çalıştıracak şekilde
kurguladık. Standart geri yayılım algoritması aslında
hata yüzeyi üzerinde minimum noktaya ulaşabilmek için
eğimli bir inişin öngörüldüğü bir yöntemdir. Bunu
sağlayabilmek için de her adımda ağırlık değerleri
güncellenir. Öngördüğümüz sınıflandırıcı yapay sinir ağı
bir giriş katmanı, iki gizli katman ve bir çıkış katmanı
olmak üzere 4 katmandan oluşmaktadır. Giriş
katmanındaki nöron sayısı her bir ses dosyasından
çıkarılan öznitelik sayısına eşit, çıkış katmanınınki
konuşmacı sayısına eşit olup, gizli katmanlardaki nöron
sayıları bağımsız olarak değiştirilebilmektedir. Tüm
katmanlarda
etkinleştirme
fonksiyonu
olarak
‘HyperTansig’ kullanılmıştır. Ayrıca nöronların ilk ağırlıkları
da rastsal olarak atanmıştır.
Multilayer Perceptron (MLP)
Çok Katmanlı Algılayıcı
MLP Yapay Sinir Ağları
 4 Katman
 1 Giriş
 1 Çıkış
 2 Gizli
 Geriye Yayılım Algorithması
 HyperTansig
 Rastsal İlkleme
Multilayer Perceptron (MLP)
Çok Katmanlı Algılayıcı
Multilayer Perceptron (MLP)
Çok Katmanlı Algılayıcı
Özellikleri;

Multilayer Perceptron (MLP) ya da Radial Basis Function
(RBF) prosedürünü kullanarak gizli ilişkiler için veri
madenciliği yapılabilir.

Değişkenleri belirleyerek başlangıçtan sonuna
kadar süreçler denetlenebilir.

Daha fazla öngörü için diğer istatistiksel prosedürlerle ya
da tekniklerle bir araya getirilebilir.
ID3 Sınıflama Tekniği

Matematiksel algoritma karar ağacını oluşturmak içindir.

1979’ ta J. Ross Quinlan tarafından icat edilmiştir.

Bilgi edinme teorisi 1948 yılında Shannon tarafından bulundu.

Tepe aşağı üç yapılar gerilemeden bilgi kazanımın kullanımı,
sınıflandırmada en kullanışlı niteliği seçmek içindir.
ID3 Sınıflama Tekniği
Bilgi Edinim:

Bilgi edinim bir niteliğin söylenmesinden sonra entropinin azalmasına dayanır.

Çoğu homojen branşlarda hangi nitelikler oluşur.

İlk entropi tüm data setin hesaplanmasıdır.

Data set farklı niteliklere bölünür.


Entropi her branşın hesaplanması içindir. Sonra bu orantılı olarak eklenir, bölmek
için tüm entropi alınır.
Sonuçta oluşan entropi bölmeden önceki entropiden çıkarılır.
ID3 Sınıflama Tekniği
Bilgi Edinim:

Sonuç bilgi edinmedir ya da entropinin azalmasdır (düşmesidir).

Nitelik, düğüm (ağ) karar verimi için seçilen en geniş bilgi edinim kazancıdır.

Dal bir yaprak düğümü olan sıfırın entropisiyle kurumudur.
Aksi takdirde dal daha sonra data setleri sınıflandırmak için bölmeye ihtiyaç
duyar.

ID3 algoritması yapraksız alanlarda kendi kendine tekrar çalışabilir , datalar
sınıflandırılana kadar.
ID3 Sınıflama Tekniği
Entropi:

ID3 algoritması diğer değişkenler içerisinde sınıflamada en ayırıcı özelliğe sahip
değişkeni bulurken entropi kavramından yararlanır. Entropi kavramı, eldeki bilginin
sayısallaştırılmasıdıkavramı, sayısallaştırılmasıdır.
Entropi beklentisizliğin maksimumlaşmasıdır. Dunham entropinin bir veri kümesi
içindeki
belirsizlik, şaşkınlık ve rastgeleliği ölçmek için kullanıldığını söyler.

Eldeki bütün veriler tek bir sınıfa ait olsaydı, örneğin herkes aynı futbol takımını
tutsaydı, herhangi bir kişiye tuttuğu takımı sorduğumuzda alacağımız yanıt bizi
şaşırtmayacaktı; bu durumda entropi sıfır (O) olacaktı. Entropi 0-1 arasında bir
değer alır. Bütün olasılıklar eşit olduğunda entropi maksimum değerine ulaşacaktır.
ID3 Sınıflama Tekniği
ID3 Algoritmasının Kullandığı Kazanç Şu Şekilde Hesaplanır:
Verilerin ham halinin entropisi ile yani başlangıçtaki entropiyle her
bir alt bölümün entropilerinin ağırlıklı toplamı arasındaki fark alınır. Bu
fark hangi alt bölüm için büyükse o alt bölüme doğru dallanma
yapılır.
ID3 Sınıflama Tekniği
ID3 kullanım Avantajları:

Anlaşılabilir tahmin kuralları eğitme verileri tarafından oluşturulur.

En hızlı ağacı oluştur.

Kısa ağaç oluştur.

Sadece yeterli nitelikler bütün data sınıflandırılana kadar gereklidir.

Yaprak düğümleri bulmak test sayılarını azaltmak için test verilerini
budamayı mümkün kılar.

Bütün data set ağaç oluşturmak için araştırılır.
ID3 Sınıflama Tekniği
ID3 kullanımı Dezavantajları:

Eğer küçük örnekler test edildiyse data başarısız çıkmıştır veya çok
doludur.

Aynı zamanda sadece bir yükleme test edilebilir bir karar verilirken
veri sınıflandırması çok pahalıya gelebilir , ve bunu engellemek için
sürekli bir kırılmaya ihtiyaç vardır.
Bayes Sınıflandırması

İstatistiksel bir sınıflandırıcıdır. Sınıf üyelik olasılıklarını öngörür.

İstatistikteki bayes teoremine dayanır.

Basit bir yöntemdir.

Bayes Sınıflayıcı Bayes teoremine göre istatistiksel kestirim yapar.

Bir örneğin sınıf üyelik olasılığını kestirir.

Naïve Bayesian sınıflandırıcı oldukça başarılı bir sınıflayıcıdır.
Bayes Sınıflandırması
Bayes Kuralı:

p(x|Cj)
: Sınıf j’den bir örneğin x olma olasılığı

P(Cj)
: Sınıf j’nin ilk olasılığı

p(x)
: Herhangi bir örneğin x olma olasılığı

P(Cj|x)
: x olan bir örneğin sınıf j’den olma olasılığı (son olasılık)
Bayes Sınıflandırması

Girdi : Öğrenme seti

C1, C2, …, Cm adlı m sınıfımız olsun.

Sınıflandırma maksimum posteriori olasılığını bulmaya dayanır.

P(X) is bütün sınıflar için sabittir.
P(X | C )P(C )
i
i
P(C | X) =
i
P(X)
n
P ( X | C i ) = ∏ P ( x | C i ) = P ( x | C i ) × P ( x | C i ) × ... × P ( x | C i )
k
1
2
n
k =1

Yeni bir örnek X, maximum P(X|Ci)*P(Ci)
değerine sahip olan sınıfa atanır.
olasılığının maksimum değeri bulunmalıdır.
P(C | X) = P(X | C )P(C )
i
i
i
Bayes Sınıflandırması

Niteliklerin altkümesinin birbiri ile bağımsız olduğunu varsayıyor.

Yönlü çevrimsiz çizge (directed acyclic graph) ve koşullu olasılık tablolarından oluşur.

Her değişken A için bir tablo var.
niteliğin ebeveynlerine olan koşullu olasılıkları





düğümler: rasgele değişkenler
ayrıtlar: olasılıklı bağlılık
X ve Y , Z değişkeninin ebeveyni
Y, P değişkeninin ebeveyni
Z ve P arasında bağ yok
Bayes Sınıflandırması
Bayes Ağlarının Eğitilmesi:

Ağ yapısı ve tüm değişkenler biliniyorsa koşullu

olasılıklar hesaplanır

Ağ yapısı belli ancak bazı değişkenler eksik ise yinelemeli öğrenme
uygulanır.

Gradient descent algoritması
IB1
En yakın komşu sınıflandırıcısı kullanır. Verilen test
örneğine en yakın eğitim örneğini bulmak için
standartlaştırılmış öklit mesafesi kullanır ve bu eğitim
örneğiyle aynı sınıfın kestirimini yapar. Eğer birden çok
örnek test örneğine aynı (en küçük) mesafeye sahipse, ilk
bulunan kullanılır
IBK
En yakın K-Komşu (K-Nearest Neighbors)
algoritmasıdır. Bu algoritma sınıflandırma için
kullanılır. K tabanlı komşuların uygun değerini
çağraz doğrulama ile seçebilir. Ayrıca mesafe
ağırlıklandırabilir.
KSTAR
Cleary ve Trigg (1995) K*’ın Örnek tabanlı (IB)
sınıflandırıcı olduğunu göstermiştir. Bazı benzerlik
fonksiyonlarıyla belirlendiği gibi, eğitim örnekleriyle
aynı olan sınıfa istinaden, test örneğinin sınıfıdır.
Diğer örnek tabanlı öğrenenlerden entropi tabanlı
mesafe fonksiyonu kullanması yönüyle farklıdır.
KARAR AĞAÇLARI ALGORİTMALARI
DİNLEDİĞİNİZ İÇİN TEŞEKKÜRLER…