KARAR AĞAÇLARI ALGORİTMALARI J48 - C5.0 - LOJISTIK - MLP - ID3 - BAYES - IB1 – IBK - KSTAR Hazırlayan; Caner FINDIKLI J48 Algoritması Temel olarak Weka'nın sınıflandırma algoritmalarından. C4.5 decision tree algoritmasını kullanır. Her satır ağaçtan bir düğümü; alt satırlar üst satırın child düğümlerini kullanır. Algoritma, basit olarak dataset içerisindeki düğümler ile oluşturulur. Bu düğümler, doğru ve yanlış gösterilenler diye ayrılır ve üzerinde çalışılan dataset içerisindeki vakalardır. Algoritmaya göre sırayla data mining yapıldıkça machine learning yapılmış oluyor. Bu bağlamda J48, sınıflandırma algoritmaları içinde en hızlı ve yüksek yüzdeyle ve doğru çalışan karar ağaçlarından birisidir diyebiliriz. J48 Algoritması Karışıklık Matrisi: a 40629 6849 b <-- Öngörülen Sınıf 1459 12011 | | a=1 b=2 J48 Algoritması Karşılaştırma Ölçütleri: KStar Algoritması NaiveBayes Algoritması Doğruluk Kesinlik %85.21 %85.80 Duyarlılık F-Ölçütü %94.15 %89.78 Doğruluk Kesinlik %85.44 %85.36 %86.30 Duyarlılık F-Ölçütü %93.66 %89.83 %98.00 F-Ölçütü %90.28 J48 Algoritması Lojistik Regresyon Algoritması Doğruluk Kesinlik %83.70 Duyarlılık Doğruluk Kesinlik %86.36 %85.57 Duyarlılık F-Ölçütü %96.53 %90.72 J48 Sonuç ve Öneriler Sonuç ve Öneriler: Çalışma sonuçları incelendiğinde J48 algoritmasının model testine ait %86.36 doğruluk derecesiyle en iyi sonucu ürettiği söylenebilir. Doğruluk ölçütü oldukça basit ve önemli bir kriterdir. Bu ölçüte göre J48 algoritmasını sırasıyla KStar, Lojistik Regresyon ve NaiveBayes algoritmaları izlemektedir. Kesinlik ölçütü bakımından lojistik regresyon en iyi sonucu oluşturmuş olup, diğer algoritmalar bu ölçüte göre NaiveBayes, J48 ve KStar şeklinde sıralanabilir. Ancak kesinlik ölçütü tek başına yorumlanırsa değerlendirme yanlış sonuçlara götürebilir. Bu ölçütü duyarlılık ölçütüyle beraber ele almak gerekir. Tablodan görüleceği üzere algoritmalar, duyarlılık ölçütüne göre KStar, J48, NaiveBayes ve Lojistik Regresyon olarak sıralanabilir. Görüleceği üzere, kesinlik ölçütü ve duyarlılık ölçütü birbiriyle zıt bir sıralama ortaya koymuştur. J48 Sonuç ve Öneriler Kesinlik ve duyarlılık ölçütlerini beraber değerlendirmek için, her iki değerin harmonik ortalaması olan F-Ölçütüne baktığımızda sıralamanın J48, KStar, Lojistik Regresyon ve NaiveBayes şeklinde olduğunu görüyoruz. Bu sıralamanın yine doğruluk kriter sıralamasıyla birebir aynı olduğu görülmektedir. Veri madenciliğinde bilgiye erişmede farklı metotlar kullanılmaktadır. Bu metotlara ait pek çok algoritma vardır. Bu algoritmalardan hangisinin daha üstün olduğu üzerine pek çok çalışma yapılmış, yapılan bu çalışmalarda farklı sonuçlar elde edilmiştir. Bunun en önemli sebebi, işlem başarımının, kullanılan veri kaynağına, veri üzerinde yapılan önişleme, algoritma parametrelerinin seçimine bağlı olmasıdır. Farklı kişiler tarafından, farklı veri kaynakları üzerinde, farklı parametrelerle yapılan çalışmalarda farklı sonuçlar oluşması doğaldır. Ancak, yaptığımız çalışma, “benzer veri kümelerinde belli yöntemlerin daha başarılı olduğu” şeklindeki çıkarıma[5] uygun olarak, diğer çalışmalarla[12,13] benzer sonuç vermiştir. Göğüs kanseri vakalarının farklı yıllarını içeren SEER veri kaynağının kullanıldığı her iki çalışmada da, bir karar ağacı algoritması olan C4.5 algoritmasının diğer algoritmalardan daha iyi sonuç ürettiği sonucuna ulaşıldığı belirtilmiştir[12,13]. Bu çalışmada da, yapılan karşılaştırma sonucunda, C4.5 algoritmasının Weka implementasyonu olan J48 karar ağacı algoritması, benzer şekilde diğer algoritmalara göre daha başarılı bulunmuştur. J48 Sonuç ve Öneriler Bu çalışmada, modellerin oluşturulması için ücretsiz bir yazılım olan Weka aracı kullanılmıştır. Var olan diğer veri madenciliği araçları üzerinde aynı algoritmalar çalıştırılarak farklı araçların benzer sonuçlar üretip üretmediği kontrol edilebilir. Algoritmaların veri kaynağı üzerinde çalıştı-rılması sırasında algoritma parametreleri olarak her algoritmanın o parametre için varsayılan değeri kullanılmıştır. Her algoritma ve her veri kaynağı için başarım derecesini maksimize edecek parametre değerleri tespit ederek bu parametrelerle algoritma sonuçlarını karşılaştırmak farklı sonuçlara götürebilecektir. Ancak, böyle bir karşılaştırmada yanlılık oluşabilecektir. Bu çalışmada, algoritmaların ürettiği modellerin başarım sonuçları karşılaştırılmıştır. Benzer şekilde, algoritmaların hızı ve hafıza kullanımı da karşılaştırılarak algoritmaların performans karşılaştırması yapılabilir. C5.0 Algoritması Karar ağaçlarını oluşturmak için CART (classification and regression trees), C4.5, C5.0, CHAID (chi_squared automatic interaction detection) gibi farklı algoritmalar kullanılabilir. Algoritmaya bağlı olarak her düğüm 2 ya da daha fazla dala ayrılabilir. Binory ağaç olan CART' da, her düğüm 2 dal içerir. C 4.5, C5.0 algoritmalarında bir düğüm 2 den fazla dala sahip olabilir. Bu tip ağaçlara multiway tree denir. C5.0 Algoritması Bu yöntemler temel olarak karar ağacını oluştururken farklı özellikleri seçmeleri ile birbirinden ayrılmaktadırlar. Bir çok çalışmada C4.5 algoritmasının gelişmiş yeni şekli olan C5.0 sınıflandırma yöntemi kullanılmıştır. C5.0 Algoritması C5.0 algoritması denetimli bir sınıflandırma algoritması olup, öncelikle hedef değişkenin bilindiği bir veri kümesi ile karar ağacı eğitilip bir model oluşturulmakta, daha sonra oluşturulan bu model bağımlı değişkenin belirtilmediği yeni bir veri kümesi üzerinde test edilerek modelin performansı ölçülmektedir. C5.0 Algoritması Sınıflama ile ilgili olarak literatürde, farklı bir yaklaşım da söz konusudur. Bu yaklaşıma göre sınıflama; tam sınıflama ve kısmi sınıflama olmak üzere ikiye ayrılmaktadır. Buradaki tam sınıflama kavramı veri içindeki tüm sınıflar ve örnekleri kapsayan modeller ile ilgilidir. Bunlara örnek olarak, yapay sinir ağları, C&RT, CHAID, C4.5, C5.0 ve diğer karar ağaçları gibi akıllı teknikler ile diskriminant analizi gibi istatistiksel araçlar verilebilir. Kısmi sınıflamada, tam sınıflamada olduğu gibi veri sınıflarının özellikleri gösterilmektedir. Ancak kısmi sınıflandırma modellerinde tüm sınıflar veya verilen sınıfın tüm örnekleri kapsanmayabilir. Bu modellerden biri olarak birliktelik kuralları verilebilir. C5.0 Algoritması Özellikleri Her düğümden çıkan çoklu dallar ile ağaç oluşturur. Dalların Tek sayısı tahmin edicinin kategori sayısına eşittir. bir sınıflayıcıda birden çok karar ağacını birleştirir. Ayırma işlemi için bilgi kazancı kullanır. Budama işlemi her yapraktaki hata oranına dayanır. Lojistik Regrasyon Algoritması Lojistik regresyon, diğer bir adıyla Logit model, son yıllarda kullanımı giderek artan ileri düzey bir regresyon yöntemidir. Sosyal bilimlerde oldukça yoğun bir şekilde kullanılan lojistik regresyon bir ya da birden çok bağımsız değişken ile bağımlı değişken arasındaki ilişkiyi modellemeyi amaçlamaktadır. Lojistik regresyonun yoğun olarak kullanılmasının önemli bir sebebi bağımlı değişkenin kategorik bir değişken olduğu durumlarda bağımlı değişkenin modellenmesini sağlamasındandır. Bağımsız değişkenler ise sürekli özellikte olabilirler. Lojistik regresyon analizi ile gözlemlerin bağımlı değişkenin kategorilerine göre ayrılabilmekte ve yeni gözlemlerin hangi kategoriye gireceği değerlendirmeleri yapılabilmektedir. Lojistik Regrasyon Çeşitleri Lojistik regresyonda bağımlı değişken metrik olmayan değişkenlerden oluşmaktadır. Bağımsız değişken ise metrik ve metrik olmayan değerler alabilir. Bağımlı ve bağımsız değişkenlerin sayısına göre değişen “Lojistik Regresyon Çeşitleri” aşağıdaki tablo da yer almaktadır. Lojistik Regrasyon Kullanım Nedenleri Bağımlı değişken kategorik (kesikli, süreksiz) olmakla birlikte, bağımsız değişkenler sürekli veya kategorik olabilir. Lojistik modelin parametreleri kolaylıkla yorumlanabilmekte ve matematiksel olarak kullanımı kolay olan fonksiyonlar üretilmektedir. Lojistik modele dayalı analizleri yapabilmeyi sağlayan çok sayıda bilgisayar paket programı (SPSS, SAS vb.) mevcuttur. Bağımsız değişkenlerin olasılık fonksiyonlarının dağılımı üzerinde kısıt olmaması (yari parametrik) nedeni ile çeşitli testler uygulanabilmektedir. Lojistik regresyonda tüm olasılık değerleri pozitiftir ve 0 ile 1 arasında değişir. Lojistik regresyon bağımlı değişkene ilişkin verilerin dağılımının bir ya da daha fazla bağımsız değişkenle doğrusal olmayan ilişki gösterdiğinin bilinmesi ya da beklenmesi durumunda özellikle yaralıdır. Lojistik Regrasyon Algoritması Lojistik regresyon, diğer bir adıyla Logit model, son yıllarda kullanımı giderek artan ileri düzey bir regresyon yöntemidir. Sosyal bilimlerde oldukça yoğun bir şekilde kullanılan lojistik regresyon bir ya da birden çok bağımsız değişken ile bağımlı değişken arasındaki ilişkiyi modellemeyi amaçlamaktadır. Lojistik regresyonun yoğun olarak kullanılmasının önemli bir sebebi bağımlı değişkenin kategorik bir değişken olduğu durumlarda bağımlı değişkenin modellenmesini sağlamasındandır. Bağımsız değişkenler ise sürekli özellikte olabilirler. Lojistik regresyon analizi ile gözlemlerin bağımlı değişkenin kategorilerine göre ayrılabilmekte ve yeni gözlemlerin hangi kategoriye gireceği değerlendirmeleri yapılabilmektedir. Multilayer Perceptron (MLP) Çok Katmanlı Algılayıcı Konuşmacı ayırt etme problemini çözmek için yapay sinir ağları yapısını kullanmaya karar verdik. Bu seçimi yapmamızın nedenleri arasında, eğitim aşamasının uzun sürmesine rağmen test aşamasının oldukça hızlı gerçekleşmesi ve hata yüzeyi üzerinde minimum hatayı bulmaya çalışırken bölgesel minimumlara takılma oranının çok düşük olması sayılabilir ki her iki sebep de son derece önemlidir. Ayrıca seçtiğimiz çok katmanlı algılayıcılar üzerinde çalışan ileri beslemeli geri yayılımlı algoritma, yönetimli bir metot olup, sisteme girdi olarak hangi sesin hangi konuşmacıya ait olduğunu bilgisini de vermemize olanak sağlamaktadır. Sonuç olarak seçilen yapı ve algoritma “bunu söyleyen kim” sorusunu cevaplandırmaya olanak sağlayan bir yöntemdir. Multilayer Perceptron (MLP) Çok Katmanlı Algılayıcı Yapay sinir ağını çok katmanlı algılayıcılar üzerinde ileri beslemeli geri yayılımlı algoritmayı çalıştıracak şekilde kurguladık. Standart geri yayılım algoritması aslında hata yüzeyi üzerinde minimum noktaya ulaşabilmek için eğimli bir inişin öngörüldüğü bir yöntemdir. Bunu sağlayabilmek için de her adımda ağırlık değerleri güncellenir. Öngördüğümüz sınıflandırıcı yapay sinir ağı bir giriş katmanı, iki gizli katman ve bir çıkış katmanı olmak üzere 4 katmandan oluşmaktadır. Giriş katmanındaki nöron sayısı her bir ses dosyasından çıkarılan öznitelik sayısına eşit, çıkış katmanınınki konuşmacı sayısına eşit olup, gizli katmanlardaki nöron sayıları bağımsız olarak değiştirilebilmektedir. Tüm katmanlarda etkinleştirme fonksiyonu olarak ‘HyperTansig’ kullanılmıştır. Ayrıca nöronların ilk ağırlıkları da rastsal olarak atanmıştır. Multilayer Perceptron (MLP) Çok Katmanlı Algılayıcı MLP Yapay Sinir Ağları 4 Katman 1 Giriş 1 Çıkış 2 Gizli Geriye Yayılım Algorithması HyperTansig Rastsal İlkleme Multilayer Perceptron (MLP) Çok Katmanlı Algılayıcı Multilayer Perceptron (MLP) Çok Katmanlı Algılayıcı Özellikleri; Multilayer Perceptron (MLP) ya da Radial Basis Function (RBF) prosedürünü kullanarak gizli ilişkiler için veri madenciliği yapılabilir. Değişkenleri belirleyerek başlangıçtan sonuna kadar süreçler denetlenebilir. Daha fazla öngörü için diğer istatistiksel prosedürlerle ya da tekniklerle bir araya getirilebilir. ID3 Sınıflama Tekniği Matematiksel algoritma karar ağacını oluşturmak içindir. 1979’ ta J. Ross Quinlan tarafından icat edilmiştir. Bilgi edinme teorisi 1948 yılında Shannon tarafından bulundu. Tepe aşağı üç yapılar gerilemeden bilgi kazanımın kullanımı, sınıflandırmada en kullanışlı niteliği seçmek içindir. ID3 Sınıflama Tekniği Bilgi Edinim: Bilgi edinim bir niteliğin söylenmesinden sonra entropinin azalmasına dayanır. Çoğu homojen branşlarda hangi nitelikler oluşur. İlk entropi tüm data setin hesaplanmasıdır. Data set farklı niteliklere bölünür. Entropi her branşın hesaplanması içindir. Sonra bu orantılı olarak eklenir, bölmek için tüm entropi alınır. Sonuçta oluşan entropi bölmeden önceki entropiden çıkarılır. ID3 Sınıflama Tekniği Bilgi Edinim: Sonuç bilgi edinmedir ya da entropinin azalmasdır (düşmesidir). Nitelik, düğüm (ağ) karar verimi için seçilen en geniş bilgi edinim kazancıdır. Dal bir yaprak düğümü olan sıfırın entropisiyle kurumudur. Aksi takdirde dal daha sonra data setleri sınıflandırmak için bölmeye ihtiyaç duyar. ID3 algoritması yapraksız alanlarda kendi kendine tekrar çalışabilir , datalar sınıflandırılana kadar. ID3 Sınıflama Tekniği Entropi: ID3 algoritması diğer değişkenler içerisinde sınıflamada en ayırıcı özelliğe sahip değişkeni bulurken entropi kavramından yararlanır. Entropi kavramı, eldeki bilginin sayısallaştırılmasıdıkavramı, sayısallaştırılmasıdır. Entropi beklentisizliğin maksimumlaşmasıdır. Dunham entropinin bir veri kümesi içindeki belirsizlik, şaşkınlık ve rastgeleliği ölçmek için kullanıldığını söyler. Eldeki bütün veriler tek bir sınıfa ait olsaydı, örneğin herkes aynı futbol takımını tutsaydı, herhangi bir kişiye tuttuğu takımı sorduğumuzda alacağımız yanıt bizi şaşırtmayacaktı; bu durumda entropi sıfır (O) olacaktı. Entropi 0-1 arasında bir değer alır. Bütün olasılıklar eşit olduğunda entropi maksimum değerine ulaşacaktır. ID3 Sınıflama Tekniği ID3 Algoritmasının Kullandığı Kazanç Şu Şekilde Hesaplanır: Verilerin ham halinin entropisi ile yani başlangıçtaki entropiyle her bir alt bölümün entropilerinin ağırlıklı toplamı arasındaki fark alınır. Bu fark hangi alt bölüm için büyükse o alt bölüme doğru dallanma yapılır. ID3 Sınıflama Tekniği ID3 kullanım Avantajları: Anlaşılabilir tahmin kuralları eğitme verileri tarafından oluşturulur. En hızlı ağacı oluştur. Kısa ağaç oluştur. Sadece yeterli nitelikler bütün data sınıflandırılana kadar gereklidir. Yaprak düğümleri bulmak test sayılarını azaltmak için test verilerini budamayı mümkün kılar. Bütün data set ağaç oluşturmak için araştırılır. ID3 Sınıflama Tekniği ID3 kullanımı Dezavantajları: Eğer küçük örnekler test edildiyse data başarısız çıkmıştır veya çok doludur. Aynı zamanda sadece bir yükleme test edilebilir bir karar verilirken veri sınıflandırması çok pahalıya gelebilir , ve bunu engellemek için sürekli bir kırılmaya ihtiyaç vardır. Bayes Sınıflandırması İstatistiksel bir sınıflandırıcıdır. Sınıf üyelik olasılıklarını öngörür. İstatistikteki bayes teoremine dayanır. Basit bir yöntemdir. Bayes Sınıflayıcı Bayes teoremine göre istatistiksel kestirim yapar. Bir örneğin sınıf üyelik olasılığını kestirir. Naïve Bayesian sınıflandırıcı oldukça başarılı bir sınıflayıcıdır. Bayes Sınıflandırması Bayes Kuralı: p(x|Cj) : Sınıf j’den bir örneğin x olma olasılığı P(Cj) : Sınıf j’nin ilk olasılığı p(x) : Herhangi bir örneğin x olma olasılığı P(Cj|x) : x olan bir örneğin sınıf j’den olma olasılığı (son olasılık) Bayes Sınıflandırması Girdi : Öğrenme seti C1, C2, …, Cm adlı m sınıfımız olsun. Sınıflandırma maksimum posteriori olasılığını bulmaya dayanır. P(X) is bütün sınıflar için sabittir. P(X | C )P(C ) i i P(C | X) = i P(X) n P ( X | C i ) = ∏ P ( x | C i ) = P ( x | C i ) × P ( x | C i ) × ... × P ( x | C i ) k 1 2 n k =1 Yeni bir örnek X, maximum P(X|Ci)*P(Ci) değerine sahip olan sınıfa atanır. olasılığının maksimum değeri bulunmalıdır. P(C | X) = P(X | C )P(C ) i i i Bayes Sınıflandırması Niteliklerin altkümesinin birbiri ile bağımsız olduğunu varsayıyor. Yönlü çevrimsiz çizge (directed acyclic graph) ve koşullu olasılık tablolarından oluşur. Her değişken A için bir tablo var. niteliğin ebeveynlerine olan koşullu olasılıkları düğümler: rasgele değişkenler ayrıtlar: olasılıklı bağlılık X ve Y , Z değişkeninin ebeveyni Y, P değişkeninin ebeveyni Z ve P arasında bağ yok Bayes Sınıflandırması Bayes Ağlarının Eğitilmesi: Ağ yapısı ve tüm değişkenler biliniyorsa koşullu olasılıklar hesaplanır Ağ yapısı belli ancak bazı değişkenler eksik ise yinelemeli öğrenme uygulanır. Gradient descent algoritması IB1 En yakın komşu sınıflandırıcısı kullanır. Verilen test örneğine en yakın eğitim örneğini bulmak için standartlaştırılmış öklit mesafesi kullanır ve bu eğitim örneğiyle aynı sınıfın kestirimini yapar. Eğer birden çok örnek test örneğine aynı (en küçük) mesafeye sahipse, ilk bulunan kullanılır IBK En yakın K-Komşu (K-Nearest Neighbors) algoritmasıdır. Bu algoritma sınıflandırma için kullanılır. K tabanlı komşuların uygun değerini çağraz doğrulama ile seçebilir. Ayrıca mesafe ağırlıklandırabilir. KSTAR Cleary ve Trigg (1995) K*’ın Örnek tabanlı (IB) sınıflandırıcı olduğunu göstermiştir. Bazı benzerlik fonksiyonlarıyla belirlendiği gibi, eğitim örnekleriyle aynı olan sınıfa istinaden, test örneğinin sınıfıdır. Diğer örnek tabanlı öğrenenlerden entropi tabanlı mesafe fonksiyonu kullanması yönüyle farklıdır. KARAR AĞAÇLARI ALGORİTMALARI DİNLEDİĞİNİZ İÇİN TEŞEKKÜRLER…
© Copyright 2024 Paperzz