Data Understanding (Veriyi Anlama) Data Preparation, Data Understanding, Data Visualization, Clementine 10.1 References: Han, J. , Kamber, M., Pei, J., (2011). Data Mining: Concepts and Techniques. Larose, Daniel T. (2005). Discovering Knowledge In Data – An Introduction to Data Mining. Tan, P., Steinbach, M., Kumar, v. (2006) Introduction to Data Mining. Bramer, M., (2007) Principles of Data Mining. Birant, D. Lecture Notes (2012). Alper VAHAPLAR Veri Madenciliğine Giriş 2 1 Information Evaluation Data Warehouse Target Data Alper VAHAPLAR • • Patterns & Rules Organized Data Veri Madenciliğine Giriş Understanding __ __ __ __ __ __ __ __ __ 3 Veriyi neden işlemek gereklidir? o Veriler farklı ortamlarda/yerlerde bulunabilir. o Gereksiz ya da tekrar eden verilerin ayıklanması gerekir. o Eksik/kayıp değerler (missing values) olabilir o Sapan/uç değerler (outliers) olabilir. o Veri madenciliği modellerine uygun olmayabilir. o Verilerde aykırı durumlar olabilir. Amaç: minimize GIGO o Garbage In Garbage Out Alper VAHAPLAR Veri Madenciliğine Giriş 4 2 • • • • Veri Birleştirme (Data Integration), Seçim (Selection) Veri Temizleme (Data Cleaning), Veri Dönüştürme (Data Transformation), Veri İndirgeme (Data Reduction) Alper VAHAPLAR • Veri Madenciliğine Giriş 5 Data Integration o Farklı kaynaklardan veri elde edip toplama • Ör: Şirket dışındaki verilere ulaşım o Farklı ortamlardan veri toplama • Basılı Formlar, (faturalar, raporlar, vs.) • Tablolar – Excel Tabloları, SPSS, Minitab, MATLAB, vs… – Veritabanı Tabloları (Access, SQL Server, Oracle ... ) • Dosyalar – XML Files • Web Sayfaları • Veri Küpleri (Data Cubes), Veri Çarşıları (Data Marts) Alper VAHAPLAR Veri Madenciliğine Giriş 6 3 • Olası Sorunlar o Aynı kişi, farklı isim • Ör. Hasan Hüseyin, H. Hüseyin, H. H., Hasan H., Haso, Hüso, ... • Ör. Dokuz Eylül Üniversitesi, 9 Eylül Üniversitesi, DEÜ, DEU .. o Aynı kişi, farklı veriler • Ör. Adres: Kaynaklar Kampüsü, Tınaztepe Yerleşkesi o Farklı nesneler için aynı isimler (Homonyms ) • Ör. (Öğrenci.)no, (SGK.)no • Ör. Birim farklılıkları (US Dollar, Canada Dollar) o Aynı nesne için farklı değerler (Synonyms) • Ör. İçel, Mersin Alper VAHAPLAR • Veri Madenciliğine Giriş 7 Olası Sorunlar o Farklı Ölçüm Birimleri • Ör. cm3, m3 o Şema hataları • Ör. A.cust-id B.cust-no • Ör. TCK, KimlikNo, TCKimlik o Fazlalık (Redundancy) • Ör. doğumyılı, yaş • Ör. Yıllık gelir – maaş, • Nasıl tespit edilir? – Correlation analysis ile Alper VAHAPLAR Veri Madenciliğine Giriş rA, B ( A A)( B B) (n 1) A B A A n ( A A) 2 A (n 1) 8 4 • Veri Seçimi (Data Selection) o Veritabanlarında çok fazla veri olabilir • Karmaşık veri analizleri işlemleri • Tüm veri setini analiz etmek uzun sürebilir. o Hedef veri seti seçmek (Selecting a target dataset) o Veri setinin azaltılmış temsilci setini seçmek (hacmen daha küçük ama aynı analiz sonuçlarını veren) • Nasıl Seçmeli ? o Sütun bazında (Özellik altkümesi belirleme – Feature Subset Selection) o Satır bazında (örnekleme – sampling) Alper VAHAPLAR • Veri Madenciliğine Giriş 9 Feature Subset Selection • o İlgili özellikleri/sütunları seçme o Gereksiz sütunları ayıklama Örnekleme – Sampling o İstatistikçiler örnekleme yaparlar çünkü tüm veri setini elde etmek zor/maliyetli ve zaman alıcıdır. o Veri madencileri örnekleme yaparlar çünkü tüm veri üzerinde modeli oluşturmak zor/maliyetli ve zaman alıcıdır. o Doğru seçilmiş bir örneklem, tüm veri seti kadar iyi sonuç verir. • Orijinal veri seti ile aynı özellikleri gösteren veri altkümesi Alper VAHAPLAR Veri Madenciliğine Giriş 10 5 • • Örnekleme – Sampling Basit Rasgele Örnekleme (Simple Random Sampling) o o o • Yerine Koymadan Örnekleme (Sampling without replacement) • Seçilen her nesne, bir daha seçilememesi için popülasyondan çıkarılır. Yerine Koyarak Örnekleme (Sampling with replacement) • Örnekleme seçilen nesne, tekrar seçilme şansına sahiptir. Tabakalı Örnekleme (Stratified sampling) o • Her nesnenin seçilme şansı eşittir. Veri belirli sayıda kısma ayrılır. Her parçadan basit rasgele örnekleme ile veri seçilir. Küme Örneklemesi (Cluster Sampling) o Heretojen kümeler oluşturulup bu kümelerden bir veya birkaçı örneklem olarak alınır. Alper VAHAPLAR • Veri Madenciliğine Giriş 11 Veri Madenciliğine Giriş 12 Örnekleme – Sampling Alper VAHAPLAR 6 • Örnekleme – Sampling Alper VAHAPLAR • Veri Madenciliğine Giriş 13 Örnekleme – Sampling 500 birim Alper VAHAPLAR 2000 birim Veri Madenciliğine Giriş 8000 birim 14 7 • Gerçek hayat verisi eksik (incomplete), gürültülü (noisy) ya da tutarsız (inconsistent) olabilir. • Veri madenciliği, veri kalitesindeki hataların tespiti ve düzeltilmesi ile uğraşır (ya da bu hataları tolere edebilen algoritmalar geliştirmeye çalışır) • Veri temizleme işlemleri o Hataların tespiti, o Eksik değerlerin doldurulması o Gürültüyü giderme (smooth noise), o Uç değerlerin belirlenmesi (identify outliers), o Tutarsızlıkların düzeltilmesi (correct inconsistencies) Alper VAHAPLAR • Veri Madenciliğine Giriş 15 Hata Tipleri : o Tipografik hatalar, veri girişi hataları o Veri tipi hataları (integer – floating point) o Ölçüm hataları o Eksik/kayıp değerler (missing values), o Gürültü ve bozulma (noise and artifacts), o Üç/sapan değerler (outliers), o Tekrarlayan veriler (duplicate data), o Tutarsız veriler (inconsistent values). Alper VAHAPLAR Veri Madenciliğine Giriş 16 8 • • Eksik/kayıp değerler (missing values) Neden olur? o o • Veri alınamamıştır (Ör. Yaşını veya kilosunu söylemeyen bayanlar) Varolmayan özellik değerleri (Ör. Çocukların yıllık geliri, bayanların askerlik durumu) Yöntemler: 1. O satırı veriden çıkarma (ignore the tüple), 2. Eksik değeri elde edip doldurma 3. Eksik gözlemler için bir sabit kullanma («KAYIP»,»NA», «*», «∞») 4. Eksik gözleme ait özelliğin ortalaması/modu/medyanını kullanma 5. Aynı sınıfa ait benzer verilerin ortalaması/modu/medyanını kullanma 6. Eksik gözlem için en olası değeri hesaplama (regresyon, vs) Alper VAHAPLAR • Veri Madenciliğine Giriş 17 ID = 1028 için eksik olan «maaş» değerini bulunuz. Eğitim İl Maaş Sınıf 41 27 20 34 74 Medeni Hali Evli Evli Bekar Evli Evli Yüksek Lisans Lisans Lise Lisans Lise İzmir Ankara İzmir İstanbul Ankara 1200 1000 1000 1000 500 C1 C1 C2 C3 C2 E 32 Evli Doktora İstanbul 2000 C2 E B 18 43 Bekar Evli Lise Yüksek Lisans Ankara İzmir 800 ??? C3 C1 ID Cins Yaş 1021 1022 1023 1024 1025 B E E B E 1026 1027 1028 Alper VAHAPLAR Veri Madenciliğine Giriş 18 9 • • Gürültü ve Bozulma (Noise and Artifacts) Gürültü ölçülen bir değerdeki rassal hata ya da varyansdır. (Noise is a random error or variance in a measured variable.) Alper VAHAPLAR • 19 Sapan Değerler (Outliers) o • Veri Madenciliğine Giriş Diğer verilerden farklı özellik gösteren veri Gürültü Giderme teknikleri (techniques for Smoothing Noise) o Histogram o Kutulama (Binning) o Kümeleme (Clustering) o Regresyon (Regression) Alper VAHAPLAR Veri Madenciliğine Giriş 20 10 • • • Kutulama (Binning) Veriler sıralanır, Sıralı veriler «kutu»lara (bin) ayrılır. Equal-width partitioning (Eşit Aralıklı) o o • «Range» N adet eşit aralığa bölünür Aralık genişliği W = (max –min)/N. Equal-depth partitioning (Eşit yoğunluklu) o Veriler, her kısımda aynı sayıda eleman olacak şekilde N parçaya bölünür. Equal width Veriler Equal depth B1 B1 B2 B2 B2 B2 B2 B2 B2 B3 B3 B3 4 6 14 16 18 19 21 22 23 25 27 33 B1 B1 B1 B1 B2 B2 B2 B2 B3 B3 B3 B3 Alper VAHAPLAR • Veri Madenciliğine Giriş 21 Kutulama (Binning) o (a) Eq. D. – Kutu Ortalamasına Göre Düzeltme(Smoothing by Bin Means o (b) Eq. D. – Kutu Sınırlarına Göre Düzeltme (Smoothing by Bin Boundaries) o (c) Eq. W. – Kutu Ortalamasına Göre Düzeltme (Smoothing by Bin Means) o (d) Eq. W. – Kutu Sınırlarına Göre Düzeltme (Smoothing by Bin Boundaries) Equal width Price in € Equal depth B1 B1 B2 B2 B2 B2 B2 B2 B2 B3 B3 B3 4 6 14 16 18 19 21 22 23 25 27 33 B1 B1 B1 B1 B2 B2 B2 B2 B3 B3 B3 B3 Equal-Width Partitioning Equal-Depth Partitioning (33-4) / 3 ~ 9 Bin1 (4-13) : 4 6 Bin2 (14-23) : 14 16 18 19 21 22 23 Bin3 (24-33) : 25 27 33 Alper VAHAPLAR Veri Madenciliğine Giriş Bin1 : 4 6 14 16 Bin2 : 18 19 21 22 Bin3: 23 25 27 33 22 11 • • Binning – Smoothing Kutulardaki tüm değerkeri TEK değerle değiştir. Price in € Equal depth 4 6 14 16 18 19 21 22 23 25 27 33 B1 B1 B1 B1 B2 B2 B2 B2 B3 B3 B3 B3 Ortalama 10 10 10 10 20 20 20 20 27 27 27 27 Sınır 4 16 16 18 18 22 22 23 23 23 33 Ortalama 5 5 19 19 19 19 19 19 19 28 28 28 Sınır 4 6 14 14 14 23 23 23 23 28 28 28 Alper VAHAPLAR 4 Veriler: Veri Madenciliğine Giriş 23 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 * Equal-Depth bins: * Equal-Width bins: - Bin 1: 4, 8, 9, 15 - Bin 1: 4, 8, 9 - Bin 2: 21, 21, 24, 25 - Bin 2: 15, 21, 21, 24 - Bin 3: 26, 28, 29, 34 - Bin 3: 25, 26, 28, 29, 34 * Ortalamaya göre: * Ortalamaya göre : - Bin 1: 9, 9, 9, 9 - Bin 1: 7, 7, 7 - Bin 2: 23, 23, 23, 23 - Bin 2: 20, 20, 20, 20 - Bin 3: 29, 29, 29, 29 - Bin 3: 28, 28, 28, 28, 28 * Sınırlara göre: * Sınırlara göre : - Bin 1: 4, 4, 4, 15 - Bin 1: 4, 9, 9 - Bin 2: 21, 21, 25, 25 - Bin 2: 15, 24, 24, 24 - Bin 3: 26, 26, 26, 34 - Bin 3: 25, 25, 25, 25, 34 Alper VAHAPLAR Veri Madenciliğine Giriş 24 12 • Kümeleme (Clustering) o Benzer özellikteki nesnelerden oluşan gruplar oluşturma işlemi o Küme için homojen, kümeler heterojen. Alper VAHAPLAR • Veri Madenciliğine Giriş 25 Regresyon (Regression) Y1 y=x+1 Y1’ x X1 Alper VAHAPLAR Veri Madenciliğine Giriş 26 13 Veri Dönüştürme Data Transformation Smoothing, Generalization, Normalization, Reduction, Feature construction Alper VAHAPLAR • 27 Gürültü Giderme (Smoothing) o • Veri Madenciliğine Giriş Kurulama (Binning), Kümeleme (Clustering), Regression Genelleştirme (Generalization): o o o Kavram hiyerarşisi gözönüne alınarak, düşük seviyelerdeki değerleri üst seviyelere taşıma Ör: Semt isimleri yerine Şehir ismi kullanma; Yaş Çocuk, genç, orta yaşlı, ihtiyar Alper VAHAPLAR Veri Madenciliğine Giriş 28 14 • Normalizasyon: Verilerin daha küçük bir aralığa ölçeklenmesi işlemi o o o Min-max normalization Z-score normalization Normalization by decimal scaling Alper VAHAPLAR • Veri Madenciliğine Giriş Min-max normalization: to [0, 1] v' • • v min A max A min A Min-max normalization: to [new_minA, new_maxA] v' • 29 v min A (new _ max A new _ min A ) new _ min A max A min A Z-score normalization (μ: mean, σ: standard deviation): v A v' A Normalization by decimal scaling v' Alper VAHAPLAR v 10 j Where j is the smallest integer such that Max(|ν’|) < 1 Veri Madenciliğine Giriş 30 15 • v' Min-max normalization: o v min A (new _ max A new _ min A ) new _ min A max A min A Ör. Yıllık Gelir 12,000 TL ile 98,000 TL arasında ise 73,600 TL 73,600 12,000 (1 0) 0 0.716 98,000 12,000 • Z-score normalization o Ör. μ = 54,000 TL ve σ = 16,000 TL2 ise v' 73,600 54,000 1.225 16,000 • Normalization by decimal scaling v' 73,600 0.736 100 ,000 Alper VAHAPLAR 4 Min-max [0,1] 0 Decimal Scaling 6 31 14 16 18 19 21 22 23 24 27 34 .06 .33 .4 .46 .5 .56 .6 .63 .66 .76 1 -1.8 -1.6 -0.6 -0.3 -0.1 0 0.2 0.4 0.5 0.6 1 1.8 .04 .06 .14 .16 .18 .19 .21 .22 .23 .24 .27 .34 v min A (new _ max A new _ min A ) new _ min A max A min A Alper VAHAPLAR v 10 j Veri Madenciliğine Giriş Price in € Z-score v' v min A max A min A Veri Madenciliğine Giriş v' v min A max A min A v' v 10 j 32 16
© Copyright 2024 Paperzz