Sunum - Dokuz Eylül Üniversitesi

Data
Understanding
(Veriyi Anlama)
Data Preparation,
Data Understanding,
Data Visualization,
Clementine 10.1
References:
Han, J. , Kamber, M., Pei, J., (2011). Data Mining: Concepts and Techniques.
Larose, Daniel T. (2005). Discovering Knowledge In Data – An Introduction to Data Mining.
Tan, P., Steinbach, M., Kumar, v. (2006) Introduction to Data Mining.
Bramer, M., (2007) Principles of Data Mining.
Birant, D. Lecture Notes (2012).
Alper VAHAPLAR
Veri Madenciliğine Giriş
2
1
Information
Evaluation
Data
Warehouse
Target
Data
Alper VAHAPLAR
•
•
Patterns
&
Rules
Organized
Data
Veri Madenciliğine Giriş
Understanding
__ __ __
__ __ __
__ __ __
3
Veriyi neden işlemek gereklidir?
o
Veriler farklı ortamlarda/yerlerde bulunabilir.
o
Gereksiz ya da tekrar eden verilerin ayıklanması gerekir.
o
Eksik/kayıp değerler (missing values) olabilir
o
Sapan/uç değerler (outliers) olabilir.
o
Veri madenciliği modellerine uygun olmayabilir.
o
Verilerde aykırı durumlar olabilir.
Amaç: minimize GIGO
o
Garbage In Garbage Out
Alper VAHAPLAR
Veri Madenciliğine Giriş
4
2
•
•
•
•
Veri Birleştirme (Data Integration), Seçim (Selection)
Veri Temizleme (Data Cleaning),
Veri Dönüştürme (Data Transformation),
Veri İndirgeme (Data Reduction)
Alper VAHAPLAR
•
Veri Madenciliğine Giriş
5
Data Integration
o
Farklı kaynaklardan veri elde edip toplama
• Ör: Şirket dışındaki verilere ulaşım
o
Farklı ortamlardan veri toplama
• Basılı Formlar, (faturalar, raporlar, vs.)
• Tablolar
– Excel Tabloları, SPSS, Minitab, MATLAB, vs…
– Veritabanı Tabloları (Access, SQL Server, Oracle ... )
• Dosyalar
– XML Files
• Web Sayfaları
• Veri Küpleri (Data Cubes), Veri Çarşıları (Data Marts)
Alper VAHAPLAR
Veri Madenciliğine Giriş
6
3
•
Olası Sorunlar
o
Aynı kişi, farklı isim
• Ör. Hasan Hüseyin, H. Hüseyin, H. H., Hasan H., Haso, Hüso, ...
• Ör. Dokuz Eylül Üniversitesi, 9 Eylül Üniversitesi, DEÜ, DEU ..
o
Aynı kişi, farklı veriler
• Ör. Adres: Kaynaklar Kampüsü, Tınaztepe Yerleşkesi
o
Farklı nesneler için aynı isimler (Homonyms )
• Ör. (Öğrenci.)no, (SGK.)no
• Ör. Birim farklılıkları (US Dollar, Canada Dollar)
o
Aynı nesne için farklı değerler (Synonyms)
• Ör. İçel, Mersin
Alper VAHAPLAR
•
Veri Madenciliğine Giriş
7
Olası Sorunlar
o
Farklı Ölçüm Birimleri
• Ör. cm3, m3
o
Şema hataları
• Ör. A.cust-id  B.cust-no
• Ör. TCK, KimlikNo, TCKimlik
o
Fazlalık (Redundancy)
• Ör. doğumyılı, yaş
• Ör. Yıllık gelir – maaş,
• Nasıl tespit edilir?
– Correlation analysis ile
Alper VAHAPLAR
Veri Madenciliğine Giriş
rA, B 
( A  A)( B  B)
(n  1) A B
A
A
n
( A  A) 2
A 
(n  1)
8
4
•
Veri Seçimi (Data Selection)
o
Veritabanlarında çok fazla veri olabilir
• Karmaşık veri analizleri işlemleri
• Tüm veri setini analiz etmek uzun sürebilir.
o
Hedef veri seti seçmek (Selecting a target dataset)
o
Veri setinin azaltılmış temsilci setini seçmek
(hacmen daha küçük ama aynı analiz sonuçlarını veren)
•
Nasıl Seçmeli ?
o
Sütun bazında (Özellik altkümesi belirleme – Feature Subset Selection)
o
Satır bazında (örnekleme – sampling)
Alper VAHAPLAR
•
Veri Madenciliğine Giriş
9
Feature Subset Selection
•
o
İlgili özellikleri/sütunları seçme
o
Gereksiz sütunları ayıklama
Örnekleme – Sampling
o
İstatistikçiler örnekleme yaparlar çünkü tüm veri setini elde etmek
zor/maliyetli ve zaman alıcıdır.
o
Veri madencileri örnekleme yaparlar çünkü tüm veri üzerinde modeli
oluşturmak zor/maliyetli ve zaman alıcıdır.
o
Doğru seçilmiş bir örneklem, tüm veri seti kadar iyi sonuç verir.
• Orijinal veri seti ile aynı özellikleri gösteren veri altkümesi
Alper VAHAPLAR
Veri Madenciliğine Giriş
10
5
•
•
Örnekleme – Sampling
Basit Rasgele Örnekleme (Simple Random Sampling)
o
o
o
•
Yerine Koymadan Örnekleme (Sampling without replacement)
• Seçilen her nesne, bir daha seçilememesi için popülasyondan çıkarılır.
Yerine Koyarak Örnekleme (Sampling with replacement)
• Örnekleme seçilen nesne, tekrar seçilme şansına sahiptir.
Tabakalı Örnekleme (Stratified sampling)
o
•
Her nesnenin seçilme şansı eşittir.
Veri belirli sayıda kısma ayrılır. Her parçadan basit rasgele örnekleme ile veri
seçilir.
Küme Örneklemesi (Cluster Sampling)
o
Heretojen kümeler oluşturulup bu kümelerden bir veya birkaçı örneklem olarak
alınır.
Alper VAHAPLAR
•
Veri Madenciliğine Giriş
11
Veri Madenciliğine Giriş
12
Örnekleme – Sampling
Alper VAHAPLAR
6
•
Örnekleme – Sampling
Alper VAHAPLAR
•
Veri Madenciliğine Giriş
13
Örnekleme – Sampling
500 birim
Alper VAHAPLAR
2000 birim
Veri Madenciliğine Giriş
8000 birim
14
7
•
Gerçek hayat verisi eksik (incomplete), gürültülü (noisy) ya
da tutarsız (inconsistent) olabilir.
•
Veri madenciliği, veri kalitesindeki hataların tespiti ve düzeltilmesi
ile uğraşır (ya da bu hataları tolere edebilen algoritmalar
geliştirmeye çalışır)
•
Veri temizleme işlemleri
o
Hataların tespiti,
o
Eksik değerlerin doldurulması
o
Gürültüyü giderme (smooth noise),
o
Uç değerlerin belirlenmesi (identify outliers),
o
Tutarsızlıkların düzeltilmesi (correct inconsistencies)
Alper VAHAPLAR
•
Veri Madenciliğine Giriş
15
Hata Tipleri :
o
Tipografik hatalar, veri girişi hataları
o
Veri tipi hataları (integer – floating point)
o
Ölçüm hataları
o
Eksik/kayıp değerler (missing values),
o
Gürültü ve bozulma (noise and artifacts),
o
Üç/sapan değerler (outliers),
o
Tekrarlayan veriler (duplicate data),
o
Tutarsız veriler (inconsistent values).
Alper VAHAPLAR
Veri Madenciliğine Giriş
16
8
•
•
Eksik/kayıp değerler (missing values)
Neden olur?
o
o
•
Veri alınamamıştır (Ör. Yaşını veya kilosunu söylemeyen bayanlar)
Varolmayan özellik değerleri (Ör. Çocukların yıllık geliri, bayanların
askerlik durumu)
Yöntemler:
1.
O satırı veriden çıkarma (ignore the tüple),
2.
Eksik değeri elde edip doldurma
3.
Eksik gözlemler için bir sabit kullanma («KAYIP»,»NA», «*», «∞»)
4.
Eksik gözleme ait özelliğin ortalaması/modu/medyanını kullanma
5.
Aynı sınıfa ait benzer verilerin ortalaması/modu/medyanını kullanma
6.
Eksik gözlem için en olası değeri hesaplama (regresyon, vs)
Alper VAHAPLAR
•
Veri Madenciliğine Giriş
17
ID = 1028 için eksik olan «maaş» değerini bulunuz.
Eğitim
İl
Maaş
Sınıf
41
27
20
34
74
Medeni
Hali
Evli
Evli
Bekar
Evli
Evli
Yüksek Lisans
Lisans
Lise
Lisans
Lise
İzmir
Ankara
İzmir
İstanbul
Ankara
1200
1000
1000
1000
500
C1
C1
C2
C3
C2
E
32
Evli
Doktora
İstanbul
2000
C2
E
B
18
43
Bekar
Evli
Lise
Yüksek Lisans
Ankara
İzmir
800
???
C3
C1
ID
Cins
Yaş
1021
1022
1023
1024
1025
B
E
E
B
E
1026
1027
1028
Alper VAHAPLAR
Veri Madenciliğine Giriş
18
9
•
•
Gürültü ve Bozulma (Noise and Artifacts)
Gürültü ölçülen bir değerdeki rassal hata ya da varyansdır. (Noise is
a random error or variance in a measured variable.)
Alper VAHAPLAR
•
19
Sapan Değerler (Outliers)
o
•
Veri Madenciliğine Giriş
Diğer verilerden farklı özellik gösteren veri
Gürültü Giderme teknikleri (techniques for Smoothing Noise)
o
Histogram
o
Kutulama
(Binning)
o
Kümeleme
(Clustering)
o
Regresyon
(Regression)
Alper VAHAPLAR
Veri Madenciliğine Giriş
20
10
•
•
•
Kutulama (Binning)
Veriler sıralanır, Sıralı veriler «kutu»lara (bin) ayrılır.
Equal-width partitioning (Eşit Aralıklı)
o
o
•
«Range» N adet eşit aralığa bölünür
Aralık genişliği W = (max –min)/N.
Equal-depth partitioning (Eşit yoğunluklu)
o
Veriler, her kısımda aynı sayıda eleman olacak şekilde N parçaya bölünür.
Equal width
Veriler
Equal depth
B1 B1 B2 B2 B2 B2 B2 B2 B2 B3 B3 B3
4 6 14 16 18 19 21 22 23 25 27 33
B1 B1 B1 B1 B2 B2 B2 B2 B3 B3 B3 B3
Alper VAHAPLAR
•
Veri Madenciliğine Giriş
21
Kutulama (Binning)
o
(a) Eq. D. – Kutu Ortalamasına Göre Düzeltme(Smoothing by Bin Means
o
(b) Eq. D. – Kutu Sınırlarına Göre Düzeltme (Smoothing by Bin Boundaries)
o
(c) Eq. W. – Kutu Ortalamasına Göre Düzeltme (Smoothing by Bin Means)
o
(d) Eq. W. – Kutu Sınırlarına Göre Düzeltme (Smoothing by Bin Boundaries)
Equal width
Price in €
Equal depth
B1 B1 B2 B2 B2 B2 B2 B2 B2 B3 B3 B3
4 6 14 16 18 19 21 22 23 25 27 33
B1 B1 B1 B1 B2 B2 B2 B2 B3 B3 B3 B3
Equal-Width Partitioning
Equal-Depth Partitioning
(33-4) / 3 ~ 9
Bin1 (4-13) : 4 6
Bin2 (14-23) : 14 16 18 19 21 22 23
Bin3 (24-33) : 25 27 33
Alper VAHAPLAR
Veri Madenciliğine Giriş
Bin1 : 4 6 14 16
Bin2 : 18 19 21 22
Bin3: 23 25 27 33
22
11
•
•
Binning – Smoothing
Kutulardaki tüm değerkeri TEK değerle değiştir.
Price in €
Equal depth
4 6 14 16 18 19 21 22 23 25 27 33
B1 B1 B1 B1 B2 B2 B2 B2 B3 B3 B3 B3
Ortalama
10 10 10 10 20 20 20 20 27 27 27 27
Sınır
4
16 16 18 18 22 22 23 23 23 33
Ortalama
5
5
19 19 19 19 19 19 19 28 28 28
Sınır
4
6
14 14 14 23 23 23 23 28 28 28
Alper VAHAPLAR

4
Veriler:
Veri Madenciliğine Giriş
23
4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
* Equal-Depth bins:
* Equal-Width bins:
- Bin 1: 4, 8, 9, 15
- Bin 1: 4, 8, 9
- Bin 2: 21, 21, 24, 25
- Bin 2: 15, 21, 21, 24
- Bin 3: 26, 28, 29, 34
- Bin 3: 25, 26, 28, 29, 34
* Ortalamaya göre:
* Ortalamaya göre :
- Bin 1: 9, 9, 9, 9
- Bin 1: 7, 7, 7
- Bin 2: 23, 23, 23, 23
- Bin 2: 20, 20, 20, 20
- Bin 3: 29, 29, 29, 29
- Bin 3: 28, 28, 28, 28, 28
* Sınırlara göre:
* Sınırlara göre :
- Bin 1: 4, 4, 4, 15
- Bin 1: 4, 9, 9
- Bin 2: 21, 21, 25, 25
- Bin 2: 15, 24, 24, 24
- Bin 3: 26, 26, 26, 34
- Bin 3: 25, 25, 25, 25, 34
Alper VAHAPLAR
Veri Madenciliğine Giriş
24
12
•
Kümeleme (Clustering)
o
Benzer özellikteki nesnelerden oluşan gruplar oluşturma işlemi
o
Küme için homojen, kümeler heterojen.
Alper VAHAPLAR
•
Veri Madenciliğine Giriş
25
Regresyon (Regression)
Y1
y=x+1
Y1’
x
X1
Alper VAHAPLAR
Veri Madenciliğine Giriş
26
13
Veri Dönüştürme
Data Transformation
Smoothing,
Generalization,
Normalization,
Reduction,
Feature construction
Alper VAHAPLAR
•
27
Gürültü Giderme (Smoothing)
o
•
Veri Madenciliğine Giriş
Kurulama (Binning), Kümeleme (Clustering), Regression
Genelleştirme (Generalization):
o
o
o
Kavram hiyerarşisi gözönüne alınarak, düşük seviyelerdeki değerleri üst
seviyelere taşıma
Ör: Semt isimleri yerine Şehir ismi kullanma;
Yaş  Çocuk, genç, orta yaşlı, ihtiyar
Alper VAHAPLAR
Veri Madenciliğine Giriş
28
14
•
Normalizasyon: Verilerin daha küçük bir aralığa ölçeklenmesi işlemi
o
o
o
Min-max normalization
Z-score normalization
Normalization by decimal scaling
Alper VAHAPLAR
•
Veri Madenciliğine Giriş
Min-max normalization: to [0, 1]
v' 
•
•
v  min A
max A  min A
Min-max normalization: to [new_minA, new_maxA]
v' 
•
29
v  min A
(new _ max A  new _ min A )  new _ min A
max A  min A
Z-score normalization (μ: mean, σ: standard deviation):
v  A
v' 
A
Normalization by decimal scaling
v'
Alper VAHAPLAR
v
10 j
Where j is the smallest integer such that Max(|ν’|) < 1
Veri Madenciliğine Giriş
30
15
•
v' 
Min-max normalization:
o
v  min A
(new _ max A  new _ min A )  new _ min A
max A  min A
Ör. Yıllık Gelir 12,000 TL ile 98,000 TL arasında ise 73,600 TL
73,600  12,000
(1  0)  0  0.716
98,000  12,000
•
Z-score normalization
o
Ör. μ = 54,000 TL ve σ = 16,000 TL2 ise
v' 
73,600  54,000
 1.225
16,000
•
Normalization by decimal scaling
v'
73,600
 0.736
100 ,000
Alper VAHAPLAR
4
Min-max [0,1]
0
Decimal Scaling
6
31
14
16
18
19
21
22
23 24 27
34
.06 .33
.4
.46
.5
.56
.6
.63 .66 .76
1
-1.8 -1.6 -0.6 -0.3 -0.1
0
0.2 0.4 0.5 0.6
1
1.8
.04 .06 .14 .16 .18 .19 .21 .22 .23 .24 .27 .34
v  min A
(new _ max A  new _ min A )  new _ min A
max A  min A
Alper VAHAPLAR
v
10 j
Veri Madenciliğine Giriş
Price in €
Z-score
v' 
v  min A
max A  min A
Veri Madenciliğine Giriş
v' 
v  min A
max A  min A
v'
v
10 j
32
16