8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
8.
ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ
Στόχος του εργαστηρίου αυτού είναι να δείξει πώς τα εργαστήρια με τα
δεδομένα της ICAP μπορούν να υλοποιηθούν χωρίς τη χρήση SQL Server,
χρησιμοποιώντας μόνον Excel και Rapid Miner.
Το αρχείο excel ICAP00 είναι το αρχείο που μας παραδόθηκε και το οποίο (με
κάποιες βασικές τροποποιήσεις για ταχύτερη επεξεργασία) περιλαμβάνει τέσσερα
φύλλα εργασίας:
1.
Τα αναλυτικά στοιχεία των εταιρειών
2.
Κωδικοποιήσεις νομών με το
εύρος των ταχυδρομικών κωδικών
που καλύπτει κάθε νομός. Για
διευκόλυνση στην αναζήτηση η
στήλη NPCLOW έχει αντιγραφεί
(Cut – Insert Cut Cells) στη στήλη
Α.
Αριστομένης Μακρής
1
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
3.
Κωδικοποιήσεις περιφερειών
με το εύρος των ταχυδρομικών
κωδικών
που
καλύπτει
κάθε
περιφέρεια. Για διευκόλυνση στην
αναζήτηση η στήλη NPCLOW έχει
αντιγραφεί (Cut – Insert Cut Cells)
στη στήλη Α.
4.
Γενικές
Δραστηριότητες.
Είναι ένα φύλλο που προστέθηκε εκ
των υστέρων για μια γενικότερη
ομαδοποίηση των δραστηριοτήτων.
Ο τελικός στόχος είναι η δημιουργία ενός πίνακα με όλα τα στοιχεία για
περαιτέρω ανάλυση από το Excel για αυτόνομη άντληση πληροφοριών από το
χρήστη και πολυδιάστατη ανάλυση. Ο ίδιος πίνακας θα χρησιμοποιηθεί από το Rapid
Miner για εξόρυξη δεδομένων.
Αριστομένης Μακρής
2
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
8.1. ΔΗΜΙΟΥΡΓΙΑ ΕΝΟΣ ΠΙΝΑΚΑ ΜΕ ΟΛΑ ΤΑ ΣΤΟΙΧΕΙΑ ΣΤΟ EXCEL
Κατ’ αρχάς θα προσθέσουμε μια νέα στήλη με την περιγραφή του κλάδου της
οικονομίας. Προσθέτουμε μια νέα στήλη και την ονομάζουμε ΚΛΑΔΟΣ. Κατόπιν
γράφουμε τη συνάρτηση ώστε με βάση τα περιεχόμενα της στήλης 2 να πάρει τιμές η
στήλη ΚΛΑΔΟΣ και κατόπιν αντιγράφουμε τη συνάρτηση σε όλες τις λογικές
εγγραφές
Κατόπιν μετονομάζουμε την επικεφαλίδα στις στήλες D & E, προσθέτουμε μια
νέα στήλη F με τίτλο ΓΕΝΙΚΗ ΔΡΑΣΤΗΡΙΟΤΗΤΑ και υπολογίζουμε το περιεχόμενο
με τη συνάρτηση VLOOKUP.
Αριστομένης Μακρής
3
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
Προσθέτουμε δυο νέες στήλες ΠΕΡΙΦΕΡΕΙΑ και ΝΟΜΟΣ. Υπολογίζουμε
πρώτα την περιφέρεια με τη συνάρτηση VLOOKUP με βάση τη στήλη ΤΑΧ.ΚΩΔ.
Κατόπιν υπολογίζουμε τον νομό με τη συνάρτηση VLOOKUP με βάση τη
στήλη ΤΑΧ.ΚΩΔ.
Μετονομάζουμε το φύλλο εργασίας σε ICAP
Και αποθηκεύουμε σαν ICAP01
Αριστομένης Μακρής
4
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
8.2. ΠΟΙΟΤΙΚΗ ΑΝΑΒΑΘΜΙΣΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ ΜΕ RAPID MINER
Στόχος του εργαστηρίου αυτού δεν είναι η εις βάθος κατανόηση του Rapid
Miner (κάτι που μπορεί να κάνει ο κάθε εκπαιδευόμενος χρησιμοποιώντας το
πλούσιο σχετικό υλικό στο διαδίκτυο) αλλά η κατανόηση των βασικών δυνατοτήτων
του για αυτοδύναμη επεξεργασία δεδομένων χωρίς την ανάγκη εξειδικευμένων
περιβαλλόντων και εργαλείων.
Ανοίγουμε το Rapid Miner και επιλέγουμε Continue using “Starter” για το
δωρεάν περιβάλλον
Από το Home μπορούμε αν θέλουμε να εξοικειωθούμε με το περιβάλλον να
δοκιμάσουμε τα πολύ επεξηγηματικά tutorials για κατανόηση των βασικών
λειτουργιών. Επιλέγουμε Design (F8) ώστε να αρχίσουμε.
Αριστομένης Μακρής
5
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
Το βασικό περιβάλλον αποτελείται από τους Operators, τα Repositories, τις
Parameters τη βοήθεια και τη Main Process.
Θα δημιουργήσουμε δυο περιοχές για το εργαστήριο,
μια στα data και μια στις processes. Επιλέγουμε data δεξί
κλικ Create Folder και BIBA. Κατόπιν processes data δεξί
κλικ Create Folder και BIBA. Έτσι δημιουργήσαμε δυο
περιοχές για την αποθήκευση των εργαστηρίων.
Αριστομένης Μακρής
6
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
8.2.1. IMPORT EXCEL
Επόμενο βήμα θα εισάγουμε στο περιβάλλον το φύλλο ICAP01 που μόλις
δημιουργήσαμε. Επιλέγουμε από τη λίστα Import Excel Sheet.
Επιλέγουμε το αρχείο και Next
Αφήνουμε το φύλλο ICAP και Next
Αριστομένης Μακρής
7
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
Ξανά Next
Γίνεται έλεγχος για σφάλματα (π.χ. δυο στήλες με ίδιο όνομα) και αφού δεν
βρέθηκαν λάθη προχωράμε Next.
Αριστομένης Μακρής
8
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
Επιλέγουμε να αποθηκευτεί στη σωστή περιοχή, δίνουμε όνομα και Finish.
Μετά από κάποιο χρόνο εισαγωγής τα δεδομένα εισάγονται στο φάκελο BIBA
και εμφανίζονται αυτόματα τα περιεχόμενα στο Results (F9). Επιλέγουμε Statistics
για να αναλύσουμε τα δεδομένα.
Αριστομένης Μακρής
9
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
Στο στάδιο αυτό δεν θα διερευνήσουμε τα δεδομένα πέραν των Missing Values.
Παρατηρούμε ότι έχουμε πρόβλημα στα πεδία ISOLYEAR (έτος ισολογισμού, αλλά
το πεδίο δεν μας ενδιαφέρει γιατί όλο το αρχείο αφορά μια χρονιά), EXPFLAG,
IMPFLAG και ΧΡΗΜ/ΡΙΟ που θα πρέπει να τα διορθώσουμε. Επιλέγουμε Design
(F8).
Αριστομένης Μακρής
10
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
8.2.2. SELECT ATTRIBUTES – FILTER EXAMPLES
Σύρουμε (drag & drop) το Excel ICAP01 που μόλις εισαγάγαμε στην περιοχή
Main Process.
Θα αναζητήσουμε τον τελεστή
(operator) Select Attributes ώστε να
επιλέξουμε μόνο τα πεδία που θέλουμε. Στην
αναζήτηση των Operators καταχωρούμε τα
αρχικά. Όταν εμφανιστεί ο τελεστής τον
σύρουμε στην περιοχή Main Process.
Κατόπιν συνδέουμε τα εικονίδια Retrieve
ICAP01 και Select Attributes.
Αριστομένης Μακρής
11
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
Επιλέγουμε (κλικ) το εικονίδιο Select Attributes και αλλάζουμε τις
παραμέτρους στην περιοχή Parameters.
Επιλέγουμε στις παραμέτρους από τη λίστα attribute filter type – subset (ώστε
να επιλέξουμε εμείς πεδία) και attributes – Select Attributes. Από τη λίστα επιλέγουμε
τα πεδία που θέλουμε και Apply.
Αφού επιλέξαμε πεδία θα φιλτράρουμε
τις λογικές εγγραφές ώστε να αγνοηθούν
όσες εταιρείες έχουν μηδενικό κύκλο
εργασιών. Αναζητούμε τον operator Filter
Examples και σύρουμε στην περιοχή Main
Process. Κατόπιν συνδέουμε το εικονίδιο
Select Attribute με το εικονίδιο Filter
Examples.
Αριστομένης Μακρής
12
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
Επιλέγουμε (κλικ) το εικονίδιο Filter Examples και Add Filters στις
Παραμέτρους. Σαν φίλτρο επιλέγουμε τις εταιρείες για τις οποίες το πεδίο ΤΖΙΡΟΣ
δεν ισούτε με μηδέν (0) και ΟΚ.
Αποθηκεύουμε (File –
Save Process as) στην
περιοχή BIBA με το όνομα
ICAP_CLEANSING.
Αριστομένης Μακρής
13
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
8.2.3. REPLACE MISSING VALUES
Θα αντικαταστήσουμε στα πεδία
EXPFLAG, IMPFLAG και ΧΡΗΜ/ΡΙΟ τις
κενές τιμές. Στους Operators αναζητούμε τον
τελεστή Replace Missing Values. Τον
σύρουμε στην περιοχή Main Process και τον
συνδέουμε με το Filter Examples.
Επιλέγουμε (κλικ) το εικονίδιο Replace Missing Values και από τις
παραμέτρους να αλλάξουμε όλες τις κενές τιμές στο πεδίο EXPFLAG σε μηδέν (0).
Αριστομένης Μακρής
14
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
Προσθέτουμε και ένα δεύτερο εικονίδιο Replace Missing Values για το πεδίο
IMPFLAG.
Προσθέτουμε και ένα τρίτο εικονίδιο Replace Missing Values για το πεδίο
ΧΡΗΜ/ΡΙΟ με τιμή «Όχι» εάν είναι κενό..
8.2.4. REPLACE
Θα αντικαταστήσουμε τις τιμές «*»
στα πεδία EXPFLAG και IMPFLAG με ένα
(1) και στο πεδίο ΧΡΗΜ/ΡΙΟ με «Ναι».
Επιλέγουμε και σύρουμε τον τελεστή
Replace και τον συνδέουμε στη συνέχεια
της ροής.
Αριστομένης Μακρής
15
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
Επιλέγουμε να αντικαταστήσουμε στο πεδίο EXPFLAG σε όλες τις λογικές
εγγραφές το «*» με ένα (1).
Αριστομένης Μακρής
16
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
Επιλέγουμε να αντικαταστήσουμε στο πεδίο IMPFLAG σε όλες τις λογικές
εγγραφές το «*» με ένα (1).
Τέλος επιλέγουμε να αντικαταστήσουμε στο πεδίο ΧΡΗΜ/ΡΙΟ σε όλες τις
λογικές εγγραφές το «*» με «Ναι».
Αριστομένης Μακρής
17
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
8.2.5. GENERATE ATTRIBUTES
Θα δημιουργήσουμε και δυο νέα
υπολογιζόμενα πεδία, τον κύκλο εργασιών
(τζίρο)
Εισαγωγών
και
Εξαγωγών.
Αναζητούμε
τον
τελεστή
Generate
Attributes και τον σύρουμε στη ροή.
Στις παραμέτρους επιλέγουμε Edit List και αρχίζουμε την καταχώρηση του
πρώτου πεδίου. Επιλέγουμε το εικονίδιο του υπολογισμού.
Και καταχωρούμε την συνάρτηση υπολογισμού.
Αριστομένης Μακρής
18
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
Κατά παρόμοιο τρόπο
προσθέτουμε νέο πεδίο (Add
Entry) και υπολογίζουμε τον
κύκλο εργασιών (τζίρο)
εξαγωγών. Τέλος επιλέγουμε
Apply.
Αριστομένης Μακρής
19
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
8.2.6. CONVERT NOMINAL TO NUMERICAL
Επειδή κατά την αντικατάσταση των κενών και των «*» στα πεδία EXPFLAG
και IMPFLAG οι αντίστοιχες τιμές μηδέν (0) και ένα (1) δεν είναι αριθμητικές, θα
πρέπει να αντικατασταθούν ώστε να γίνουν αριθμητικές.
Αναζητούμε τον κατάλληλο τελεστή και τον βρίσκουμε
Nominal to Numerical.
Σύρουμε στην περιοχή Main Process και από τις
παραμέτρους επιλέγουμε subset και από τα πεδία EXPFLAG
και IMPFLAG. Προσέχουμε ώστε η μετατροπή να γίνει σε
unique integers.
Αριστομένης Μακρής
20
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
8.2.7. WRITE EXCEL
Σαν
τελευταίο
βήμα
θα
αποθηκεύσουμε
το
αποτέλεσμα
της
επεξεργασίας σαν Excel με όνομα ICAP02
για περαιτέρω επεξεργασία.
Αποθηκεύουμε
ξανά
την
όλη
επεξεργασία.
Τέλος εκτελώ την όλη ροή επιλέγοντας
το αντίστοιχο εικονίδιο.
Αριστομένης Μακρής
21
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
8.2.7. ΤΟ ΑΠΟΤΕΛΕΣΜΑ
Με την ολοκλήρωση της εκτέλεσης το πρόγραμμα πηγαίνει αυτόματα στα
αποτελέσματα (Results). Παρατηρώ ότι μπορώ να δω τα δεδομένα και στην αρχή της
ροής (ICAP01) αλλά και στο τέλος (που εμφανίζονται αυτόματα). Επιλέγω τα
στατιστικά.
Αριστομένης Μακρής
22
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
Παρατηρώ ότι δεν έχω πλέον κενά (Missing Values). Το σύστημα υποστηρίζει
και στατιστική και γραφική απεικόνιση (Charts) των αποτελεσμάτων.
Αριστομένης Μακρής
23
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
8.2.8. ΤΟ EXCEL ΤΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ.
Το τελικό βήμα της επεξεργασίας είναι η δημιουργία του αρχείου Excel
ICAP02. Αλλάζουμε διαμόρφωση των πεδίων για να μπορούμε να βλέπουμε τους
κύκλους εργασιών.
Αριστομένης Μακρής
24
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
8.3. ΑΥΤΟΔΥΝΑΜΗ ΕΠΕΞΕΡΓΑΣΙΑ (QUERIES) ΑΠΟ ΤΟ EXCEL
Για να αποφύγουμε την καταχώρηση των δεδομένων σε βάση δεδομένων για τη
δημιουργία ερωτημάτων, μπορούμε να χρησιμοποιήσουμε τη δυνατότητα του Excel
να ορίζει ότι μια περιοχή ενός φύλλου εργασίας θα συμπεριφέρεται σαν βάση
δεδομένων. Επιλέγουμε όλες τις στήλες του φύλλου (Α- Ρ) και Insert – Table.
Δίνουμε ΟΚ για τη δημιουργία του πίνακα και το αποτέλεσμα είναι όλες οι
στήλες να γίνονται φίλτρα, ώστε να μπορούμε να κάνουμε επιλογές (π.χ. επιλέγουμε
από τους κλάδους μόνο τις εμπορικές επιχειρήσεις) και να επεξεργαζόμαστε το
αποτέλεσμα των επιλογών μας στο Excel.
Αριστομένης Μακρής
25
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
8.4. ΠΟΛΥΔΙΑΣΤΑΤΗ ΑΝΑΛΥΣΗ (PIVOT TABLES) ΑΠΟ ΤΟ EXCEL
Ανοίγουμε το αποτέλεσμα της επεξεργασίας ICAP02 και αφού επιλέξουμε τις
στήλες (Α- Ρ) Insert – Pivot Table.
Πλέον έχουμε στη διάθεσή μας όλες τις δυνατότητες της πολυδιάστατης
ανάλυσης που ήδη εξετάστηκαν.
Αριστομένης Μακρής
26
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
8.5. ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ (DATA MINING) ΑΠΟ ΤΟ RAPID MINER
Θα επανεισάγουμε τα δεδομένα
ICAP02 στο Rapid Miner για
περαιτέρω ανάλυση, μέσω Import
Excel Sheet στα Repositories και το
αποθηκεύουμε στο φάκελο BIBA στα
data σαν ICAP02.
Ανοίγουμε το αρχείο (2 κλικ)
για να αναλύσουμε τα δεδομένα.
Αναλύουμε τα στατιστικά και παρατηρούμε τα διαγράμματα (Open chart).
Μπορούμε έτσι να αναλύσουμε τις διάφορες παραμέτρους μεταξύ τους επάνω
στα διαγράμματα.
Αριστομένης Μακρής
27
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
8.5.1.CLUSTERING
Θα προσπαθήσουμε να δημιουργήσουμε κάποιες ομαδοποιήσεις από το αρχείο
ICAP02 για να μελετήσουμε τις ομάδες και τα χαρακτηριστικά τους. Πρέπει κατ’
αρχάς να επιλέξουμε πεδία.
Κατόπιν θα επιλέξουμε αλγόριθμο ομαδοποίησης. Επιλέγουμε τον αλγόριθμο
k-Means (fast) και τις παραμέτρους. Η παράμετρος add cluster attribute θα προσθέσει
μια στήλη με την ονομασία κάθε cluster.
Τέλος επιλέγουμε να αποθηκεύσουμε τα αποτελέσματα στο αρχείο ICAP03.
Αριστομένης Μακρής
28
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
Αποθηκεύουμε την επεξεργασία σαν (save as) ICAP_CLUSTERING και
εκτελούμε.
Με βάση τις παραμέτρους το σύστημα δημιούργησε 5 ομάδες τις οποίες
μπορούμε να αναλύσουμε είτε μέσα στο πακέτο είτε από το excel ICAP03 που
δημιουργήθηκε. Ανοίγουμε τα διαγράμματα.
Μπορούμε να συγκρίνουμε τα οικονομικά μεγέθη των κλάδων όπως:
Αριστομένης Μακρής
29
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
Μπορούμε επίσης να αναλύσουμε περαιτέρω τα χαρακτηριστικά κάθε ομάδας
στα Advanced Charts.
Τα αποτελέσματα της διεργασίας (ICAP03) μπορούμε να τα επεξεργαστούμε
από το Excel για περαιτέρω ανάλυση.
Αριστομένης Μακρής
30
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
Αν τώρα θελήσουμε να επιλέξουμε κάποια συγκεκριμένη ομάδα, μπορούμε να
προσθέσουμε ένα φίλτρο στη ροή.
8.5.2.CORRELATION
Τα δεδομένα της προηγούμενης ανάλυσης (ICAP03) μπορούμε να τα
εισαγάγουμε στο Rapid Miner ώστε να εξετάσουμε τις συσχετίσεις ανάμεσα στα
διάφορα πεδία.
Αριστομένης Μακρής
31
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
Εκτελούμε τη νέα ροή και παρατηρούμε τα αποτελέσματα της ανάλυσης.
Παρατηρούμε την υψηλή συσχέτιση ανάμεσα στον τζίρο και την ομάδα (cluster) και
τον τζίρο και το προσωπικό.
8.5.3.DECISION TREES
Καταχωρούμε την ακόλουθη ροή. Το πρώτο εικονίδιο είναι το αρχείο ICAP02
που δημιουργήσαμε νωρίτερα (drug & drop στην περιοχή Main Process)
Στόχος είναι η δημιουργία ενός δένδρου αποφάσεων βάσει του οποίου
μπορούμε να προβλέψουμε αν μια επιχείρηση είναι εξαγωγική (EXFLAG) με βάση
άλλα κριτήρια. Επιλέγουμε τον τελεστή Select Attributes και μετά επιλέγουμε τα
πεδία ανάλυσης και Apply.
Αριστομένης Μακρής
32
Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner
Επιλέγουμε
τον
τελεστή
(convert) Numerical to Binomial
γιατί η μεταβλητή EXPFLAG θα
είναι η κατευθυνόμενη μεταβλητή
βάσει της οποίας θα γίνει η
πρόβλεψη και δεν μπορεί να είναι
αριθμός.
Επιλέγουμε τον τελεστή Set
Role ώστε να ορίσουμε την
μεταβλητή στόχευσης EXPFLAG
(target role=label).
Τέλος επιλέγουμε τον τελεστή
Decision Tree, συνδέουμε τους
τελεστές όπως στο διάγραμμα και εκτελούμε.
Το αποτέλεσμα είναι η δημιουργία ενός δένδρου αποφάσεων στο οποίο
απουσιάζει ο Νομός. Άρα τα γεωγραφικά κριτήρια δεν επηρεάζουν αν μια επιχείρηση
θα έχει εξαγωγική δραστηριότητα.
Αριστομένης Μακρής
33