Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner 8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ Στόχος του εργαστηρίου αυτού είναι να δείξει πώς τα εργαστήρια με τα δεδομένα της ICAP μπορούν να υλοποιηθούν χωρίς τη χρήση SQL Server, χρησιμοποιώντας μόνον Excel και Rapid Miner. Το αρχείο excel ICAP00 είναι το αρχείο που μας παραδόθηκε και το οποίο (με κάποιες βασικές τροποποιήσεις για ταχύτερη επεξεργασία) περιλαμβάνει τέσσερα φύλλα εργασίας: 1. Τα αναλυτικά στοιχεία των εταιρειών 2. Κωδικοποιήσεις νομών με το εύρος των ταχυδρομικών κωδικών που καλύπτει κάθε νομός. Για διευκόλυνση στην αναζήτηση η στήλη NPCLOW έχει αντιγραφεί (Cut – Insert Cut Cells) στη στήλη Α. Αριστομένης Μακρής 1 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner 3. Κωδικοποιήσεις περιφερειών με το εύρος των ταχυδρομικών κωδικών που καλύπτει κάθε περιφέρεια. Για διευκόλυνση στην αναζήτηση η στήλη NPCLOW έχει αντιγραφεί (Cut – Insert Cut Cells) στη στήλη Α. 4. Γενικές Δραστηριότητες. Είναι ένα φύλλο που προστέθηκε εκ των υστέρων για μια γενικότερη ομαδοποίηση των δραστηριοτήτων. Ο τελικός στόχος είναι η δημιουργία ενός πίνακα με όλα τα στοιχεία για περαιτέρω ανάλυση από το Excel για αυτόνομη άντληση πληροφοριών από το χρήστη και πολυδιάστατη ανάλυση. Ο ίδιος πίνακας θα χρησιμοποιηθεί από το Rapid Miner για εξόρυξη δεδομένων. Αριστομένης Μακρής 2 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner 8.1. ΔΗΜΙΟΥΡΓΙΑ ΕΝΟΣ ΠΙΝΑΚΑ ΜΕ ΟΛΑ ΤΑ ΣΤΟΙΧΕΙΑ ΣΤΟ EXCEL Κατ’ αρχάς θα προσθέσουμε μια νέα στήλη με την περιγραφή του κλάδου της οικονομίας. Προσθέτουμε μια νέα στήλη και την ονομάζουμε ΚΛΑΔΟΣ. Κατόπιν γράφουμε τη συνάρτηση ώστε με βάση τα περιεχόμενα της στήλης 2 να πάρει τιμές η στήλη ΚΛΑΔΟΣ και κατόπιν αντιγράφουμε τη συνάρτηση σε όλες τις λογικές εγγραφές Κατόπιν μετονομάζουμε την επικεφαλίδα στις στήλες D & E, προσθέτουμε μια νέα στήλη F με τίτλο ΓΕΝΙΚΗ ΔΡΑΣΤΗΡΙΟΤΗΤΑ και υπολογίζουμε το περιεχόμενο με τη συνάρτηση VLOOKUP. Αριστομένης Μακρής 3 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner Προσθέτουμε δυο νέες στήλες ΠΕΡΙΦΕΡΕΙΑ και ΝΟΜΟΣ. Υπολογίζουμε πρώτα την περιφέρεια με τη συνάρτηση VLOOKUP με βάση τη στήλη ΤΑΧ.ΚΩΔ. Κατόπιν υπολογίζουμε τον νομό με τη συνάρτηση VLOOKUP με βάση τη στήλη ΤΑΧ.ΚΩΔ. Μετονομάζουμε το φύλλο εργασίας σε ICAP Και αποθηκεύουμε σαν ICAP01 Αριστομένης Μακρής 4 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner 8.2. ΠΟΙΟΤΙΚΗ ΑΝΑΒΑΘΜΙΣΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ ΜΕ RAPID MINER Στόχος του εργαστηρίου αυτού δεν είναι η εις βάθος κατανόηση του Rapid Miner (κάτι που μπορεί να κάνει ο κάθε εκπαιδευόμενος χρησιμοποιώντας το πλούσιο σχετικό υλικό στο διαδίκτυο) αλλά η κατανόηση των βασικών δυνατοτήτων του για αυτοδύναμη επεξεργασία δεδομένων χωρίς την ανάγκη εξειδικευμένων περιβαλλόντων και εργαλείων. Ανοίγουμε το Rapid Miner και επιλέγουμε Continue using “Starter” για το δωρεάν περιβάλλον Από το Home μπορούμε αν θέλουμε να εξοικειωθούμε με το περιβάλλον να δοκιμάσουμε τα πολύ επεξηγηματικά tutorials για κατανόηση των βασικών λειτουργιών. Επιλέγουμε Design (F8) ώστε να αρχίσουμε. Αριστομένης Μακρής 5 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner Το βασικό περιβάλλον αποτελείται από τους Operators, τα Repositories, τις Parameters τη βοήθεια και τη Main Process. Θα δημιουργήσουμε δυο περιοχές για το εργαστήριο, μια στα data και μια στις processes. Επιλέγουμε data δεξί κλικ Create Folder και BIBA. Κατόπιν processes data δεξί κλικ Create Folder και BIBA. Έτσι δημιουργήσαμε δυο περιοχές για την αποθήκευση των εργαστηρίων. Αριστομένης Μακρής 6 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner 8.2.1. IMPORT EXCEL Επόμενο βήμα θα εισάγουμε στο περιβάλλον το φύλλο ICAP01 που μόλις δημιουργήσαμε. Επιλέγουμε από τη λίστα Import Excel Sheet. Επιλέγουμε το αρχείο και Next Αφήνουμε το φύλλο ICAP και Next Αριστομένης Μακρής 7 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner Ξανά Next Γίνεται έλεγχος για σφάλματα (π.χ. δυο στήλες με ίδιο όνομα) και αφού δεν βρέθηκαν λάθη προχωράμε Next. Αριστομένης Μακρής 8 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner Επιλέγουμε να αποθηκευτεί στη σωστή περιοχή, δίνουμε όνομα και Finish. Μετά από κάποιο χρόνο εισαγωγής τα δεδομένα εισάγονται στο φάκελο BIBA και εμφανίζονται αυτόματα τα περιεχόμενα στο Results (F9). Επιλέγουμε Statistics για να αναλύσουμε τα δεδομένα. Αριστομένης Μακρής 9 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner Στο στάδιο αυτό δεν θα διερευνήσουμε τα δεδομένα πέραν των Missing Values. Παρατηρούμε ότι έχουμε πρόβλημα στα πεδία ISOLYEAR (έτος ισολογισμού, αλλά το πεδίο δεν μας ενδιαφέρει γιατί όλο το αρχείο αφορά μια χρονιά), EXPFLAG, IMPFLAG και ΧΡΗΜ/ΡΙΟ που θα πρέπει να τα διορθώσουμε. Επιλέγουμε Design (F8). Αριστομένης Μακρής 10 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner 8.2.2. SELECT ATTRIBUTES – FILTER EXAMPLES Σύρουμε (drag & drop) το Excel ICAP01 που μόλις εισαγάγαμε στην περιοχή Main Process. Θα αναζητήσουμε τον τελεστή (operator) Select Attributes ώστε να επιλέξουμε μόνο τα πεδία που θέλουμε. Στην αναζήτηση των Operators καταχωρούμε τα αρχικά. Όταν εμφανιστεί ο τελεστής τον σύρουμε στην περιοχή Main Process. Κατόπιν συνδέουμε τα εικονίδια Retrieve ICAP01 και Select Attributes. Αριστομένης Μακρής 11 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner Επιλέγουμε (κλικ) το εικονίδιο Select Attributes και αλλάζουμε τις παραμέτρους στην περιοχή Parameters. Επιλέγουμε στις παραμέτρους από τη λίστα attribute filter type – subset (ώστε να επιλέξουμε εμείς πεδία) και attributes – Select Attributes. Από τη λίστα επιλέγουμε τα πεδία που θέλουμε και Apply. Αφού επιλέξαμε πεδία θα φιλτράρουμε τις λογικές εγγραφές ώστε να αγνοηθούν όσες εταιρείες έχουν μηδενικό κύκλο εργασιών. Αναζητούμε τον operator Filter Examples και σύρουμε στην περιοχή Main Process. Κατόπιν συνδέουμε το εικονίδιο Select Attribute με το εικονίδιο Filter Examples. Αριστομένης Μακρής 12 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner Επιλέγουμε (κλικ) το εικονίδιο Filter Examples και Add Filters στις Παραμέτρους. Σαν φίλτρο επιλέγουμε τις εταιρείες για τις οποίες το πεδίο ΤΖΙΡΟΣ δεν ισούτε με μηδέν (0) και ΟΚ. Αποθηκεύουμε (File – Save Process as) στην περιοχή BIBA με το όνομα ICAP_CLEANSING. Αριστομένης Μακρής 13 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner 8.2.3. REPLACE MISSING VALUES Θα αντικαταστήσουμε στα πεδία EXPFLAG, IMPFLAG και ΧΡΗΜ/ΡΙΟ τις κενές τιμές. Στους Operators αναζητούμε τον τελεστή Replace Missing Values. Τον σύρουμε στην περιοχή Main Process και τον συνδέουμε με το Filter Examples. Επιλέγουμε (κλικ) το εικονίδιο Replace Missing Values και από τις παραμέτρους να αλλάξουμε όλες τις κενές τιμές στο πεδίο EXPFLAG σε μηδέν (0). Αριστομένης Μακρής 14 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner Προσθέτουμε και ένα δεύτερο εικονίδιο Replace Missing Values για το πεδίο IMPFLAG. Προσθέτουμε και ένα τρίτο εικονίδιο Replace Missing Values για το πεδίο ΧΡΗΜ/ΡΙΟ με τιμή «Όχι» εάν είναι κενό.. 8.2.4. REPLACE Θα αντικαταστήσουμε τις τιμές «*» στα πεδία EXPFLAG και IMPFLAG με ένα (1) και στο πεδίο ΧΡΗΜ/ΡΙΟ με «Ναι». Επιλέγουμε και σύρουμε τον τελεστή Replace και τον συνδέουμε στη συνέχεια της ροής. Αριστομένης Μακρής 15 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner Επιλέγουμε να αντικαταστήσουμε στο πεδίο EXPFLAG σε όλες τις λογικές εγγραφές το «*» με ένα (1). Αριστομένης Μακρής 16 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner Επιλέγουμε να αντικαταστήσουμε στο πεδίο IMPFLAG σε όλες τις λογικές εγγραφές το «*» με ένα (1). Τέλος επιλέγουμε να αντικαταστήσουμε στο πεδίο ΧΡΗΜ/ΡΙΟ σε όλες τις λογικές εγγραφές το «*» με «Ναι». Αριστομένης Μακρής 17 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner 8.2.5. GENERATE ATTRIBUTES Θα δημιουργήσουμε και δυο νέα υπολογιζόμενα πεδία, τον κύκλο εργασιών (τζίρο) Εισαγωγών και Εξαγωγών. Αναζητούμε τον τελεστή Generate Attributes και τον σύρουμε στη ροή. Στις παραμέτρους επιλέγουμε Edit List και αρχίζουμε την καταχώρηση του πρώτου πεδίου. Επιλέγουμε το εικονίδιο του υπολογισμού. Και καταχωρούμε την συνάρτηση υπολογισμού. Αριστομένης Μακρής 18 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner Κατά παρόμοιο τρόπο προσθέτουμε νέο πεδίο (Add Entry) και υπολογίζουμε τον κύκλο εργασιών (τζίρο) εξαγωγών. Τέλος επιλέγουμε Apply. Αριστομένης Μακρής 19 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner 8.2.6. CONVERT NOMINAL TO NUMERICAL Επειδή κατά την αντικατάσταση των κενών και των «*» στα πεδία EXPFLAG και IMPFLAG οι αντίστοιχες τιμές μηδέν (0) και ένα (1) δεν είναι αριθμητικές, θα πρέπει να αντικατασταθούν ώστε να γίνουν αριθμητικές. Αναζητούμε τον κατάλληλο τελεστή και τον βρίσκουμε Nominal to Numerical. Σύρουμε στην περιοχή Main Process και από τις παραμέτρους επιλέγουμε subset και από τα πεδία EXPFLAG και IMPFLAG. Προσέχουμε ώστε η μετατροπή να γίνει σε unique integers. Αριστομένης Μακρής 20 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner 8.2.7. WRITE EXCEL Σαν τελευταίο βήμα θα αποθηκεύσουμε το αποτέλεσμα της επεξεργασίας σαν Excel με όνομα ICAP02 για περαιτέρω επεξεργασία. Αποθηκεύουμε ξανά την όλη επεξεργασία. Τέλος εκτελώ την όλη ροή επιλέγοντας το αντίστοιχο εικονίδιο. Αριστομένης Μακρής 21 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner 8.2.7. ΤΟ ΑΠΟΤΕΛΕΣΜΑ Με την ολοκλήρωση της εκτέλεσης το πρόγραμμα πηγαίνει αυτόματα στα αποτελέσματα (Results). Παρατηρώ ότι μπορώ να δω τα δεδομένα και στην αρχή της ροής (ICAP01) αλλά και στο τέλος (που εμφανίζονται αυτόματα). Επιλέγω τα στατιστικά. Αριστομένης Μακρής 22 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner Παρατηρώ ότι δεν έχω πλέον κενά (Missing Values). Το σύστημα υποστηρίζει και στατιστική και γραφική απεικόνιση (Charts) των αποτελεσμάτων. Αριστομένης Μακρής 23 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner 8.2.8. ΤΟ EXCEL ΤΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ. Το τελικό βήμα της επεξεργασίας είναι η δημιουργία του αρχείου Excel ICAP02. Αλλάζουμε διαμόρφωση των πεδίων για να μπορούμε να βλέπουμε τους κύκλους εργασιών. Αριστομένης Μακρής 24 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner 8.3. ΑΥΤΟΔΥΝΑΜΗ ΕΠΕΞΕΡΓΑΣΙΑ (QUERIES) ΑΠΟ ΤΟ EXCEL Για να αποφύγουμε την καταχώρηση των δεδομένων σε βάση δεδομένων για τη δημιουργία ερωτημάτων, μπορούμε να χρησιμοποιήσουμε τη δυνατότητα του Excel να ορίζει ότι μια περιοχή ενός φύλλου εργασίας θα συμπεριφέρεται σαν βάση δεδομένων. Επιλέγουμε όλες τις στήλες του φύλλου (Α- Ρ) και Insert – Table. Δίνουμε ΟΚ για τη δημιουργία του πίνακα και το αποτέλεσμα είναι όλες οι στήλες να γίνονται φίλτρα, ώστε να μπορούμε να κάνουμε επιλογές (π.χ. επιλέγουμε από τους κλάδους μόνο τις εμπορικές επιχειρήσεις) και να επεξεργαζόμαστε το αποτέλεσμα των επιλογών μας στο Excel. Αριστομένης Μακρής 25 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner 8.4. ΠΟΛΥΔΙΑΣΤΑΤΗ ΑΝΑΛΥΣΗ (PIVOT TABLES) ΑΠΟ ΤΟ EXCEL Ανοίγουμε το αποτέλεσμα της επεξεργασίας ICAP02 και αφού επιλέξουμε τις στήλες (Α- Ρ) Insert – Pivot Table. Πλέον έχουμε στη διάθεσή μας όλες τις δυνατότητες της πολυδιάστατης ανάλυσης που ήδη εξετάστηκαν. Αριστομένης Μακρής 26 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner 8.5. ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ (DATA MINING) ΑΠΟ ΤΟ RAPID MINER Θα επανεισάγουμε τα δεδομένα ICAP02 στο Rapid Miner για περαιτέρω ανάλυση, μέσω Import Excel Sheet στα Repositories και το αποθηκεύουμε στο φάκελο BIBA στα data σαν ICAP02. Ανοίγουμε το αρχείο (2 κλικ) για να αναλύσουμε τα δεδομένα. Αναλύουμε τα στατιστικά και παρατηρούμε τα διαγράμματα (Open chart). Μπορούμε έτσι να αναλύσουμε τις διάφορες παραμέτρους μεταξύ τους επάνω στα διαγράμματα. Αριστομένης Μακρής 27 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner 8.5.1.CLUSTERING Θα προσπαθήσουμε να δημιουργήσουμε κάποιες ομαδοποιήσεις από το αρχείο ICAP02 για να μελετήσουμε τις ομάδες και τα χαρακτηριστικά τους. Πρέπει κατ’ αρχάς να επιλέξουμε πεδία. Κατόπιν θα επιλέξουμε αλγόριθμο ομαδοποίησης. Επιλέγουμε τον αλγόριθμο k-Means (fast) και τις παραμέτρους. Η παράμετρος add cluster attribute θα προσθέσει μια στήλη με την ονομασία κάθε cluster. Τέλος επιλέγουμε να αποθηκεύσουμε τα αποτελέσματα στο αρχείο ICAP03. Αριστομένης Μακρής 28 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner Αποθηκεύουμε την επεξεργασία σαν (save as) ICAP_CLUSTERING και εκτελούμε. Με βάση τις παραμέτρους το σύστημα δημιούργησε 5 ομάδες τις οποίες μπορούμε να αναλύσουμε είτε μέσα στο πακέτο είτε από το excel ICAP03 που δημιουργήθηκε. Ανοίγουμε τα διαγράμματα. Μπορούμε να συγκρίνουμε τα οικονομικά μεγέθη των κλάδων όπως: Αριστομένης Μακρής 29 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner Μπορούμε επίσης να αναλύσουμε περαιτέρω τα χαρακτηριστικά κάθε ομάδας στα Advanced Charts. Τα αποτελέσματα της διεργασίας (ICAP03) μπορούμε να τα επεξεργαστούμε από το Excel για περαιτέρω ανάλυση. Αριστομένης Μακρής 30 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner Αν τώρα θελήσουμε να επιλέξουμε κάποια συγκεκριμένη ομάδα, μπορούμε να προσθέσουμε ένα φίλτρο στη ροή. 8.5.2.CORRELATION Τα δεδομένα της προηγούμενης ανάλυσης (ICAP03) μπορούμε να τα εισαγάγουμε στο Rapid Miner ώστε να εξετάσουμε τις συσχετίσεις ανάμεσα στα διάφορα πεδία. Αριστομένης Μακρής 31 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner Εκτελούμε τη νέα ροή και παρατηρούμε τα αποτελέσματα της ανάλυσης. Παρατηρούμε την υψηλή συσχέτιση ανάμεσα στον τζίρο και την ομάδα (cluster) και τον τζίρο και το προσωπικό. 8.5.3.DECISION TREES Καταχωρούμε την ακόλουθη ροή. Το πρώτο εικονίδιο είναι το αρχείο ICAP02 που δημιουργήσαμε νωρίτερα (drug & drop στην περιοχή Main Process) Στόχος είναι η δημιουργία ενός δένδρου αποφάσεων βάσει του οποίου μπορούμε να προβλέψουμε αν μια επιχείρηση είναι εξαγωγική (EXFLAG) με βάση άλλα κριτήρια. Επιλέγουμε τον τελεστή Select Attributes και μετά επιλέγουμε τα πεδία ανάλυσης και Apply. Αριστομένης Μακρής 32 Εργαστήρια ETL, OLAP και Data Mining με Excel & Rapid Miner Επιλέγουμε τον τελεστή (convert) Numerical to Binomial γιατί η μεταβλητή EXPFLAG θα είναι η κατευθυνόμενη μεταβλητή βάσει της οποίας θα γίνει η πρόβλεψη και δεν μπορεί να είναι αριθμός. Επιλέγουμε τον τελεστή Set Role ώστε να ορίσουμε την μεταβλητή στόχευσης EXPFLAG (target role=label). Τέλος επιλέγουμε τον τελεστή Decision Tree, συνδέουμε τους τελεστές όπως στο διάγραμμα και εκτελούμε. Το αποτέλεσμα είναι η δημιουργία ενός δένδρου αποφάσεων στο οποίο απουσιάζει ο Νομός. Άρα τα γεωγραφικά κριτήρια δεν επηρεάζουν αν μια επιχείρηση θα έχει εξαγωγική δραστηριότητα. Αριστομένης Μακρής 33
© Copyright 2024 Paperzz