Στατιστική με την γλώσσα R

Εισαγωγή στη Στατιστική Ανάλυση με τη Γλώσσα
Προγραμματισμού Στατιστικής R
Την τελευταία δεκαετία, η γλώσσα προγραμματισμού R έχει αποκτήσει μία
εκρηκτική δημοσιότητα ενώ υπολογίζεται ότι πάνω από τρία εκατομμύρια αναλυτές
χρησιμοποιούν τη συγκεκριμένη εναλλακτική επιλογή ως κύριο στατιστικό εργαλείο
για τις αναλύσεις τους. Παράλληλα, αποτελεί μία από τις καλύτερες επιλογές στην
ακαδημαϊκή κοινότητα καθώς επιλύει απαιτητικά ερευνητικά ερωτήματα
καλύπτοντας ένα ευρύ φάσμα από επιστήμες της βιολογίας και της ιατρικής μέχρι και
τις οικονομικές επιστήμες. Το αποτέλεσμα είναι η ραγδαία αύξηση τόσο των
αναλυτών που τη χρησιμοποιούν, όσο και των εφαρμογών που αναπτύσσονται σε
αυτήν από μεγάλες εταιρίες που διαχειρίζονται δεδομένα, όπως η Google, το
Facebook και το Linkedln. Το κυριότερο πλεονέκτημα εκτός από τις συνεχώς
αυξανόμενες δυνατότητες της, έναντι σε άλλες γλώσσες και στατιστικά πακέτα, όπως
το SPSS, SAS και Stata αποτελεί το γεγονός ότι είναι μία γλώσσα ανοικτού κώδικα
(open-source language) και επομένως, δεν απαιτείται η αγορά άδειας για τη χρήση
της.
Το σεμινάριο επικεντρώνεται σε βασικά θέματα που αφορούν την στατιστική
ανάλυση δεδομένων και παρουσίαση των αποτελεσμάτων με τη χρήση της γλώσσας
R. Ιδιαίτερη βαρύτητα δίνεται στην κατανόηση του τρόπου λειτουργίας της R και των
βασικών δομών που χρησιμοποιούνται από αυτήν για την εισαγωγή, χειρισμό και
ανάλυση των δεδομένων.
Σκοποί Σεμιναρίου
Οι κυριότεροι σκοποί του σεμιναρίου είναι:
1.
2.
3.
4.
Εισαγωγή των χρηστών στη στατιστική γλώσσα προγραμματισμού R.
Εξοικείωση και εκμάθηση του περιβάλλοντος της R.
Εξοικείωση και εκμάθηση του γραφικού περιβάλλοντος του RStudio.
Εκμάθηση βασικών στατιστικών μεθόδων ανάλυσης δεδομένων και ερμηνεία των
αποτελεσμάτων μέσω του RStudio.
Στόχοι του Σεμιναρίου
Το σεμινάριο θα επιτρέψει στους εκπαιδευόμενους να:
1. Χειρίζονται με ευχέρεια το γραφικό περιβάλλον του RStudio.
2. Εισάγουν δεδομένα από διάφορους τύπων αρχείων, όπως xls, txt, csv κτλ. στο
RStudio.
3. Χειρίζονται με ευχέρεια τα δεδομένα τους.
4. Κατασκευάζουν κατάλληλες γραφικές παραστάσεις για μονομεταβλητά και
πολυμεταβλητά δεδομένα.
5. Διεξάγουν βασικούς παραμετρικούς (t-tests κτλ.) και μη-παραμετρικούς
στατιστικούς ελέγχους υποθέσεων (Wilcoxon, Mann-Whitney κτλ.).
6. Κατασκευάσουν μοντέλα γραμμικής παλινδρόμησης.
7. Διεξάγουν στατιστικούς ελέγχους υποθέσεων με τη βοήθεια της Ανάλυσης
Διασποράς (ANOVA).
8. Μάθουν βασικές έννοιες προγραμματισμού της στατιστικής γλώσσας R.
Σε ποιους απευθύνεται
Σε οποιονδήποτε έχει λίγη ή καθόλου εμπειρία στην χρήση της στατιστικής γλώσσας
προγραμματισμού R και θέλει να γίνει επιδέξιος και αποτελεσματικός χρήστης του
λογισμικού καθώς και σε όσους δεν γνωρίζουν τις βασικές αρχές της στατιστικής
μεθοδολογίας ή θα ήθελαν να θυμηθούν έννοιες που έχουν ακούσει στο παρελθόν,
αλλά που δεν έχουν χρησιμοποιήσει για να αναλύσουν δεδομένα.
Προαπαιτούμενα
Δεν απαιτείται προϋπάρχουσα εμπειρία ή εξειδικευμένες γνώσεις της R.
Απαραίτητο Λογισμικό
Προκειμένου να μπορέσουν όσοι παρακολουθήσουν το σεμινάριο να εφαρμόζουν
στην πράξη αυτά που θα διδαχθούν θα πρέπει να διαθέτουν τη στατιστική γλώσσα R
και το RStudio και να το έχουν εγκατεστημένο στον φορητό υπολογιστή τους.
Η στατιστική γλώσσα R διατίθεται ελεύθερα από τον ιστότοπο http://r-project.org
Το RStudio διατίθεται επίσης ελεύθερα από τον ιστότοπο http://www.rstudio.com
Διάρκεια
Συνολική διάρκεια των μαθημάτων 12 ώρες, οι οποίες θα πραγματοποιηθούν σε
διάστημα 2 ημερών (συνήθως Σάββατο και Κυριακή). Τα μαθήματα και τις δύο μέρες
θα ξεκινάνε στις 10:00 και θα τελειώνουν στις 16:00.
Ενότητες – Σχέδιο Μαθημάτων
Μέρα 1 (6 ώρες 10:00-16:00)
Ενότητα 1 – Εισαγωγή στην R
Εισαγωγή, βασικές έννοιες, γνωριμία με το περιβάλλον της R και του RStudio,
εύρεση πηγών και βοήθειας για την R, βήματα και πρακτικές για
διεξαγωγή στατιστικής ανάλυσης δεδομένων, εκτέλεση βασικών εντολών για
εισαγωγή, εξαγωγή αρχείων.
Ενότητα 2 – Χειρισμός δεδομένων
Μεθοδολογίες χειρισμού δεδομένων για την εξαγωγή πληροφορίας από τα σύνολα
δεδομένων, προετοιμασία δεδομένων, ελλείπουσες παρατηρήσεις, υποσύνολα,
μετασχηματισμοί. Δομές δεδομένων, διάνυσμα, λογικά διανύσματα, πίνακες,
dataframes, λίστες και arrays.
Ενότητα 3 - Οπτική αναπαράσταση και γραφικές παραστάσεις
Γραφικές παραστάσεις για ποσοτικές (ιστόγραμμα, Q-Q plot, ) και ποιοτικές
(ραβδογράμματα, κυκλικά διαγράμματα) μεταβλητές, κατανομή, ανακάλυψη
συσχετίσεων και μοτίβων πολλαπλών μεταβλητών, κατάλληλες πρακτικές για
γραφική διερευνητικά ανάλυση δεδομένων. High και low level εντολές,
αλληλεπίδραση και παράμετροι γραφικών παραστάσεων.
Ενότητα 4 – Περιγραφική στατιστική και διερευνητική ανάλυση
Μέτρα κεντρικής θέσης. Μέτρα διασποράς. Πίνακες συχνοτήτων και συνάφειας.
Μέρα 2 (6 ώρες 10:00-16:00)
Ενότητα 1 – Στατιστική συμπερασματολογία και έλεγχοι
υποθέσεων
Στατιστική συμπερασματολογία. Παραμετρικοί έλεγχοι υποθέσεων (t-tests) για
συσχετισμένα/ασυσχέτιστα δείγματα.
Ενότητα 2 - Στατιστική μοντελοποίηση
Συσχέτιση μεταβλητών, συντελεστής συσχέτισης, διάγραμμα διασποράς.
Παλινδρόμηση, υπολογισμός ευθείας ελαχίστων τετραγώνων, αξιολόγηση της
ευθείας παλινδρόμησης , μέτρα προσαρμογής.
Ενότητα 3 - Ανάλυση διακύμανσης (ANalysis Of Variance-ANOVA)
Εισαγωγή στην μεθοδολογία της ανάλυσης διακύμανσης ANOVA. Ζευγαρωτοί
έλεγχοι υποθέσεων για πολλαπλές συγκρίσεις (post-hoc analysis).
Ενότητα 4 - Εισαγωγή στον προγραμματισμό στην R
Πρακτικές και για συγγραφή συναρτήσεων στην R. (if-else, loops κτλ).
Παρατηρήσεις
Πρέπει να σημειωθεί ότι τουλάχιστον 6 ώρα από τις 12 που θα διαρκέσει το
σεμινάριο θα αφιερωθούν στην πρακτική άσκηση των συμμετεχόντων στην επίλυση
βιοϊατρικών προβλημάτων στατιστικής ανάλυσης με πραγματικά δεδομένα και με τη
βοήθεια του κατάλληλου στατιστικού λογισμικού.
Εκπαιδευτικό Υλικό - Βεβαίωση
Κατά τη διάρκεια του σεμιναρίου παρέχεται πλήρες εκπαιδευτικό υλικό, στο οποίο
γίνεται ανασκόπηση όλης της θεωρίας, αλλά και της πρακτικής εξάσκησης που
διδάσκεται. Μετά το πέρας του σεμιναρίου παρέχεται επίσης βεβαίωση επιτυχούς
παρακολούθησης.