` degli Studi di Trieste Universita Anno Accademico 2013-2014 Corso di Laurea Magistrale in Biotecnologie Mediche Biostatistica informazioni per gli studenti Autore Massimo Borelli 24 febbraio 2014 Indice 1 Informazioni di legge sulla sicurezza 2 2 Informazioni generali sul Corso 2.1 Definizione delle modalit` a d’esame per studentesse e studenti ’frequentanti’ il corso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 Come si effettuer` a l’esame . . . . . . . . . . . . . . . . . . . . . . 2.1.2 Software per l’analisi statistica del dataset . . . . . . . . . . . . . 2.1.3 Presentazione (slides) . . . . . . . . . . . . . . . . . . . . . . . . 2.1.4 Valutazione della comunicazione . . . . . . . . . . . . . . . . . . 2.2 Definizione delle modalit` a d’esame per studentesse e studenti ’non frequentanti’ il corso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Orari di svolgimento dell’attivit`a didattica . . . . . . . . . . . . . . . . . 2.4 Reperibilit` a del personale docente per chiarimenti e spiegazioni . . . . . 2.5 Conoscenze preliminari per la comprensione degli argomenti trattati . . 2.5.1 Questionario di autovalutazione . . . . . . . . . . . . . . . . . . . 2.6 Motivazioni per lo studio della disciplina . . . . . . . . . . . . . . . . . . 2.7 Carico di studio dell’insegnamento in proporzione ai crediti . . . . . . . 2.8 Materiale didattico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.9 Attivit` a didattiche integrative . . . . . . . . . . . . . . . . . . . . . . . 3 . . . . . 4 4 4 4 6 . . . . . . . . . 7 8 8 8 10 14 14 15 15 3 Finalit` a del Corso di Biostatistica 16 4 Programma preliminare 16 1 1 Informazioni di legge sulla sicurezza Secondo le norme vigenti e secondo il Regolamento d’Ateneo, il docente `e preposto alla sicurezza nei confronti degli studenti, sia durante l’orario di lezione che durante le sessioni d’esame. In particolare, le procedure di autotutela ed autoprotezione prevedono che, in caso di una rapida evacuazione dell’edificio, si seguano alcune raccomandazioni • al segnale d’allarme, gli studenti in silenzio si preparano ad abbandonare l’aula • non si deve indugiare a prendere con s´e gli effetti personali • si indossa il cappotto nella stagione fredda • si ascoltano le istruzioni che vengono impartite dal docente • gli studenti escono dall’aula accodandosi ’in fila indiana’ • le vie d’esodo si percorrono camminando a passo veloce, ma senza correre • giunti al posto di raccolta il docente e gli studenti constatano il nominativo di eventuali ’dispersi’ • gli studenti non si devono allontanare dal posto di raccolta se non dopo aver ottenuto l’autorizzazione del docente, di concerto con il responsabile del servizio protezione e delle autorit intervenute • gli studenti sono tenuti a prendersi cura dei loro compagni di banco con disabilitmotorie; ` il docente provvede ad indicare le corrette modalit di trasporto a braccia dei disabili, se non siano state preventivamente individuate delle zone di rifugio temporaneo • il docente uscir` a per ultimo, dopo aver verificato che l’aula sia completamente vuota • fino all’arrivo dei soccorsi proibito l’uso del telefono cellulare Per ulteriori informazioni, `e opportuno fare riferimento ai siti web: http://www.dmi.units.it/ borelli/sicurezza/index.html http://www2.units.it/prevenzione/ 2 2 Informazioni generali sul Corso Nell’intento di migliorare continuamente la qualit`a didattica, riportiamo nella tabella seguente le ’valutazioni della dididattica’ riportate nel corso dell’anno accademico 20122013, cui fanno seguito indicazioni relative alle domande da D3 a D11. 3 2.1 Definizione delle modalit` a d’esame per studentesse e studenti ’frequentanti’ il corso Per frequentante si intende uno/a studente/ssa che possiede i seguenti due requisiti: 1. ha partecipato ad almeno la met`a delle lezioni in aula 2. ha accumulato almeno sei punti, alla data del 15 aprile 2014, nelle attivit`a di studio individuale riportate sul sito web del corso 2.1.1 Come si effettuer` a l’esame L’esame avr` a carattere seminariale: in una data che concorderemo ogni studente presenter`a un argomento, avvalendosi di alcune slides, alla Commissione d’esame. La presentazione verr` a strutturata come una brief communication della durata di otto minuti, cui faranno seguito alcuni minuti di discussione. Nella comunicazione gli studenti esporranno i risultati della analisi statistica multivariata condotta su un dataset concordato con il docente, nel quale saranno presenti (come sar`a chiarito durante il corso): • pi` u predittori + almeno una variabile fattore a tre (o pi` u) livelli + almeno una variabile numerica • una risposta (di tipo numerico, o fattore, o count) • la presenza di misure ripetute ovvero di un carattere longitudinale 2.1.2 Software per l’analisi statistica del dataset ` obbligatorio eseguire l’analisi con R. Gli esaminandi sono incoraggiati ad eseguire E l’analisi anche con altri software e di comparare gli output ottenuti, presentando alla Commissione i risultati. 2.1.3 Presentazione (slides) La comunicazione deve essere supportata da delle slides, preparate secondo le modalit`a qui di seguito esposte. La Commissione non valuter`a l’aspetto estetico delle slides (immagini animate, video, suoni, animazioni, transizioni, ...) bens`ı la leggibilit`a e la consequenzialit` a della presentazione. 4 La prima slide deve contenere le generalit`a dell’esaminando e il ’titolo’ della comunicazione. Si suggerisce di usare sfondi chiari e di non esagerare nell’uso dei colori. Si consulti anche quanto previsto dall’Immagine Coordinata di Ateneo: http://www.units.it/intra La seconda slide (ma solo la seconda slide) deve contenere un’inquadramento di quello che `e il problema ` opbiomedico di cui ci si occupa. E portuno che gli esaminandi spieghino con termini semplici (ancorch`e rigorosi) la problematica trattata, facendo in modo che sia gli altri studenti che la commissione possano inquadrare l’ambito della ricerca. Si raccomanda di dedicare al pi` u uno o due minuti al commento di questa slide. La terza slide (ma solo la terza slide) deve illustrare il dataset, evidenziando tutte le sue colonne, ed un certo numero di righe che permettano alla Commissione di cogliere la natura delle variabili in esame. Il titolo della terza slide deve riassumere quale `e la domanda di ricerca cui l’esaminando vuole dare risposta mediante l’analisi statistica mul` opportuno soffermarsi su tivariata. E questa slide un paio di minuti descrivendo ciascuna variabile, mettendo in luce quali sono le covariate, quale `e la risposta. 5 Il tempo rimanente, circa quattro minuti, deve essere utilizzato per mostrare alla Commissione ulteriori slides (non pi` u di due o tre) nelle quali il candidato mette in luce con dei grafici opportuni e/o con delle tabelle opportune i risultati ottenuti. Il candidato avr` a cura di specificare quali pacchetti di R sono stati utilizzati e quali metodologie di analisi sono state utilizzate. Non `e necessario mettere alcuna slide conclusiva nella quale si ringraziano colleghi, amici, parenti, relatori e correlatori. Conclusa l’esposizione, la Commissione avr`a un paio minuti di tempo per discutere gli aspetti tecnici dell’analisi condotta. 2.1.4 Valutazione della comunicazione La Commissione utilizzer` a una ’griglia di valutazione’ nella quale ogni item verr`a giudicato secondo una scala Likert: • positivo (tre punti) • con ’minor concern(s)’ (due punti) • con ’major concern(s)’ (un punto) • negativo (zero punti) Gli elementi di valutazione della ’griglia’ riguarderanno: 1. il problema biomedico `e stato presentato correttamente 2. il dataset soddisfa i requisiti minimi previsti 3. la domanda di ricerca `e stata chiarita 4. il dataset `e stato commentato in maniera appropriata 5. le slides sono leggibili dal pubblico 6. gli (eventuali) grafici presentati sono pertinenti 7. le (eventuali) tabelle presentate sono pertinenti 8. il lessico `e appropriato 9. la metodologia utilizzata `e appropriata 6 10. `e stata effettuata l’analisi descrittiva univariata 11. `e stata effettuata l’analisi inferenziale univariata 12. i modelli proposti sono stati diagnosticati 13. il tempo di esposizione previsto `e stato rispettato 14. eventuali ulteriori elementi di spicco o di eccellenza punti voto punti voto punti voto 19 20 21 22 23 24 25 26 18 19 19 20 21 22 22 23 27 28 29 30 31 32 33 34 24 24 25 25 26 27 27 28 35 36 37 38 39 40 41 42 28 29 29 30 30 30 lode lode Il voto conclusivo verr` a determinato utilizzando questa funzione di conversione: voto = function(x){trunc(0.5 + 30 * tanh(x/39) / tanh(1))} 2.2 Definizione delle modalit` a d’esame per studentesse e studenti ’non frequentanti’ il corso Per non frequentante si intende uno/a studente/ssa che non possiede almeno uno tra i seguenti due requisiti: 1. aver partecipato ad almeno la met`a delle lezioni in aula 2. aver accumulato almeno sei punti, alla data del 15 aprile 2014, nelle attivit`a di studio individuale riportate sul sito web del corso Inviate agli indirizzi [email protected] e [email protected] una richiesta di sostenere l’esame, indicandomi le vostre generalit`a. L’esame verter`a in una prova pratica di analisi dei dati ed un colloquio su argomenti che concorderemo assieme. 7 2.3 Orari di svolgimento dell’attivit` a didattica Sulla base del calendario stabilito, si prevede che l’attivit`a didattica si terr`a, in un’aula del comprensorio universitario che verr`a comunicata a breve, secondo questo calendario: • 10 marzo, dalle 14:00, tre ore • 11 marzo, dalle 14:30, quattro ore • 17 marzo, dalle 14:00, tre ore • 18 marzo, dalle 14:30, due ore • 24 marzo, dalle 14:00, tre ore • 25 marzo, dalle 14:30, due ore • 31 marzo, dalle 14:00, tre ore • 8 aprile, dalle 14:30, quattro ore • 14 aprile: eventuale data di recupero 2.4 Reperibilit` a del personale docente per chiarimenti e spiegazioni Il docente `e reperibile su appuntamento diretto con gli studenti. Per concordare un appuntamento `e sufficiente inviare una mail all’indirizzo [email protected] (per sicurezza, avendo notato gi` a in due occasioni che possono avvenire dei disservizi nel server di posta interna di Ateneo, `e opportuno inviare per conoscenza anche una mail all’indirizzo [email protected] ). Il docente si impegna, salvo cause di forza maggiore, a rispondere alla mail entro le 24 ore dall’invio e si impegna di fissare un appuntamento nell’arco di sette giorni. L’ufficio del docente `e situato in via Alfonso Valerio 12/1 a Trieste presso il Dipartimento di Matematica e Geoscienze, Edificio H2 bis al terzo piano nella stanza 338: http://maps.google.it/maps?q=45.659962+13.796103 2.5 Conoscenze preliminari per la comprensione degli argomenti trattati Come prerequisito, si assume che gli studenti abbiano appreso i temi trattati ad esempio nel corso integrato di Statistica e Informatica che viene tenuto dal professor Lucio Torelli nel Corso di Laurea in Biotecnologie al primo anno (6 crediti): 8 STATISTICA DESCRITTIVA. Rappresentazione dei dati: tabelle e grafici. Frequenze assolute e frequenze relative. Misure di sintesi numerica. Misure di tendenza centrale: medie, mediana, moda e loro confronto. Misure di dispersione: intervallo di variazione, varianza, scarto quadratico medio, coefficiente di variazione, percentili. I boxplot. PROBABILITA’. Problema di come associare ad un evento un grado di fiducia nel verificarsi dell’evento stesso. Spazio degli eventi elementari, unione, intersezione e complementare di eventi, eventi incompatibili. Assiomi di Kolmogorov. Definizioni di probabilit` a: classica, frequentista e soggettivista. La legge dei grandi numeri (cenni).Probabilit` a condizionata. Probabilit`a condizionata e genetica. Tavole 2x2. Eventi statisticamente indipendenti. Formula di Bayes e sue applicazioni. Partizione dell’evento certo. Valori predittivi di test diagnostici. Le curve ROC. Prevalenza e incidenza di una malattia. Grafi ad albero e applicazioni. VARIABILI ALEATORIE. Variabili aleatorie (v.a.) discrete e distribuzioni (leggi) di probabilit` a. V.a. indipendenti. Valore atteso (valor medio), varianza e covarianza di v.a. discrete. Processi bernoulliani e loro distribuzione di probabilit`a. V.a. binomiali. Il comando Excel DISTRIB.BINOM V.a. continue, funzione di ripartizione, funzione densit`a di probabilit` a. Valore atteso (valor medio) e varianza. V.a. normali e principali propriet`a. I comandi Excel DISTRIB.NORM e INV.NORM V.a. con altre distribuzioni di probabilit` a e, in particolare, cenni sulla legge della t di Student, del Chi quadrato. INFERENZA STATISTICA. Media e varianza campionaria. Da una popolazione normale, intervallo di fiducia (confidence interval) del valor medio. Il comando Excel CONFIDENZA Verifica (test) di ipotesi: ipotesi nulla, significativit`a, potenza; il p-value. Il t-test. Comando Excel TEST.T Il test del Chi quadrato di indipendenza. Cenni su test non parametrici: Mann-Whitney e Wilcoxon. Un testo appropriato per rivedere queste nozioni si trova in Biblioteca Centrale di Medicina: An introduction to medical statistics, Martin Bland. Oxford University Press, 2000. L’ateneo dispone anche una copia digitale della traduzione italiana del testo. Per chi volesse inoltre , `e possibile fare riferimento a tre dispense disponibili in rete all’indirizzo: http://www.dmi.units.it/ borelli/excel/index.html La conoscenza dei prerequisiti verr`a accertata per mezzo del seguente questionario autovalutativo individuale, fornito al primo giorno di lezione. 9 2.5.1 Questionario di autovalutazione STATISTICA DESCRITTIVA. Rappresentazione dei dati: tabelle e grafici. Frequenze assolute e frequenze relative. Misure di sintesi numerica. Misure di tendenza centrale: medie, mediana, moda e loro confronto. Misure di dispersione: intervallo di variazione, varianza, scarto quadratico medio, coefficiente di variazione, percentili. I boxplot. 10 5 0 Frequency 15 peso 40 50 60 70 80 90 peso 1. Quanti sono, approssimativamente, i dati della variabile peso qui raffigurati? 2. Quanto potrebbe valere la mediana della variabile peso? 3. Quanto potrebbe valere la moda della variabile peso? 4. Quanto potrebbe valere la varianza della variabile peso: • circa 9.2 • circa 92 • circa 920 • non si pu` o sapere 5. Quanto potrebbe valere il 25-esimo percentile della variabile peso? 10 PROBABILITA’. Problema di come associare ad un evento un grado di fiducia nel verificarsi dell’evento stesso. Spazio degli eventi elementari, unione, intersezione e complementare di eventi, eventi incompatibili. Assiomi di Kolmogorov. Definizioni di probabilit` a: classica, frequentista e soggettivista. La legge dei grandi numeri (cenni). Probabilit` a condizionata. Probabilit` a condizionata e genetica. Tavole 2x2. Eventi statisticamente indipendenti. Formula di Bayes e sue applicazioni. Partizione dell’evento certo. Valori predittivi di test diagnostici. Le curve ROC. Prevalenza e incidenza di una malattia. Grafi ad albero e applicazioni. 1. Quale `e la probabilit` a, scegliendo a caso una di queste dieci persone, di scegliere un maschio M? 2. Scegliendo a caso un fumatore high, quale `e la probabilit`a che esso sia anche maschio? 3. Sapreste calcolare l’odds ratio tra la variabile gender e la variabile smoke? 4. A vostro giudizio (’ad occhio e croce’, senza fare calcoli) la variabile gender e la variabile smoke sono associate od indipendenti? 11 VARIABILI ALEATORIE. Variabili aleatorie discrete e distribuzioni di probabilit` a. V.a. indipendenti. Valore atteso (valor medio), varianza e covarianza di v.a. discrete. Processi bernoulliani e loro distribuzione di probabilit` a. V.a. binomiali. V.a. continue, funzione di ripartizione, funzione densit` a di probabilit` a. Valore atteso (valor medio) e varianza. V.a. normali e principali propriet` a. V.a. con altre distribuzioni di probabilit` a e, in particolare, cenni sulla legge della t di Student, del Chi quadrato. Figura 1: credits: http://en.wikipedia.org/wiki/File:Standard deviation diagram.svg Supponiamo di sapere che in una popolazione la media della statura valga 170 cm, che la deviazione standard valga 10 cm, e che tale carattere sia distribuito normalmente. 1. Sapreste dire, approssimativamente, quanto vale il 90-esimo percentile della distribuzione? 2. Quale `e, approssimativamente, la probabilit`a che una persona sia pi` u alta di 190 cm? 3. Quale potrebbe essere una stima intervallare della media con fiducia del 95 per cento? 12 INFERENZA STATISTICA. Media e varianza campionaria. Da una popolazione normale, intervallo di fiducia (confidence interval) del valor medio. Verifica (test) di ipotesi: ipotesi nulla, significativit` a, potenza; il p-value. Il t-test. Il test del Chi quadrato di indipendenza. Cenni su test non parametrici: Mann-Whitney e Wilcoxon. Eseguendo il t test a due code con il software R tra due gruppi bilanciati di soggetti (casi e controlli) otteniamo questo output data: casi and controlli t = 1.1105, df = 38, p-value = 0.2738 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.4582045 1.5717363 sample estimates: mean of x mean of y 0.2893011 -0.2674648 1. Cosa significa ’bilanciato’ ? Quanti sono i casi e controlli ? 2. Dove si rappresenta il quantile t nel grafico sottostante? 3. Come si rappresenta il p-value nel grafico sottostante? 0.2 0.1 0.0 dt(x, 38) 0.3 0.4 4. Come si interpreta il 95 percent confidence interval? -3 -2 -1 0 x 13 1 2 3 2.6 Motivazioni per lo studio della disciplina Per motivare gli studenti allo studio della disciplina, ad ogni argomento che verr`a trattato si anteporr` a la presentazione di un paper pertinente alle biotecnologie mediche in cui tale argomento assume effettivamente rilevanza scientifica, segnalando possibili errori legati ad una analisi condotta in maniera non appropriata. Ad esempio, nello studio di Kaur et al. apparso su BMC Cell Biol nel 2008 (Silencing of directional migration in roundabout4 knockdown endothelial cells) nelle figure A e B le barre di errore rappresentano la deviazione standard, mentre nel pannello C rappresentano lo standard error. Per quale motivo potrebbe essere stata fatta questa scelta? 2.7 Carico di studio dell’insegnamento in proporzione ai crediti Convenzionalmente 3 CFU sono pari a 75 ore di lavoro, indipendentemente se questo sia svolto come studio personale o come frequenza a laboratori o lezioni. Le lezioni frontali 14 occuperanno 24 ore e quindi le rimanenti 51 ore sono attribuite allo studio individuale ed alla esercitazione individuale al calcolatore. 2.8 Materiale didattico Il materiale didattico presentato durante il corso sar`a reso disponibile all’indirizzo web: http://www.dmi.units.it/~borelli/biotec/index.html 2.9 Attivit` a didattiche integrative Non sono previste attivit` a integrative. Conseguentemente le domande D11 e D13 non si applicano al nostro insegnamento. 15 3 Finalit` a del Corso di Biostatistica Il ciclo di lezioni si propone di introdurre i metodi di analisi statistica dei dati di laboratorio, presentando le tecniche inferenziali e di modellizzazione multivariabile dei fenomeni biomedici per mezzo del pacchetto statistico R. 4 Programma preliminare 10 marzo. Presentazione del corso, syllabus e bibliografia, presentazione delle risorse sul sito web. Introduzione informale alle caratteristiche del software R ([4], cap. 6); Autoverifica e richiami relativi alla statistica di base ([1], cap. 4, 5, 7: statistica descrittiva, i grafici pi` u comuni, la variabile aleatoria normale). I test di verifica delle ipotesi, il significato ed i misconcetti legati al p-value ([3], cap. 1) 11 marzo. Le variabili aleatorie t di Student, la binomiale e la Poisson. Normalizzare e standardizzare. La deviazione standard e lo standard error. Testare differenze tra gruppi: il test t e la Anova ([3], cap. 9); i comandi lm ed aov. 17 marzo. L’importante questione metodologica dei multiple comparison ([4], cap. 9; [2]). Il testo HSD di Tukey e il test di Dunnett. 18 marzo. La retta di regressione e la Ancova ([3], cap. 8); selezionare un modello minimale adeguato e diagnosticarlo. 24 marzo. I modelli lineari generalizzati binomiali e di Poisson ([3], cap. 13, cap. 16); come rimediare alla sovradispersione. 25 marzo. L’approccio old-fashioned alla questione delle pseudorepliche: Anova repeated measure. 31 marzo. Mixed models nei design con misure ripetute in duplicato/triplicato ([5]) 31 marzo. Mixed models nelle curve di crescita e nei design longitudinali ([5]) 16 Riferimenti bibliografici [1] Bland M. (2000). An introduction to medical statistics. Oxford University Press. (Traduzione italiana: Statistica Medica. Apogeo.) [2] Bretz F., Hothorn T., Westfall P. (2010). Multiple Comparisons Using R. CRC Press. [3] Crawley M. J. (2005). Statistics: An Introduction using R, Wiley. [4] Dr˘aghici S. (2011). Statistics and Data Analysis for Microarrays Using R and Bioconductor, Chapman and Hall/CRC. [5] West B.T., Welch K.B., Galecki A.T. (2007). Linear Mixed Model, Chapman Hall/CRC. 17
© Copyright 2024 Paperzz