syllabus - Dipartimento di Matematica e Informatica

` degli Studi di Trieste
Universita
Anno Accademico 2013-2014
Corso di Laurea Magistrale in Biotecnologie Mediche
Biostatistica
informazioni per gli studenti
Autore
Massimo Borelli
24 febbraio 2014
Indice
1 Informazioni di legge sulla sicurezza
2
2 Informazioni generali sul Corso
2.1 Definizione delle modalit`
a d’esame per studentesse e studenti ’frequentanti’ il corso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1 Come si effettuer`
a l’esame . . . . . . . . . . . . . . . . . . . . . .
2.1.2 Software per l’analisi statistica del dataset . . . . . . . . . . . . .
2.1.3 Presentazione (slides) . . . . . . . . . . . . . . . . . . . . . . . .
2.1.4 Valutazione della comunicazione . . . . . . . . . . . . . . . . . .
2.2 Definizione delle modalit`
a d’esame per studentesse e studenti ’non frequentanti’ il corso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Orari di svolgimento dell’attivit`a didattica . . . . . . . . . . . . . . . . .
2.4 Reperibilit`
a del personale docente per chiarimenti e spiegazioni . . . . .
2.5 Conoscenze preliminari per la comprensione degli argomenti trattati . .
2.5.1 Questionario di autovalutazione . . . . . . . . . . . . . . . . . . .
2.6 Motivazioni per lo studio della disciplina . . . . . . . . . . . . . . . . . .
2.7 Carico di studio dell’insegnamento in proporzione ai crediti . . . . . . .
2.8 Materiale didattico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.9 Attivit`
a didattiche integrative . . . . . . . . . . . . . . . . . . . . . . .
3
.
.
.
.
.
4
4
4
4
6
.
.
.
.
.
.
.
.
.
7
8
8
8
10
14
14
15
15
3 Finalit`
a del Corso di Biostatistica
16
4 Programma preliminare
16
1
1
Informazioni di legge sulla sicurezza
Secondo le norme vigenti e secondo il Regolamento d’Ateneo, il docente `e preposto alla
sicurezza nei confronti degli studenti, sia durante l’orario di lezione che durante le sessioni
d’esame. In particolare, le procedure di autotutela ed autoprotezione prevedono che, in
caso di una rapida evacuazione dell’edificio, si seguano alcune raccomandazioni
• al segnale d’allarme, gli studenti in silenzio si preparano ad abbandonare l’aula
• non si deve indugiare a prendere con s´e gli effetti personali
• si indossa il cappotto nella stagione fredda
• si ascoltano le istruzioni che vengono impartite dal docente
• gli studenti escono dall’aula accodandosi ’in fila indiana’
• le vie d’esodo si percorrono camminando a passo veloce, ma senza correre
• giunti al posto di raccolta il docente e gli studenti constatano il nominativo di
eventuali ’dispersi’
• gli studenti non si devono allontanare dal posto di raccolta se non dopo aver ottenuto l’autorizzazione del docente, di concerto con il responsabile del servizio
protezione e delle autorit intervenute
• gli studenti sono tenuti a prendersi cura dei loro compagni di banco con disabilitmotorie;
`
il docente provvede ad indicare le corrette modalit di trasporto a braccia
dei disabili, se non siano state preventivamente individuate delle zone di rifugio
temporaneo
• il docente uscir`
a per ultimo, dopo aver verificato che l’aula sia completamente
vuota
• fino all’arrivo dei soccorsi proibito l’uso del telefono cellulare
Per ulteriori informazioni, `e opportuno fare riferimento ai siti web:
http://www.dmi.units.it/ borelli/sicurezza/index.html
http://www2.units.it/prevenzione/
2
2
Informazioni generali sul Corso
Nell’intento di migliorare continuamente la qualit`a didattica, riportiamo nella tabella
seguente le ’valutazioni della dididattica’ riportate nel corso dell’anno accademico 20122013, cui fanno seguito indicazioni relative alle domande da D3 a D11.
3
2.1
Definizione delle modalit`
a d’esame per studentesse e studenti ’frequentanti’ il corso
Per frequentante si intende uno/a studente/ssa che possiede i seguenti due requisiti:
1. ha partecipato ad almeno la met`a delle lezioni in aula
2. ha accumulato almeno sei punti, alla data del 15 aprile 2014, nelle attivit`a di studio
individuale riportate sul sito web del corso
2.1.1
Come si effettuer`
a l’esame
L’esame avr`
a carattere seminariale: in una data che concorderemo ogni studente presenter`a un argomento, avvalendosi di alcune slides, alla Commissione d’esame. La presentazione verr`
a strutturata come una brief communication della durata di otto minuti,
cui faranno seguito alcuni minuti di discussione. Nella comunicazione gli studenti esporranno i risultati della analisi statistica multivariata condotta su un dataset concordato
con il docente, nel quale saranno presenti (come sar`a chiarito durante il corso):
• pi`
u predittori
+ almeno una variabile fattore a tre (o pi`
u) livelli
+ almeno una variabile numerica
• una risposta (di tipo numerico, o fattore, o count)
• la presenza di misure ripetute ovvero di un carattere longitudinale
2.1.2
Software per l’analisi statistica del dataset
` obbligatorio eseguire l’analisi con R. Gli esaminandi sono incoraggiati ad eseguire
E
l’analisi anche con altri software e di comparare gli output ottenuti, presentando alla
Commissione i risultati.
2.1.3
Presentazione (slides)
La comunicazione deve essere supportata da delle slides, preparate secondo le modalit`a
qui di seguito esposte. La Commissione non valuter`a l’aspetto estetico delle slides
(immagini animate, video, suoni, animazioni, transizioni, ...) bens`ı la leggibilit`a e la
consequenzialit`
a della presentazione.
4
La prima slide deve contenere le generalit`a dell’esaminando e il ’titolo’ della comunicazione. Si suggerisce di usare
sfondi chiari e di non esagerare nell’uso
dei colori. Si consulti anche quanto previsto dall’Immagine Coordinata di Ateneo:
http://www.units.it/intra
La seconda slide (ma solo la seconda slide) deve contenere un’inquadramento di quello che `e il problema
` opbiomedico di cui ci si occupa. E
portuno che gli esaminandi spieghino con termini semplici (ancorch`e rigorosi) la problematica trattata, facendo in modo che sia gli altri studenti che la commissione possano inquadrare l’ambito della ricerca. Si
raccomanda di dedicare al pi`
u uno o
due minuti al commento di questa slide.
La terza slide (ma solo la terza slide) deve illustrare il dataset, evidenziando tutte le
sue colonne, ed un certo numero di righe che permettano alla Commissione di cogliere
la natura delle variabili in esame.
Il titolo della terza slide deve riassumere quale `e la domanda di ricerca cui l’esaminando vuole dare risposta mediante l’analisi statistica mul` opportuno soffermarsi su
tivariata. E
questa slide un paio di minuti descrivendo ciascuna variabile, mettendo in
luce quali sono le covariate, quale `e la
risposta.
5
Il tempo rimanente, circa quattro minuti, deve essere utilizzato per mostrare alla
Commissione ulteriori slides (non pi`
u di due o tre) nelle quali il candidato mette in luce
con dei grafici opportuni e/o con delle tabelle opportune i risultati ottenuti. Il candidato avr`
a cura di specificare quali pacchetti di R sono stati utilizzati e quali metodologie
di analisi sono state utilizzate.
Non `e necessario mettere alcuna slide conclusiva nella quale si ringraziano colleghi,
amici, parenti, relatori e correlatori. Conclusa l’esposizione, la Commissione avr`a un
paio minuti di tempo per discutere gli aspetti tecnici dell’analisi condotta.
2.1.4
Valutazione della comunicazione
La Commissione utilizzer`
a una ’griglia di valutazione’ nella quale ogni item verr`a giudicato secondo una scala Likert:
• positivo (tre punti)
• con ’minor concern(s)’ (due punti)
• con ’major concern(s)’ (un punto)
• negativo (zero punti)
Gli elementi di valutazione della ’griglia’ riguarderanno:
1. il problema biomedico `e stato presentato correttamente
2. il dataset soddisfa i requisiti minimi previsti
3. la domanda di ricerca `e stata chiarita
4. il dataset `e stato commentato in maniera appropriata
5. le slides sono leggibili dal pubblico
6. gli (eventuali) grafici presentati sono pertinenti
7. le (eventuali) tabelle presentate sono pertinenti
8. il lessico `e appropriato
9. la metodologia utilizzata `e appropriata
6
10. `e stata effettuata l’analisi descrittiva univariata
11. `e stata effettuata l’analisi inferenziale univariata
12. i modelli proposti sono stati diagnosticati
13. il tempo di esposizione previsto `e stato rispettato
14. eventuali ulteriori elementi di spicco o di eccellenza
punti
voto
punti
voto
punti
voto
19
20
21
22
23
24
25
26
18
19
19
20
21
22
22
23
27
28
29
30
31
32
33
34
24
24
25
25
26
27
27
28
35
36
37
38
39
40
41
42
28
29
29
30
30
30
lode
lode
Il voto conclusivo verr`
a determinato utilizzando questa funzione di conversione:
voto = function(x){trunc(0.5 + 30 * tanh(x/39) / tanh(1))}
2.2
Definizione delle modalit`
a d’esame per studentesse e studenti ’non
frequentanti’ il corso
Per non frequentante si intende uno/a studente/ssa che non possiede almeno uno tra i
seguenti due requisiti:
1. aver partecipato ad almeno la met`a delle lezioni in aula
2. aver accumulato almeno sei punti, alla data del 15 aprile 2014, nelle attivit`a di
studio individuale riportate sul sito web del corso
Inviate agli indirizzi [email protected] e [email protected] una richiesta di sostenere l’esame, indicandomi le vostre generalit`a. L’esame verter`a in una prova
pratica di analisi dei dati ed un colloquio su argomenti che concorderemo assieme.
7
2.3
Orari di svolgimento dell’attivit`
a didattica
Sulla base del calendario stabilito, si prevede che l’attivit`a didattica si terr`a, in un’aula
del comprensorio universitario che verr`a comunicata a breve, secondo questo calendario:
• 10 marzo, dalle 14:00, tre ore
• 11 marzo, dalle 14:30, quattro ore
• 17 marzo, dalle 14:00, tre ore
• 18 marzo, dalle 14:30, due ore
• 24 marzo, dalle 14:00, tre ore
• 25 marzo, dalle 14:30, due ore
• 31 marzo, dalle 14:00, tre ore
• 8 aprile, dalle 14:30, quattro ore
• 14 aprile: eventuale data di recupero
2.4
Reperibilit`
a del personale docente per chiarimenti e spiegazioni
Il docente `e reperibile su appuntamento diretto con gli studenti. Per concordare un
appuntamento `e sufficiente inviare una mail all’indirizzo [email protected] (per sicurezza, avendo notato gi`
a in due occasioni che possono avvenire dei disservizi nel server di
posta interna di Ateneo, `e opportuno inviare per conoscenza anche una mail all’indirizzo
[email protected] ). Il docente si impegna, salvo cause di forza maggiore, a
rispondere alla mail entro le 24 ore dall’invio e si impegna di fissare un appuntamento
nell’arco di sette giorni.
L’ufficio del docente `e situato in via Alfonso Valerio 12/1 a Trieste presso il Dipartimento di Matematica e Geoscienze, Edificio H2 bis al terzo piano nella stanza
338:
http://maps.google.it/maps?q=45.659962+13.796103
2.5
Conoscenze preliminari per la comprensione degli argomenti trattati
Come prerequisito, si assume che gli studenti abbiano appreso i temi trattati ad esempio
nel corso integrato di Statistica e Informatica che viene tenuto dal professor Lucio Torelli
nel Corso di Laurea in Biotecnologie al primo anno (6 crediti):
8
STATISTICA DESCRITTIVA. Rappresentazione dei dati: tabelle e grafici. Frequenze assolute e frequenze relative. Misure di sintesi numerica. Misure di tendenza
centrale: medie, mediana, moda e loro confronto. Misure di dispersione: intervallo di
variazione, varianza, scarto quadratico medio, coefficiente di variazione, percentili. I
boxplot.
PROBABILITA’. Problema di come associare ad un evento un grado di fiducia
nel verificarsi dell’evento stesso. Spazio degli eventi elementari, unione, intersezione
e complementare di eventi, eventi incompatibili. Assiomi di Kolmogorov. Definizioni
di probabilit`
a: classica, frequentista e soggettivista. La legge dei grandi numeri (cenni).Probabilit`
a condizionata. Probabilit`a condizionata e genetica. Tavole 2x2. Eventi
statisticamente indipendenti. Formula di Bayes e sue applicazioni. Partizione dell’evento certo. Valori predittivi di test diagnostici. Le curve ROC. Prevalenza e incidenza di
una malattia. Grafi ad albero e applicazioni.
VARIABILI ALEATORIE. Variabili aleatorie (v.a.) discrete e distribuzioni (leggi)
di probabilit`
a. V.a. indipendenti. Valore atteso (valor medio), varianza e covarianza di
v.a. discrete. Processi bernoulliani e loro distribuzione di probabilit`a. V.a. binomiali.
Il comando Excel DISTRIB.BINOM V.a. continue, funzione di ripartizione, funzione
densit`a di probabilit`
a. Valore atteso (valor medio) e varianza. V.a. normali e principali
propriet`a. I comandi Excel DISTRIB.NORM e INV.NORM V.a. con altre distribuzioni
di probabilit`
a e, in particolare, cenni sulla legge della t di Student, del Chi quadrato.
INFERENZA STATISTICA. Media e varianza campionaria. Da una popolazione
normale, intervallo di fiducia (confidence interval) del valor medio. Il comando Excel
CONFIDENZA Verifica (test) di ipotesi: ipotesi nulla, significativit`a, potenza; il p-value.
Il t-test. Comando Excel TEST.T Il test del Chi quadrato di indipendenza. Cenni su
test non parametrici: Mann-Whitney e Wilcoxon.
Un testo appropriato per rivedere queste nozioni si trova in Biblioteca Centrale di
Medicina: An introduction to medical statistics, Martin Bland. Oxford University Press,
2000. L’ateneo dispone anche una copia digitale della traduzione italiana del testo.
Per chi volesse inoltre , `e possibile fare riferimento a tre dispense disponibili in rete
all’indirizzo: http://www.dmi.units.it/ borelli/excel/index.html
La conoscenza dei prerequisiti verr`a accertata per mezzo del seguente questionario
autovalutativo individuale, fornito al primo giorno di lezione.
9
2.5.1
Questionario di autovalutazione
STATISTICA DESCRITTIVA. Rappresentazione dei dati: tabelle e grafici. Frequenze assolute e frequenze relative. Misure di sintesi numerica. Misure di tendenza
centrale: medie, mediana, moda e loro confronto. Misure di dispersione: intervallo di
variazione, varianza, scarto quadratico medio, coefficiente di variazione, percentili. I
boxplot.
10
5
0
Frequency
15
peso
40
50
60
70
80
90
peso
1. Quanti sono, approssimativamente, i dati della variabile peso qui raffigurati?
2. Quanto potrebbe valere la mediana della variabile peso?
3. Quanto potrebbe valere la moda della variabile peso?
4. Quanto potrebbe valere la varianza della variabile peso:
• circa 9.2
• circa 92
• circa 920
• non si pu`
o sapere
5. Quanto potrebbe valere il 25-esimo percentile della variabile peso?
10
PROBABILITA’. Problema di come associare ad un evento un grado di fiducia nel
verificarsi dell’evento stesso. Spazio degli eventi elementari, unione, intersezione e complementare di eventi, eventi incompatibili. Assiomi di Kolmogorov. Definizioni di probabilit`
a: classica, frequentista e soggettivista. La legge dei grandi numeri (cenni). Probabilit`
a condizionata. Probabilit`
a condizionata e genetica. Tavole 2x2. Eventi statisticamente indipendenti. Formula di Bayes e sue applicazioni. Partizione dell’evento
certo. Valori predittivi di test diagnostici. Le curve ROC. Prevalenza e incidenza di una
malattia. Grafi ad albero e applicazioni.
1. Quale `e la probabilit`
a, scegliendo a caso una di queste dieci persone, di scegliere
un maschio M?
2. Scegliendo a caso un fumatore high, quale `e la probabilit`a che esso sia anche
maschio?
3. Sapreste calcolare l’odds ratio tra la variabile gender e la variabile smoke?
4. A vostro giudizio (’ad occhio e croce’, senza fare calcoli) la variabile gender e la
variabile smoke sono associate od indipendenti?
11
VARIABILI ALEATORIE. Variabili aleatorie discrete e distribuzioni di probabilit`
a. V.a. indipendenti. Valore atteso (valor medio), varianza e covarianza di v.a.
discrete. Processi bernoulliani e loro distribuzione di probabilit`
a. V.a. binomiali. V.a.
continue, funzione di ripartizione, funzione densit`
a di probabilit`
a. Valore atteso (valor
medio) e varianza. V.a. normali e principali propriet`
a. V.a. con altre distribuzioni di
probabilit`
a e, in particolare, cenni sulla legge della t di Student, del Chi quadrato.
Figura 1:
credits: http://en.wikipedia.org/wiki/File:Standard deviation diagram.svg
Supponiamo di sapere che in una popolazione la media della statura valga 170 cm,
che la deviazione standard valga 10 cm, e che tale carattere sia distribuito normalmente.
1. Sapreste dire, approssimativamente, quanto vale il 90-esimo percentile della distribuzione?
2. Quale `e, approssimativamente, la probabilit`a che una persona sia pi`
u alta di 190
cm?
3. Quale potrebbe essere una stima intervallare della media con fiducia del 95 per
cento?
12
INFERENZA STATISTICA. Media e varianza campionaria. Da una popolazione
normale, intervallo di fiducia (confidence interval) del valor medio. Verifica (test) di
ipotesi: ipotesi nulla, significativit`
a, potenza; il p-value. Il t-test. Il test del Chi quadrato
di indipendenza. Cenni su test non parametrici: Mann-Whitney e Wilcoxon.
Eseguendo il t test a due code con il software R tra due gruppi bilanciati di soggetti
(casi e controlli) otteniamo questo output
data: casi and controlli
t = 1.1105, df = 38, p-value = 0.2738
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.4582045 1.5717363
sample estimates:
mean of x mean of y
0.2893011 -0.2674648
1. Cosa significa ’bilanciato’ ? Quanti sono i casi e controlli ?
2. Dove si rappresenta il quantile t nel grafico sottostante?
3. Come si rappresenta il p-value nel grafico sottostante?
0.2
0.1
0.0
dt(x, 38)
0.3
0.4
4. Come si interpreta il 95 percent confidence interval?
-3
-2
-1
0
x
13
1
2
3
2.6
Motivazioni per lo studio della disciplina
Per motivare gli studenti allo studio della disciplina, ad ogni argomento che verr`a trattato
si anteporr`
a la presentazione di un paper pertinente alle biotecnologie mediche in cui tale
argomento assume effettivamente rilevanza scientifica, segnalando possibili errori legati
ad una analisi condotta in maniera non appropriata.
Ad esempio, nello studio di Kaur et al. apparso su BMC Cell Biol nel 2008 (Silencing of directional migration in roundabout4 knockdown endothelial cells) nelle figure
A e B le barre di errore rappresentano la deviazione standard, mentre nel pannello C
rappresentano lo standard error. Per quale motivo potrebbe essere stata fatta questa
scelta?
2.7
Carico di studio dell’insegnamento in proporzione ai crediti
Convenzionalmente 3 CFU sono pari a 75 ore di lavoro, indipendentemente se questo sia
svolto come studio personale o come frequenza a laboratori o lezioni. Le lezioni frontali
14
occuperanno 24 ore e quindi le rimanenti 51 ore sono attribuite allo studio individuale
ed alla esercitazione individuale al calcolatore.
2.8
Materiale didattico
Il materiale didattico presentato durante il corso sar`a reso disponibile all’indirizzo web:
http://www.dmi.units.it/~borelli/biotec/index.html
2.9
Attivit`
a didattiche integrative
Non sono previste attivit`
a integrative. Conseguentemente le domande D11 e D13 non si
applicano al nostro insegnamento.
15
3
Finalit`
a del Corso di Biostatistica
Il ciclo di lezioni si propone di introdurre i metodi di analisi statistica dei dati di laboratorio, presentando le tecniche inferenziali e di modellizzazione multivariabile dei
fenomeni biomedici per mezzo del pacchetto statistico R.
4
Programma preliminare
10 marzo. Presentazione del corso, syllabus e bibliografia, presentazione delle risorse
sul sito web. Introduzione informale alle caratteristiche del software R ([4], cap. 6); Autoverifica e richiami relativi alla statistica di base ([1], cap. 4, 5, 7: statistica descrittiva,
i grafici pi`
u comuni, la variabile aleatoria normale). I test di verifica delle ipotesi, il
significato ed i misconcetti legati al p-value ([3], cap. 1)
11 marzo. Le variabili aleatorie t di Student, la binomiale e la Poisson. Normalizzare
e standardizzare. La deviazione standard e lo standard error. Testare differenze tra
gruppi: il test t e la Anova ([3], cap. 9); i comandi lm ed aov.
17 marzo. L’importante questione metodologica dei multiple comparison ([4], cap. 9;
[2]). Il testo HSD di Tukey e il test di Dunnett.
18 marzo. La retta di regressione e la Ancova ([3], cap. 8); selezionare un modello
minimale adeguato e diagnosticarlo.
24 marzo. I modelli lineari generalizzati binomiali e di Poisson ([3], cap. 13, cap. 16);
come rimediare alla sovradispersione.
25 marzo. L’approccio old-fashioned alla questione delle pseudorepliche: Anova repeated measure.
31 marzo.
Mixed models nei design con misure ripetute in duplicato/triplicato ([5])
31 marzo.
Mixed models nelle curve di crescita e nei design longitudinali ([5])
16
Riferimenti bibliografici
[1] Bland M. (2000). An introduction to medical statistics. Oxford University Press.
(Traduzione italiana: Statistica Medica. Apogeo.)
[2] Bretz F., Hothorn T., Westfall P. (2010). Multiple Comparisons Using R. CRC
Press.
[3] Crawley M. J. (2005). Statistics: An Introduction using R, Wiley.
[4] Dr˘aghici S. (2011). Statistics and Data Analysis for Microarrays Using R and
Bioconductor, Chapman and Hall/CRC.
[5] West B.T., Welch K.B., Galecki A.T. (2007). Linear Mixed Model, Chapman
Hall/CRC.
17