La questione dei Multiple Comparisons

La questione dei Multiple Comparisons
Massimo Borelli
May 7, 2014
Massimo Borelli ()
La questione dei Multiple Comparisons
May 7, 2014
1 / 27
Contenuti
1
Un errore tanto grave quanto frequente
2
i vantaggi dell’approccio bayesiano
3
L’approccio classico
la correzione di Bonferroni
il test HSD di Tukey
il test di Dunnett
Massimo Borelli ()
La questione dei Multiple Comparisons
May 7, 2014
2 / 27
area
20
30
40
50
60
70
la domanda cruciale
etero
mut
wt
la domanda cruciale
... perch`e, quando trovo un p-value significativo facendo l’Anova, non
basta che io faccia il t test tra i vari gruppi per sapere quale gruppo sia
diverso dall’altro?
Massimo Borelli ()
La questione dei Multiple Comparisons
May 7, 2014
3 / 27
un controesempio
1
2
3
4
5
6
7
..
65
sport
poco
saltuario
saltuario
saltuario
poco
saltuario
tanto
..
tanto
peso
53
50
48
49
58
45
51
..
79
Table: il dataset studenti
Massimo Borelli ()
La questione dei Multiple Comparisons
May 7, 2014
4 / 27
un controesempio
80
60
50
70
60
50
70
80
peso
poco
Massimo Borelli ()
La questione dei Multiple Comparisons
saltuario
tanto
May 7, 2014
5 / 27
un controesempio
poco vs. saltuario
poco vs. tanto
saltuario vs. tanto
Massimo Borelli ()
t test (errato!)
< 0.001
0.029
0.215
metodo appropriato
0.001
0.059
0.406
La questione dei Multiple Comparisons
May 7, 2014
6 / 27
la questione dei multiple comparison
(1 −
5
5
5
) · (1 −
) · (1 −
)=
100
100
100
5 3
= (1 −
) = 0.86
100
la risposta cruciale
Scegliendo un livello α = 5% sussiste il 14% di probabilit`a di compiere un
errore di primo tipo, i.e. affermare arbitrariamente che vi `e un effetto (che
potrebbe esserci, o no, ma tale decisione non pu`
o venir tratta dai dati in esame).
Massimo Borelli ()
La questione dei Multiple Comparisons
May 7, 2014
7 / 27
la questione dei multiple comparison
Points to consider in Clinical Trials
.. multiplicity can have a substantial influence on the rate of false positive
conclusions (..) whenever there is an opportunity to choose the most
favourable result from two or more analyses.
Massimo Borelli ()
La questione dei Multiple Comparisons
May 7, 2014
8 / 27
i Bayesiani lo fanno meglio
Massimo Borelli ()
La questione dei Multiple Comparisons
May 7, 2014
9 / 27
i frequentisti hanno un problemino
Massimo Borelli ()
La questione dei Multiple Comparisons
May 7, 2014
10 / 27
tre soluzioni classiche
la correzione di Bonferroni
I
obsoleta e con molti svantaggi
il test HSD di Tukey
I
se non ci sono gold standard
il test di Dunnett
I
se c’`e un gold standard
Massimo Borelli ()
La questione dei Multiple Comparisons
May 7, 2014
11 / 27
la correzione di Bonferroni
α→
α
N
α
α
α
) · (1 − ) · ... · (1 − ) =
N
N
N
α N
α
= (1 − ) ≥ 1 − N ·
=1−α
N
N
(1 −
svantaggi
’troppo esigente’ nel detectare un effetto
riduce anche la potenza 1 − β
Massimo Borelli ()
La questione dei Multiple Comparisons
May 7, 2014
12 / 27
la correzione di Bonferroni nel dataset tooth
confronto
etero vs. mut
etero vs. wt
mut vs. wt
Massimo Borelli ()
aov , lm
0.054
0.568
non noto
Bonferroni
0.163
1.000
0.322
La questione dei Multiple Comparisons
May 7, 2014
13 / 27
il test HSD di Tukey
Massimo Borelli ()
La questione dei Multiple Comparisons
May 7, 2014
14 / 27
il test HSD di Tukey - Wikipedia
Tukey’s test (a.k.a. Tukey range test, Tukey method, Tukey’s honest
significance test, Tukey’s HSD (honest significant difference) test,
Tukey-Kramer method) is a single-step multiple comparison procedure. It
is used in conjunction with an ANOVA to find means that are significantly
different from each other... The Tukey HSD tests should not be confused
with the Tukey Mean Difference tests (also known as the Bland-Altman
Test).
Tukey’s test compares the means of every treatment to the means of every
other treatment; that is, it applies simultaneously to the set of all pairwise
comparisons and identifies any difference between two means that is
greater than the expected standard error.
q=
Massimo Borelli ()
µi − µ j
SE
La questione dei Multiple Comparisons
May 7, 2014
15 / 27
il test HSD di Tukey con R
con dati normali ed omoschedastici
> modello = aov( risposta ∼ fattore)
> library(multcomp)
> posthoc = glht(modello, linfct = mcp(fattore = ”Tukey”))
> summary(posthoc)
Massimo Borelli ()
La questione dei Multiple Comparisons
May 7, 2014
16 / 27
il test HSD di Tukey con R
con dati eteroschedastici e/o non normali: usiamo gli stimatori sandwich
> modello = aov( areainfl ∼ il1b)
> library(multcomp)
> library(sandwich)
> posthoc = glht(modello, linfct = mcp(il1b = ”Tukey”), vcov =
sandwich)
> summary(posthoc)
Massimo Borelli ()
La questione dei Multiple Comparisons
May 7, 2014
17 / 27
il test HSD di Tukey con R
Massimo Borelli ()
La questione dei Multiple Comparisons
May 7, 2014
18 / 27
il test HSD di Tukey con R
con il test HSD di Tukey:
solo p-value marginali:
Massimo Borelli ()
La questione dei Multiple Comparisons
May 7, 2014
19 / 27
il test HSD di Tukey con R
> plot(posthoc)
95% family-wise confidence level
(
mut - etero
(
wt - etero
wt - mut
)
)
(
-20
)
-10
0
10
20
Linear Function
Massimo Borelli ()
La questione dei Multiple Comparisons
May 7, 2014
20 / 27
il test di Dunnett: con un gold standard
Massimo Borelli ()
La questione dei Multiple Comparisons
May 7, 2014
21 / 27
il test di Dunnett - Wikipedia
Dunnett’s test is a multiple comparison procedure to compare each of a
number of treatments with a single control.
Dunnett’s test is performed by computing a Student’s t-statistic for each
group to a single control group.
The formal test statistic for Dunnett’s test is the largest in absolute value
of these t-statistics.
Massimo Borelli ()
La questione dei Multiple Comparisons
May 7, 2014
22 / 27
il test di Dunnett: esempio ’classico’
16
14
Minutes
12
10
8
minutes
15
13
12
..
12
13
..
13
6
1
2
3
..
20
21
..
41
blanket
b0
b0
b0
..
b0
b1
..
b3
18
dataset recovery
b0
b1
b2
b3
Blanket
Massimo Borelli ()
La questione dei Multiple Comparisons
May 7, 2014
23 / 27
il test di Dunnett: esempio ’classico’
> modello = aov(minutes ∼ blanket)
> summary.lm(modello)
(Intercept)
blanketb1
blanketb2
blanketb3
Massimo Borelli ()
Estimate
14.80
-2.13
-7.47
-1.67
Std. Error
0.58
1.60
1.60
0.88
t value
25.55
-1.33
-4.66
-1.88
La questione dei Multiple Comparisons
Pr(>|t|)
0.00
0.19
0.00
0.07
May 7, 2014
24 / 27
il test di Dunnett: esempio ’classico’
il test di Dunnett (non aggiustato per le correlazioni)
> posthoc = glht( modello, linfct = mcp(blanket = ”Dunnett”),
alternative = ”less”)
> summary(posthoc)
b1 - b0 >= 0
b2 - b0 >= 0
b3 - b0 >= 0
Massimo Borelli ()
Estimate
-2.13
-7.47
-1.67
Std. Error
1.60
1.60
0.88
La questione dei Multiple Comparisons
t value
-1.33
-4.66
-1.88
Pr(<t)
0.24
0.00
0.09
May 7, 2014
25 / 27
il test di Dunnett: esempio ’classico’
il test di Dunnett eseguito in modo corretto
> summary(posthoc, test = adjusted(type =”free”))
b1 - b0 >= 0
b2 - b0 >= 0
b3 - b0 >= 0
Massimo Borelli ()
Estimate
-2.13
-7.47
-1.67
Std. Error
1.60
1.60
0.88
La questione dei Multiple Comparisons
t value
-1.33
-4.66
-1.88
Pr(<t)
0.10
0.00
0.06
May 7, 2014
26 / 27
Bibliografia
1
Bretz F., Hothorn T., Westfall P. (2010). Multiple Comparisons
Using R. CRC Press.
Massimo Borelli ()
La questione dei Multiple Comparisons
May 7, 2014
27 / 27