Strumenti Informatici 14.1 RSA e associazione nominale

Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1
1
Strumenti informatici 14.1
Residui standardizzati aggiustati, test della probabilità esatta di Fisher,
misure di associazione a livello nominale in tavole 2x2 e procedure di SPSS
nell'analisi di tavole di contingenza
Residui standardizzati aggiustati
I residui standardizzati sono di fatto una trasformazione a punti z dei vari addendi del chi-quadrato.
Essendo distribuiti come z, per cui una volta calcolati basta confrontarli col valore di z critico per
verificare, in ogni singola cella della tavola di contingenza, le seguenti ipotesi:
H0: Φattesa = Φosservata → Φattesa − Φosservata = 0 → nella popolazione, lo scarto fra frequenze attese ed
osservate nella cella in esame è uguale a zero → il modello di indipendenza delle variabili
predice perfettamente le frequenze osservate
H0: Φattesa ≠ Φosservata → Φattesa − Φosservata ≠ 0 → nella popolazione, lo scarto fra frequenze attese ed
osservate nella cella in esame è diverso da zero → il modello di indipendenza delle variabili non
predice adeguatamete le frequenze osservate
Il valore di z critico viene calcolato in base ad un livello significatività corretto per il numero di
gradi di libertà della tavola e la direzionalità dell’ipotesi nulla. Nel caso della relazione fra stile
cognitivo e facoltà di appartenenza proposto nel manuale, i gradi di libertà della tavola sono 6 per
cui il valore di z critico sarà associato ad un α = ,05/6 = ,0083, che diviso per due (ipotesi
bidirezionale) vale ,0042. Il valore di z che cerchiamo è determinabile con la funzione di Excel
=INV.NORM.ST(,0042) = −2,64, da cui prendiamo il valore assoluto 2,64. La regola di decisione
quindi sarà:
se |z calcolato| > |z critico| → è troppo improbabile che i dati osservati siano il risultato del fatto che
H0 è vera, per cui la rifiutiamo → nella popolazione, lo scarto fra frequenze attese ed osservate
nella cella in esame è diverso da zero → il modello di indipendenza delle variabili non predice
adeguatamete le frequenze osservate
se |z calcolato| < |z critico| → non è così improbabile che i dati osservati siano il risultato del fatto
che H0 è vera, per cui la accettiamo → nella popolazione, lo scarto fra frequenze attese ed
osservate nella cella in esame è uguale a zero → il modello di indipendenza delle variabili
predice perfettamente le frequenze osservate
Utilizzeremo poi il segno della differenza (frequenze osservate − frequenze attese) per capire se ci
sono più o meno casi osservati di quanti attesi.
I residui standardizzati aggiustati si calcolano, cella per cella, con la seguente formula:
RSA =
fo − fa
 n
f a × 1 − • j
n

  ni • 
 × 1 − 
n 
 
=
Frequenze Osservate − Frequenze Attese

Totale marginale di riga   Totale marginale di colonna 
Frequenze attese × 1 −
 × 1 −

Numero totale di soggetti 
 Numero totale di soggetti  
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1
2
Per la cella corrispondente agli Object che sono studenti di Psicologia avremo:
RSAObject ; Psicologia =
17 − 9,14
38  
32 

9,14 × 1 −
 × 1 −

 133   133 
= 3,53 > 2,64 → Rifiutiamo H0
La Tabella 1 riporta i RSA per tutte le celle e mostra che gli scarti fra le frequenze attese e quelle
osservate sono significativamente diversi da zero nelle celle (Object; Psicologia), (Spatial;
Ingegneria) e (Verbal; Lettere), coerentemente con le ipotesi proposte nel manuale. Per quanto
riguarda gli studenti di medicina, invece, non sembra esservi prevalenza di un particolare stile
cognitivo.
Tabella 1 Residui standardizzati aggiustati (RSA) per la tavola di contingenza Stile Cognitivo
Facoltà riportata nel manuale (in neretto i RSA maggiori, in valore assoluto, del valore critico 2,64)
Facoltà
Stile Cognitivo
Psicologia
Ingegneria
Lettere
Medicina
Object
3,53
-1,85
-2,10
0,44
Spatial
-1,40
2,97
-1,56
-0,15
Verbal
-1,92
-1,22
3,53
-0,26
Il test della probabilità esatta di Fisher e la sua dimensione dell'effetto
Supponiamo che i dati siano quelli della tavola in Tabella 2.
Tabella 2 Tavola di contingenza Genere × Personalità in cui non è applicabile il test del chiquadrato per l’indipendenza di variabili categoriali per la violazione dell’assunzione sul numero di
frequenze attese inferiori a 5 (in neretto le frequenze osservate, in corsivo quelle attese)
Genere
Personalità
Introverso Estroverso Totale
8
4
Maschi
12
9,12
2,88
11
2
Femmine
13
9,88
3,12
Totale
19
6
25
In questo caso, comune quando si ha un numero di osservazioni inferiore a 30 o comunque inferiore
a 5 × numero di celle della tavola, abbiamo più del 20% di frequenze attese inferiori a 5. In questa
situazione è violata la seconda assunzione per l'applicazione del test dei chi-quadrato per
l'indipendenza di variabili categoriali, per cui dobbiamo ricorrere al test della probabilità esatta di
Fisher (Fisher, 1935)1.
La logica del test è simile a quella del test della binomiale. Si calcola la probabilità relativa a
quanto effettivamente osservato, e si sommano le probabilità dei casi più estremi di questo. Se
quindi per verificare l’ipotesi che la moneta fosse truccata nel caso in cui avevamo ottenuto 8 teste
su 10 lanci dovevamo non solo calcolare la probabilità di questo evento, ma anche di quelli più
1
Fisher, R. A. (1935). The Design of Experiments. Edinburgh: Oliver & Boyd.
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1
3
estremi (9 teste su 10 lanci e 10 teste su 10 lanci), anche in questo caso dobbiamo sommare la
probabilità relativa alla tavola in Tabella 2 più quella relativa alle tavole in Tabella 3.
Tabella 3 Casi più estremi di quello in Tabella 2
(a)
Personalità
Genere
Introverso Estroverso Totale
Genere
(b)
Personalità
Introverso Estroverso Totale
Maschi
8
4
12
Maschi
8
4
12
Femmine
12
1
13
Femmine
13
0
13
Totale
20
5
25
Totale
21
4
25
La formula per il calcolo della probabilità relativa ad ogni tabella è quella del coefficiente
ipergeometrico di Fisher:
(a + b)!×(c + d )!×(a + c)!×(b + d )!
p=
a!×b!×c!×d !×n!
dove a, b, c, d, e n sono i valori riportati nella Tabella 4
Tabella 4 Valori da inserire nel calcolo del coefficiente ipergeometrico di Fisher
Personalità
Genere
Totale
Introverso Estroverso
Maschi
a
b
a+b
Femmine
c
d
c+d
Totale
a+c
b+d
n
Nel nostro caso, quindi, avremmo:
p=
(12)!×(13)!×(19)!×(6)! (12)!×(13)!×(20)!×(5)! (12)!×(13)!×(21)!×(4)!
+
+
=,281
8!×4!×11!×2!×25!
8!×4!×12!×1!×25!
8!×4!×13!×0!×25!
Poiché p calcolato è maggiore del livello di significatività α = ,05, non possiamo rifiutare l’ipotesi
nulla di indipendenza delle variabili.
Lo stesso test può essere utilizzato quando è violata la terza assunzione per l'applicazione del test
del chi-quadrato per l'indipendenza di variabili categoriali, ossia vi è una frequenza osservata
uguale a zero, come nel caso di Tabella 3b. In questa situazione, l'unico valore da calcolare è:
p=
(12)!×(13)!×(21)!×(4)!
=,039
8!×4!×13!×0!×25!
Per cui, dato che p calcolato è inferiore al livello di significatività α = ,05, possiamo rifiutare
l’ipotesi nulla di indipendenza delle variabili e concludere che vi è un'associazione fra genere e
personalità.
L'esecuzione del test della probabilità esatta di Fisher è possibile anche in tavole di contingenza di
dimensioni superiori a 2 × 2, ma la realizzazione dei calcoli manualmente è molto più complessa.
Ad ogni modo, si veda più avanti come ottenere questa analisi con SPSS
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1
4
Per calcolare la dimensione dell'effetto quando ci avvaliamo della probabilità esatta, possiamo
utilizzare l'indice requivalente descritto da Rosenthal e Rubin (2003). Inizialmente dobbiamo ricavare il
valore della distribuzione di t di Student corrispondente al valore di probabilità ottenuto, con n−2
gradi di libertà (gdl), dove n è il numero di osservazioni. Per ottenere il valore di t possiamo
utilizzare la funzione di Excel =INV.T (p;gdl). Nel caso della Tabella 2 abbiamo ottenuto p=,281,
n=25, quindi gdl=23, per cui =INV.T (,281;23) = 1,10. A questo applichiamo la formula:
requivalente =
t2
1,10 2
=
= 0,22
t 2 + gdl
1,10 2 + 23
che corrisponde ad una dimensione dell'effetto piccola.
Questo procedimento permette di determinare la dimensione dell'effetto per il test di Fisher
eseguito su tavole di contingenza di qualunque dimensione. Per il caso particolare delle tavole 2 × 2
è possibile calcolare altri indici descritti nella sezione successiva.
Misure di associazione a livello nominale in tavole 2x2
Coefficiente phi
Nel caso delle tavole di contingenza 2 × 2 è possibile calcolare l'equivalente a livello nominale del
coefficiente di correlazione di Pearson per variabili metriche. In generale, un coefficiente di
correlazione viene indicato con r e il suo segno esprime la direzione della relazione, mentre il
modulo, ossia il valore assoluto, esprime la forza della relazione. In altri termini, un coefficiente di
correlazione uguale a −1 indica una relazione negativa perfetta. Una relazione negativa si verifica
quando le due variabili variano in modo concomitante ma in direzioni opposte: al crescere del
valore di una variabile, il valore l’altra diminuisce, e viceversa. Se la relazione è perfetta, vuol dire
che le variazioni nella seconda variabile sono perfettamente predicibili in base alle variazioni nella
prima. Se un coefficiente di correlazione è uguale a +1, siamo di nuovo nel caso di una relazione
perfetta, ma in cui al crescere del valore di una variabile, il valore l’altra aumenta a sua volta. Come
abbiamo detto anche in precedenza, però, non riscontriamo mai relazioni perfette nella normale
attività ricerca, per cui ci troveremo sempre a dover valutare relazioni positive o negative, e a
cercare di comprendere quanto esse siano diverse da 0, che è il valore che indica assenza di
relazione fra le variabili, ossia la loro indipendenza.
Nel caso di variabili nominali di solito non ha alcun senso pensare ad una relazione in
termini di "all'aumentare del punteggio in una variabile, il punteggio nell'altra aumenta/diminuisce",
in quanto le variabili nominali non veicolano informazione quantitativa, nè ordinale. Tuttavia, nelle
variabili dicotomiche che classificano le osservazioni in Negativo-Positivo, Falso-Vero, SanoMalato, No-Sì, etc., è possibile individuare un ordine legato alla assenza-presenza di una certa
caratteristica. Consideriamo i casi delle tavole di contingenza in Tabella 5 e
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1
5
Tabella 6.
Tabella 5 Tavola di contingenza Tabagismo × Malattia Respiratoria Cronica
Malattia respiratoria
Tabagismo
No
Sì
Totale
No
48
12
60
Si
25
77
102
Totale
73
89
162
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1
6
Tabella 6 Tavola di contingenza Supporto sociale × Depressione
Depressione
Supporto
sociale
No
Sì
Totale
Presente
14
67
81
Assente
114
21
135
Totale
128
88
216
Nel caso della Tabella 5 abbiamo la presenza/assenza di un fattore di rischio e la presenza/assenza
di una malattia. Se realizziamo un test del chi-quadrato, otteniamo X2(1, n=162) = 46,99, p<,001,
che indica un'associazione significativa fra le variabili. Per quanto sia possibile calcolare un indice
di dimensione dell'effetto con i metodo descritto nel manuale, ottenendo ,54, lo stesso risultato può
essere ottenuto calcolando il coefficiente phi (ϕ), che è nella stessa metrica di r:
ϕ=
ad − bc
(a + b)(a + c)(c + d )(b + d )
dove a, b, c, e d sono le frequenze di cella come in Tabella 4. Per i dati in Tabella 5 avremo quindi
ϕ=
ad − bc
48 × 77 − 12 × 25
=
=,54
(a + b)(a + c)(c + d )(b + d )
(60)(73)(102)(89)
Si può osservare dalla formula che il coefficiente ϕ potrebbe risultare negativo se ad < bc, come è
appunto il caso per la Tabella 6, dove sono riportati i dati relativi all'associazione fra presenza di
supporto sociale e diagnosi di depressione (X2(1, n=216) = 94,58, p<,001):
ϕ=
ad − bc
14 × 21 − 67 × 114
=
= −,66
(a + b)(a + c)(c + d )(b + d )
(81)(128)(135)(88)
Che significato ha il segno positivo o negativo in questi esempi? Nel primo caso, in cui φ è positivo,
ci indica che la presenza del fattore di rischio è associata alla presenza della malattia, nel secondo,
in cui φ è negativo, che la presenza di supporto sociale è associata all'assenza di depressione.
Naturalmente tutto ciò ha senso solo se si ordinano in un certo modo, coerente con la teoria, le
categorie all'interno della tavola.
Il coefficiente φ può essere calcolato anche in quelle tavole 2×2 nelle quali il test del chi-quadrato
non è applicabile, come in Tabella 2. Il valore di φ è:
ϕ=
ad − bc
8 × 2 − 4 × 11
=
= −,21
(a + b)(a + c)(c + d )(b + d )
(12)(19)(13)(6)
Data la natura nominale delle variabili considerare il segno non ha molto senso. Si noti come tale
valore sia simile a quello ottenuto con requivalente.
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1
7
Odds ratio
Nel caso di una tavola di contingenza 2 × 2, o comunque di una sottotavola 2 × 2 di una tavola di
contingenza di dimensioni maggiori, è possibile calcolare anche un altro indice di associazione e
dimensione dell'effetto, detto odds ratio (in italiano tradotto come rapporto di associazione, ad
esempio, Corbetta, 1992)2. L’odds ratio è un rapporto di odds (o rapporto di probabilità). Con il
termine odds (Ω) si indica, per ogni categoria della variabile dicotomica A, il rapporto tra la
frequenza di trovarsi in una categoria della variabile dicotomica B e la frequenza di non trovarvisi.
Nel caso della Tabella 5, l’odds per la categoria Tabagista rispetto all’avere o meno la malattia
sarà:
Ω malato|tabagista =
Frequenza Tabagisti Malati
77
=
= 3,08
Frequenza Tabagisti Non Malati 25
mentre quella per la categoria Non Tabagista sarà:
Ω malato|non tabagista =
Frequenza Non Tabagisti Malati
12
=
= 0,25
Frequenza Non Tabagisti Non Malati 48
L’odds ratio θ è il rapporto fra questi due odds:
θ=
Ω malato|tabagista
Ω malato|non tabagista
=
3,08
= 12,32
0,25
Se l’Odds ratio è uguale a 1, significa che vi è indipendenza delle variabili. Quanto più l’odds ratio
è diverso da 1, invece, tanto più le variabili sono associate. Esattamente come l’indice di
dimensione dell’effetto w, l’odds ratio non risente dell’ampiezza del campione, perché è basato
unicamente sulle proporzioni fra i valori di cella. Questo significa che moltiplicando per una
costante k i valori delle frequenza di cella, il X2 aumenta di k volte, influendo sulla significatività
(dato che i gradi di libertà rimangono gli stessi), mentre w e l’odds ratio rimangono invariati, come
illustrato dagli esempi in Tabella 7.
Nella Tabella 7, le frequenze della tavola di contingenza della colonna di destra sono state
ricavate moltiplicando per 10 le frequenze della tavola nella colonna di sinistra. Mentre il chiquadrato risente di questa modifica, w e l’odds ratio no, per cui permettono una valutazione più
realistica della forza dell’associazione fra le due variabili. Se però per l’indice w esistono delle linee
guida per l’interpretazione, per l’odds ratio la questione è più complessa, in quanto può allontanarsi
da 1 verso infinito oppure verso lo zero, che è il limite teorico inferiore, in base a come viene
impostato il calcolo. Nel caso degli odds ratio nella Tabella 7 avremmo anche potuto calcolare
l’odds ratio come:
30
25
Ω bocciato!frequentante
Ω
promosso|frequentan te
θ=
= 40 = 0,60 , che è uguale a 1 diviso per θ =
= 20 = 1,67
Ω bocciato|non frequentante 25
Ω promosso|non frequentante 30
20
40
2
Corbetta, P. (1992). Metodi di analisi multivariata per le scienze sociali. Bologna: Il Mulino.
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1
8
Tabella 7 Invarianza di w e θ dal numero di osservazioni
Esito dell'esame
Esito dell'esame
Status
Status
Bocciato
Promosso
Totale
Bocciato
Promosso
Totale
Frequentante
30
40
70
Frequentante
300
400
700
Non frequentante
25
20
45
Non frequentante
250
200
450
Totale
55
60
115
Totale
550
600
1150
X2(1, n = 115) = 1,77, p = ,183
Non possiamo rifiutare l’ipotesi nulla di
indipendenza → non associazione fra le variabili
w=
θ=
1,77
= 0,124
115 × 1
Ω promosso|frequentante
Ω promosso|non frequentante
X2(1, n = 1150) = 17,70, p < ,001
Possiamo rifiutare l’ipotesi nulla di indipendenza
→ associazione fra le variabili
w=
25
= 20 = 1,67
30
40
θ=
17,70 2
= 0,124
1150 × 1
Ω promosso|frequentante
Ω promosso|non frequentante
250
= 200 = 1,67
300
400
La distribuzione dei valori attorno al valore di odds ratio di indipendenza della variabili (ossia, 1)
non è simmetrica, in quanto vi sarà un’enorme concentrazione di valori fra 0 e 1, e una maggiore
dispersione da 1 a infinito. Per questo motivo, si tende a realizzare sull’odds ratio un test di
significatività che verifica che l’odds ratio osservato sia effettivamente diverso da 1 nella
popolazione. Le ipotesi sono:
H0: θ = 1 → Nella popolazione da cui è stato estratto il campione, l’odds ratio è uguale a 1 → le
variabili sono indipendenti
H0: θ ≠ 1 → Nella popolazione da cui è stato estratto il campione, l’odds ratio è diverso 1 → le
variabili sono associate
Il test di significatività sull’odds ratio è basato una statistica distribuita come z calcolata nel
seguente modo:
ln θ
z=
1 1 1 1
+ + +
a b c d
dove ln θ è il logaritmo naturale dell’odds ratio e a, b, c, e d sono le frequenze di cella come in
Tabella 4. Il vantaggio della trasformazione a logaritmo è che la funzione logaritmica è simmetrica
attorno allo zero (che è il logaritmo naturale di 1, ossia il valore di θ in ipotesi nulla, e definita da
meno infinito a più infinito).
Per α = ,05 e ipotesi alternativa bidirezionale lo z critico è 1,96. La regola di decisione sarà:
se |z calcolato| > |z critico| → è troppo improbabile che i dati osservati siano il risultato del fatto che
H0 è vera, per cui la rifiutiamo → l’odds ratio è significativamente diverso da 1 → le variabili
sono associate
se |z calcolato| < |z critico| → non è così improbabile che i dati osservati siano il risultato del fatto
che H0 è vera, per cui la accettiamo → l’odds ratio non è significativamente diverso da 1 → le
variabili sono indipendenti
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1
9
Purtroppo, il test ti di significatività dell’odds ratio risente a sua volta dell’ampiezza campionaria.
Nel caso delle due tavole in Tabella 7 avremo
z=
z=
1
a
1
a
ln θ
1 1
+ + +
b c
ln θ
1 1
+ + +
b c
1
d
1
d
=
=
ln 1,67
= 1,33 < 1,96 → Accettiamo H0
1
1
1
1
+
+
+
30 40 25 20
ln 1,67
= 4,19 > 1,96 → Rifiutiamo H0
1
1
1
1
+
+
+
300 400 250 200
Per questo motivo, si tendono ad interpretare gli odds ratio nel loro significato originario di rapporti
di probabilità: in altri termini, se l’odds ratio delle tavole in Tabella 7è risultato 1,67, significa che
“i frequentanti hanno una probabilità di essere promossi 1,67 volte maggiore dei non frequentanti”.
Gli odds ratio possono essere calcolati solo per le tavole 2 × 2. Ad ogni modo, è possibile
calcolarli anche nelle sottotavole 2 × 2 di tavole di dimensioni maggiori, ed eseguire confronti
multipli. In questo caso, però, è necessaria tutta una serie di aggiustamenti legata al dover
comunque considerare la dimensione della tavola e l’entità delle altre frequenze di cella non
direttamente interessate del confronto. Il metodo è spiegato, fra gli altri, in Agresti (2002) e Wu,
Tang e Lee (2006)3.
Realizzare analisi statistiche su una tavola di contingenza con Excel e SPSS
Excel può essere utilizzato per realizzare un test del chi-quadrato per l’indipendenza di variabili
categoriali, ma solo una volta che siano state calcolate la frequenze attese. Per cui, dopo aver
riprodotto la tavola di contingenza con le frequenze osservate in un foglio di Excel, occorre
calcolare mediante le formule le frequenze attese (Figura 1) e utilizzare la funzione
=TEST.CHI(Intervallo_effettivo;Intervallo_previsto).
Figura 1 Realizzazione di un test del chi-quadrato per l’indipendenza di variabili categoriali in Excel
In SPSS, invece, è possibile realizzare non solo il test statistico, ma calcolare anche tutti gli indici di
associazione descritti nel manuale e in questo documento. I dati possono essere inseriti o soggetto
per soggetto, oppure già raggruppati in frequenze (Figura 2). In quest’ultimo caso, occorre
3
Agresti, A. (2002). Categorical Data Analysis, 2nd edition. New York: Wiley.
Wu, K. H., Tang, M. L., & Lee, K. M. (2006). Multiple testing procedures for analyzing stratified comparative clinical
trials using odds ratios. Computational Statistics & Data Analysis 50, 3324-3342.
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1
10
comunicare al software mediante la funzione Data → Weight Cases quale variabile contiene le
frequenze.
Figura 2 Possibili organizzazioni dei dati in SPSS per un test del chi-quadrato per l’indipendenza di variabili
categoriali: soggetto per soggetto (sinistra) e già raggruppati (destra). In quest’ultimo caso la variabile freq
contiene le frequenze di ogni cella, e questo va segnalato nella procedura Data → Weight Cases
Per realizzare il test del chi-quadrato per l’indipendenza di variabili categoriali si segue il percorso
Analyze → Descriptive Statistics → Crosstabs (Figura 3)
Figura 3 Percorso di SPSS da seguire per la realizzazione di un test del chi-quadrato per l’indipendenza di
variabili categoriali
Inseriamo la variabile che vogliamo compaia sulle righe (ad esempio, stile) della tavola di
contingenza nel campo Row(s) e la variabile che vogliamo compaia sulle colonne (ad esempio,
facoltà) della tavola di contingenza nel campo Column(s), e spuntiamo Display clustered bar charts
in modo da ottenere anche una rappresentazione grafica dei dati mediante diagramma a barre
affiancate (Figura 4).
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1
11
Figura 4 Impostare l'esecuzione di un test del chi-quadrato per l'indipendenza di variabili categoriali in SPSS
Clickiamo poi su Statistics. Nella Figura 5 è riportata la finestra di SPSS dove è possibile spuntare
le opzioni desiderate.
Figura 5 Opzioni di analisi per una tavola di contingenza in SPSS
Nel caso di variabili categoriali ci interesserà soprattutto spuntare Chi-square (chi-quadrato), Phi
and Cramér’s V (che corrispondono alla dimensione dell'effetto r per tabelle 2×2 e n×k,
rispettivamente) e, nel caso di tabelle 2 × 2, anche Cochran’s and Mantel-Haenszel statistics, che
permette di ottenere l’odds ratio e il test di significatività sull’odds ratio. Contingency coefficient è
una misura di associazione calcolata come CC =
X2
.
X2 +n
Lambda e Uncertainty Coefficient sono altre due misure di associazione a livello nominale basate
sul concetto di riduzione proporzionale dell’errore di predizione: in pratica, forniscono
informazioni su quanto si riduce, in proporzione, l’errore di predizione della classificazione di un
soggetto nelle categorie di una variabile B a partire dall’informazione circa la classificazione del
soggetto nelle categoria della variabile A rispetto ad una predizione fatta a caso. Lasciamo per il
momento da parte le opzioni contenute nei riquadri Nominal by Interval e Ordinal, che riguardano
altri livelli di scala di misura. Le opzioni Kappa e Risk riguardano altri due tipi particolari di analisi
(rispettivamente, coefficiente di accordo nel caso in cui le variabili rappresentino classificazioni
sugli stessi soggetti da parte di due diversi osservatori, e valutazione del rischio relativo, ad esempio
di una malattia rispetto all’esposizione ad un fattore scatenante; per maggiori dettagli si veda ad
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1
12
esempio Agresti, 2002), mentre del test di McNemar abbiamo già parlato nel materiale
supplementare dedicato al confronto fa due proporzioni dipendenti.
Una volta ritornati alla finestra principale, clickando su Cells è possibile indicare quali
informazioni vogliamo che siano riportate all’interno della tavola di contingenza (Figura 6).
Figura 6 Impostazione delle statistiche da mostrare nella tavola di contingenza
Di default vengono riportate solo le frequenze osservate, ma per indagare più a fondo una tavola in
cui il chi-quadrato è risultati significativo abbiamo bisogno anche dei residui standardizzati
aggiustati (RSA), per cui spuntiamo anche Adjusted Standardized nel riquadro Residuals. Le altre
opzioni riguardano la possibilità di ottenere le frequenze attese sotto indipendenza (Expected nel
riquadro Counts), le frequenze percentuali di riga, di colonna e totali (riquadro Percentages) e la
gestione dei pesi non interi (riquadro Noninteger Weights).
Le altre opzioni della finestra principale riguardano la produzione di test esatti (Exact), di
rappresentazione di grafici a barre raggruppate (Display clustered bar charts) e di escludere
dall’output la produzione della tavola di contingenza, limitandosi ai risultati del test statistici.
Soprattutto in quei casi in cui le assunzioni per l'applicazione del test del chi-quadrato per
l'indipendenza di variabili categoriali non siano rispettate è fondamentale utilizzare un test esatto,
per cui, una volta clickato su Exact, spuntiamo l'opzione l'Exact (Figura 7).
Figura 7 Impostare l'esecuzione di un test esatto per una tavola di contingenza
L’output di SPSS presenta inizialmente la tabella Case Processing Summary, che informa su
quanti casi validi sono stati utilizzati per l’analisi, e nella tavola di contingenza (in questo caso stile
* facoltà Crosstabulation) (Figura 8).
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1
13
Case Processing Summary
stile * facolta
Valid
N
Percent
133
100,0%
Cases
Missing
N
Percent
0
,0%
N
Total
Percent
133
100,0%
stile * facolta Crosstabulation
stile
Object
Spatial
Verbal
Total
Count
Adjusted Residual
Count
Adjusted Residual
Count
Adjusted Residual
Count
Psicologia
17
3,5
8
-1,4
7
-1,9
32
facolta
Ingegneria
Lettere
6
4
-1,9
-2,1
20
7
3,0
-1,6
10
19
-1,2
3,5
36
30
Medicina
11
,4
12
-,2
12
-,3
35
Total
38
47
48
133
Figura 8 Le prime due tabelle dell’output di SPSS a seguito dell’esecuzione di un test del chi-quadrato per
l’indipendenza di variabili categoriali
La tavola di contingenza in Figura 8 contiene nella prima riga le frequenze osservate e nella
seconda i residui standardizzati aggiustati (RSA).
La Figura 9 riporta invece la tabella con i risultati dei test statistici (Chi-square tests) e del
calcolo delle misure di associazione (Symmetric Measures).
Figura 9 Tabelle di SPSS con i test di significatività e con le misure di associazione nel caso di un test del chiquadrato per l’indipendenza di variabili categoriali
Nella tabella Chi-Square Tests è riportato il test del chi-quadrato X2 (Pearson Chi-Square), il test
rapporto di verosimiglianza (Likelihood Ratio), che è un test simile al chi-quadrato e si calcola con
f 
la formula G 2 = 2∑ f o ln o  , dove fo sono le frequenze osservate e fa le frequenze attese, salvo
 fa 
poi confrontare il valore di G2 con un χ2 critico esattamente come nel caso di X2. Questo test può
essere applicato anche in contesti più generali del X2 (ad esempio, modelli loglineari in cui si
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1
14
studiano i pattern di associazione di tre o più variabili categoriali) per cui, nel caso di una tavola di
contingenza, usare l’uno o l’altro è spesso mera questione di gusti personali o consuetudini di una
specifica disciplina. Il Linear-by-Linear Association, invece, è un test per variabili entrambe
ordinali, che non solo verifica l’associazione in generale, ma anche prendendo in considerazione
l’informazione a livello ordinale (se le variabili sono entrambe categoriali, come in questo caso, non
ha alcun senso considerarlo). Se abbiamo impostato l'opzione Exact come in Figura 7, avremo
anche i risultati del test della probabilità esatta di Fisher, che comunque in questo caso non è
necessario perchè, come riportato nella nota della tabella "0 cells (0.0%) have expected count less
than 5. The minimum expected count is 8.57". Questo implica che meno del 20% di celle hanno
frequenza attesa minore di cinque: congiuntamente al fatto che le osservazioni sono indipendenti e
non ci sono frequenze osservate uguali a zero questi risultati indicano che le assunzioni per
l'applicazione del chi-quadrato per l'indipendenza di variabili categoriali sono soddisfatte. Se una
sola di queste assunzioni non fosse stata soddisfatta, avremmo dovuto fare riferimento al test della
probabilità esatta di Fisher.
Nella tabella Symmetric Measures abbiamo il valore e il test di significatività per il phi
(utilizzabile solo per tabelle 2 × 2, in questo caso è stato calcolato semplicemente come
X2
)e
n
per il V di Cramér, che è la dimensione dell'effetto calcolata nel manuale.
Avendo spuntato anche l’opzione Display clustered bar charts otteniamo il grafico a barre
affiancate in Figura 10.
Figura 10 Grafico a barre affiancate per i dati in Tabella 7.3. Si noti che SPSS posiziona sull’asse orizzontale le
categorie della variabile sulle righe della tavola di contingenza.
In una tesi di laurea o in articolo scientifico, riporteremmo la tavola di contingenza in Figura 8e/o la
Figura 10 e scriveremmo:
Per verificare l’associazione fra Stile Cognitivo (Object, Spatial, Verbal) e Facoltà
(Psicologia, Ingegneria, Lettere, Medicina) è stato eseguito un test del chi-quadrato per
l’indipendenza di variabili categoriali, che ha evidenziato un’associazione significativa
fra le due variabili (X2(6, n = 133) = 26,12, p < ,001, r = ,31). La successiva ispezione dei
residui standardizzati aggiustati ha rivelato che, rispetto a quanto atteso sotto ipotesi nulla
di indipendenza delle variabili, vi erano più studenti di Psicologia Object, più studenti di
Ingegneria Spatial e più studenti di Lettere Verbal.
Se avessimo realizzato le analisi sui dati della Tabella 2, che era una 2 × 2 in cui non era
possibile eseguire il test del chi-quadrato poichè vi era più del 20% di frequenze attese inferiori a 5,
avremmo dovuto spuntare l'opzione Exact come in Figura 7 e avremmo potuto richiedere anche il
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1
15
calcolo dell’odds ratio4, e nella tabella Chi-Square Tests sarebbe stato riportata la probabilità
associata al test della probabilità esatta di Fisher (Figura 11). Si noti come a pie' della tabella sia
segnalato che più del 20% di celle hanno una frequenza attesa inferiore a 5.
Figura 11 Output di SPSS per un test del chi-quadrato per l’indipendenza di variabili categoriali su una tabella 2
× 2, con la tabella dei Chi-square tests comprendente anche il test della probabilità esatta di Fisher (Fisher’s
Exact Test) e quella relativa al calcolo e la test dei significatività dell’odds ratio
Il valore dell’odds ratio è quello sulla riga Estimate della tabella Mantel-Haenszel Common Odds
Ratio Estimate in Figura 11, mentre sotto troviamo il suo logaritmo [ln(Estimate)], l’errore standard
[Std. Error of ln(Estimate)], che è il denominatore della formula per la trasformazione a z nel test di
significatività (che nella tabella non è riportato, ma è calcolabile dividendo ln(Estimate) per Std.
Error of ln(Estimate), in questo esempio −1,012/0,983 = −1,03), e il livello di significatività
[Asymp. Sig. (2-sided)].
4
Nelle versioni di SPSS dalla 13.0 in avanti, insieme alla tabella Mantel-Haenszel Common Odds Ratio Estimate sono
prodotte altre tabelle (Test of Homogeneity of the Odds Ratio e Tests of Conditional Independence) che qui, per brevità,
sono state escluse.
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia