Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1 1 Strumenti informatici 14.1 Residui standardizzati aggiustati, test della probabilità esatta di Fisher, misure di associazione a livello nominale in tavole 2x2 e procedure di SPSS nell'analisi di tavole di contingenza Residui standardizzati aggiustati I residui standardizzati sono di fatto una trasformazione a punti z dei vari addendi del chi-quadrato. Essendo distribuiti come z, per cui una volta calcolati basta confrontarli col valore di z critico per verificare, in ogni singola cella della tavola di contingenza, le seguenti ipotesi: H0: Φattesa = Φosservata → Φattesa − Φosservata = 0 → nella popolazione, lo scarto fra frequenze attese ed osservate nella cella in esame è uguale a zero → il modello di indipendenza delle variabili predice perfettamente le frequenze osservate H0: Φattesa ≠ Φosservata → Φattesa − Φosservata ≠ 0 → nella popolazione, lo scarto fra frequenze attese ed osservate nella cella in esame è diverso da zero → il modello di indipendenza delle variabili non predice adeguatamete le frequenze osservate Il valore di z critico viene calcolato in base ad un livello significatività corretto per il numero di gradi di libertà della tavola e la direzionalità dell’ipotesi nulla. Nel caso della relazione fra stile cognitivo e facoltà di appartenenza proposto nel manuale, i gradi di libertà della tavola sono 6 per cui il valore di z critico sarà associato ad un α = ,05/6 = ,0083, che diviso per due (ipotesi bidirezionale) vale ,0042. Il valore di z che cerchiamo è determinabile con la funzione di Excel =INV.NORM.ST(,0042) = −2,64, da cui prendiamo il valore assoluto 2,64. La regola di decisione quindi sarà: se |z calcolato| > |z critico| → è troppo improbabile che i dati osservati siano il risultato del fatto che H0 è vera, per cui la rifiutiamo → nella popolazione, lo scarto fra frequenze attese ed osservate nella cella in esame è diverso da zero → il modello di indipendenza delle variabili non predice adeguatamete le frequenze osservate se |z calcolato| < |z critico| → non è così improbabile che i dati osservati siano il risultato del fatto che H0 è vera, per cui la accettiamo → nella popolazione, lo scarto fra frequenze attese ed osservate nella cella in esame è uguale a zero → il modello di indipendenza delle variabili predice perfettamente le frequenze osservate Utilizzeremo poi il segno della differenza (frequenze osservate − frequenze attese) per capire se ci sono più o meno casi osservati di quanti attesi. I residui standardizzati aggiustati si calcolano, cella per cella, con la seguente formula: RSA = fo − fa n f a × 1 − • j n ni • × 1 − n = Frequenze Osservate − Frequenze Attese Totale marginale di riga Totale marginale di colonna Frequenze attese × 1 − × 1 − Numero totale di soggetti Numero totale di soggetti Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1 2 Per la cella corrispondente agli Object che sono studenti di Psicologia avremo: RSAObject ; Psicologia = 17 − 9,14 38 32 9,14 × 1 − × 1 − 133 133 = 3,53 > 2,64 → Rifiutiamo H0 La Tabella 1 riporta i RSA per tutte le celle e mostra che gli scarti fra le frequenze attese e quelle osservate sono significativamente diversi da zero nelle celle (Object; Psicologia), (Spatial; Ingegneria) e (Verbal; Lettere), coerentemente con le ipotesi proposte nel manuale. Per quanto riguarda gli studenti di medicina, invece, non sembra esservi prevalenza di un particolare stile cognitivo. Tabella 1 Residui standardizzati aggiustati (RSA) per la tavola di contingenza Stile Cognitivo Facoltà riportata nel manuale (in neretto i RSA maggiori, in valore assoluto, del valore critico 2,64) Facoltà Stile Cognitivo Psicologia Ingegneria Lettere Medicina Object 3,53 -1,85 -2,10 0,44 Spatial -1,40 2,97 -1,56 -0,15 Verbal -1,92 -1,22 3,53 -0,26 Il test della probabilità esatta di Fisher e la sua dimensione dell'effetto Supponiamo che i dati siano quelli della tavola in Tabella 2. Tabella 2 Tavola di contingenza Genere × Personalità in cui non è applicabile il test del chiquadrato per l’indipendenza di variabili categoriali per la violazione dell’assunzione sul numero di frequenze attese inferiori a 5 (in neretto le frequenze osservate, in corsivo quelle attese) Genere Personalità Introverso Estroverso Totale 8 4 Maschi 12 9,12 2,88 11 2 Femmine 13 9,88 3,12 Totale 19 6 25 In questo caso, comune quando si ha un numero di osservazioni inferiore a 30 o comunque inferiore a 5 × numero di celle della tavola, abbiamo più del 20% di frequenze attese inferiori a 5. In questa situazione è violata la seconda assunzione per l'applicazione del test dei chi-quadrato per l'indipendenza di variabili categoriali, per cui dobbiamo ricorrere al test della probabilità esatta di Fisher (Fisher, 1935)1. La logica del test è simile a quella del test della binomiale. Si calcola la probabilità relativa a quanto effettivamente osservato, e si sommano le probabilità dei casi più estremi di questo. Se quindi per verificare l’ipotesi che la moneta fosse truccata nel caso in cui avevamo ottenuto 8 teste su 10 lanci dovevamo non solo calcolare la probabilità di questo evento, ma anche di quelli più 1 Fisher, R. A. (1935). The Design of Experiments. Edinburgh: Oliver & Boyd. Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1 3 estremi (9 teste su 10 lanci e 10 teste su 10 lanci), anche in questo caso dobbiamo sommare la probabilità relativa alla tavola in Tabella 2 più quella relativa alle tavole in Tabella 3. Tabella 3 Casi più estremi di quello in Tabella 2 (a) Personalità Genere Introverso Estroverso Totale Genere (b) Personalità Introverso Estroverso Totale Maschi 8 4 12 Maschi 8 4 12 Femmine 12 1 13 Femmine 13 0 13 Totale 20 5 25 Totale 21 4 25 La formula per il calcolo della probabilità relativa ad ogni tabella è quella del coefficiente ipergeometrico di Fisher: (a + b)!×(c + d )!×(a + c)!×(b + d )! p= a!×b!×c!×d !×n! dove a, b, c, d, e n sono i valori riportati nella Tabella 4 Tabella 4 Valori da inserire nel calcolo del coefficiente ipergeometrico di Fisher Personalità Genere Totale Introverso Estroverso Maschi a b a+b Femmine c d c+d Totale a+c b+d n Nel nostro caso, quindi, avremmo: p= (12)!×(13)!×(19)!×(6)! (12)!×(13)!×(20)!×(5)! (12)!×(13)!×(21)!×(4)! + + =,281 8!×4!×11!×2!×25! 8!×4!×12!×1!×25! 8!×4!×13!×0!×25! Poiché p calcolato è maggiore del livello di significatività α = ,05, non possiamo rifiutare l’ipotesi nulla di indipendenza delle variabili. Lo stesso test può essere utilizzato quando è violata la terza assunzione per l'applicazione del test del chi-quadrato per l'indipendenza di variabili categoriali, ossia vi è una frequenza osservata uguale a zero, come nel caso di Tabella 3b. In questa situazione, l'unico valore da calcolare è: p= (12)!×(13)!×(21)!×(4)! =,039 8!×4!×13!×0!×25! Per cui, dato che p calcolato è inferiore al livello di significatività α = ,05, possiamo rifiutare l’ipotesi nulla di indipendenza delle variabili e concludere che vi è un'associazione fra genere e personalità. L'esecuzione del test della probabilità esatta di Fisher è possibile anche in tavole di contingenza di dimensioni superiori a 2 × 2, ma la realizzazione dei calcoli manualmente è molto più complessa. Ad ogni modo, si veda più avanti come ottenere questa analisi con SPSS Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1 4 Per calcolare la dimensione dell'effetto quando ci avvaliamo della probabilità esatta, possiamo utilizzare l'indice requivalente descritto da Rosenthal e Rubin (2003). Inizialmente dobbiamo ricavare il valore della distribuzione di t di Student corrispondente al valore di probabilità ottenuto, con n−2 gradi di libertà (gdl), dove n è il numero di osservazioni. Per ottenere il valore di t possiamo utilizzare la funzione di Excel =INV.T (p;gdl). Nel caso della Tabella 2 abbiamo ottenuto p=,281, n=25, quindi gdl=23, per cui =INV.T (,281;23) = 1,10. A questo applichiamo la formula: requivalente = t2 1,10 2 = = 0,22 t 2 + gdl 1,10 2 + 23 che corrisponde ad una dimensione dell'effetto piccola. Questo procedimento permette di determinare la dimensione dell'effetto per il test di Fisher eseguito su tavole di contingenza di qualunque dimensione. Per il caso particolare delle tavole 2 × 2 è possibile calcolare altri indici descritti nella sezione successiva. Misure di associazione a livello nominale in tavole 2x2 Coefficiente phi Nel caso delle tavole di contingenza 2 × 2 è possibile calcolare l'equivalente a livello nominale del coefficiente di correlazione di Pearson per variabili metriche. In generale, un coefficiente di correlazione viene indicato con r e il suo segno esprime la direzione della relazione, mentre il modulo, ossia il valore assoluto, esprime la forza della relazione. In altri termini, un coefficiente di correlazione uguale a −1 indica una relazione negativa perfetta. Una relazione negativa si verifica quando le due variabili variano in modo concomitante ma in direzioni opposte: al crescere del valore di una variabile, il valore l’altra diminuisce, e viceversa. Se la relazione è perfetta, vuol dire che le variazioni nella seconda variabile sono perfettamente predicibili in base alle variazioni nella prima. Se un coefficiente di correlazione è uguale a +1, siamo di nuovo nel caso di una relazione perfetta, ma in cui al crescere del valore di una variabile, il valore l’altra aumenta a sua volta. Come abbiamo detto anche in precedenza, però, non riscontriamo mai relazioni perfette nella normale attività ricerca, per cui ci troveremo sempre a dover valutare relazioni positive o negative, e a cercare di comprendere quanto esse siano diverse da 0, che è il valore che indica assenza di relazione fra le variabili, ossia la loro indipendenza. Nel caso di variabili nominali di solito non ha alcun senso pensare ad una relazione in termini di "all'aumentare del punteggio in una variabile, il punteggio nell'altra aumenta/diminuisce", in quanto le variabili nominali non veicolano informazione quantitativa, nè ordinale. Tuttavia, nelle variabili dicotomiche che classificano le osservazioni in Negativo-Positivo, Falso-Vero, SanoMalato, No-Sì, etc., è possibile individuare un ordine legato alla assenza-presenza di una certa caratteristica. Consideriamo i casi delle tavole di contingenza in Tabella 5 e Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1 5 Tabella 6. Tabella 5 Tavola di contingenza Tabagismo × Malattia Respiratoria Cronica Malattia respiratoria Tabagismo No Sì Totale No 48 12 60 Si 25 77 102 Totale 73 89 162 Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1 6 Tabella 6 Tavola di contingenza Supporto sociale × Depressione Depressione Supporto sociale No Sì Totale Presente 14 67 81 Assente 114 21 135 Totale 128 88 216 Nel caso della Tabella 5 abbiamo la presenza/assenza di un fattore di rischio e la presenza/assenza di una malattia. Se realizziamo un test del chi-quadrato, otteniamo X2(1, n=162) = 46,99, p<,001, che indica un'associazione significativa fra le variabili. Per quanto sia possibile calcolare un indice di dimensione dell'effetto con i metodo descritto nel manuale, ottenendo ,54, lo stesso risultato può essere ottenuto calcolando il coefficiente phi (ϕ), che è nella stessa metrica di r: ϕ= ad − bc (a + b)(a + c)(c + d )(b + d ) dove a, b, c, e d sono le frequenze di cella come in Tabella 4. Per i dati in Tabella 5 avremo quindi ϕ= ad − bc 48 × 77 − 12 × 25 = =,54 (a + b)(a + c)(c + d )(b + d ) (60)(73)(102)(89) Si può osservare dalla formula che il coefficiente ϕ potrebbe risultare negativo se ad < bc, come è appunto il caso per la Tabella 6, dove sono riportati i dati relativi all'associazione fra presenza di supporto sociale e diagnosi di depressione (X2(1, n=216) = 94,58, p<,001): ϕ= ad − bc 14 × 21 − 67 × 114 = = −,66 (a + b)(a + c)(c + d )(b + d ) (81)(128)(135)(88) Che significato ha il segno positivo o negativo in questi esempi? Nel primo caso, in cui φ è positivo, ci indica che la presenza del fattore di rischio è associata alla presenza della malattia, nel secondo, in cui φ è negativo, che la presenza di supporto sociale è associata all'assenza di depressione. Naturalmente tutto ciò ha senso solo se si ordinano in un certo modo, coerente con la teoria, le categorie all'interno della tavola. Il coefficiente φ può essere calcolato anche in quelle tavole 2×2 nelle quali il test del chi-quadrato non è applicabile, come in Tabella 2. Il valore di φ è: ϕ= ad − bc 8 × 2 − 4 × 11 = = −,21 (a + b)(a + c)(c + d )(b + d ) (12)(19)(13)(6) Data la natura nominale delle variabili considerare il segno non ha molto senso. Si noti come tale valore sia simile a quello ottenuto con requivalente. Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1 7 Odds ratio Nel caso di una tavola di contingenza 2 × 2, o comunque di una sottotavola 2 × 2 di una tavola di contingenza di dimensioni maggiori, è possibile calcolare anche un altro indice di associazione e dimensione dell'effetto, detto odds ratio (in italiano tradotto come rapporto di associazione, ad esempio, Corbetta, 1992)2. L’odds ratio è un rapporto di odds (o rapporto di probabilità). Con il termine odds (Ω) si indica, per ogni categoria della variabile dicotomica A, il rapporto tra la frequenza di trovarsi in una categoria della variabile dicotomica B e la frequenza di non trovarvisi. Nel caso della Tabella 5, l’odds per la categoria Tabagista rispetto all’avere o meno la malattia sarà: Ω malato|tabagista = Frequenza Tabagisti Malati 77 = = 3,08 Frequenza Tabagisti Non Malati 25 mentre quella per la categoria Non Tabagista sarà: Ω malato|non tabagista = Frequenza Non Tabagisti Malati 12 = = 0,25 Frequenza Non Tabagisti Non Malati 48 L’odds ratio θ è il rapporto fra questi due odds: θ= Ω malato|tabagista Ω malato|non tabagista = 3,08 = 12,32 0,25 Se l’Odds ratio è uguale a 1, significa che vi è indipendenza delle variabili. Quanto più l’odds ratio è diverso da 1, invece, tanto più le variabili sono associate. Esattamente come l’indice di dimensione dell’effetto w, l’odds ratio non risente dell’ampiezza del campione, perché è basato unicamente sulle proporzioni fra i valori di cella. Questo significa che moltiplicando per una costante k i valori delle frequenza di cella, il X2 aumenta di k volte, influendo sulla significatività (dato che i gradi di libertà rimangono gli stessi), mentre w e l’odds ratio rimangono invariati, come illustrato dagli esempi in Tabella 7. Nella Tabella 7, le frequenze della tavola di contingenza della colonna di destra sono state ricavate moltiplicando per 10 le frequenze della tavola nella colonna di sinistra. Mentre il chiquadrato risente di questa modifica, w e l’odds ratio no, per cui permettono una valutazione più realistica della forza dell’associazione fra le due variabili. Se però per l’indice w esistono delle linee guida per l’interpretazione, per l’odds ratio la questione è più complessa, in quanto può allontanarsi da 1 verso infinito oppure verso lo zero, che è il limite teorico inferiore, in base a come viene impostato il calcolo. Nel caso degli odds ratio nella Tabella 7 avremmo anche potuto calcolare l’odds ratio come: 30 25 Ω bocciato!frequentante Ω promosso|frequentan te θ= = 40 = 0,60 , che è uguale a 1 diviso per θ = = 20 = 1,67 Ω bocciato|non frequentante 25 Ω promosso|non frequentante 30 20 40 2 Corbetta, P. (1992). Metodi di analisi multivariata per le scienze sociali. Bologna: Il Mulino. Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1 8 Tabella 7 Invarianza di w e θ dal numero di osservazioni Esito dell'esame Esito dell'esame Status Status Bocciato Promosso Totale Bocciato Promosso Totale Frequentante 30 40 70 Frequentante 300 400 700 Non frequentante 25 20 45 Non frequentante 250 200 450 Totale 55 60 115 Totale 550 600 1150 X2(1, n = 115) = 1,77, p = ,183 Non possiamo rifiutare l’ipotesi nulla di indipendenza → non associazione fra le variabili w= θ= 1,77 = 0,124 115 × 1 Ω promosso|frequentante Ω promosso|non frequentante X2(1, n = 1150) = 17,70, p < ,001 Possiamo rifiutare l’ipotesi nulla di indipendenza → associazione fra le variabili w= 25 = 20 = 1,67 30 40 θ= 17,70 2 = 0,124 1150 × 1 Ω promosso|frequentante Ω promosso|non frequentante 250 = 200 = 1,67 300 400 La distribuzione dei valori attorno al valore di odds ratio di indipendenza della variabili (ossia, 1) non è simmetrica, in quanto vi sarà un’enorme concentrazione di valori fra 0 e 1, e una maggiore dispersione da 1 a infinito. Per questo motivo, si tende a realizzare sull’odds ratio un test di significatività che verifica che l’odds ratio osservato sia effettivamente diverso da 1 nella popolazione. Le ipotesi sono: H0: θ = 1 → Nella popolazione da cui è stato estratto il campione, l’odds ratio è uguale a 1 → le variabili sono indipendenti H0: θ ≠ 1 → Nella popolazione da cui è stato estratto il campione, l’odds ratio è diverso 1 → le variabili sono associate Il test di significatività sull’odds ratio è basato una statistica distribuita come z calcolata nel seguente modo: ln θ z= 1 1 1 1 + + + a b c d dove ln θ è il logaritmo naturale dell’odds ratio e a, b, c, e d sono le frequenze di cella come in Tabella 4. Il vantaggio della trasformazione a logaritmo è che la funzione logaritmica è simmetrica attorno allo zero (che è il logaritmo naturale di 1, ossia il valore di θ in ipotesi nulla, e definita da meno infinito a più infinito). Per α = ,05 e ipotesi alternativa bidirezionale lo z critico è 1,96. La regola di decisione sarà: se |z calcolato| > |z critico| → è troppo improbabile che i dati osservati siano il risultato del fatto che H0 è vera, per cui la rifiutiamo → l’odds ratio è significativamente diverso da 1 → le variabili sono associate se |z calcolato| < |z critico| → non è così improbabile che i dati osservati siano il risultato del fatto che H0 è vera, per cui la accettiamo → l’odds ratio non è significativamente diverso da 1 → le variabili sono indipendenti Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1 9 Purtroppo, il test ti di significatività dell’odds ratio risente a sua volta dell’ampiezza campionaria. Nel caso delle due tavole in Tabella 7 avremo z= z= 1 a 1 a ln θ 1 1 + + + b c ln θ 1 1 + + + b c 1 d 1 d = = ln 1,67 = 1,33 < 1,96 → Accettiamo H0 1 1 1 1 + + + 30 40 25 20 ln 1,67 = 4,19 > 1,96 → Rifiutiamo H0 1 1 1 1 + + + 300 400 250 200 Per questo motivo, si tendono ad interpretare gli odds ratio nel loro significato originario di rapporti di probabilità: in altri termini, se l’odds ratio delle tavole in Tabella 7è risultato 1,67, significa che “i frequentanti hanno una probabilità di essere promossi 1,67 volte maggiore dei non frequentanti”. Gli odds ratio possono essere calcolati solo per le tavole 2 × 2. Ad ogni modo, è possibile calcolarli anche nelle sottotavole 2 × 2 di tavole di dimensioni maggiori, ed eseguire confronti multipli. In questo caso, però, è necessaria tutta una serie di aggiustamenti legata al dover comunque considerare la dimensione della tavola e l’entità delle altre frequenze di cella non direttamente interessate del confronto. Il metodo è spiegato, fra gli altri, in Agresti (2002) e Wu, Tang e Lee (2006)3. Realizzare analisi statistiche su una tavola di contingenza con Excel e SPSS Excel può essere utilizzato per realizzare un test del chi-quadrato per l’indipendenza di variabili categoriali, ma solo una volta che siano state calcolate la frequenze attese. Per cui, dopo aver riprodotto la tavola di contingenza con le frequenze osservate in un foglio di Excel, occorre calcolare mediante le formule le frequenze attese (Figura 1) e utilizzare la funzione =TEST.CHI(Intervallo_effettivo;Intervallo_previsto). Figura 1 Realizzazione di un test del chi-quadrato per l’indipendenza di variabili categoriali in Excel In SPSS, invece, è possibile realizzare non solo il test statistico, ma calcolare anche tutti gli indici di associazione descritti nel manuale e in questo documento. I dati possono essere inseriti o soggetto per soggetto, oppure già raggruppati in frequenze (Figura 2). In quest’ultimo caso, occorre 3 Agresti, A. (2002). Categorical Data Analysis, 2nd edition. New York: Wiley. Wu, K. H., Tang, M. L., & Lee, K. M. (2006). Multiple testing procedures for analyzing stratified comparative clinical trials using odds ratios. Computational Statistics & Data Analysis 50, 3324-3342. Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1 10 comunicare al software mediante la funzione Data → Weight Cases quale variabile contiene le frequenze. Figura 2 Possibili organizzazioni dei dati in SPSS per un test del chi-quadrato per l’indipendenza di variabili categoriali: soggetto per soggetto (sinistra) e già raggruppati (destra). In quest’ultimo caso la variabile freq contiene le frequenze di ogni cella, e questo va segnalato nella procedura Data → Weight Cases Per realizzare il test del chi-quadrato per l’indipendenza di variabili categoriali si segue il percorso Analyze → Descriptive Statistics → Crosstabs (Figura 3) Figura 3 Percorso di SPSS da seguire per la realizzazione di un test del chi-quadrato per l’indipendenza di variabili categoriali Inseriamo la variabile che vogliamo compaia sulle righe (ad esempio, stile) della tavola di contingenza nel campo Row(s) e la variabile che vogliamo compaia sulle colonne (ad esempio, facoltà) della tavola di contingenza nel campo Column(s), e spuntiamo Display clustered bar charts in modo da ottenere anche una rappresentazione grafica dei dati mediante diagramma a barre affiancate (Figura 4). Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1 11 Figura 4 Impostare l'esecuzione di un test del chi-quadrato per l'indipendenza di variabili categoriali in SPSS Clickiamo poi su Statistics. Nella Figura 5 è riportata la finestra di SPSS dove è possibile spuntare le opzioni desiderate. Figura 5 Opzioni di analisi per una tavola di contingenza in SPSS Nel caso di variabili categoriali ci interesserà soprattutto spuntare Chi-square (chi-quadrato), Phi and Cramér’s V (che corrispondono alla dimensione dell'effetto r per tabelle 2×2 e n×k, rispettivamente) e, nel caso di tabelle 2 × 2, anche Cochran’s and Mantel-Haenszel statistics, che permette di ottenere l’odds ratio e il test di significatività sull’odds ratio. Contingency coefficient è una misura di associazione calcolata come CC = X2 . X2 +n Lambda e Uncertainty Coefficient sono altre due misure di associazione a livello nominale basate sul concetto di riduzione proporzionale dell’errore di predizione: in pratica, forniscono informazioni su quanto si riduce, in proporzione, l’errore di predizione della classificazione di un soggetto nelle categorie di una variabile B a partire dall’informazione circa la classificazione del soggetto nelle categoria della variabile A rispetto ad una predizione fatta a caso. Lasciamo per il momento da parte le opzioni contenute nei riquadri Nominal by Interval e Ordinal, che riguardano altri livelli di scala di misura. Le opzioni Kappa e Risk riguardano altri due tipi particolari di analisi (rispettivamente, coefficiente di accordo nel caso in cui le variabili rappresentino classificazioni sugli stessi soggetti da parte di due diversi osservatori, e valutazione del rischio relativo, ad esempio di una malattia rispetto all’esposizione ad un fattore scatenante; per maggiori dettagli si veda ad Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1 12 esempio Agresti, 2002), mentre del test di McNemar abbiamo già parlato nel materiale supplementare dedicato al confronto fa due proporzioni dipendenti. Una volta ritornati alla finestra principale, clickando su Cells è possibile indicare quali informazioni vogliamo che siano riportate all’interno della tavola di contingenza (Figura 6). Figura 6 Impostazione delle statistiche da mostrare nella tavola di contingenza Di default vengono riportate solo le frequenze osservate, ma per indagare più a fondo una tavola in cui il chi-quadrato è risultati significativo abbiamo bisogno anche dei residui standardizzati aggiustati (RSA), per cui spuntiamo anche Adjusted Standardized nel riquadro Residuals. Le altre opzioni riguardano la possibilità di ottenere le frequenze attese sotto indipendenza (Expected nel riquadro Counts), le frequenze percentuali di riga, di colonna e totali (riquadro Percentages) e la gestione dei pesi non interi (riquadro Noninteger Weights). Le altre opzioni della finestra principale riguardano la produzione di test esatti (Exact), di rappresentazione di grafici a barre raggruppate (Display clustered bar charts) e di escludere dall’output la produzione della tavola di contingenza, limitandosi ai risultati del test statistici. Soprattutto in quei casi in cui le assunzioni per l'applicazione del test del chi-quadrato per l'indipendenza di variabili categoriali non siano rispettate è fondamentale utilizzare un test esatto, per cui, una volta clickato su Exact, spuntiamo l'opzione l'Exact (Figura 7). Figura 7 Impostare l'esecuzione di un test esatto per una tavola di contingenza L’output di SPSS presenta inizialmente la tabella Case Processing Summary, che informa su quanti casi validi sono stati utilizzati per l’analisi, e nella tavola di contingenza (in questo caso stile * facoltà Crosstabulation) (Figura 8). Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1 13 Case Processing Summary stile * facolta Valid N Percent 133 100,0% Cases Missing N Percent 0 ,0% N Total Percent 133 100,0% stile * facolta Crosstabulation stile Object Spatial Verbal Total Count Adjusted Residual Count Adjusted Residual Count Adjusted Residual Count Psicologia 17 3,5 8 -1,4 7 -1,9 32 facolta Ingegneria Lettere 6 4 -1,9 -2,1 20 7 3,0 -1,6 10 19 -1,2 3,5 36 30 Medicina 11 ,4 12 -,2 12 -,3 35 Total 38 47 48 133 Figura 8 Le prime due tabelle dell’output di SPSS a seguito dell’esecuzione di un test del chi-quadrato per l’indipendenza di variabili categoriali La tavola di contingenza in Figura 8 contiene nella prima riga le frequenze osservate e nella seconda i residui standardizzati aggiustati (RSA). La Figura 9 riporta invece la tabella con i risultati dei test statistici (Chi-square tests) e del calcolo delle misure di associazione (Symmetric Measures). Figura 9 Tabelle di SPSS con i test di significatività e con le misure di associazione nel caso di un test del chiquadrato per l’indipendenza di variabili categoriali Nella tabella Chi-Square Tests è riportato il test del chi-quadrato X2 (Pearson Chi-Square), il test rapporto di verosimiglianza (Likelihood Ratio), che è un test simile al chi-quadrato e si calcola con f la formula G 2 = 2∑ f o ln o , dove fo sono le frequenze osservate e fa le frequenze attese, salvo fa poi confrontare il valore di G2 con un χ2 critico esattamente come nel caso di X2. Questo test può essere applicato anche in contesti più generali del X2 (ad esempio, modelli loglineari in cui si Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1 14 studiano i pattern di associazione di tre o più variabili categoriali) per cui, nel caso di una tavola di contingenza, usare l’uno o l’altro è spesso mera questione di gusti personali o consuetudini di una specifica disciplina. Il Linear-by-Linear Association, invece, è un test per variabili entrambe ordinali, che non solo verifica l’associazione in generale, ma anche prendendo in considerazione l’informazione a livello ordinale (se le variabili sono entrambe categoriali, come in questo caso, non ha alcun senso considerarlo). Se abbiamo impostato l'opzione Exact come in Figura 7, avremo anche i risultati del test della probabilità esatta di Fisher, che comunque in questo caso non è necessario perchè, come riportato nella nota della tabella "0 cells (0.0%) have expected count less than 5. The minimum expected count is 8.57". Questo implica che meno del 20% di celle hanno frequenza attesa minore di cinque: congiuntamente al fatto che le osservazioni sono indipendenti e non ci sono frequenze osservate uguali a zero questi risultati indicano che le assunzioni per l'applicazione del chi-quadrato per l'indipendenza di variabili categoriali sono soddisfatte. Se una sola di queste assunzioni non fosse stata soddisfatta, avremmo dovuto fare riferimento al test della probabilità esatta di Fisher. Nella tabella Symmetric Measures abbiamo il valore e il test di significatività per il phi (utilizzabile solo per tabelle 2 × 2, in questo caso è stato calcolato semplicemente come X2 )e n per il V di Cramér, che è la dimensione dell'effetto calcolata nel manuale. Avendo spuntato anche l’opzione Display clustered bar charts otteniamo il grafico a barre affiancate in Figura 10. Figura 10 Grafico a barre affiancate per i dati in Tabella 7.3. Si noti che SPSS posiziona sull’asse orizzontale le categorie della variabile sulle righe della tavola di contingenza. In una tesi di laurea o in articolo scientifico, riporteremmo la tavola di contingenza in Figura 8e/o la Figura 10 e scriveremmo: Per verificare l’associazione fra Stile Cognitivo (Object, Spatial, Verbal) e Facoltà (Psicologia, Ingegneria, Lettere, Medicina) è stato eseguito un test del chi-quadrato per l’indipendenza di variabili categoriali, che ha evidenziato un’associazione significativa fra le due variabili (X2(6, n = 133) = 26,12, p < ,001, r = ,31). La successiva ispezione dei residui standardizzati aggiustati ha rivelato che, rispetto a quanto atteso sotto ipotesi nulla di indipendenza delle variabili, vi erano più studenti di Psicologia Object, più studenti di Ingegneria Spatial e più studenti di Lettere Verbal. Se avessimo realizzato le analisi sui dati della Tabella 2, che era una 2 × 2 in cui non era possibile eseguire il test del chi-quadrato poichè vi era più del 20% di frequenze attese inferiori a 5, avremmo dovuto spuntare l'opzione Exact come in Figura 7 e avremmo potuto richiedere anche il Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.1 15 calcolo dell’odds ratio4, e nella tabella Chi-Square Tests sarebbe stato riportata la probabilità associata al test della probabilità esatta di Fisher (Figura 11). Si noti come a pie' della tabella sia segnalato che più del 20% di celle hanno una frequenza attesa inferiore a 5. Figura 11 Output di SPSS per un test del chi-quadrato per l’indipendenza di variabili categoriali su una tabella 2 × 2, con la tabella dei Chi-square tests comprendente anche il test della probabilità esatta di Fisher (Fisher’s Exact Test) e quella relativa al calcolo e la test dei significatività dell’odds ratio Il valore dell’odds ratio è quello sulla riga Estimate della tabella Mantel-Haenszel Common Odds Ratio Estimate in Figura 11, mentre sotto troviamo il suo logaritmo [ln(Estimate)], l’errore standard [Std. Error of ln(Estimate)], che è il denominatore della formula per la trasformazione a z nel test di significatività (che nella tabella non è riportato, ma è calcolabile dividendo ln(Estimate) per Std. Error of ln(Estimate), in questo esempio −1,012/0,983 = −1,03), e il livello di significatività [Asymp. Sig. (2-sided)]. 4 Nelle versioni di SPSS dalla 13.0 in avanti, insieme alla tabella Mantel-Haenszel Common Odds Ratio Estimate sono prodotte altre tabelle (Test of Homogeneity of the Odds Ratio e Tests of Conditional Independence) che qui, per brevità, sono state escluse. Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
© Copyright 2025 Paperzz