Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3 1 Strumenti informatici 14.3 Altri tipi di analisi di correlazione e calcolo del coefficiente di correlazione di Pearson con Excel e SPSS Calcolare il numero ottimale di casi la verifica di ipotesi su un coefficiente di correlazione di Pearson Per calcolare il numero ottimale di casi per una verifica di ipotesi su un coefficiente di correlazione r una volta fissato il livello a cui si vuole controllare l’errore di primo tipo α e l’errore di secondo tipo β, si utilizza la seguente formula: n= ( z1−α + z1− β ) 2 u r2 +3 dove z1-α è il valore di z associato a uno meno la probabilità di commettere un errore di primo tipo (nel caso di ipotesi alternativa monodirezionale; in caso di ipotesi alternativa bidirezionale occorre calcolare 1 − α/2), z1-β è il valore di z associato a uno meno la probabilità di commettere un errore di secondo tipo e ur viene calcolato in base alla seguente formula: ur = 1 1+ r r ln + 2 1 − r 2(n − 1) Al lettore attento non sarà sfuggito che in questa formula compare il termine n, che è proprio il valore che stiamo cercando di calcolare. In realtà non c’è niente di particolarmente strano, perché la procedura che stiamo considerando è di natura iterativa, per cui richiede qualche "ciclo" di calcoli prima di portarci al risultato finale e, soprattutto, richiede una stima iniziale del valore che si vuole calcolare. In questo caso, inseriremo nella prima equazione un valore di ur uguale a: ur = 1 1+ r ln 2 1− r e successivamente inseriremo il valore di n così calcolato nella seconda equazione. Il nuovo valore ottenuto di u2r verrà a sua volta inserito nuovamente nella prima equazione per ottenere una nuova stima di n. Ognuno di questi cicli prende il nome di iterazione, e le iterazioni termineranno quando il valore di n da un’iterazione all’altra non cambierà più. Vediamo un esempio. Supponiamo di voler calcolare l’ampiezza campionaria ottimale per una verifica di ipotesi di con H0: ρ = 0 di r = ,30 controllando il livello dell’errore di primo tipo α a ,05 (H1 mondirezionale, z1-α = 1,6449) e quello dell’errore di secondo tipo β a ,20 (z1-β = 0,8416). Cominciamo calcolando il valore iniziale di ur: ur = 1 1+ r 1 1+,30 ln = log = 0,3095 2 1− r 2 1−,30 e inseriamo questo valore nella prima equazione: Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3 n= ( z1−α + z1− β ) 2 u r2 2 (1,6449 + 0,8416) 2 +3= + 3 = 67,53 (0,3095) 2 In base a questo valore riprendiamo il ciclo di iterazioni, questa volta inserendo n nella seconda equazione: 1 1+ r r 1 1+,30 ,30 ln + = ln + = 0,31177 2 1 − r 2(n − 1) 2 1−,30 2(67,53 − 1) A sua volta, questo valore viene utilizzato per una nuova stima di n, che porta ad una nuova stima di ur e così via: ur = n= ( z1−α + z1− β ) 2 u r2 +3= (1,6449 + 0,8416) 2 + 3 = 66,60 (0,31177) 2 1 1+ r r 1 1+,30 ,30 ln + = ln + = 0,31181 2 1 − r 2(n − 1) 2 1−,30 2(66,60 − 1) ( z1−α + z1− β ) 2 (1,6449 + 0,8416) 2 n= +3= + 3 = 66,59 u r2 (0,31181) 2 ur = Poiché lo scarto fra due valori consecutivi di n è inferiore a ,01, possiamo fermarci qui e individuare in 67 (approssimazione all’intero superiore di 66,59) il numero ottimale di soggetti per verificare H0: ρ = 0 con un r = ,30, α = ,05 e β = ,20. Se vogliamo invece calcolare la potenza relativa ad un determinato coefficiente di correlazione con α e n noti, basta utilizzare la formula inversa: z1− β = u r n − 3 − z1−α Nel caso di r = ,30, α = ,05 e n = 70 avremo che ur = 1 1+ r r 1 1+,30 ,30 ln + = ln + = 0,311694 2 1 − r 2(n − 1) 2 1−,30 2(70 − 1) per cui z1− β = u r n − 3 − z1−α = 0,311694 70 − 3 − 1,6449 = 0,91 La probabilità cumulativa associata a z = 0,91 è facilmente calcolabile con la funzione di Excel =DISTRIB.NORM.ST(0,91), il cui risultato è ,82. Ossia, abbiamo che 1 − β = ,82, quindi β = ,18. Nel momento in cui sto scrivendo è possibile scaricare da Internet un software, G*POWER (http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3/), che consente di eseguire questi calcoli, non solo per il coefficiente di correlazione, ma anche per tutti gli altri test statistici. Una volta avviato il programma, occorre impostare l'opzione Exact nel campo Test Family, quella Correlation: Bivariate normal model in Statistical Test, la direzionalità dell'ipotesi alternativa (una o due code, Tail(s)), e i valori del coefficiente di correlazione in ipotesi alternativa (Correlation ρ H1), dell'errore di primo tipo (α err prob), della potenza statistica desiderata [Power (1-β err prob)], e del coefficiente di correlazione in ipotesi nulla (Correlation ρ H0) (Figura 1a). A questo punto basta clickare su Calculate e si ottiene il risultato desiderato (Figura 1b). Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3 (a) 3 (b) Figura 1 Calcolare il numero ottimale di casi per un coefficiente di correlazione in base ad α e β con G*POWER Dal sito di G*POWER è possibile scaricare un manuale che illustra il funzionamento del software. Altri tipi di test di significatività del coefficiente di correlazione di Pearson Una delle cause principali della cattiva interpretazione del test di significatività di r è che si fonda su un’ipotesi nulla per cui ρ = 0. In realtà è possibile realizzare un test di ipotesi anche supponendo in ipotesi nulla un valore di coefficiente di correlazione nella popolazione diverso da zero. Per esempio, supponiamo di aver osservato che in un campione di 86 soggetti la correlazione fra età e punteggio di Coscienziosità sia ,58 e che lo scopo della nostra ricerca non sia tanto verificare che il coefficiente di correlazione sia diverso da zero, quanto che sia maggiore di ,50, che per noi costituisce il limite di una relazione forte (oppure potrebbe essere il valore noto nella popolazione, come nel caso del test z o t per una media). Obiettivo: verificare se la correlazione fra età e punteggio alla scala Coscienziosità del BFI è statisticamente superiore a ,50 Variabili Variabile 1: Età (anni, a rapporti) Variabile 2: Punteggio alla scala Coscienziosità del BFI (intervalli) H0: ρ = ,50 → nella popolazione dalla quale è stato estratto il campione la relazione fra età e punteggio alla scala Coscienziosità del BFI è uguale a ,50 H1: ρ > ,50 → nella popolazione dalla quale è stato estratto il campione la relazione fra età e punteggio alla scala Coscienziosità del BFI è maggiore di ,50 Per verificare le ipotesi occorre trasformare il coefficiente di correlazione campionario r e quello indicato in ipotesi nulla ρ in Zr mediante la trasformazione di Fisher r−Z: Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3 4 1 1 + r 1 1+,58 1 1 + ρ 1 1+,50 Z r = ln = ln = 0,662 , Z ρ = ln = 0,549 = ln 2 1 − r 2 1−,58 2 1 + ρ 2 1−,50 Tale trasformazione può essere eseguita con Excel con la funzione =FISHER(coefficiente). A questo punto basta applicare la formula: z= Zr − Zρ 1 n−3 dove n è il numero di soggetti. Questo valore è distribuito come z, per cui per un livello di significatività α = ,05 e ipotesi alternativa monodirezionale, il valore di z critico è 1,65. La regola di decisione sarà: se |z calcolato| > |z critico| → è troppo improbabile che i dati osservati siano il risultato del fatto che H0 è vera, per cui la rifiutiamo → il coefficiente di correlazione campionario non è statisticamente superiore a ,50 se |t calcolato| < |t critico| → non è così improbabile che i dati osservati siano il risultato del fatto che H0 è vera, per cui la accettiamo → il coefficiente di correlazione campionario è statisticamente superiore a ,50 Individuiamo il valore di z calcolato: Z r − Z ρ 0,662 − 0,549 z= = = 1,03 1 1 n−3 86 − 3 Conclusione: poiché |z calcolato| < |z critico| (1,03 < 1,65), non è così improbabile che quanto osservato sia il risultato di un’ipotesi nulla vera, per cui la accettiamo. Questi risultati suggeriscono che molto probabilmente nella popolazione dalla quale è stato estratto il campione la correlazione fra le età e punteggio di Coscienziosità non è superiore a ,50 Il test può essere generalizzato al confronto di due o più coefficienti di correlazione campionari. Occorre però distinguere fra campioni indipendenti e dipendenti. Campioni indipendenti Supponiamo di voler confrontare il coefficiente di correlazione ottenuto in precedenza su 86 soggetti italiani con quello ottenuto in un campione di 104 soggetti americani e che è risultato ,44. Nel caso del confronto fra due coefficienti di correlazione le ipotesi sono: H0: (ρITA − ρUSA) = 0 → la differenza fra il coefficiente di correlazione fra età e Coscienziosità nella popolazione italiana e quello nella popolazione americana è uguale a zero H1: (ρITA − ρUSA) ≠ 0 → la differenza fra il coefficiente di correlazione fra età e Coscienziosità nella popolazione italiana e quello nella popolazione americana è diverso da zero Dopo aver realizzato la trasformazione r−Z su entrambi i coefficienti di correlazione, basta applicare la formula: Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3 z= 5 Z r1 − Z r2 1 1 + n1 − 3 n2 − 3 Una volta ottenuto lo z calcolato lo confronteremo con lo z critico, che per α = ,05 e ipotesi alternativa bidirezionale è 1,96. Nel nostro caso avremo quindi che: 1 1 + r 1 1+,58 1 1 + ρ 1 1+,44 Z rITA = ln = ln = 0,662 , Z rUSA = ln = 0,472 = ln 2 1 − r 2 1−,58 2 1 + ρ 2 1−,44 z= 0,662 − 0,472 = 1,28 1 1 + 86 − 3 104 − 3 Conclusione: poiché |z calcolato| < |z critico| (1,28 < 1,96), non è così improbabile che quanto osservato sia il risultato di un’ipotesi nulla vera, per cui la accettiamo. Questi risultati suggeriscono che molto probabilmente non vi è differenza fra italiani e americani nella forza dell'associazione fra età e Coscienziosità Nel caso di tre o più coefficienti di correlazione campionari, le ipotesi sono: H0: ρ1 = ρ2 = ρ3 = […] ρk → a livello di popolazione, i coefficienti di correlazione fra le variabili in gioco sono tutti uguali H1: almeno due ρ diversi → a livello di popolazione, i coefficienti di correlazione fra le variabili in gioco non sono tutti uguali Si utilizza un test statistico che fa riferimento alla distribuzione χ2, con gradi di libertà uguali al numero di campioni meno 1. X 2 = Σ(ni − 3) Z i2 − (Σ(ni − 3) Z i ) 2 Σ(ni − 3) Supponendo di avere tre campioni di italiani (Nord, Centro e Sud) dei quali è nota la correlazione fra età e Coscienziosità: rNord = ,54, nNord = 88, rCentro = ,65, nCentro = 90 e rSud = ,21, nSud = 79. Una volta eseguita la trasformazione r−Z con la formula vista in precedenza si avrà che ZNord = ,604, ZCentro = ,775, ZSud = ,213, per cui: X 2 = Σ(ni − 3) Z i2 − [(88 − 3)×,604 (Σ(ni − 3) Z i ) 2 = Σ(ni − 3) + (90 − 3)×,775 + (79 − 3)×,213 2 [ (88 − 3)×,604 + (90 − 3)×,775 + (79 − 3)×,213] ]− = 13,28 (88 − 3) + (90 − 3) + (79 − 3) In questo caso il valore di chi-quadrato critico per un livello di significatività α = ,05 e gradi di libertà uguali al numero dei gruppi meno 1 (quindi 2) è 5,99. 2 2 2 Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3 6 Conclusione: poiché X2 calcolato > χ2 critico (13,28 > 5,99), è troppo improbabile che quanto osservato sia il risultato di un’ipotesi nulla vera, per cui la rifiutiamo. Questi risultati suggeriscono che molto probabilmente vi è differenza nella correlazione fra età e Coscienziosità in almeno due popolazioni. Come nel caso dell'ANOVA, respingere l'ipotesi nulla non ci dice niente quali popolazioni si differenziano statisticamente fra di loro. Possiamo però procedere con dei test post-hoc per verificare l'ipotesi nulla che i coefficienti di correlazione in due particolari popolazioni non siano diversi fra loro, mentre l'ipotesi alternativa di solito è bidirezionale. Inoltre, dovremo avere cura di correggere il valore di α per ogni confronto con la correzione Bonferroni. La formula per i post-hoc nel caso del confronto fra coefficienti di correlazione è: z= Z r1 − Z r2 1 1 1 + + n1 − 3 n2 − 3 n3 − 3 Nel caso che stiamo considerando, il numero di confronti a coppie che andremo ad eseguire è 3, quindi dobbiamo dividere α (,05) per questo valore e successivamente per due, dato che l'ipotesi alternativa è bidirezionale, quindi αcorretto = (α/3)/2 = ,0083. Il valore d z critico è |2,40|. 0,604 − 0,775 = −0,91 →| −0,91 |<| 2,40 |→ Accetto H0 1 1 1 + + 88 − 3 90 − 3 79 − 3 0,604 − 0,213 z Nord − Sud = = 2,09 →| 2,09 |<| 2,40 |→ Accetto H0 1 1 1 + + 88 − 3 90 − 3 79 − 3 0,775 − 0,213 z Centro− Sud = = 3,00 →| 3,00 |>| 2,40 |→ Rifiuto H0 1 1 1 + + 88 − 3 90 − 3 79 − 3 z Nord −Centro = In base ai test post-hoc è possibile respingere H0 solo nel caso del confronto fra Centro e Sud, per cui concludiamo che la relazione fra età e Coscienziosità sembra essere più forte al Centro che al Sud. Ad ogni modo, quando si confrontano due o più coefficienti di correlazione vale la pena riferirsi sempre alla dimensione dell’effetto, che in questo caso di chiama q e sfrutta sempre la trasformazione r−Z: q = Z r1 − Z r2 Il valore di q è nella stessa metrica di r, per cui viene interpretato secondo le stesse linee guida. qNord-Centro = 0,664 − 0,775 = −0,17 → effetto piccolo qNord-Sud = 0,664 − 0,213 = 0,39 → effetto moderato qCentro-Sud = 0,775 − 0,213 = 0,56 → effetto grande Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3 7 Campioni dipendenti Per il confronto fra coefficienti di correlazione dipendenti la procedura di calcolo è leggermente più complessa ma è ben illustrata in Meng, Rosenthal e Rubin (1992)1. Supponiamo che 10 soggetti vengano sottoposti ad un esperimento sulla leadership in cui vengono ripresi a loro insaputa e che sia stato possibile misurare la loro propensione alla leadership con un test psicologico (Y). A osservatori indipendenti e ignari del punteggio al test di propensione alla leadership viene chiesto di valutare il grado di carisma (X1) e quello di cooperatività (X2) dei soggetti. La correlazione fra propensione alla leadership e carisma (rYX1) è risultata ,54 e quella fra propensione alla leadership e cooperatività (rYX2) è risultata ,30, mentre quella fra carisma e cooperatività (rX1X2) è ,12. Data la bassa ampiezza campionaria, vogliamo sapere se la differenza fra la correlazione rYX1 e rYX2 è statisticamente diversa da zero. Le ipotesi sono: H0: (ρYX1 − ρYX2) = 0 → a livello di popolazione, il punteggio di leadership correla nella stessa misura con quelli di carisma e cooperatività H1: (ρYX1 − ρYX2) ≠ 0 → a livello di popolazione, il punteggio di leadership non correla nella stessa misura con quelli di carisma e cooperatività In primo luogo dobbiamo trasformare rYX1 e rYX2 con la trasformazione r−Z: 1 1+ r Z rYX 1 = ln 2 1 − r 1 1+,54 1 1+ r = ln = 0,60 , Z rYX 2 = ln 2 1−,54 2 1 − r 1 1+,30 = ln = 0,31 2 1−,30 A questo punto applichiamo la formula: Z = ( z rYX 1 − z rYX 2 ) n−3 2(1 − rX 1 X 2 )h dove n è il numero di soggetti e h è uguale a: h= 1 − rX 1 X 2 rYX2 1 + rYX2 2 1− f × r 2 2 f = e , dove r = 2 1− r 2 2(1 − r 2 ) Nel caso che stiamo considerando abbiamo che: r2 = h= rYX2 1 + rYX2 2 ,54 2 +,30 2 1 − rX 1 X 2 1−,12 = =,19 , f = = =,54 e 2 2 2 2(1 − r ) 2(1−,19) 1 − f × r 2 1−,54×,19 = = 1,11 1−,19 1− r 2 Il valore di z calcolato sarà quindi: Z = ( z rYX 1 − z rYX 2 ) n−3 10 − 3 = (0,60 − 0,31) = 0,56 2(1 − rX 1 X 2 )h 2(1−,12) × 1,11 1 Meng, X. L., Rosenthal, R., & Rubin, D. B. (1992). Comparing correlated correlation coefficients. Psychological Bulletin, 111, 172–-75. Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3 8 Il valore di z critico per α = ,05 e ipotesi alternativa bidirezionale è 1,96, per cui: Conclusione: poiché |z calcolato| < |z critico| (0,56 < 1,96), non è così improbabile che quanto osservato sia il risultato di un’ipotesi nulla vera, per cui la accettiamo. Questi risultati suggeriscono che molto probabilmente nella popolazione il punteggio di leadership correla nella stessa misura con quelli di carisma e cooperatività. Se nel caso precedente avessimo avuto una terza ulteriore variabile con cui correlare la propensione alla leadership, poniamo una valutazione di comunicatività (rYX3 = ,69 → zrYX3 = 0,85; rX3X1 = ,24 e rX3X2 = ,33),avremmo dovuto procedure in modo diverso per verificare le seguenti ipotesi: H0: ρYX1 = ρYX2 = ρYX3 → a livello di popolazione, la propensione alla leadership correla allo stesso modo con carisma, cooperatività e comunicatività H1: almeno due ρ diversi → a livello di popolazione, la propensione alla leadership non correla allo stesso modo con carisma, cooperatività e comunicatività La formula da utilizzare in questo caso è: X (k − 1) = 2 (n − 3)∑i ( z rYXi − z rYXi ) 2 (1 − rMe )h dove z rYXi è la media degli zrYXi e rMe è la mediana delle correlazioni fra le Xi. Calcoliamo i termini necessari: z rYXi = z rYX 1 + z rYX 2 + z rYX 3 0,60 + 0,31 + 0,85 = = 0,59 3 3 Le correlazioni fra le Xi sono: rX1X2 = ,12, : rX1X3 = ,24 e : rX2X3 = ,33: la mediana di questa distribuzione è ,24 = rMe. 1 − rMe rYX2 1 + rYX2 2 + rYX2 3 ,54 2 +,30 2 +,69 2 1−,24 r = = =,29 , f = = =,54 e 2 3 3 2(1 − r ) 2(1−,29) 2 1 − f × r 2 1−,54×,29 h= = = 1,19 1−,29 1− r 2 Calcoliamo il X2: [ ] (10 − 3) × (0,60 − 0,59) 2 + (0,31 − 0,59) 2 + (0,85 − 0,59) 2 X (3 − 1) = = 1,13 (1−,24) × 1,19 2 Per α = ,05 e 2 gradi di libertà il χ2 critico è 5,99. Conclusione: poiché X2 calcolato < χ2 critico (1,13 < 5,99), non è così improbabile che quanto osservato sia il risultato di un’ipotesi nulla vera, per cui la accettiamo. Questi risultati suggeriscono che molto probabilmente nella popolazione non esiste una differenza fra le correlazioni della propensione alla leadership con il carisma, la cooperatività e la comunicatività. Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3 9 Se la differenza fosse risultata significativa e avessimo voluto realizzare dei test post-hoc avremmo potuto utilizzare le formula: Z = ∑ ci z rYXi n −3 (∑ c )(1 − rMe )h 2 dove c è, come nel caso dei post-hoc per l'ANOVA, il coefficiente associato a ciascun coefficiente di correlazione. Meng e collaboratori (1992) suggeriscono che quando si hanno molti coefficienti da confrontare e alcuni c sono uguali a zero, i test statistici risultano più accurati se, invece dei valori globali di rMe e h si utilizzano quelli locali relativi alle correlazioni con c ≠ 0. Alternativamente si può utilizzare la formula: Z = rcz X 2 (k − 1) dove rcz è la correlazione fra i coefficienti c e i corrispondenti zr. Supponiamo che nel caso precedente avessimo voluto confrontare la correlazione della propensione alla leadership con la comunicatività contro le altre due. La prima correlazione avrebbe ricevuto coefficiente 2, le altre due −1. Le ipotesi sarebbero state: H0: ρYX3 = (ρYX1 + ρ YX2) → a livello di popolazione, la correlazione della propensione alla leadership con la comunicatività è uguale all'insieme delle correlazioni della propensione alla leadership con carisma e cooperatività H1: ρYX3 ≠ (ρYX1 + ρ YX2) → a livello di popolazione, la correlazione della propensione alla leadership con la comunicatività è diversa dall'insieme delle correlazioni della propensione alla leadership con carisma e cooperatività Per α = ,05 e ipotesi alternativa bidirezionale lo z critico è 1,96. Il risultato sarebbe stato: Z = [(2 × 0,85) + (−1 × 0,60) + (−1 × 0,31)] 10 − 3 = 0,90 (2 ) + (−1) + (−1) 2 × (1−,24) × 1,19 [ 2 2 ] Conclusione: poiché |z calcolato| < |z critico| (0,90 < 1,96), non è così improbabile che quanto osservato sia il risultato di un’ipotesi nulla vera, per cui la accettiamo. Questi risultati suggeriscono che molto probabilmente non esiste una differenza fra la correlazione della propensione alla leadership con la comunicatività e l'insieme delle correlazioni della propensione alla leadership con il carisma e la cooperatività. Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3 10 Altri tipi di coefficienti di correlazione Il coefficiente di correlazione tetracorico e policorico Nel 1900 Pearson2 si pose anche il problema di come misurare la correlazione fra caratteristiche non misurabili quantitativamente e descrisse la possibilità di calcolare la correlazione fra due dicotomie "artificiali". Una dicotomica artificiale è una variabile quantitativa che è stata resa dicotomica fissando un valore di cut-off, o una variabile dicotomica i cui due estremi possono essere considerati gli estremi di un continuum sottostante, per cui si assume che esista una variabile soggiacente (underlying variable , detta anche latent response variable, o variabile di risposta latente). Quindi, sono dicotomie artificiali “punteggio di QI sopra/sotto 100” (prendendo 100 come punto di cut-off), oppure l’essere d’accordo o meno con una certa affermazione, supponendo che esista un continuum sottostante di accordo. In questi casi per ottenere una misura dell’associazione fra le variabili non si dovrebbe procedere col calcolo di phi (vedi Strumenti Informatici 7.1) bensì mediante il calcolo del coefficiente di correlazione tetracorico rt. In base allo stesso principio, se le variabili sono politomie artificiali a categorie ordinate, si calcolerà il coefficiente di correlazione policorico (come potrebbe essere il caso della correlazione fra punteggi di scale Likert). Il calcolo dei coefficienti di correlazione tetracorici e policorici è complesso, per cui si rimanda il lettore alla letteratura specifica (ad esempio, Olsson, 1979)3. Pedon (1991)4 ne fornisce un’approssimazione ad , dove a, b, c, e d, sono i valori riportati nella con la formula: rt = − cos180° × bc + ad Tabella 1. Tabella 1 Tavola di contingenza Reddito × Ansia Ansia Reddito Bassa (a) 8 (c) 3 11 Basso Medio Totale Alta (b) 1 (d) 6 7 Totale 9 9 18 Supponiamo di ricodificare i dati di una misura psicometrica dell'ansia (quindi misurata su scala a intervalli) come Bassa Ansia e Alta Ansia e quelli di reddito (misurato su scala a rapporti) come Basso Reddito e Alto Reddito e di realizzare la tavola di contingenza Reddito × Ansia. Il risultato è la Tabella 1. Calcoliamo: 180° × ad bc + ad = 8× 6 3 ×1 + 8 × 6 = 180° × 0,80 = 144° A questo punto con la funzione di Excel =(-1)*COS(RADIANTI(144)) otteniamo la stima del coefficiente di correlazione tetracorico: ,81. Si noti che in questo caso il coefficiente phi sarebbe risultato uguale a ,57. 2 Pearson, K. (1900). Mathematical contributions to the theory of evolution. VII. On the correlation of characters not quantitatively measurable. Philosophical Transactions of the Royal Society, Series A, 195, 1-47. 3 Olsson, U. (1979). Maximum likelihood estimation of the polychoric correlation coefficient. Psichometrika, 44, 443460. 4 Pedon, A. (1991). Statistica e ricerca psicologica. Padova: Cortina. Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3 11 Il coefficiente di correlazione biseriale e punto-biseriale Quando si hanno a disposizione una variabile dicotomica e una variabile metrica si tende a realizzare un test t per campioni dipendenti per verificare l’ipotesi nulla di assenza di differenza fra le medie delle popolazioni dalle quali sono stati estratti i due gruppi. Nondimeno, è possibile calcolare due indici di correlazione, il coefficiente di correlazione biseriale (rb), e il coefficiente di correlazione punto-biseriale (rpb), che consentono di ottenere una misura analoga al coefficiente di Pearson e costituiscono indici di dimensione dell'effetto. Il primo viene utilizzato con dicotomie artificiali, il secondo con vere dicotomie. Supponiamo di voler calcolare la correlazione fra la variabile Reddito e la variabile Ansia in Tabella 2. Tabella 2 Valori di reddito e ansia Reddito Basso Basso Basso Basso Basso Basso Basso Basso Basso Ansia 15 19 16 12 17 14 13 16 20 Reddito Medio Medio Medio Medio Medio Medio Medio Medio Medio Ansia 21 22 16 20 20 15 22 17 23 La variabile reddito è una dicotomia artificiale, in quanto è stata generata a partire da una variabile continua sottostante. In questo caso è preferibile calcolare il coefficiente di correlazione biseriale rb: rb = ( M 1 − M 2 ) P1 P2 Y × sy dove M1 e M2 sono le medie dei due gruppi (15,78 per Basso e 19,56 per Medio), P1 e P2 le proporzioni sul totale dei soggetti dei soggetti nel gruppo 1 e gruppo 2 (,50 e ,50, rispettivamente per Basso e Medio), sy è la deviazione standard della variabile metrica nel campione totale (3,21) e Y è l’ordinata della distribuzione normale al punto di divisione fra la proporzione di area corrispondente a P1 e quella corrispondente a P2. In pratica, basta risolvere l’equazione 1 1 − 2 ( z )2 per il valore di z corrispondente al minore di P1 o P2. Se P1 = ,30, dobbiamo y= e 2π trovare quel valore di z per cui l’area al di là di z vale ,30, che è 0,5244. Sostituiamo questo valore 1 1 − 2 (0,5244 )2 nella formula: y = e = 0,3476 . Nel caso che stiamo considerando, P1 = P2 = ,50, a cui 2π 1 1 − 2 (0 )2 corrisponde uno z = 0, per cui y = e = 0,3989 . In base alla Figura 7.17 del manuale, gli 2π valori sono: MBasso = 15,68, MMedio = 19,67, PBasso = ,50, PAlto = ,50, sy = 3,22, per cui: rb = (19,56 − 15,78)×,50×,50 =,74 0,3989 × 3,21 La procedura di verifica dell’ipotesi nulla che questo valore sia uguale a zero è analoga a quella dell’r di Pearson riportata nel manuale. Nella formula per la conversione in t, però, occorre inserire Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3 12 il valore di rb moltiplicato per la costante ,8944 (Pedon, 1991). Nel nostro caso, quindi, prima di procedere col test t dovremmo eseguire il prodotto ,78 × ,8944 = ,6976, e utilizzare questo valore in luogo di r nella formula: t= rb n − 2 1 − rb2 dove in questo caso n è il numero totale di soggetti (ossia nBasso + nMedio). Se la variabile dicotomica della è una vera dicotomia, come ad esempio il genere, avremmo invece dovuto utilizzare il coefficiente di correlazione punto-biseriale rpb. La formula per calcolarlo è la seguente: rpb = (M 1 − M 2 ) n1n2 sy n(n − 1) M1 e M2 sono le medie dei due gruppi, sy è la deviazione standard della variabile metrica nel campione totale, n1 e n2 le ampiezze campionarie del gruppo 1 e del gruppo 2, rispettivamente, e n il totale dei soggetti. Supponiamo di avere a disposizione i dati in Tabella 3: Tabella 3 Valori di genere e ansia Genere Femmina Femmina Femmina Femmina Femmina Femmina Femmina Femmina Femmina Ansia 21 28 25 20 20 26 20 30 26 Genere Maschio Maschio Maschio Maschio Maschio Maschio Maschio Maschio Ansia 13 19 15 20 19 18 11 20 avremo che MF e MM sono rispettivamente 24,00 e 16,88, la deviazione standard del punteggio di ansia nel campione totale di 17 soggetti è 4,95, nF e nM sono rispettivamente 9 e 8, per cui: rpb = (24,00 − 16,88) 9×8 =,74 4,95 17(17 − 1) La procedura di verifica dell’ipotesi nulla che questo valore sia uguale a zero è analoga a quella dell’r di Pearson illustrata nel manuale. E’ importante tenere presenti le caratteristiche dei due coefficienti di correlazione descritti in questo paragrafo. Il coefficiente di correlazione biseriale rb assume che vi sia una distribuzione continua soggiacente alla distribuzione dicotomica, non ha una distribuzione di probabilità nota (per cui occorre moltiplicarlo per ,8944 prima di procedere con la verifica delle ipotesi con t), e può assumere valori al di fuori dalla gamma [−1; +1]. Il coefficiente di correlazione punto-biseriale rpb, invece, richiede solo che siano omogenee fra i due gruppi le varianze dei punteggi nella variabile, come il test t per campioni indipendenti. Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3 13 Il coefficiente di correlazione parziale Quando si ha il sospetto che una relazione sia spuria, si suppone che la variabilità comune fra due variabili sia in realtà dovuta all’effetto causale di una terza variabile, detta variabile di controllo, che influisce su entrambe. Se questo è vero, rimuovendo statisticamente l’effetto della terza variabile (in inglese partialling out the third variable) si dovrebbe osservare che la variabilità comune residua fra le prime due si avvicina allo zero. A livello statistico la questione viene risolta mediante il calcolo del Coefficiente di Correlazione Parziale rXY.Z, che è appunto il coefficiente di correlazione fra due variabili X e Y quando viene eliminata l’influenza di una terza (Z). Se sono note le correlazioni fra X e Y (rXY), fra X e Z (rXZ) e fra Y e Z (rYZ), formula per il calcolo è: rXY .Z = rXY − rXZ rYZ 2 1 − rXZ ⋅ 1 − rYZ2 Supponiamo di aver rilevato in 100 città il Numero di Cicogne (X) e il Numero di Nascite (Y) è di aver trovato che la correlazione fra le due variabili è rXY = ,661. Sono note inoltre le correlazioni delle due variabili con le Dimensioni della Città (Z): rXZ = ,781 (Numero di Cicogne) e rYZ = ,824 (Numero di Nascite). Calcoliamo allora il coefficiente di correlazione parziale: rXY .Z = rXY − rXZ rYZ 2 1 − rXZ ⋅ 1 − rYZ2 = ,661−,781×,824 1−,7812 ⋅ 1−,824 2 =,037 La correlazione parziale fra Numero di Cicogne e Numero di Nascite è dunque rXY.Z = ,037: questo significa che la proporzione di variabilità della variabile Numero di Nascite (Y) spiegata dalla variabile Numero di Cicogne (X) indipendentemente dalla variabile di controllo Dimensioni della Città (Z) è solamente ,0372 = ,001, ossia lo 0,1% contro il 44% che avevamo ottenuto senza considerare la variabile di controllo. Le correlazioni fra coppie di variabili (rXY, rXZ, e rYZ) sono dette correlazioni di ordine zero (zero-order correlations), quella parziale è detta correlazione di primo ordine (first-order correlation). La Figura 2 riassume la logica del procedimento di calcolo della correlazione parziale. Figura 2 Logica del procedimento di calcolo della correlazione parziale Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3 14 La significatività del coefficiente di correlazione parziale può essere verificata mediante il test t che abbiamo visto anche per il coefficiente di Pearson, ma con n − 3 gradi di libertà, per cui la formula r n−3 è: t = . Nel nostro caso, quindi, avremo: 1− r2 H0: ρXY.Z = 0 → nella popolazione non esiste una relazione lineare fra Numero di Cicogne e Numero di Nascite una volta rimossa la variabilità comune fra le due variabili dovuta alle Dimensioni della Città → la relazione fra Numero di Cicogne e Numero di Nascite è spuria H1: ρXY.Z ≠ 0 → nella popolazione esiste una relazione lineare fra Numero di Cicogne e Numero di Nascite anche una volta rimossa la variabilità comune fra le due variabili dovuta alle Dimensioni della Città → la relazione fra Numero di Cicogne e Numero di Nascite non è spuria Per un livello di significatività α = ,05, gradi di libertà 100 − 3 = 97, e ipotesi alternativa bidirezionale, il valore di t critico5 è 2,28. t= r n−3 1− r 2 = ,037 100 − 3 1−,037 2 = 0,36 Conclusione: poiché |t calcolato| < |t critico| (0,36 < 2,28), non è così improbabile che quanto osservato sia il risultato di un’ipotesi nulla vera, per cui la accettiamo. Questi risultati suggeriscono che molto probabilmente non esiste una relazione lineare fra Numero di Cicogne e Numero di Nascite una volta rimossa la variabilità comune fra le due variabili dovuta alle Dimensioni della Città, per cui la relazione fra le due variabili è spuria. Per realizzare analisi simili su variabili categoriali occorrono modelli statistici che permettano di prendere in considerazione più di due variabili simultaneamente, come i modelli loglineari (si veda ad esempio Cristante, Robusto, & Mannarini, 2002)6, mentre per le relazioni fra variabili ordinali è possibile applicare la stessa formula sostituendo al coefficiente r di Pearson il rho di Spearman. Il coefficiente di correlazione multipla Il coefficiente di correlazione multipla rX.YZ permette di stimare la forza della relazione di una variabile X con altre due variabili, Y e Z, considerate simultaneamente. Si noti che non è la somma algebrica delle correlazioni di ordine zero della variabile in esame con le altre due. La formula per il calcolo è: rX .YZ = 2 2 rXY + rXZ − 2rXY rXZ rYZ 1 − rYZ2 Se elevato al quadrato, il coefficiente di correlazione multipla permette di calcolare la proporzione di variabilità comune fra una variabile e l’insieme delle altre. Questo indice è particolarmente utile quando si studia l’attendibilità di un test psicologico. Se gli item sono tutte operazionalizzazioni di 5 Ricavato dalla funzione di Excel =INV.T(,025;97). Cristante, F., Robusto E., & Mannarini S. (2002). Analisi log-lineare di variabili psicosociali. Vol.II. I modelli fondamentali. Milano: LED. 6 Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3 15 un unico costrutto, avranno fra di loro correlazioni da basse a forti. Ci aspettiamo a questo punto che se un particolare item X è un’operazionalizzazione del costrutto altrettanto adeguata rispetto agli item Y e Z, la sua correlazione multipla con questi non potrà essere uguale a zero. Se quindi le correlazioni di ordine zero, ottenute in un campione di 100 soggetti, sono rXY = ,33, rXZ = ,38 e rYZ = ,42, avremo che il coefficiente di correlazione multipla rX.YZ sarà: rX .YZ = 2 2 ,33 2 +,38 2 − 2×,33×,38×,42 rXY + rXZ − 2rXY rXZ rYZ = =,42 1 − rYZ2 1−,42 2 Elevando al quadrato rX.YZ otteniamo ,422 = ,18, che indica che la variabile X condivide con le variabili Y e Z il 18% di variabilità. Il coefficiente di correlazione multipla al quadrato viene utilizzato anche nella formula per verificare l’ipotesi nulla che esso sia uguale a zero nella popolazione. H0: ρX.YZ = 0 → nella popolazione non esiste una relazione lineare fra la variabile X e le variabili Y e Z considerate simultaneamente H1: ρX.YZ ≠ 0 → nella popolazione esiste una relazione lineare fra la variabile X e le variabili Y e Z considerate simultaneamente La procedura di verifica della significatività di un coefficiente di correlazione multipla avviene mediante un test F: (n − k − 1)rX2.YZ F= k (1 − rX2.YZ ) dove n è il numero di soggetti e k il numero di variabili con cui si correla X, avendo cura di correggere r2X.YZ se il numero di soggetti n non è almeno dieci volte quello del numero di variabili k (Marascuilo & Levin, 1983)7. La formula per la correzione di r2X.YZ è: (1 − rX2.YZ )(n − 1) ~ rX2.YZ = 1 − n − k −1 Nel nostro caso n = 100 e k = 2, per cui non abbiamo bisogno di operare la correzione. Il test F viene eseguito con gradi di libertà k − 1 al numeratore e n − k al denominatore, per cui nel nostro esempio avremo 2 − 1 = 1 gradi di libertà al numeratore e 100 − 2 = 98 al denominatore. Per un livello di significatività α = ,05 e ipotesi alternativa bidirezionale, i valori critici8 di F sono 0,19 e 5,18. F= (n − k − 1)rX2.YZ (100 − 2 − 1)×,18 = = 10,64 2 × (1−,18) k (1 − rX2.YZ ) Conclusione: poiché F calcolato > F critico superiore (10,64 > 5,18), è troppo improbabile che quanto osservato sia il risultato di un’ipotesi nulla vera, per cui la rifiutiamo. Questi risultati suggeriscono che molto probabilmente nella popolazione esiste una relazione lineare fra la variabile X e le variabili Y e Z considerate simultaneamente. 7 Marascuilo, L. A., & Levin, J. R. (1983). Multivariate Statistics in the Social Sciences. Monterey, CA: Brooks/Cole Publishing Company. 8 Ottenuti mediante la funzione di Excel =INV.F(,025;1;98), che fa 5,18. L’altro valore è l’inverso. Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3 16 Quando le variabili con cui correlare X sono più di due le procedure di calcolo diventano più complesse, ma la logica di interpretazione del risultato e del test di significatività è esattamente la stessa. Calcolare il coefficiente di correlazione di Pearson con Excel e SPSS Il coefficiente di correlazione di Pearson può essere calcolato con la funzione di Excel =CORRELAZIONE(Matrice1;Matrice2), oppure =PEARSON(Matrice1;Matrice2), dove Matrice1 e Matrice2 sono gli intervalli di celle che contengono i dati relativi alla variabile 1 e alla variabile 2. La funzione restituisce il valore dell’r di Pearson. La Figura 3 mostra come organizzare i dati e la sintassi per l’inserimento della funzione per il calcolo della correlazione fra Estroversione e Amicalità. Figura 3 Calcolo del coefficiente di correlazione di Pearson in Excel Per realizzare il diagramma a dispersione, basta selezionare le due colonne che contengono i dati della variabile X e della variabile Y, e seguire il percorso Inserisci → Grafico, scegliendo Dispers. (XY) (Figura 4a). Dopo aver clickato su Avanti > si accede ad una fase di realizzazione del grafico sostanzialmente inutile per un diagramma a dispersione, in quanto richiede se si vuole rappresentare i dati per righe o per colonne, ma di fatto l'opzione di default (Colonne) è l'unica praticabile (Figura 4b). Clickando Avanti > si giunge invece ad un passo importante della creazione del grafico, in quanto accediamo alla schermata dove inserire le etichette per gli assi orizzontale e verticale (Figura 4c). Inseriamo quindi Estroversione nel campo Asse dei valori (X) e Amicalità nel campo Asse dei valori (Y). In questa schermata possiamo inserire anche il titolo del grafico. Clickando Avanti > si accede all'ultima schermata dove si può decidere se far inserire al software il grafico nel foglio su cui si sta lavorando o in foglio a parte (Figura 4d). Clickando Fine il risultato è quello di Figura 4e. Si noti che Excel mantiene di default una legenda di fatto inutile sulla destra. Questo elemento può essere facilmente eliminato selezionandolo e premendo il tasto Canc. Se si vuole modificare l'aspetto di alcuni elementi del grafico, basta fare doppio click col tasto destro del mouse sull'elemento da modificare per accedere al menu di modifica. La Figura 4f mostra come appare tipicamente un diagramma a dispersione in un articolo scientifico. Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3 (a) (b) (c) (d) (e) (f) 50 50 45 45 40 40 35 35 30 25 Amicalità 20 15 Amicalità Amicalità 17 30 25 20 15 10 10 5 5 0 0 10 20 Estroversione 30 40 0 0 5 10 15 20 25 30 35 40 Estroversione Figura 4 Realizzazione di un diagramma a dispersione con Excel In SPSS è possibile ottenere l'analisi di correlazione seguendo Analyze→Correlate→Bivariate (Figura 5a). Nella nuova finestra dobbiamo poi spostare i nomi delle variabili nel campo Variables (Figura 5b). L'opzione di default nel riquadro Correlation Coefficients è Pearson, che è il coefficiente per variabili metriche. Gli altri due, come visto anche in Strumenti Informatici 7.2, sono coefficienti di correlazione ordinali. Clickando Options si accede alla finestra con le opzioni per l'analisi (Figura 5c), che nel caso dei dati che stiamo analizzando (quelli in Figura 3) è rilevante. Il dataset infatti presenta dei dati mancanti, e dobbiamo decidere come gestirli. Si può scegliere se far calcolare le correlazioni, coppia di variabili per coppia di variabili, su tutti i casi che hanno punteggi validi volta per volta (Exclude cases pairwise) oppure solo sui casi che hanno punteggi validi per tutte le variabili interessate dall’analisi (Exclude cases listwise). Il primo metodo utilizza tutte le informazioni a disposizione, ma se nel dataset ci sono molti missing può capitare che ogni correlazione possa essere stata calcolata su un numero di soggetti diverso (riportato da SPSS). Col secondo metodo in caso di missing c’è il rischio di perdere un numero non trascurabile di soggetti Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3 18 (basta che un soggetto abbia un missing su una qualunque delle variabili e viene escluso), ma si ha il vantaggio che le correlazioni della matrice risultante sono calcolate tutte sullo stesso campione di soggetti. In genere, se la matrice di correlazione rappresenta il punto finale dell’analisi può essere accettabile anche l’uso del metodo pairwise, mentre se rappresenta uno step di analisi intermedio da cui si procederà oltre per altre analisi, allora dovrebbe essere scelto il metodo listwise. (a) (b) (c) Figura 5 Realizzazione di un'analisi di correlazione in SPSS La Figura 6 riporta le matrici di correlazioni ottenute col metodo listwise e pairwise per i dati in Figura 3. La matrice pairwise (che è l'opzione di default) riporta per ogni coefficiente non solo la significatività, ma anche il numero di casi su cui è stato ottenuto. Questa informazione non è riportata invece per la matrice listwise, dato che i casi su cui sono stati calcolati i coefficienti è sempre lo stesso, in quanto sono quelli che hanno dati validi su tutte le variabili. Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3 19 Pairwise correlation matrix Listwise correlation matrix Figura 6 Output di SPSS per l'analisi di correlazione pairwise e listwise dei dati in Figura 3 Molto spesso le persone si lamentano che la tabella che viene prodotta in output è scomoda da gestire perché non riporta solo i coefficienti di correlazione, ma anche significatività e numero di soggetti. Per ottenere una matrice di correlazione coi soli coefficienti, si può sfruttare una delle opzioni della procedura per l’analisi fattoriale (di cui si parlerà nel Volume II). Si segue quindi il percorso Analyze → Data Reduction → Factor, si inseriscono le variabili delle quali si desidera la matrice di correlazione nel campo Variables, si clicka su Descriptives, si spunta Coefficients nel riquadro Correlation Matrix, si clicka su Continue e poi su OK. Nella parte iniziale dell’output comparirà la matrice di correlazione coi soli coefficienti. Si noti che in questo caso l'opzione di default è la matrice listwise, per cui se si desidera la matrice pairwise occorre indicarlo nelle Options. Per quanto riguarda la correlazione parziale, questa è calcolabile seguendo il percorso Analyze → Correlate → Partial (Figura 7a). Nella finestra che si apre, inseriremo le variabili sotto esame nel campo Variables, mentre inseriremo la/e variabile/i di controllo nel campo Controlling for:. In Figura 7b è illustrata l’impostazione di un’analisi della relazione fra Estroversione e Amicalità (X e Y) una volta rimossa la variabilità comune dovuta alla loro relazione con Apertura (variabile di controllo Z). Clickando su Options si accede ad un menu dove è possibile scegliere come vanno gestiti i missing (riquadro Missing Values) e se si desiderano medie e deviazioni standard delle variabili e, soprattutto, le correlazioni di ordine zero (zero-order correlations), ossia la semplice matrice di correlazione di tutte le variabili interessate dall’analisi, indipendentemente dal fatto che siano variabili di controllo o meno. Per una più agevole interpretazione dell’output conviene spuntare questa casella (Figura 7c). Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3 20 (a) (b) (c) Figura 7 Realizzazione di un'analisi di correlazione parziale in SPSS L’output è una singola tabella, riportata in Figura 8. Correlations Control Variables -none-a Estroversione Amicalità Apertura Apertura Estroversione Amicalità Correlation Significance (2-tailed) df Correlation Significance (2-tailed) df Correlation Significance (2-tailed) df Correlation Significance (2-tailed) df Correlation Significance (2-tailed) df Estroversione 1,000 . 0 ,033 ,897 16 ,464 ,053 16 1,000 . 0 ,045 ,865 15 Amicalità ,033 ,897 16 1,000 . 0 -,014 ,955 16 ,045 ,865 15 1,000 . 0 Apertura ,464 ,053 16 -,014 ,955 16 1,000 . 0 a. Cells contain zero-order (Pearson) correlations. Figura 8 Tabella di output per una correlazione parziale Nella prima parte della tabella di output riportata in Figura 8 (sezione -none-) viene riportata la matrice di correlazione delle tre variabili interessate dall’analisi, indipendentemente dal fatto di essere variabili di controllo o meno (correlazioni di ordine zero). Nella seconda parte (sezione Apertura), vengono riportate le correlazioni parziali. Si noti come la correlazione fra Estroversione e Amicalità non sia influenzata dall’aver rimosso la variabilità comune dovuta alla loro relazione con Apertura (rXY = ,033; rXY.Z = ,045). Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3 21 SPSS non dispone di procedure dirette per l'esecuzione degli altri tipi di test di significatività del coefficiente di correlazione di Pearson. Tuttavia, con un po' di intraprendenza, non è difficile impostarli in Excel seguendo le indicazioni di questo documento. SPSS non ha nemmeno una procedura diretta per calcolare i coefficienti di correlazione tetracorica/policorica, ma questa operazione è possibile con molti software gratuiti (ad esempio FACTOR, http://psico.fcep.urv.es/utilitats/factor/, il cui utilizzo è descritto in Strumenti Informatici 5.1 del mio manuale Teoria e tecnica psicometrica, Costruire un test psicologico, edito da McGraw-Hill). Per la correlazione biseriale e punto-biseriale non c'è un modulo apposito, ma basta inserire i dati come se si volesse eseguire un test t per campioni indipendenti, ossia, codificando 0 e 1 le categorie della variabile dicotomica e calcolando la correlazione di Pearson con la variabile metrica. Si noti che questa procedura produce una stima della correlazione punto-biseriale, dato che l'algoritmo di calcolo del coefficiente di Pearson è in parte diverso. Per i dati in Tabella 3 il dataset apparirebbe come in Figura 9a. Basta poi eseguire la procedura illustrata in precedenza per ottenere la correlazione di Pearson e il risultato è quello in Figura 9b. Il coefficiente differisce da quello calcolato manualmente (a) (b) Figura 9 Calcolare il coefficiente di correlazione punto-biseriale per i dati in Tabella 3 (Femmina=0, Maschio=1) Il coefficiente di correlazione multipla può essere calcolato sfruttando la procedura per la valutazione dell'attendibilità di un insieme di item in un test (per ulteriori dettagli si veda Strumenti Informatici 4.1 del mio manuale Teoria e tecnica psicometrica, Costruire un test psicologico, edito da McGraw-Hill). Supponiamo di voler calcolare la correlazione multipla di ognuna delle variabili in Figura 3 con l'insieme delle altre. Seguiamo il percorso Analyze→Scale→Reliability Analysis (Figura 10a) e inseriamo tutte le variabili nel campo Items (Figura 10b). CLickiamo poi su Statistics e spuntiamo Scale if item deleted nel riquadro Descriptives for e Correlations nel campo Summaries. A questo punto clickiamo su Continue, quindi OK e nell'output cerchiamo la tabella Item-Total Statistics (Figura 11). Tale tabella riporta nella seconda colonna da destra le correlazioni multiple al quadrato (Squared Multiple Correlation). La radice quadrata di questi coefficienti è la correlazione multipla di ogni variabile con le altre. Avremo quindi che la correlazione multipla di Estroversione con tutte le altre è ,71, quella di Amicalità ,41, quella di Coscienziosità ,57, quella di Nevroticismo ,56, quella di Apertura ,71. Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3 (a) 22 (b) (c) Figura 10 Ottenere la correlazione multipla in SPSS Figura 11 Tabella di output di SPSS con le correlazioni multiple al quadrato Per realizzare il diagramma a dispersione in SPSS occorre seguire il percorso Graphs → Scatter/Dot (o, nelle versioni più recenti di SPSS, Graphs → Legacy Dialogs → Scatter/Dot), scegliere l’opzione di default Simple Scatter e clickare su Define. A quel punto inseriamo la variabile che consideriamo indipendente nel campo X Axis e la variabile dipendente che consideriamo dipendente nel campo Y Axis e clickiamo su OK. Il risultato per Estroversione e Amicalità, analogo a quello di Figura 4, è riportato in Figura 12. Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3 23 Figura 12 Diagramma a dispersione per Estroversione e Amicalità per i dati in Figura 3 Nel caso di più variabili, SPSS consente di realizzare un grafico di dispersione "multiplo" che consenta di visualizzare nella stessa figura tutti i diagrammi a dispersione relativi ad ogni singola cella della matrice di correlazione corrispondente. Per realizzare questo grafico basta seguire il percorso Graphs → Scatter/Dot (o, nelle versioni più recenti di SPSS, Graphs → Legacy Dialogs → Scatter/Dot) e scegliere l’opzione Matrix Scatter (Figura 13). Figura 13 Scelta dell’opzione Matrix Scatter Dopo aver clickato su Define, inseriamo le variabili con delle quali intendiamo calcolare la matrice di correlazione nel campo Matrix Variables (Figura 14), e clickiamo su OK Figura 14 Impostazioni di SPSS per realizzare un diagramma a dispersione multiplo Il risultato è il diagramma riportato in Figura 15 Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3 24 Figura 15 Diagramma a dispersione multiplo Analogamente alla matrice di correlazione, la matrice è simmetrica e le celle della diagonale principale sono vuote perché rappresenterebbero la correlazione di ogni variabile con se stessa. Per avere un’idea più precisa della relazione fra le variabili, possiamo "fittare" ad ogni singolo diagramma a dispersione una retta. Per farlo, basta fare doppio click col tasto sinistro del mouse sul grafico: si aprirà una nuova finestra chiamata Chart Editor. A quel punto andiamo in questa finestra, clickiamo sul grafico col tasto destro del mouse e scegliamo dal menu che si apre l’opzione Add Fit Line at Total. Il programma aprirà anche una finestra per ulteriori opzioni chiamata Properties, ma per i nostri scopi è inutile, quindi la chiudiamo clickando su Close. A questo punto, sempre nella finestra Chart Editor, seguiamo il percorso File → Close e torniamo alla finestra di output di SPSS. Il risultato è riportato in Figura 16. Figura 16 Diagramma a dispersione multiplo con retta per la valutazione della relazione fra le variabili Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3 25 Dalla Figura 16 è immediatamente evidente come la relazione più forte sia quella fra Apertura ed Estroversione, poiché ha la retta più “ripida”, mentre le altre sono più “piatte”. Quando si riferisce dei risultati di un’analisi di correlazione in una tesi di laurea o in un articolo scientifico occorre riportare il diagramma a dispersione e i dettagli del coefficiente di correlazione, oppure direttamente la matrice di correlazione. Ad esempio: Per valutare la relazione fra i punteggi di Estroversione e Apertura è stato calcolato il coefficiente di correlazione r di Pearson, che è risultato uguale a r = ,46 (n = 15, p = ,053). Per valutare se la variabilità condivisa da Estroversione e Amicalità poteva essere spiegata dalla loro relazione con Apertura, è stato calcolato il coefficiente di correlazione parziale fra i punteggi di Estroversione e Amicalità utilizzando come variabile di controllo il punteggio di Apertura. I risultati sono riportati nella Tabella XYZ [e inserire la tabella in Figura 8] Per valutare il pattern di relazioni fra i punteggi alle cinque scale del Big Five Inventory sono state calcolate le correlazioni r di Pearson. Si è tenuto conto dei missing realizzando una matrice di correlazione pairwise. I risultati sono riportati in Tabella XYZ [e inserire, ad esempio, la tabella superiore in Figura 6] Per valutare il pattern di relazioni fra i punteggi alle cinque scale del Big Five Inventory sono state calcolate le correlazioni r di Pearson. Si è tenuto conto dei missing realizzando una matrice di correlazione listwise. I risultati sono riportati in Tabella XYZ [e inserire, ad esempio, la tabella inferiore in Figura 6] Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
© Copyright 2024 Paperzz