Strumenti Informatici 14.3 Correlazione

Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3
1
Strumenti informatici 14.3
Altri tipi di analisi di correlazione e calcolo del coefficiente di correlazione di
Pearson con Excel e SPSS
Calcolare il numero ottimale di casi la verifica di ipotesi su un coefficiente di
correlazione di Pearson
Per calcolare il numero ottimale di casi per una verifica di ipotesi su un coefficiente di correlazione
r una volta fissato il livello a cui si vuole controllare l’errore di primo tipo α e l’errore di secondo
tipo β, si utilizza la seguente formula:
n=
( z1−α + z1− β ) 2
u r2
+3
dove z1-α è il valore di z associato a uno meno la probabilità di commettere un errore di primo tipo
(nel caso di ipotesi alternativa monodirezionale; in caso di ipotesi alternativa bidirezionale occorre
calcolare 1 − α/2), z1-β è il valore di z associato a uno meno la probabilità di commettere un errore
di secondo tipo e ur viene calcolato in base alla seguente formula:
ur =
1 1+ r
r
ln
+
2 1 − r 2(n − 1)
Al lettore attento non sarà sfuggito che in questa formula compare il termine n, che è proprio il
valore che stiamo cercando di calcolare. In realtà non c’è niente di particolarmente strano, perché la
procedura che stiamo considerando è di natura iterativa, per cui richiede qualche "ciclo" di calcoli
prima di portarci al risultato finale e, soprattutto, richiede una stima iniziale del valore che si vuole
calcolare. In questo caso, inseriremo nella prima equazione un valore di ur uguale a:
ur =
1 1+ r
ln
2 1− r
e successivamente inseriremo il valore di n così calcolato nella seconda equazione. Il nuovo valore
ottenuto di u2r verrà a sua volta inserito nuovamente nella prima equazione per ottenere una nuova
stima di n. Ognuno di questi cicli prende il nome di iterazione, e le iterazioni termineranno quando
il valore di n da un’iterazione all’altra non cambierà più. Vediamo un esempio.
Supponiamo di voler calcolare l’ampiezza campionaria ottimale per una verifica di ipotesi di
con H0: ρ = 0 di r = ,30 controllando il livello dell’errore di primo tipo α a ,05 (H1 mondirezionale,
z1-α = 1,6449) e quello dell’errore di secondo tipo β a ,20 (z1-β = 0,8416). Cominciamo calcolando il
valore iniziale di ur:
ur =
1 1+ r 1
1+,30
ln
= log
= 0,3095
2 1− r 2
1−,30
e inseriamo questo valore nella prima equazione:
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3
n=
( z1−α + z1− β ) 2
u r2
2
(1,6449 + 0,8416) 2
+3=
+ 3 = 67,53
(0,3095) 2
In base a questo valore riprendiamo il ciclo di iterazioni, questa volta inserendo n nella seconda
equazione:
1 1+ r
r
1 1+,30
,30
ln
+
= ln
+
= 0,31177
2 1 − r 2(n − 1) 2 1−,30 2(67,53 − 1)
A sua volta, questo valore viene utilizzato per una nuova stima di n, che porta ad una nuova stima di
ur e così via:
ur =
n=
( z1−α + z1− β ) 2
u r2
+3=
(1,6449 + 0,8416) 2
+ 3 = 66,60
(0,31177) 2
1 1+ r
r
1 1+,30
,30
ln
+
= ln
+
= 0,31181
2 1 − r 2(n − 1) 2 1−,30 2(66,60 − 1)
( z1−α + z1− β ) 2
(1,6449 + 0,8416) 2
n=
+3=
+ 3 = 66,59
u r2
(0,31181) 2
ur =
Poiché lo scarto fra due valori consecutivi di n è inferiore a ,01, possiamo fermarci qui e individuare
in 67 (approssimazione all’intero superiore di 66,59) il numero ottimale di soggetti per verificare
H0: ρ = 0 con un r = ,30, α = ,05 e β = ,20.
Se vogliamo invece calcolare la potenza relativa ad un determinato coefficiente di
correlazione con α e n noti, basta utilizzare la formula inversa:
z1− β = u r n − 3 − z1−α
Nel caso di r = ,30, α = ,05 e n = 70 avremo che
ur =
1 1+ r
r
1 1+,30
,30
ln
+
= ln
+
= 0,311694
2 1 − r 2(n − 1) 2 1−,30 2(70 − 1)
per cui
z1− β = u r n − 3 − z1−α = 0,311694 70 − 3 − 1,6449 = 0,91
La probabilità cumulativa associata a z = 0,91 è facilmente calcolabile con la funzione di Excel
=DISTRIB.NORM.ST(0,91), il cui risultato è ,82. Ossia, abbiamo che 1 − β = ,82, quindi β = ,18.
Nel momento in cui sto scrivendo è possibile scaricare da Internet un software, G*POWER
(http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3/), che consente di eseguire questi
calcoli, non solo per il coefficiente di correlazione, ma anche per tutti gli altri test statistici. Una
volta avviato il programma, occorre impostare l'opzione Exact nel campo Test Family, quella
Correlation: Bivariate normal model in Statistical Test, la direzionalità dell'ipotesi alternativa (una
o due code, Tail(s)), e i valori del coefficiente di correlazione in ipotesi alternativa (Correlation ρ
H1), dell'errore di primo tipo (α err prob), della potenza statistica desiderata [Power (1-β err
prob)], e del coefficiente di correlazione in ipotesi nulla (Correlation ρ H0) (Figura 1a). A questo
punto basta clickare su Calculate e si ottiene il risultato desiderato (Figura 1b).
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3
(a)
3
(b)
Figura 1 Calcolare il numero ottimale di casi per un coefficiente di correlazione in base ad α e β con G*POWER
Dal sito di G*POWER è possibile scaricare un manuale che illustra il funzionamento del software.
Altri tipi di test di significatività del coefficiente di correlazione di Pearson
Una delle cause principali della cattiva interpretazione del test di significatività di r è che si fonda
su un’ipotesi nulla per cui ρ = 0. In realtà è possibile realizzare un test di ipotesi anche supponendo
in ipotesi nulla un valore di coefficiente di correlazione nella popolazione diverso da zero. Per
esempio, supponiamo di aver osservato che in un campione di 86 soggetti la correlazione fra età e
punteggio di Coscienziosità sia ,58 e che lo scopo della nostra ricerca non sia tanto verificare che il
coefficiente di correlazione sia diverso da zero, quanto che sia maggiore di ,50, che per noi
costituisce il limite di una relazione forte (oppure potrebbe essere il valore noto nella popolazione,
come nel caso del test z o t per una media).
Obiettivo: verificare se la correlazione fra età e punteggio alla scala Coscienziosità del BFI è
statisticamente superiore a ,50
Variabili
Variabile 1: Età (anni, a rapporti)
Variabile 2: Punteggio alla scala Coscienziosità del BFI (intervalli)
H0: ρ = ,50 → nella popolazione dalla quale è stato estratto il campione la relazione fra età e
punteggio alla scala Coscienziosità del BFI è uguale a ,50
H1: ρ > ,50 → nella popolazione dalla quale è stato estratto il campione la relazione fra età e
punteggio alla scala Coscienziosità del BFI è maggiore di ,50
Per verificare le ipotesi occorre trasformare il coefficiente di correlazione campionario r e quello
indicato in ipotesi nulla ρ in Zr mediante la trasformazione di Fisher r−Z:
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3
4
 1   1 + r   1   1+,58 
 1   1 + ρ   1   1+,50 
Z r =   ln
 =   ln
 = 0,662 , Z ρ =   ln
 = 0,549
 =   ln
 2   1 − r   2   1−,58 
 2   1 + ρ   2   1−,50 
Tale trasformazione può essere eseguita con Excel con la funzione =FISHER(coefficiente).
A questo punto basta applicare la formula:
z=
Zr − Zρ
1
n−3
dove n è il numero di soggetti. Questo valore è distribuito come z, per cui per un livello di
significatività α = ,05 e ipotesi alternativa monodirezionale, il valore di z critico è 1,65. La regola di
decisione sarà:
se |z calcolato| > |z critico| → è troppo improbabile che i dati osservati siano il risultato del fatto che
H0 è vera, per cui la rifiutiamo → il coefficiente di correlazione campionario non è
statisticamente superiore a ,50
se |t calcolato| < |t critico| → non è così improbabile che i dati osservati siano il risultato del fatto
che H0 è vera, per cui la accettiamo → il coefficiente di correlazione campionario è
statisticamente superiore a ,50
Individuiamo il valore di z calcolato:
Z r − Z ρ 0,662 − 0,549
z=
=
= 1,03
1
1
n−3
86 − 3
Conclusione: poiché |z calcolato| < |z critico| (1,03 < 1,65), non è così improbabile che quanto
osservato sia il risultato di un’ipotesi nulla vera, per cui la accettiamo. Questi risultati suggeriscono
che molto probabilmente nella popolazione dalla quale è stato estratto il campione la correlazione
fra le età e punteggio di Coscienziosità non è superiore a ,50
Il test può essere generalizzato al confronto di due o più coefficienti di correlazione campionari.
Occorre però distinguere fra campioni indipendenti e dipendenti.
Campioni indipendenti
Supponiamo di voler confrontare il coefficiente di correlazione ottenuto in precedenza su 86
soggetti italiani con quello ottenuto in un campione di 104 soggetti americani e che è risultato ,44.
Nel caso del confronto fra due coefficienti di correlazione le ipotesi sono:
H0: (ρITA − ρUSA) = 0 → la differenza fra il coefficiente di correlazione fra età e Coscienziosità nella
popolazione italiana e quello nella popolazione americana è uguale a zero
H1: (ρITA − ρUSA) ≠ 0 → la differenza fra il coefficiente di correlazione fra età e Coscienziosità nella
popolazione italiana e quello nella popolazione americana è diverso da zero
Dopo aver realizzato la trasformazione r−Z su entrambi i coefficienti di correlazione, basta
applicare la formula:
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3
z=
5
Z r1 − Z r2
1
1
+
n1 − 3 n2 − 3
Una volta ottenuto lo z calcolato lo confronteremo con lo z critico, che per α = ,05 e ipotesi
alternativa bidirezionale è 1,96.
Nel nostro caso avremo quindi che:
 1   1 + r   1   1+,58 
 1   1 + ρ   1   1+,44 
Z rITA =   ln
 =   ln
 = 0,662 , Z rUSA =   ln
 = 0,472
 =   ln
 2   1 − r   2   1−,58 
 2   1 + ρ   2   1−,44 
z=
0,662 − 0,472
= 1,28
1
1
+
86 − 3 104 − 3
Conclusione: poiché |z calcolato| < |z critico| (1,28 < 1,96), non è così improbabile che quanto
osservato sia il risultato di un’ipotesi nulla vera, per cui la accettiamo. Questi risultati suggeriscono
che molto probabilmente non vi è differenza fra italiani e americani nella forza dell'associazione fra
età e Coscienziosità
Nel caso di tre o più coefficienti di correlazione campionari, le ipotesi sono:
H0: ρ1 = ρ2 = ρ3 = […] ρk → a livello di popolazione, i coefficienti di correlazione fra le variabili
in gioco sono tutti uguali
H1: almeno due ρ diversi → a livello di popolazione, i coefficienti di correlazione fra le variabili in
gioco non sono tutti uguali
Si utilizza un test statistico che fa riferimento alla distribuzione χ2, con gradi di libertà uguali al
numero di campioni meno 1.
X 2 = Σ(ni − 3) Z i2 −
(Σ(ni − 3) Z i ) 2
Σ(ni − 3)
Supponendo di avere tre campioni di italiani (Nord, Centro e Sud) dei quali è nota la correlazione
fra età e Coscienziosità: rNord = ,54, nNord = 88, rCentro = ,65, nCentro = 90 e rSud = ,21, nSud = 79.
Una volta eseguita la trasformazione r−Z con la formula vista in precedenza si avrà che ZNord =
,604, ZCentro = ,775, ZSud = ,213, per cui:
X 2 = Σ(ni − 3) Z i2 −
[(88 − 3)×,604
(Σ(ni − 3) Z i ) 2
=
Σ(ni − 3)
+ (90 − 3)×,775 + (79 − 3)×,213
2
[
(88 − 3)×,604 + (90 − 3)×,775 + (79 − 3)×,213]
]−
= 13,28
(88 − 3) + (90 − 3) + (79 − 3)
In questo caso il valore di chi-quadrato critico per un livello di significatività α = ,05 e gradi di
libertà uguali al numero dei gruppi meno 1 (quindi 2) è 5,99.
2
2
2
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3
6
Conclusione: poiché X2 calcolato > χ2 critico (13,28 > 5,99), è troppo improbabile che quanto
osservato sia il risultato di un’ipotesi nulla vera, per cui la rifiutiamo. Questi risultati suggeriscono
che molto probabilmente vi è differenza nella correlazione fra età e Coscienziosità in almeno due
popolazioni.
Come nel caso dell'ANOVA, respingere l'ipotesi nulla non ci dice niente quali popolazioni si
differenziano statisticamente fra di loro. Possiamo però procedere con dei test post-hoc per
verificare l'ipotesi nulla che i coefficienti di correlazione in due particolari popolazioni non siano
diversi fra loro, mentre l'ipotesi alternativa di solito è bidirezionale. Inoltre, dovremo avere cura di
correggere il valore di α per ogni confronto con la correzione Bonferroni. La formula per i post-hoc
nel caso del confronto fra coefficienti di correlazione è:
z=
Z r1 − Z r2
1
1
1
+
+
n1 − 3 n2 − 3 n3 − 3
Nel caso che stiamo considerando, il numero di confronti a coppie che andremo ad eseguire è 3,
quindi dobbiamo dividere α (,05) per questo valore e successivamente per due, dato che l'ipotesi
alternativa è bidirezionale, quindi αcorretto = (α/3)/2 = ,0083. Il valore d z critico è |2,40|.
0,604 − 0,775
= −0,91 →| −0,91 |<| 2,40 |→ Accetto H0
1
1
1
+
+
88 − 3 90 − 3 79 − 3
0,604 − 0,213
z Nord − Sud =
= 2,09 →| 2,09 |<| 2,40 |→ Accetto H0
1
1
1
+
+
88 − 3 90 − 3 79 − 3
0,775 − 0,213
z Centro− Sud =
= 3,00 →| 3,00 |>| 2,40 |→ Rifiuto H0
1
1
1
+
+
88 − 3 90 − 3 79 − 3
z Nord −Centro =
In base ai test post-hoc è possibile respingere H0 solo nel caso del confronto fra Centro e Sud, per
cui concludiamo che la relazione fra età e Coscienziosità sembra essere più forte al Centro che al
Sud.
Ad ogni modo, quando si confrontano due o più coefficienti di correlazione vale la pena
riferirsi sempre alla dimensione dell’effetto, che in questo caso di chiama q e sfrutta sempre la
trasformazione r−Z:
q = Z r1 − Z r2
Il valore di q è nella stessa metrica di r, per cui viene interpretato secondo le stesse linee guida.
qNord-Centro = 0,664 − 0,775 = −0,17 → effetto piccolo
qNord-Sud = 0,664 − 0,213 = 0,39 → effetto moderato
qCentro-Sud = 0,775 − 0,213 = 0,56 → effetto grande
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3
7
Campioni dipendenti
Per il confronto fra coefficienti di correlazione dipendenti la procedura di calcolo è leggermente più
complessa ma è ben illustrata in Meng, Rosenthal e Rubin (1992)1.
Supponiamo che 10 soggetti vengano sottoposti ad un esperimento sulla leadership in cui
vengono ripresi a loro insaputa e che sia stato possibile misurare la loro propensione alla leadership
con un test psicologico (Y). A osservatori indipendenti e ignari del punteggio al test di propensione
alla leadership viene chiesto di valutare il grado di carisma (X1) e quello di cooperatività (X2) dei
soggetti. La correlazione fra propensione alla leadership e carisma (rYX1) è risultata ,54 e quella fra
propensione alla leadership e cooperatività (rYX2) è risultata ,30, mentre quella fra carisma e
cooperatività (rX1X2) è ,12. Data la bassa ampiezza campionaria, vogliamo sapere se la differenza fra
la correlazione rYX1 e rYX2 è statisticamente diversa da zero. Le ipotesi sono:
H0: (ρYX1 − ρYX2) = 0 → a livello di popolazione, il punteggio di leadership correla nella stessa
misura con quelli di carisma e cooperatività
H1: (ρYX1 − ρYX2) ≠ 0 → a livello di popolazione, il punteggio di leadership non correla nella stessa
misura con quelli di carisma e cooperatività
In primo luogo dobbiamo trasformare rYX1 e rYX2 con la trasformazione r−Z:
 1  1+ r
Z rYX 1 =   ln
 2   1 − r
  1   1+,54 
 1  1+ r
 =   ln
= 0,60 , Z rYX 2 =   ln

  2   1−,54 
 2   1 − r

  1   1+,30 
 =   ln
= 0,31
  2   1−,30 

A questo punto applichiamo la formula:
Z = ( z rYX 1 − z rYX 2 )
n−3
2(1 − rX 1 X 2 )h
dove n è il numero di soggetti e h è uguale a:
h=
1 − rX 1 X 2
rYX2 1 + rYX2 2
1− f × r 2
2
f
=
e
,
dove
r
=
2
1− r 2
2(1 − r 2 )
Nel caso che stiamo considerando abbiamo che:
r2 =
h=
rYX2 1 + rYX2 2 ,54 2 +,30 2
1 − rX 1 X 2
1−,12
=
=,19 , f =
=
=,54 e
2
2
2
2(1 − r ) 2(1−,19)
1 − f × r 2 1−,54×,19
=
= 1,11
1−,19
1− r 2
Il valore di z calcolato sarà quindi:
Z = ( z rYX 1 − z rYX 2 )
n−3
10 − 3
= (0,60 − 0,31)
= 0,56
2(1 − rX 1 X 2 )h
2(1−,12) × 1,11
1
Meng, X. L., Rosenthal, R., & Rubin, D. B. (1992). Comparing correlated correlation coefficients. Psychological
Bulletin, 111, 172–-75.
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3
8
Il valore di z critico per α = ,05 e ipotesi alternativa bidirezionale è 1,96, per cui:
Conclusione: poiché |z calcolato| < |z critico| (0,56 < 1,96), non è così improbabile che quanto
osservato sia il risultato di un’ipotesi nulla vera, per cui la accettiamo. Questi risultati suggeriscono
che molto probabilmente nella popolazione il punteggio di leadership correla nella stessa misura
con quelli di carisma e cooperatività.
Se nel caso precedente avessimo avuto una terza ulteriore variabile con cui correlare la propensione
alla leadership, poniamo una valutazione di comunicatività (rYX3 = ,69 → zrYX3 = 0,85; rX3X1 = ,24 e
rX3X2 = ,33),avremmo dovuto procedure in modo diverso per verificare le seguenti ipotesi:
H0: ρYX1 = ρYX2 = ρYX3 → a livello di popolazione, la propensione alla leadership correla allo stesso
modo con carisma, cooperatività e comunicatività
H1: almeno due ρ diversi → a livello di popolazione, la propensione alla leadership non correla allo
stesso modo con carisma, cooperatività e comunicatività
La formula da utilizzare in questo caso è:
X (k − 1) =
2
(n − 3)∑i ( z rYXi − z rYXi ) 2
(1 − rMe )h
dove z rYXi è la media degli zrYXi e rMe è la mediana delle correlazioni fra le Xi. Calcoliamo i termini
necessari:
z rYXi =
z rYX 1 + z rYX 2 + z rYX 3 0,60 + 0,31 + 0,85
=
= 0,59
3
3
Le correlazioni fra le Xi sono: rX1X2 = ,12, : rX1X3 = ,24 e : rX2X3 = ,33: la mediana di questa
distribuzione è ,24 = rMe.
1 − rMe
rYX2 1 + rYX2 2 + rYX2 3 ,54 2 +,30 2 +,69 2
1−,24
r =
=
=,29 , f =
=
=,54 e
2
3
3
2(1 − r ) 2(1−,29)
2
1 − f × r 2 1−,54×,29
h=
=
= 1,19
1−,29
1− r 2
Calcoliamo il X2:
[
]
(10 − 3) × (0,60 − 0,59) 2 + (0,31 − 0,59) 2 + (0,85 − 0,59) 2
X (3 − 1) =
= 1,13
(1−,24) × 1,19
2
Per α = ,05 e 2 gradi di libertà il χ2 critico è 5,99.
Conclusione: poiché X2 calcolato < χ2 critico (1,13 < 5,99), non è così improbabile che quanto
osservato sia il risultato di un’ipotesi nulla vera, per cui la accettiamo. Questi risultati suggeriscono
che molto probabilmente nella popolazione non esiste una differenza fra le correlazioni della
propensione alla leadership con il carisma, la cooperatività e la comunicatività.
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3
9
Se la differenza fosse risultata significativa e avessimo voluto realizzare dei test post-hoc avremmo
potuto utilizzare le formula:
Z = ∑ ci z rYXi
n −3
(∑ c )(1 − rMe )h
2
dove c è, come nel caso dei post-hoc per l'ANOVA, il coefficiente associato a ciascun coefficiente
di correlazione. Meng e collaboratori (1992) suggeriscono che quando si hanno molti coefficienti da
confrontare e alcuni c sono uguali a zero, i test statistici risultano più accurati se, invece dei valori
globali di rMe e h si utilizzano quelli locali relativi alle correlazioni con c ≠ 0. Alternativamente si
può utilizzare la formula:
Z = rcz X 2 (k − 1)
dove rcz è la correlazione fra i coefficienti c e i corrispondenti zr.
Supponiamo che nel caso precedente avessimo voluto confrontare la correlazione della propensione
alla leadership con la comunicatività contro le altre due. La prima correlazione avrebbe ricevuto
coefficiente 2, le altre due −1. Le ipotesi sarebbero state:
H0: ρYX3 = (ρYX1 + ρ YX2) → a livello di popolazione, la correlazione della propensione alla
leadership con la comunicatività è uguale all'insieme delle correlazioni della propensione alla
leadership con carisma e cooperatività
H1: ρYX3 ≠ (ρYX1 + ρ YX2) → a livello di popolazione, la correlazione della propensione alla
leadership con la comunicatività è diversa dall'insieme delle correlazioni della propensione alla
leadership con carisma e cooperatività
Per α = ,05 e ipotesi alternativa bidirezionale lo z critico è 1,96. Il risultato sarebbe stato:
Z = [(2 × 0,85) + (−1 × 0,60) + (−1 × 0,31)]
10 − 3
= 0,90
(2 ) + (−1) + (−1) 2 × (1−,24) × 1,19
[
2
2
]
Conclusione: poiché |z calcolato| < |z critico| (0,90 < 1,96), non è così improbabile che quanto
osservato sia il risultato di un’ipotesi nulla vera, per cui la accettiamo. Questi risultati suggeriscono
che molto probabilmente non esiste una differenza fra la correlazione della propensione alla
leadership con la comunicatività e l'insieme delle correlazioni della propensione alla leadership con
il carisma e la cooperatività.
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3
10
Altri tipi di coefficienti di correlazione
Il coefficiente di correlazione tetracorico e policorico
Nel 1900 Pearson2 si pose anche il problema di come misurare la correlazione fra caratteristiche
non misurabili quantitativamente e descrisse la possibilità di calcolare la correlazione fra due
dicotomie "artificiali". Una dicotomica artificiale è una variabile quantitativa che è stata resa
dicotomica fissando un valore di cut-off, o una variabile dicotomica i cui due estremi possono
essere considerati gli estremi di un continuum sottostante, per cui si assume che esista una variabile
soggiacente (underlying variable , detta anche latent response variable, o variabile di risposta
latente). Quindi, sono dicotomie artificiali “punteggio di QI sopra/sotto 100” (prendendo 100 come
punto di cut-off), oppure l’essere d’accordo o meno con una certa affermazione, supponendo che
esista un continuum sottostante di accordo. In questi casi per ottenere una misura dell’associazione
fra le variabili non si dovrebbe procedere col calcolo di phi (vedi Strumenti Informatici 7.1) bensì
mediante il calcolo del coefficiente di correlazione tetracorico rt. In base allo stesso principio, se le
variabili sono politomie artificiali a categorie ordinate, si calcolerà il coefficiente di correlazione
policorico (come potrebbe essere il caso della correlazione fra punteggi di scale Likert). Il calcolo
dei coefficienti di correlazione tetracorici e policorici è complesso, per cui si rimanda il lettore alla
letteratura specifica (ad esempio, Olsson, 1979)3. Pedon (1991)4 ne fornisce un’approssimazione


ad
 , dove a, b, c, e d, sono i valori riportati nella
con la formula: rt = − cos180° ×

bc
+
ad


Tabella 1.
Tabella 1 Tavola di contingenza Reddito × Ansia
Ansia
Reddito
Bassa
(a) 8
(c) 3
11
Basso
Medio
Totale
Alta
(b) 1
(d) 6
7
Totale
9
9
18
Supponiamo di ricodificare i dati di una misura psicometrica dell'ansia (quindi misurata su scala a intervalli)
come Bassa Ansia e Alta Ansia e quelli di reddito (misurato su scala a rapporti) come Basso Reddito e Alto
Reddito e di realizzare la tavola di contingenza Reddito × Ansia. Il risultato è la
Tabella 1. Calcoliamo:
180° ×
ad
bc + ad
=
8× 6
3 ×1 + 8 × 6
= 180° × 0,80 = 144°
A questo punto con la funzione di Excel =(-1)*COS(RADIANTI(144)) otteniamo la stima del
coefficiente di correlazione tetracorico: ,81. Si noti che in questo caso il coefficiente phi sarebbe
risultato uguale a ,57.
2
Pearson, K. (1900). Mathematical contributions to the theory of evolution. VII. On the correlation of characters not
quantitatively measurable. Philosophical Transactions of the Royal Society, Series A, 195, 1-47.
3
Olsson, U. (1979). Maximum likelihood estimation of the polychoric correlation coefficient. Psichometrika, 44, 443460.
4
Pedon, A. (1991). Statistica e ricerca psicologica. Padova: Cortina.
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3
11
Il coefficiente di correlazione biseriale e punto-biseriale
Quando si hanno a disposizione una variabile dicotomica e una variabile metrica si tende a
realizzare un test t per campioni dipendenti per verificare l’ipotesi nulla di assenza di differenza fra
le medie delle popolazioni dalle quali sono stati estratti i due gruppi. Nondimeno, è possibile
calcolare due indici di correlazione, il coefficiente di correlazione biseriale (rb), e il coefficiente di
correlazione punto-biseriale (rpb), che consentono di ottenere una misura analoga al coefficiente di
Pearson e costituiscono indici di dimensione dell'effetto. Il primo viene utilizzato con dicotomie
artificiali, il secondo con vere dicotomie.
Supponiamo di voler calcolare la correlazione fra la variabile Reddito e la variabile Ansia in
Tabella 2.
Tabella 2 Valori di reddito e ansia
Reddito
Basso
Basso
Basso
Basso
Basso
Basso
Basso
Basso
Basso
Ansia
15
19
16
12
17
14
13
16
20
Reddito
Medio
Medio
Medio
Medio
Medio
Medio
Medio
Medio
Medio
Ansia
21
22
16
20
20
15
22
17
23
La variabile reddito è una dicotomia artificiale, in quanto è stata generata a partire da una variabile
continua sottostante. In questo caso è preferibile calcolare il coefficiente di correlazione biseriale rb:
rb =
( M 1 − M 2 ) P1 P2
Y × sy
dove M1 e M2 sono le medie dei due gruppi (15,78 per Basso e 19,56 per Medio), P1 e P2 le
proporzioni sul totale dei soggetti dei soggetti nel gruppo 1 e gruppo 2 (,50 e ,50, rispettivamente
per Basso e Medio), sy è la deviazione standard della variabile metrica nel campione totale (3,21) e
Y è l’ordinata della distribuzione normale al punto di divisione fra la proporzione di area
corrispondente a P1 e quella corrispondente a P2. In pratica, basta risolvere l’equazione
1
1 − 2 ( z )2
per il valore di z corrispondente al minore di P1 o P2. Se P1 = ,30, dobbiamo
y=
e
2π
trovare quel valore di z per cui l’area al di là di z vale ,30, che è 0,5244. Sostituiamo questo valore
1
1 − 2 (0,5244 )2
nella formula: y =
e
= 0,3476 . Nel caso che stiamo considerando, P1 = P2 = ,50, a cui
2π
1
1 − 2 (0 )2
corrisponde uno z = 0, per cui y =
e
= 0,3989 . In base alla Figura 7.17 del manuale, gli
2π
valori sono: MBasso = 15,68, MMedio = 19,67, PBasso = ,50, PAlto = ,50, sy = 3,22, per cui:
rb =
(19,56 − 15,78)×,50×,50
=,74
0,3989 × 3,21
La procedura di verifica dell’ipotesi nulla che questo valore sia uguale a zero è analoga a quella
dell’r di Pearson riportata nel manuale. Nella formula per la conversione in t, però, occorre inserire
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3
12
il valore di rb moltiplicato per la costante ,8944 (Pedon, 1991). Nel nostro caso, quindi, prima di
procedere col test t dovremmo eseguire il prodotto ,78 × ,8944 = ,6976, e utilizzare questo valore in
luogo di r nella formula:
t=
rb n − 2
1 − rb2
dove in questo caso n è il numero totale di soggetti (ossia nBasso + nMedio).
Se la variabile dicotomica della è una vera dicotomia, come ad esempio il genere, avremmo
invece dovuto utilizzare il coefficiente di correlazione punto-biseriale rpb. La formula per calcolarlo
è la seguente:
rpb =
(M 1 − M 2 )
n1n2
sy
n(n − 1)
M1 e M2 sono le medie dei due gruppi, sy è la deviazione standard della variabile metrica nel
campione totale, n1 e n2 le ampiezze campionarie del gruppo 1 e del gruppo 2, rispettivamente, e n il
totale dei soggetti. Supponiamo di avere a disposizione i dati in Tabella 3:
Tabella 3 Valori di genere e ansia
Genere
Femmina
Femmina
Femmina
Femmina
Femmina
Femmina
Femmina
Femmina
Femmina
Ansia
21
28
25
20
20
26
20
30
26
Genere
Maschio
Maschio
Maschio
Maschio
Maschio
Maschio
Maschio
Maschio
Ansia
13
19
15
20
19
18
11
20
avremo che MF e MM sono rispettivamente 24,00 e 16,88, la deviazione standard del punteggio di
ansia nel campione totale di 17 soggetti è 4,95, nF e nM sono rispettivamente 9 e 8, per cui:
rpb =
(24,00 − 16,88)
9×8
=,74
4,95
17(17 − 1)
La procedura di verifica dell’ipotesi nulla che questo valore sia uguale a zero è analoga a quella
dell’r di Pearson illustrata nel manuale.
E’ importante tenere presenti le caratteristiche dei due coefficienti di correlazione descritti in
questo paragrafo. Il coefficiente di correlazione biseriale rb assume che vi sia una distribuzione
continua soggiacente alla distribuzione dicotomica, non ha una distribuzione di probabilità nota (per
cui occorre moltiplicarlo per ,8944 prima di procedere con la verifica delle ipotesi con t), e può
assumere valori al di fuori dalla gamma [−1; +1]. Il coefficiente di correlazione punto-biseriale rpb,
invece, richiede solo che siano omogenee fra i due gruppi le varianze dei punteggi nella variabile,
come il test t per campioni indipendenti.
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3
13
Il coefficiente di correlazione parziale
Quando si ha il sospetto che una relazione sia spuria, si suppone che la variabilità comune fra due
variabili sia in realtà dovuta all’effetto causale di una terza variabile, detta variabile di controllo,
che influisce su entrambe. Se questo è vero, rimuovendo statisticamente l’effetto della terza
variabile (in inglese partialling out the third variable) si dovrebbe osservare che la variabilità
comune residua fra le prime due si avvicina allo zero. A livello statistico la questione viene risolta
mediante il calcolo del Coefficiente di Correlazione Parziale rXY.Z, che è appunto il coefficiente di
correlazione fra due variabili X e Y quando viene eliminata l’influenza di una terza (Z). Se sono note
le correlazioni fra X e Y (rXY), fra X e Z (rXZ) e fra Y e Z (rYZ), formula per il calcolo è:
rXY .Z =
rXY − rXZ rYZ
2
1 − rXZ
⋅ 1 − rYZ2
Supponiamo di aver rilevato in 100 città il Numero di Cicogne (X) e il Numero di Nascite (Y) è di
aver trovato che la correlazione fra le due variabili è rXY = ,661. Sono note inoltre le correlazioni
delle due variabili con le Dimensioni della Città (Z): rXZ = ,781 (Numero di Cicogne) e rYZ = ,824
(Numero di Nascite). Calcoliamo allora il coefficiente di correlazione parziale:
rXY .Z =
rXY − rXZ rYZ
2
1 − rXZ
⋅ 1 − rYZ2
=
,661−,781×,824
1−,7812 ⋅ 1−,824 2
=,037
La correlazione parziale fra Numero di Cicogne e Numero di Nascite è dunque rXY.Z = ,037: questo
significa che la proporzione di variabilità della variabile Numero di Nascite (Y) spiegata dalla
variabile Numero di Cicogne (X) indipendentemente dalla variabile di controllo Dimensioni della
Città (Z) è solamente ,0372 = ,001, ossia lo 0,1% contro il 44% che avevamo ottenuto senza
considerare la variabile di controllo.
Le correlazioni fra coppie di variabili (rXY, rXZ, e rYZ) sono dette correlazioni di ordine zero
(zero-order correlations), quella parziale è detta correlazione di primo ordine (first-order
correlation). La Figura 2 riassume la logica del procedimento di calcolo della correlazione parziale.
Figura 2 Logica del procedimento di calcolo della correlazione parziale
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3
14
La significatività del coefficiente di correlazione parziale può essere verificata mediante il test t che
abbiamo visto anche per il coefficiente di Pearson, ma con n − 3 gradi di libertà, per cui la formula
r n−3
è: t =
. Nel nostro caso, quindi, avremo:
1− r2
H0: ρXY.Z = 0 → nella popolazione non esiste una relazione lineare fra Numero di Cicogne e
Numero di Nascite una volta rimossa la variabilità comune fra le due variabili dovuta alle
Dimensioni della Città → la relazione fra Numero di Cicogne e Numero di Nascite è spuria
H1: ρXY.Z ≠ 0 → nella popolazione esiste una relazione lineare fra Numero di Cicogne e Numero di
Nascite anche una volta rimossa la variabilità comune fra le due variabili dovuta alle
Dimensioni della Città → la relazione fra Numero di Cicogne e Numero di Nascite non è spuria
Per un livello di significatività α = ,05, gradi di libertà 100 − 3 = 97, e ipotesi alternativa
bidirezionale, il valore di t critico5 è 2,28.
t=
r n−3
1− r
2
=
,037 100 − 3
1−,037 2
= 0,36
Conclusione: poiché |t calcolato| < |t critico| (0,36 < 2,28), non è così improbabile che quanto
osservato sia il risultato di un’ipotesi nulla vera, per cui la accettiamo. Questi risultati suggeriscono
che molto probabilmente non esiste una relazione lineare fra Numero di Cicogne e Numero di
Nascite una volta rimossa la variabilità comune fra le due variabili dovuta alle Dimensioni della
Città, per cui la relazione fra le due variabili è spuria.
Per realizzare analisi simili su variabili categoriali occorrono modelli statistici che permettano di
prendere in considerazione più di due variabili simultaneamente, come i modelli loglineari (si veda
ad esempio Cristante, Robusto, & Mannarini, 2002)6, mentre per le relazioni fra variabili ordinali è
possibile applicare la stessa formula sostituendo al coefficiente r di Pearson il rho di Spearman.
Il coefficiente di correlazione multipla
Il coefficiente di correlazione multipla rX.YZ permette di stimare la forza della relazione di una
variabile X con altre due variabili, Y e Z, considerate simultaneamente. Si noti che non è la somma
algebrica delle correlazioni di ordine zero della variabile in esame con le altre due. La formula per il
calcolo è:
rX .YZ =
2
2
rXY
+ rXZ
− 2rXY rXZ rYZ
1 − rYZ2
Se elevato al quadrato, il coefficiente di correlazione multipla permette di calcolare la proporzione
di variabilità comune fra una variabile e l’insieme delle altre. Questo indice è particolarmente utile
quando si studia l’attendibilità di un test psicologico. Se gli item sono tutte operazionalizzazioni di
5
Ricavato dalla funzione di Excel =INV.T(,025;97).
Cristante, F., Robusto E., & Mannarini S. (2002). Analisi log-lineare di variabili psicosociali. Vol.II. I modelli
fondamentali. Milano: LED.
6
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3
15
un unico costrutto, avranno fra di loro correlazioni da basse a forti. Ci aspettiamo a questo punto
che se un particolare item X è un’operazionalizzazione del costrutto altrettanto adeguata rispetto
agli item Y e Z, la sua correlazione multipla con questi non potrà essere uguale a zero. Se quindi le
correlazioni di ordine zero, ottenute in un campione di 100 soggetti, sono rXY = ,33, rXZ = ,38 e rYZ
= ,42, avremo che il coefficiente di correlazione multipla rX.YZ sarà:
rX .YZ =
2
2
,33 2 +,38 2 − 2×,33×,38×,42
rXY
+ rXZ
− 2rXY rXZ rYZ
=
=,42
1 − rYZ2
1−,42 2
Elevando al quadrato rX.YZ otteniamo ,422 = ,18, che indica che la variabile X condivide con le
variabili Y e Z il 18% di variabilità. Il coefficiente di correlazione multipla al quadrato viene
utilizzato anche nella formula per verificare l’ipotesi nulla che esso sia uguale a zero nella
popolazione.
H0: ρX.YZ = 0 → nella popolazione non esiste una relazione lineare fra la variabile X e le variabili Y
e Z considerate simultaneamente
H1: ρX.YZ ≠ 0 → nella popolazione esiste una relazione lineare fra la variabile X e le variabili Y e Z
considerate simultaneamente
La procedura di verifica della significatività di un coefficiente di correlazione multipla avviene
mediante un test F:
(n − k − 1)rX2.YZ
F=
k (1 − rX2.YZ )
dove n è il numero di soggetti e k il numero di variabili con cui si correla X, avendo cura di
correggere r2X.YZ se il numero di soggetti n non è almeno dieci volte quello del numero di variabili k
(Marascuilo & Levin, 1983)7. La formula per la correzione di r2X.YZ è:
(1 − rX2.YZ )(n − 1)
~
rX2.YZ = 1 −
n − k −1
Nel nostro caso n = 100 e k = 2, per cui non abbiamo bisogno di operare la correzione.
Il test F viene eseguito con gradi di libertà k − 1 al numeratore e n − k al denominatore, per
cui nel nostro esempio avremo 2 − 1 = 1 gradi di libertà al numeratore e 100 − 2 = 98 al
denominatore. Per un livello di significatività α = ,05 e ipotesi alternativa bidirezionale, i valori
critici8 di F sono 0,19 e 5,18.
F=
(n − k − 1)rX2.YZ (100 − 2 − 1)×,18
=
= 10,64
2 × (1−,18)
k (1 − rX2.YZ )
Conclusione: poiché F calcolato > F critico superiore (10,64 > 5,18), è troppo improbabile che
quanto osservato sia il risultato di un’ipotesi nulla vera, per cui la rifiutiamo. Questi risultati
suggeriscono che molto probabilmente nella popolazione esiste una relazione lineare fra la variabile
X e le variabili Y e Z considerate simultaneamente.
7
Marascuilo, L. A., & Levin, J. R. (1983). Multivariate Statistics in the Social Sciences. Monterey, CA: Brooks/Cole
Publishing Company.
8
Ottenuti mediante la funzione di Excel =INV.F(,025;1;98), che fa 5,18. L’altro valore è l’inverso.
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3
16
Quando le variabili con cui correlare X sono più di due le procedure di calcolo diventano più
complesse, ma la logica di interpretazione del risultato e del test di significatività è esattamente la
stessa.
Calcolare il coefficiente di correlazione di Pearson con Excel e SPSS
Il coefficiente di correlazione di Pearson può essere calcolato con la funzione di Excel
=CORRELAZIONE(Matrice1;Matrice2), oppure =PEARSON(Matrice1;Matrice2), dove Matrice1
e Matrice2 sono gli intervalli di celle che contengono i dati relativi alla variabile 1 e alla variabile 2.
La funzione restituisce il valore dell’r di Pearson. La Figura 3 mostra come organizzare i dati e la
sintassi per l’inserimento della funzione per il calcolo della correlazione fra Estroversione e
Amicalità.
Figura 3 Calcolo del coefficiente di correlazione di Pearson in Excel
Per realizzare il diagramma a dispersione, basta selezionare le due colonne che contengono i dati
della variabile X e della variabile Y, e seguire il percorso Inserisci → Grafico, scegliendo Dispers.
(XY) (Figura 4a). Dopo aver clickato su Avanti > si accede ad una fase di realizzazione del grafico
sostanzialmente inutile per un diagramma a dispersione, in quanto richiede se si vuole rappresentare
i dati per righe o per colonne, ma di fatto l'opzione di default (Colonne) è l'unica praticabile (Figura
4b). Clickando Avanti > si giunge invece ad un passo importante della creazione del grafico, in
quanto accediamo alla schermata dove inserire le etichette per gli assi orizzontale e verticale (Figura
4c). Inseriamo quindi Estroversione nel campo Asse dei valori (X) e Amicalità nel campo Asse dei
valori (Y). In questa schermata possiamo inserire anche il titolo del grafico. Clickando Avanti > si
accede all'ultima schermata dove si può decidere se far inserire al software il grafico nel foglio su
cui si sta lavorando o in foglio a parte (Figura 4d). Clickando Fine il risultato è quello di Figura 4e.
Si noti che Excel mantiene di default una legenda di fatto inutile sulla destra. Questo elemento può
essere facilmente eliminato selezionandolo e premendo il tasto Canc. Se si vuole modificare
l'aspetto di alcuni elementi del grafico, basta fare doppio click col tasto destro del mouse
sull'elemento da modificare per accedere al menu di modifica. La Figura 4f mostra come appare
tipicamente un diagramma a dispersione in un articolo scientifico.
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3
(a)
(b)
(c)
(d)
(e)
(f)
50
50
45
45
40
40
35
35
30
25
Amicalità
20
15
Amicalità
Amicalità
17
30
25
20
15
10
10
5
5
0
0
10
20
Estroversione
30
40
0
0
5
10
15
20
25
30
35
40
Estroversione
Figura 4 Realizzazione di un diagramma a dispersione con Excel
In SPSS è possibile ottenere l'analisi di correlazione seguendo Analyze→Correlate→Bivariate
(Figura 5a). Nella nuova finestra dobbiamo poi spostare i nomi delle variabili nel campo Variables
(Figura 5b). L'opzione di default nel riquadro Correlation Coefficients è Pearson, che è il
coefficiente per variabili metriche. Gli altri due, come visto anche in Strumenti Informatici 7.2,
sono coefficienti di correlazione ordinali. Clickando Options si accede alla finestra con le opzioni
per l'analisi (Figura 5c), che nel caso dei dati che stiamo analizzando (quelli in Figura 3) è rilevante.
Il dataset infatti presenta dei dati mancanti, e dobbiamo decidere come gestirli. Si può scegliere se
far calcolare le correlazioni, coppia di variabili per coppia di variabili, su tutti i casi che hanno
punteggi validi volta per volta (Exclude cases pairwise) oppure solo sui casi che hanno punteggi
validi per tutte le variabili interessate dall’analisi (Exclude cases listwise). Il primo metodo utilizza
tutte le informazioni a disposizione, ma se nel dataset ci sono molti missing può capitare che ogni
correlazione possa essere stata calcolata su un numero di soggetti diverso (riportato da SPSS). Col
secondo metodo in caso di missing c’è il rischio di perdere un numero non trascurabile di soggetti
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3
18
(basta che un soggetto abbia un missing su una qualunque delle variabili e viene escluso), ma si ha
il vantaggio che le correlazioni della matrice risultante sono calcolate tutte sullo stesso campione di
soggetti. In genere, se la matrice di correlazione rappresenta il punto finale dell’analisi può essere
accettabile anche l’uso del metodo pairwise, mentre se rappresenta uno step di analisi intermedio da
cui si procederà oltre per altre analisi, allora dovrebbe essere scelto il metodo listwise.
(a)
(b)
(c)
Figura 5 Realizzazione di un'analisi di correlazione in SPSS
La Figura 6 riporta le matrici di correlazioni ottenute col metodo listwise e pairwise per i dati in
Figura 3. La matrice pairwise (che è l'opzione di default) riporta per ogni coefficiente non solo la
significatività, ma anche il numero di casi su cui è stato ottenuto. Questa informazione non è
riportata invece per la matrice listwise, dato che i casi su cui sono stati calcolati i coefficienti è
sempre lo stesso, in quanto sono quelli che hanno dati validi su tutte le variabili.
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3
19
Pairwise correlation matrix
Listwise correlation matrix
Figura 6 Output di SPSS per l'analisi di correlazione pairwise e listwise dei dati in Figura 3
Molto spesso le persone si lamentano che la tabella che viene prodotta in output è scomoda da
gestire perché non riporta solo i coefficienti di correlazione, ma anche significatività e numero di
soggetti. Per ottenere una matrice di correlazione coi soli coefficienti, si può sfruttare una delle
opzioni della procedura per l’analisi fattoriale (di cui si parlerà nel Volume II). Si segue quindi il
percorso Analyze → Data Reduction → Factor, si inseriscono le variabili delle quali si desidera la
matrice di correlazione nel campo Variables, si clicka su Descriptives, si spunta Coefficients nel
riquadro Correlation Matrix, si clicka su Continue e poi su OK. Nella parte iniziale dell’output
comparirà la matrice di correlazione coi soli coefficienti. Si noti che in questo caso l'opzione di
default è la matrice listwise, per cui se si desidera la matrice pairwise occorre indicarlo nelle
Options.
Per quanto riguarda la correlazione parziale, questa è calcolabile seguendo il percorso
Analyze → Correlate → Partial (Figura 7a). Nella finestra che si apre, inseriremo le variabili sotto
esame nel campo Variables, mentre inseriremo la/e variabile/i di controllo nel campo Controlling
for:. In Figura 7b è illustrata l’impostazione di un’analisi della relazione fra Estroversione e
Amicalità (X e Y) una volta rimossa la variabilità comune dovuta alla loro relazione con Apertura
(variabile di controllo Z). Clickando su Options si accede ad un menu dove è possibile scegliere
come vanno gestiti i missing (riquadro Missing Values) e se si desiderano medie e deviazioni
standard delle variabili e, soprattutto, le correlazioni di ordine zero (zero-order correlations), ossia
la semplice matrice di correlazione di tutte le variabili interessate dall’analisi, indipendentemente
dal fatto che siano variabili di controllo o meno. Per una più agevole interpretazione dell’output
conviene spuntare questa casella (Figura 7c).
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3
20
(a)
(b)
(c)
Figura 7 Realizzazione di un'analisi di correlazione parziale in SPSS
L’output è una singola tabella, riportata in Figura 8.
Correlations
Control Variables
-none-a
Estroversione
Amicalità
Apertura
Apertura
Estroversione
Amicalità
Correlation
Significance (2-tailed)
df
Correlation
Significance (2-tailed)
df
Correlation
Significance (2-tailed)
df
Correlation
Significance (2-tailed)
df
Correlation
Significance (2-tailed)
df
Estroversione
1,000
.
0
,033
,897
16
,464
,053
16
1,000
.
0
,045
,865
15
Amicalità
,033
,897
16
1,000
.
0
-,014
,955
16
,045
,865
15
1,000
.
0
Apertura
,464
,053
16
-,014
,955
16
1,000
.
0
a. Cells contain zero-order (Pearson) correlations.
Figura 8 Tabella di output per una correlazione parziale
Nella prima parte della tabella di output riportata in Figura 8 (sezione -none-) viene riportata la
matrice di correlazione delle tre variabili interessate dall’analisi, indipendentemente dal fatto di
essere variabili di controllo o meno (correlazioni di ordine zero). Nella seconda parte (sezione
Apertura), vengono riportate le correlazioni parziali. Si noti come la correlazione fra Estroversione
e Amicalità non sia influenzata dall’aver rimosso la variabilità comune dovuta alla loro relazione
con Apertura (rXY = ,033; rXY.Z = ,045).
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3
21
SPSS non dispone di procedure dirette per l'esecuzione degli altri tipi di test di significatività
del coefficiente di correlazione di Pearson. Tuttavia, con un po' di intraprendenza, non è difficile
impostarli in Excel seguendo le indicazioni di questo documento.
SPSS non ha nemmeno una procedura diretta per calcolare i coefficienti di correlazione
tetracorica/policorica, ma questa operazione è possibile con molti software gratuiti (ad esempio
FACTOR, http://psico.fcep.urv.es/utilitats/factor/, il cui utilizzo è descritto in Strumenti Informatici
5.1 del mio manuale Teoria e tecnica psicometrica, Costruire un test psicologico, edito da
McGraw-Hill).
Per la correlazione biseriale e punto-biseriale non c'è un modulo apposito, ma basta inserire i
dati come se si volesse eseguire un test t per campioni indipendenti, ossia, codificando 0 e 1 le
categorie della variabile dicotomica e calcolando la correlazione di Pearson con la variabile metrica.
Si noti che questa procedura produce una stima della correlazione punto-biseriale, dato che
l'algoritmo di calcolo del coefficiente di Pearson è in parte diverso. Per i dati in Tabella 3 il dataset
apparirebbe come in Figura 9a. Basta poi eseguire la procedura illustrata in precedenza per ottenere
la correlazione di Pearson e il risultato è quello in Figura 9b. Il coefficiente differisce da quello
calcolato manualmente
(a)
(b)
Figura 9 Calcolare il coefficiente di correlazione punto-biseriale per i dati in Tabella 3 (Femmina=0, Maschio=1)
Il coefficiente di correlazione multipla può essere calcolato sfruttando la procedura per la
valutazione dell'attendibilità di un insieme di item in un test (per ulteriori dettagli si veda Strumenti
Informatici 4.1 del mio manuale Teoria e tecnica psicometrica, Costruire un test psicologico, edito
da McGraw-Hill).
Supponiamo di voler calcolare la correlazione multipla di ognuna delle variabili in Figura 3
con l'insieme delle altre. Seguiamo il percorso Analyze→Scale→Reliability Analysis (Figura 10a) e
inseriamo tutte le variabili nel campo Items (Figura 10b). CLickiamo poi su Statistics e spuntiamo
Scale if item deleted nel riquadro Descriptives for e Correlations nel campo Summaries. A questo
punto clickiamo su Continue, quindi OK e nell'output cerchiamo la tabella Item-Total Statistics
(Figura 11). Tale tabella riporta nella seconda colonna da destra le correlazioni multiple al quadrato
(Squared Multiple Correlation). La radice quadrata di questi coefficienti è la correlazione multipla
di ogni variabile con le altre. Avremo quindi che la correlazione multipla di Estroversione con tutte
le altre è ,71, quella di Amicalità ,41, quella di Coscienziosità ,57, quella di Nevroticismo ,56,
quella di Apertura ,71.
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3
(a)
22
(b)
(c)
Figura 10 Ottenere la correlazione multipla in SPSS
Figura 11 Tabella di output di SPSS con le correlazioni multiple al quadrato
Per realizzare il diagramma a dispersione in SPSS occorre seguire il percorso Graphs →
Scatter/Dot (o, nelle versioni più recenti di SPSS, Graphs → Legacy Dialogs → Scatter/Dot),
scegliere l’opzione di default Simple Scatter e clickare su Define. A quel punto inseriamo la
variabile che consideriamo indipendente nel campo X Axis e la variabile dipendente che
consideriamo dipendente nel campo Y Axis e clickiamo su OK. Il risultato per Estroversione e
Amicalità, analogo a quello di Figura 4, è riportato in Figura 12.
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3
23
Figura 12 Diagramma a dispersione per Estroversione e Amicalità per i dati in Figura 3
Nel caso di più variabili, SPSS consente di realizzare un grafico di dispersione "multiplo" che
consenta di visualizzare nella stessa figura tutti i diagrammi a dispersione relativi ad ogni singola
cella della matrice di correlazione corrispondente. Per realizzare questo grafico basta seguire il
percorso Graphs → Scatter/Dot (o, nelle versioni più recenti di SPSS, Graphs → Legacy Dialogs
→ Scatter/Dot) e scegliere l’opzione Matrix Scatter (Figura 13).
Figura 13 Scelta dell’opzione Matrix Scatter
Dopo aver clickato su Define, inseriamo le variabili con delle quali intendiamo calcolare la matrice
di correlazione nel campo Matrix Variables (Figura 14), e clickiamo su OK
Figura 14 Impostazioni di SPSS per realizzare un diagramma a dispersione multiplo
Il risultato è il diagramma riportato in Figura 15
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3
24
Figura 15 Diagramma a dispersione multiplo
Analogamente alla matrice di correlazione, la matrice è simmetrica e le celle della diagonale
principale sono vuote perché rappresenterebbero la correlazione di ogni variabile con se stessa. Per
avere un’idea più precisa della relazione fra le variabili, possiamo "fittare" ad ogni singolo
diagramma a dispersione una retta. Per farlo, basta fare doppio click col tasto sinistro del mouse sul
grafico: si aprirà una nuova finestra chiamata Chart Editor. A quel punto andiamo in questa
finestra, clickiamo sul grafico col tasto destro del mouse e scegliamo dal menu che si apre l’opzione
Add Fit Line at Total. Il programma aprirà anche una finestra per ulteriori opzioni chiamata
Properties, ma per i nostri scopi è inutile, quindi la chiudiamo clickando su Close. A questo punto,
sempre nella finestra Chart Editor, seguiamo il percorso File → Close e torniamo alla finestra di
output di SPSS. Il risultato è riportato in Figura 16.
Figura 16 Diagramma a dispersione multiplo con retta per la valutazione della relazione fra le variabili
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Strumenti Informatici 14.3
25
Dalla Figura 16 è immediatamente evidente come la relazione più forte sia quella fra Apertura ed
Estroversione, poiché ha la retta più “ripida”, mentre le altre sono più “piatte”.
Quando si riferisce dei risultati di un’analisi di correlazione in una tesi di laurea o in un articolo
scientifico occorre riportare il diagramma a dispersione e i dettagli del coefficiente di correlazione,
oppure direttamente la matrice di correlazione. Ad esempio:
Per valutare la relazione fra i punteggi di Estroversione e Apertura è stato calcolato il
coefficiente di correlazione r di Pearson, che è risultato uguale a r = ,46 (n = 15, p =
,053).
Per valutare se la variabilità condivisa da Estroversione e Amicalità poteva essere
spiegata dalla loro relazione con Apertura, è stato calcolato il coefficiente di correlazione
parziale fra i punteggi di Estroversione e Amicalità utilizzando come variabile di
controllo il punteggio di Apertura. I risultati sono riportati nella Tabella XYZ [e inserire
la tabella in Figura 8]
Per valutare il pattern di relazioni fra i punteggi alle cinque scale del Big Five Inventory
sono state calcolate le correlazioni r di Pearson. Si è tenuto conto dei missing realizzando
una matrice di correlazione pairwise. I risultati sono riportati in Tabella XYZ [e inserire,
ad esempio, la tabella superiore in Figura 6]
Per valutare il pattern di relazioni fra i punteggi alle cinque scale del Big Five Inventory
sono state calcolate le correlazioni r di Pearson. Si è tenuto conto dei missing realizzando
una matrice di correlazione listwise. I risultati sono riportati in Tabella XYZ [e inserire,
ad esempio, la tabella inferiore in Figura 6]
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia