Scarica file

Indipendenza statistica
Relazioni statistiche
Esistenza di un legame reciproco tra i caratteri in
esame;
I caratteri hanno lo stesso ruolo (simmetrico). Non
è possibile stabilire un criterio di antecedenza
logica per alcuno dei fenomeni.
P ò essere utilizzata
Può
tili
t per ttutti
tti i ti
tipii di caratteri.
tt i
L’esistenza dell’indipendenza assoluta comporta
l’inesistenza di ogni altro tipo di relazione statistica
(dipendenza).
Ida Camminatiello
Ida Camminatiello
Indipendenza assoluta
n ij 
nˆ ij 
02/04/2014
Ida Camminatiello
3
n i .  n. j
N
Ida Camminatiello
n i .  n. j
N
Frequenze teoriche
pp
le frequenze
q
che
rappresentano
teoricamente dovrebbero occupare le celle
in presenza di indipendenza assoluta.
b1
a1
a2
b2 b3
○
□
◇
10
△
✩
▽
90
10
20
70
100
10  10
20  10
1 ○
 2□
100
100
70  10
7◇
100
10  90
20  90
9 △
 18 ✩
100
100
70  90
 63 ▽
100
Contingenze
Sarà possibile allora associare alla tabella delle frequenze osservate quella costruita con le frequenze teoriche in caso d’indipendenza. E’ di tutta evidenza che se le due tabelle sono uguali esiste indipendenza assoluta.
Quando ciò non si verifica occorrerà valutare e misurare la connessione. n ij
20  10
100
2
6
12
20
3
9
18
30
50
5
15
30
50
100
10
30
60
100
1
8
11
20
4
9
10
30
5
13
32
10
30
60
02/04/2014
2
nˆ ij
Ida Camminatiello
5
P costruire
Per
t i un operatore
t
di connessione
i
ttra d
due
variabili prendiamo come modello di riferimento
l’assenza di relazione e calcoliamo quanto le frequenze
osservate
t sii di
discostano
t
d
dalle
ll ffrequenze tteoriche
i h
calcolate sulla base dell’ipotesi di completa
indipendenza.
Definiamo la quantità nij  nˆij  Cij come la differenza tra il
valore osservato e il valore teorico
teorico. Tale quantità sarà
chiamata contingenza
La somma delle contingenze per riga o per colonna è
uguale
l a 0 e pertanto
t t esse non possono essere assunte
t
come misura della connessione.
02/04/2014
Ida Camminatiello
Indici di Connessione
Indici di Connessione
6
Indici di Connessione
Indici di Connessione
Un indice assoluto di connessione è il chi-quadro di Pearson
Tutti gli indici che misurano la connessione
sono quadratici.
Gli indici di connessione producono uno
scalare sempre positivo; assumono valore
zero in assenza di connessione e maggiore di
zero in presenza di connessione tra le due
variabili.
r
c
  
2
n
ij
i 1 j 1
 nˆij 
nˆij
Cij2
  
ˆij
i 1 j 1 n
2
r
c
2
0   2  N * min r  1, c  1

r

 1
j 1 ni . n. j

c
 2  N 
 i 1
nij2
Più le frequenze empiriche si allontanano dalle frequenze
più è elevato il g
grado di connessione tra le variabili.
teoriche p
02/04/2014
Ida Camminatiello
7
02/04/2014
Ida Camminatiello
8
Indici di Connessione
Indici di Connessione
2 
2
N
r
c
 
i 1 j 1
nij2
ni.n. j
1
0   2  min r  1, c  1
0 2 1
n
Azzurro
Marrone
Nero
Biondo
9
‐
‐
9
Rosso
1
1
‐
2
Castano
‐
6
2
8
Nero
‐
1
8
9
10
8
10
28
n
  
2
i 1 j 1
nij2
ni.n. j
1
 2  28*1,35  37,8
02/04/2014
Ida Camminatiello
9
02/04/2014
 92 1
1 6 2 2 2 1 82 
2   
 
 
   1  1,35
 90 20 16 64 80 72 90 
2 
1,35
 0,675
2
Ida Camminatiello
10
Scatterplot
•
Indipendenza correlativa
Un primo modo per verificare l’esistenza di una correlazione lineare tra d
f
l’
d
l
l
due caratteri quantitativi X e Y, e quello di rappresentare la distribuzione doppia (X,Y) attraverso un grafico a dispersione (o scatterplot).
Se due caratteri sono entrambi quantitativi è
possibile studiare l’esistenza di un legame
p
g
per
p
cui a variazioni di un carattere corrispondono
variazioni dell’altro carattere secondo una
relazione lineare.
I caratteri hanno lo stesso ruolo (simmetrico).
Non è possibile stabilire un criterio di
antecedenza logica per alcuno dei fenomeni.
02/04/2014
Ida Camminatiello
12
Codevianza/Covarianza
Indipendenza/dipendenza correlativa
Una misura assoluta della concordanza/discordanza è la codevianza (covarianza)
Codev ( X , Y )  0
Se
Distribuzione doppia per unità
r
Codev( X , Y )  
i 1
r
c
 x y
i 1
j 1
i
r
Codev( X , Y )  
i 1
r
c
 x y n
i
i 1 02/04/2014
j 1
j ij
j
 x  M y
c
i
j 1
x
 x  M y
c
j 1
 M y 
Cov ( X , Y ) 
 nM x M y
i
j
x
j
Se
 M y nij 
Codev ( X , Y )
n
Codev ( X , Y )  0
Indipendenza correlativa
concordanza
Ai valori più piccoli (grandi) di uno dei due caratteri corrispondono in media i valori più piccoli (grandi) della seconda variabile.
Se
Codev ( X , Y )  0
discordanza
Ai valori più piccoli (grandi) di uno dei due caratteri corrispondono in media i valori più grandi (piccoli) della seconda variabile.
Distribuzione doppia
Distribuzione doppia per frequenze
La covarianza è una misura simmetrica: C (X Y) C (Y X)
Cov(X, Y) = Cov(Y, X).
 nM x M y
13
02/04/2014
Codevianza/Covarianza
Ida Camminatiello
14
Coefficiente di correlazione lineare
Se X e Y sono statisticamente indipendenti, implica che: Cov(X, Y) = 0
Una misura relativa della concordanza è data dal coefficiente di U
i
l i d ll
d
èd d l
ffi i
di
correlazione r
Non vale il viceversa:
se la Cov(X, Y) = 0, questo non implica che X e Y siano indipendenti.
La covarianza si può annulla anche se i prodotti degli scostamenti dalla
media si compensano.
Data la seguente distribuzione:
r
X -2 -1 0 1 2
Y 4 1 0 1 4
Ida Camminatiello
1  r  1
Il coefficiente r è un numero puro, che varia tra –1 a 1 ed ha il
segno algebrico della codevianza.
Si ha: x = 0, y = 2 e Cov(X, Y) = 14 (-8-1+1+8)-02 = 0
Vi è indipendenza correlativa, ma non vi è indipendenza statistica in quanto
l due
le
d variabili
i bili sono legate
l
dalla
d ll relazione
l i
funzionale:
f i l
y = x2.
02/04/2014
codev( X , Y )
dev( X ) * dev(Y )
15
02/04/2014
Ida Camminatiello
16
Coefficiente di correlazione lineare

Se r =-1
Se -1 < r <0 
Coefficiente di correlazione lineare
r = 0  l’indipendenza statistica
ll’indipendenza
indipendenza statistica r statistica r = 0
0
Il coefficiente di correlazione nullo non implica l’i di
l’indipendenza statistica, ma solo d
i i
l
l’indipendenza lineare.
vi è perfetta relazione lineare tra X e Y e vi è
discordanza.
vi è discordanza.
non vi è relazione lineare tra X e Y, le variabili
sono incorrelate, non vi è né concordanza, né
discordanza.
Se r = 0

Se 0 < r <1

vi è concordanza.
Se r = 1

vi è perfetta relazione lineare tra X e Y e vi è
concordanza.
02/04/2014
Ida Camminatiello
17
02/04/2014
Ida Camminatiello
Esempio
Automobili
1
2
3
4
5
6
7
8
Distanza percorsa (km)
X
60
156
148
168
180
300
235
195
18
Esempio
x
60
156
148
168
180
300
235
195
1442
Tempo di consegna (in giorni)
Y
20
24
32
28
43
27
45
38
y
20
24
32
28
43
27
45
38
257
x2
3600
24336
21904
28224
32400
90000
55225
38025
293714
y2
400
576
1024
784
1849
729
2025
1444
8831
xy
1200
3744
4736
4704
7740
8100
10575
7410
48209
Il coefficiente di correlazione è:
Le due medie sono:
02/04/2014
x
= 180,25 e
y
= 32,125, quindi:
Ida Camminatiello
r=
19
02/04/2014
48209  8(180, 25)(32,125)
( 293714  8  32490,06)(8831  8  1032,016)
Ida Camminatiello
= 0,43.
20
Rapporto
pp
di correlazione: eta q
quadro
Indip
penden
nza in media
a
Data una matrice a doppia entrata è possibile calcolare le pp
p
medie parziali ognuna delle distribuzioni parziali
Indipendenza in media
Si supponga di aver una distribuzione doppia di una variabile Y quantitativa e di una variabile X che può essere sia quantitativa che qualitativa e di p
q
q
voler misurare quanto Y dipenda in media da X.
Y è indipendente in media da X se ogni
Y è indipendente in media da X se ogni distribuzione parziale della Y ha la stessa media aritmetica
22
Rapporto di Correlazione
Esiste indipendenza in media di una variabile Y dalla Esiste
indipendenza in media di una variabile Y dalla
variabile X se le medie parziali sono tutte uguali tra loro al variare delle modalità dell’altra variabile

y1  y 2   yi   y r
Poichè
Abbiamo
02/04/2014
y  y1  y2   yi   yr
Ida Camminatiello
2
YX
 y

 y
23
 y  ni.
2
i
j
Ind
dipend
denza in med
dia
Indiipende
enza in
n media
Rapporto di Correlazione
 y  n. j
2

Dev( B)
Dev(W )
 1
Dev(Y )
Dev(Y )
2
0  YX
1
Se entrambe le variabili X e Y sono quantitative, è possibile calcolare
possibile calcolare
2
x j  x n. j

2
 XY 
2
 xi  x  ni.
02/04/2014


2
2
YX
  XY
Ida Camminatiello
24
Esempio
...continua
Si consideri la distribuzione doppia del reddito Y e del titolo di studio X di 50
impiegati di una azienda.
yi
23 5
23,5
31,3
16,1
(
)
Reddito (milioni)
Titolo di studio 10 - 16 17 - 25 26 - 36 37 - 49 Totale
Diploma
4
6
5
1
16
Laurea
0
2
8
2
12
Al
Altro
16
4
2
0
22
Totale
20
12
15
3
50
yi
13
21
31
43
Le medie parziali sono:
13  4  21  6  31  5  43 1
= 23,5
16
13  0  21  2  31  8  43  2
y2 =
= 31,3
12
13 16  21  4  31  2  43  0
y3 =
= 16,1.
22
y1 =
 =
2
YX
La media generale è:
13  20  21 12  31 15  43  3
y=
= 22,12.
22 12
50
02/04/2014
Ida Camminatiello
25
Indipendenza
È possibile stabilire la seguente gerarchia tra i tre concetti di indipendenza:
Indipendenza
statistica

Indipendenza
in media

Indipendenza
correlativa
Indipendenza
in media

Indipendenza
statistica
Non vale il viceversa
Indipendenza
correlativa
02/04/2014

Ida Camminatiello
27
ni
16
12
22
nj
20
12
15
3
( y i - y )2 ni
30 4704
30,4704
1011,269
797,2888
1839 028
1839,028
(yi - y )2 nj
1663 488
1663,488
15,0528
1182,816
1307 923
1307,923
4169,28
1839,028
= 0,44
4169,28
02/04/2014
Ida Camminatiello
26