Connessione, dip. in media

Relazioni statistiche
• Indipendenza:
assenza di qualsiasi relazione tra due caratteri
In caso di presenza di un legame, questo può essere di:
• Connessione:
relazione reciproca tra due caratteri qualitativi
• Dipendenza:
relazione di causa-effetto tra due caratteri quantitativi o misti
- Dipendenza lineare (regressione lineare)
– Dipendenza in media
• Interdipendenza:
relazione di dipendenza reciproca tra due caratteri quantitativi
- Correlazione
1
Cosa vuol dire: “esiste una relazione
tra due caratteri”?
2 caratteri
tabella doppia
Si considerano le frequenze congiunte
delle modalità dei due caratteri
Esistenza di relazione
X = Colore dei capelli
Y = Colore della pelle
x1: neri
y1: nera
x2: biondi
y2: bianca
pelle
nera
bianca
neri
n11
n12
biondi
n21
n22
capelli
Sappiamo che tra il colore della pelle e dei capelli esiste una relazione
Ci aspettiamo che, ad esempio, un individuo di pelle nera abbia capelli neri, oppure che
non li abbia biondi
In riferimento ad una tabella a doppia entrata questo equivale a dire che ci
aspettiamo:
• una prevalenza della frequenza congiunta pelle nera-capelli neri n11
• una frequenza congiunta pelle nera-capelli biondi bassa n21
2
Assenza di relazione: indipendenza
X = Colore dei capelli
Y = genere TV preferito
x1: neri
y1: fiction
x2: biondi
y2: reality
TV
fiction
reality
neri
n11
n12
biondi
n21
n22
capelli
Sappiamo che tra il colore dei capelli ed il genere TV preferito non esiste una
relazione
Sapendo che, ad esempio, un individuo ha capelli biondi non sappiamo cosa aspettarci
dal genere TV che preferisce
In riferimento ad una tabella a doppia entrata questo equivale a dire che ci aspettiamo
che le modalità del colore si presentino indifferentemente in coppia con tutte le modalità
del genere e viceversa,
ossia
che frequenze congiunte non presentino particolari “prevalenze”, cioè si distribuiscano
uniformemente
3
Condizione di indipendenza su tabelle a doppia entrata
negozio
Bar
Coloniali
D. Autom.
S.market
Totale
CH
n11
n12
n13
n14
n1.
MM
n21
n22
n23
n24
n2.
Totale
n.1
n.2
n.3
n.4
n
scelta
1
Righe indipendenti dalle colonne (scelta indipendente da negozio)
il comportamento delle unità statistiche rispetto alla scelta non è condizionato dal tipo di
negozio in cui si acquista, che equivale a dire che:
le distribuzioni del carattere “scelta” condizionate alle modalità del carattere “negozio”
sono uguali tra loro ed alla distribuzione marginale del carattere “scelta”
negozio
Bar
Coloniali
D. Autom.
S.market
Totale
CH
f11
f12
f13
f14
f1.
MM
f21
f22
f23
f24
f2.
Totale
1
1
1
1
1
scelta
Condizione di indipendenza
per i profili colonna:
f11 = f12 = f13 = f14 = f1.
f21 = f22 = f23 = f24 = f2.
Sostituendo con le
frequenze assolute:
n11
n
n
= = 14 = 1.
n.1
n.4
n
n21
n
n
= = 24 = 2.
n.1
n.4
n
che per la generica
frequenza nij è:
nij
n.j
=
ni.
n
⇒
nij =
ni. × n.j
n
4
Condizione generale
di indipendenza
2
Colonne indipendenti dalle righe (negozio indipendente da scelta)
il comportamento delle unità statistiche rispetto al negozio in cui si acquista non è
condizionato dalla marca scelta, il che equivale a dire che:
le distribuzioni del carattere “negozio” condizionate alle modalità del carattere “scelta”
sono uguali tra loro ed alla distribuzione marginale del carattere “negozio”
negozio
scelta
Bar
Coloniali
D. Autom.
S.market
Totale
CH
f11
f12
f13
f14
1
MM
f21
f22
f23
f24
1
Totale
f.1
f.2
f.3
f.4
1
Condizione di indipendenza
per i profili riga:
Sostituendo con le
frequenze assolute:
f11 = f21 = f.1
n11 n21 n.1
=
=
n1.
n2.
n
f12 = f22 = f.2
f13 = f23 = f.3
f14 = f24 = f.4
che per la generica
frequenza nij è:
nij
ni.
=
n.j
n
⇒
nij =
n.j × ni.
n
n14 n24 n.4
=
=
n1.
n2.
n
Condizione generale
di indipendenza
5
Connessione
2 caratteri qualitativi, tabelle di contingenza
Indice Chi-quadro di Pearson (χ
χ2)
nij
n.j
nij
ni.
=
=
Condizione di indipendenza per la cella ij:
ni.
n
ˆij =
n
n.j
ni•n• j
n
= frequenze teoriche
n
Per misurare la connessione bisogna considerare le differenze tra le
frequenze teoriche e le frequenze osservate.
nij ) è pari a 0:
Ma: la somma delle differenze (nij − ˆ
r
c
∑ ∑ (n
ij
−ˆ
nij
i =1 j =1
)
r
c
1 r c
1 r
= ∑ ∑ nij −∑ ∑ ˆ
nij = n − ∑ ∑ ni•n• j = n − ∑ ni• ∑ n• j =
n i =1 j =1
n i=1 j =1
i =1 j =1
i =1 j =1
= n−
Quindi:
c
k
h
1
n⋅n = n − n = 0
n
si ricorre alla somma dei quadrati delle differenze
6
L’indice chi-quadro è basato sulla somma dei quadrati
differenze tra le frequenze teoriche e le frequenze osservate.
2
χ =
r
c
∑∑
i =1 j = 1
(n
ij
−ˆ
nij
ˆ
nij
delle
2
)
r = numero d righe
c = numero di colonne
0 ≤ χ2 ≤ ∞
χ2 = 0
Non esiste connessione tra X ed Y (X ed Y sono indipendenti).
Ogni frequenza congiunta è pari alla rispettiva frequenza teorica.
χ2 > 0
Esiste connessione tra X ed Y (X ed Y non sono indipendenti).
Almeno una frequenza congiunta è diversa dalla rispettiva frequenza
teorica.
7
Formulazione alternativa
2
∑ i∑
χ2 =
=
∑∑
i
=
j
i
n ij2
ˆ
n ij
ˆ
n ij
+∑∑
ˆ
n i •n • j
j
= n∑
j
n i2j
∑ ∑
i
(n i j − ˆn i j )
∑
j
n 2
n ij
n i•n • j
i
+
j
ˆ
n ij2
ˆ
n ij
∑ ∑
i
− 2∑
∑
i
+ n − 2n =
ˆ
n ij
j
ˆ
n ij − 2 ∑
j
n i jˆ
n ij
i
∑
=
n ij =
j
2
r
c


n
ij
2
χ = n∑ ∑
− 1
 i =1 j =1 ni•n• j



8
Indice Phi-quadro di Fisher (φ
φ2)
2
χ
φ2 =
n
0 ≤ φ2 ≤ min {r − 1, c − 1}
Indice T di Tchuprov
φ2
χ2
T =
=
min {r − 1, c − 1} n × min {r − 1, c − 1}
0≤ T ≤1
9
Esempio
negozio
scelta
Bar
Coloniali
CH
9
8
MM
0
Totale
9
D.
Autom.
S.market
Totale
1
3
21
1
3
5
9
9
4
8
30
Metodo A.
χ2 =
negozio
Bar
Coloniali
CH
6,3
6,3
MM
2,7
9
Totale
2
4
∑∑
(nij − ˆnij )
ˆ
nij
i =1 j =1
nij
Frequenze teoriche ˆ
scelta
2
D.
Autom.
S.market
Totale
2,8
5,6
21
2,7
1,2
2,4
9
9
4
8
30
 ( 9 − 6,3 )2 ( 8 − 6,3)2 (1 − 2,8 )2 (3 − 5,6 )2 ( 0 − 2,7 )2 (1 − 2,7 )2 (3 − 1,2 )2 (5 − 2, 4 )2 
=
χ2 = 
+
+
+
+
+
+
+


6,3
6,3
2,8
5,6
2,7
2,7
1,2
2, 4
= 1,16 + 0, 46 + 2,82 = 13,27
Φ
2
=
1 2
1 3, 2 7
χ =
= 0, 4 4
n
30
0 ≤ φ2 ≤ 1
10
Metodo B.
 2
χ = n  ∑
  i = 1
2


 − 1
ni. ⋅ n.j 

nij2
4
∑
j =1
2
1. Frequenze osservate al quadrato nij
negozio
scelta
Bar
CH
MM
2.
Coloniali
D.
Autom.
S.market
81
64
1
9
0
1
9
25
n i. × n . j
negozio
scelta
CH
MM
Bar
Coloniali
D.
Autom.
S.market
189
189
84
168
81
81
36
72
64
1
9
1
9
25 
 8 1

χ2 = 3 0 × 
+
+
+
+
+
+
 − 1 =
189
84
168
81
36
72 
 1 8 9

= 3 0 × [1 , 4 4 − 1 ] = 1 3 , 2 7
Φ
2
=
1 2
1 3, 2 7
χ =
= 0, 4 4
n
30
11
Perfetta dipendenza unilaterale e bilaterale
Si è nella situazione di perfetta dipendenza unilaterale quando, data una modalità
di uno dei due caratteri, la modalità che assume l’altro è univocamente individuabile.
La perfetta dipendenza è bilaterale quando questa relazione è reciproca (e può
verificarsi solo su tabelle quadrate).
Se:
Y è il carattere sulle righe (r modalità)
X è il carattere sulle colonne (c modalità)
si ha:
Perfetta dipendenza unilaterale di Y da X
φ2 = r − 1 ⇒ nij = n• j
r<c
φ2 = c − 1 ⇒ nij = ni•
c<r
(tabelle rettangolari, o quadrate)
Perfetta dipendenza unilaterale di X da Y
(tabelle rettangolari, o quadrate)
Perfetta dipendenza bilaterale
(tabelle quadrate)
φ2 = r − 1 = c − 1 ⇒ nij = n• j = ni• r = c
12
Esempi di perfetta dipendenza unilaterale
Massima dipendenza unilaterale del carattere SCELTA (Y) dal carattere NEGOZIO (X)
(se X allora Y)
r<c
negozio (X)
scelta (Y)
Bar
D.
Autom
Coloniali
S.market
Totale
CH
9
0
4
0
13
MM
0
9
0
8
17
Totale
9
9
4
8
30
nij = n.j
φ2 = r − 1 = 1
Massima dipendenza unilaterale del carattere SCELTA (X) dal carattere NEGOZIO (Y)
(se Y allora X)
scelta (X)
CH
r>c
MM
negozio (Y)
Totale
Bar
9
0
9
Coloniali
0
9
9
D. Autom
4
0
4
S.market
0
8
8
13
17
Totale
nij = ni.
φ2 = c − 1 = 1
30
13
Esempio di perfetta dipendenza bilaterale
Massima dipendenza bilaterale
del carattere COLORE OCCHI (X) dal carattere COLORE CAPELLI (Y)
e
del carattere COLORE CAPELLI (Y) dal carattere COLORE OCCHI (X)
(se Y allora X e se X allora Y)
Occhi (X)
Castani
Azzurri
Verdi
Neri
totale
Capelli (Y)
Castani
28
Biondi
28
12
Rossi
12
4
Neri
totale
28
12
4
4
6
6
6
50
r=c=4
nij = n• j = ni•
φ2 = r − 1 = c − 1 = 3
14
Dipendenza in media
Almeno 1 carattere quantitativo, tabelle miste
X qualitativo
Modalità di X
Y quantitativo
→
Medie di Ymm
Indvipendenza in media di Y da X:
al variare delle modalità di X le medie delle
distribuzioni condizionate di Y rimangono
costanti.
Y qualitativo
Modalità di Y
→
→
X quantitativo
Medie di Xmm
Indipendenza in media di X da Y:
al variare delle modalità di Y le medie delle
distribuzioni condizionate di X rimangono
costanti.
Y
X
AREA
Geografica
Classi di REDDITO
Totale
20-30
30-40
NORD
2
6
8
CENTRO
2
4
6
SUD
6
0
6
10
10
20
Totale
La spezzata delle medie
Y
X
AREA
Geografica
Classi di REDDITO
Totale
20-30
Medie
30-40
NORD
2
6
8
32.5
CENTRO
2
4
6
31.7
SUD
6
0
6
25
10
10
20
30
Totale
Decomposizione della varianza
La varianza di X è data dalla somma di due componenti:
• varianza esterna = varianza delle medie di gruppo
• varianza interna = media delle varianze di gruppo
Quanto differiscono
le medie tra loro e
rispetto alla media
generale?
Se:
G = numero di gruppi;
µj = media dell’j-esimo gruppo;
nj = numerosità dell’j-esimo gruppo (j = 1,….,G);
allora:
σ
2
2
1 G
1 G
2
=
σ
n
+
µ
−
µ
nj
∑
∑
j
j
j
n j=1
n j=1
(
V A R IA N Z A
IN T E R N A
ossia:
2
σ2TOT = σ2INT + σEX
T
V A R IA N Z A
ESTERN A
)
n1 + n2 + … + nj + … + nG = n
suddivisione delle intensità in G gruppi di numerosità nj
( j = 1,…,G)
1
µj =
nj
Media aritmetica del j-mo gruppo:
2
1 n
2
σ = ∑ ( xi − µ ) =
n i =1
nj
∑x
ij
i =1
2
1 G ni
xij − µ
∑
∑
n j = 1 i =1
(
)
=
Varianza della partizione in gruppi
1 G ni
= ∑ ∑ xij − µ j + µ j − µ
n j =1 i = 1
(
1 G ni
= ∑ ∑ xij − µ j
n j =1 i = 1
(
2
)
2
)
=
1 G ni
+ ∑ ∑ µj − µ
n j =1 i = 1
(
2
)
1 G ni
+2 ∑ ∑ xij − µ j
n j = 1 i =1
(
)( µ
j
−µ
)
18
1 G ni
xij − µ j
∑
∑
n j =1 i =1
(
2
)
1 G ni
+ ∑ ∑ µj − µ
n j =1 i =1
(
1° Addendo
)
(
2° Addendo
1 G ni
xij − µ j
∑
∑
n j =1 i =1
2
(
1° Addendo
1 G ni
+2 ∑ ∑ xij − µ j µ j − µ
n j =1 i =1
2
)
(
2° Addendo
2
)
 1 nj
2
1 G 2
2
 ∑ xij − µ j  nj = ∑ σ j nj = σ INT
n j =1
 nj i =1

1 G
= ∑
n j =1
(
)
2
1 G
µ j − µ nj
∑
n j =1
(
=
Media delle varianze
dei G gruppi
)
= σ2EXT
Varianza delle medie di gruppo
rispetto alla media generale µ
1 G ni
2 ∑ ∑ xij − µ j
n j =1 i = 1
(
3° Addendo
Quindi:
)(


2 G 
µj − µ = ∑  µj − µ
n j =1


1 G ni
σ = ∑ ∑ xij − µ j
n j=1 i =1
2
(
)
2
)
)
3° Addendo
Varianza del j-esimo gruppo
1 G ni
µj − µ
∑
∑
n j =1 i =1
)(
(
1 G ni
+ ∑ ∑ µj − µ
n j=1 i =1
(
)


ni
xij − µ j  = 0
∑
i =1

è uguale a zero per

la I proprietà di µ
2
)
(
)
2
= σ2INT + σEXT
19
scelta
bottiglie
CH
MM
Totale
σ2tot = 2, 43
1
1
2
3
2
2
2
4
µ = 3,97
3
2
1
3
4
5
0
5
G=2
5
7
4
11
(1 = CH; 2 = MM)
6
4
0
4
21
9
30
Esempio
Totale
6
∑
µ1 = µ CH =
i=1
x C Hin i
=
21
(1 × 1 ) + (2
× 2 ) + + (6 × 4 )
21
= 4, 2 8
6
∑ xMMini
µ 2 = µMM =
i =1
9
=
(1 × 2 ) + (2 × 2 ) + + (5 × 4 )
9
= 3,22
20
6
σ 12
=
∑ (x CH
σ 2C H
=
i=1
=
σ 2IN T
=
=
2
σEST
=
1
=
i=1
( x M Mi − µ M M ) n i
=
9
1
n
G
∑
σ 2j n j =
(1, 9 2
2
∑ (µ j − µX )
n j=1
2
2
4, 2 8 ) × 1 + + ( 6 − 4, 2 8 ) × 4
21
(1 − 3, 2 2 )2
=
2
× 2 + + ( 6 − 3, 2 2 ) × 0
9
× 2 1 ) + (2, 8 3 × 9 )
30
j=1
G
(1 −
4 0, 2 9
21
= 1, 9 2
2
∑
2
σM
M
i
21
6
σ 22
2
− µ C H ) ni
nj =
2 5, 5 6
9
= 2, 1 9
( 4,28 − 3,97 )2 × 21 + (3,22 − 3,97 )2 × 9
30
=
= 0,24
2
σ2TOT = σ2INT + σEX
T = 2,19 + 0,24 = 2, 43
21
= 2, 8 3
A cosa serve scomporre la varianza?
n. bot
Media e varianza costanti
• Varianza delle medie σ2ext = 0
• Media delle varianze σ2int = σ2
Stesso comportamento tra le
due distribuzioni:
CH
MM
scelta
il numero di bottiglie acquistate è
lo stesso per chi sceglie le due
marche
Medie diverse, varianza costante
n. bot
• Varianza delle medie σ2ext ≠ 0
• Media delle varianze σ2int < σ2
Diverso comportamento tra le
due distribuzioni:
CH
MM
scelta
il numero di bottiglie acquistate è
diverso a seconda della marca
scelta
Rapporto di correlazione di Pearson
X
η
x0 – x1
x1 – x2
…
Classe jma
…
xh-1 - xh
tot
y1
n11
n12
…
…
…
n1h
n1.
y2
.
.
.
yi
.
.
.
n21
n22
…
…
n2h
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
n2.
.
.
.
ni.
.
.
.
yk
nk1
nk2
…
…
…
nkh
nk.
tot
n.1
n.2
…
n.j
…
n.h
n
Y
Quando X è quantitativo:
r
ηX|Y =
2
σEXT
X
2
X
σ
∑ (µ
i
=
Quando Y è quantitativo:
2
2
∑ ( ˆx
j =1
j
)
− µ X n• j
2
c
− µ x ) ni•
i =1
c
…
.
.
.
nij
.
.
.
ηY|X =
2
σEXT
Y
σ2Y
∑ (µ
=
j
j =1
r
∑ (y
i
)
− µ Y n• j
2
− µ Y ) ni•
i =1
N.B.:
Su una tabella mista è possibile misurare anche l’indipendenza assoluta con
l’indice del χ2
Proprietà e interpretazione
0 ≤ ηX|Y ≤ 1
ηX|Y = 0
Perfetta indipendenza in media:
le medie delle distribuzioni condizionate di X sono tutte
uguali tra loro ed uguali alla media generale (µX)
ηX|Y = 1
Perfetta dipendenza in media:
le varianze delle distribuzioni condizionate di X sono nulle. Ad
ogni modalità di Y corrisponde una sola intensità di X che
presenta frequenza non nulla
ηY|X ≠ ηX|Y
L’indice non è simmetrico (salvo eccezioni)
Esempio
Fatturato (Y)
Settore
Merceologico (X)
≤ 200
200-|300
300-|400
400-|500
>500
Totale
11
1
5
1
3
21
Bevande
1
1
0
1
0
3
Healt Care
6
1
1
2
2
12
Ice Packaging
7
2
1
1
3
14
25
5
7
5
8
50
Alimentari
Totale
X 4 modalità
r
Y 5 classi (2 aperte)
ηY|X =
2
σEXT
Y
σ2Y
∑ (µ
i
=
2
− µ Y ) ni•
i =1
2
c
∑ ( ˆy
j =1
j
)
− µ Y n• j
1. Media generale di Y:
µY =
1
n
h
∑ ˆy n
j •j
j =1
=
(150 ⋅ 25 + 250 ⋅ 5 + 350 ⋅ 7 + 450 ⋅ 5 + 1256 ⋅ 8)
50
= 394,96
Nota:
Il valore centrale della prima classe (aperta) è stato ottenuto considerando che, nella successione di
valori del carattere fatturato, i valori più bassi sono di poco superiori a 100 (che si assume, quindi,
come estremo inferiore della classe); quello dell’ultima classe è ottenuto considerando come estremo
superiore della classe il valore massimo effettivamente osservato:
(2012 + 500)/2 = 1256
2. Medie di Y condizionate alle modalità di X
1
µ1 =
n1•
1
µ4 =
n4 •
(150 ⋅ 11 + 250 ⋅ 1 + 350 ⋅ 5 + 450 ⋅ 1 + 1256 ⋅ 3)
j =1
21
∑ ˆy jn1j =
1
µ2 =
n2 •
1
µ3 =
n3•
c
c
(150 ⋅ 1 + 250 ⋅ 1 + 450 ⋅ 1)
j =1
3
∑ ˆy jn2 j =
c
∑ ˆy n
j 3j
=
= 266,67
(150 ⋅ 6 + 250 ⋅ 1 + 350 ⋅ 1 + 450 ⋅ 2 + 1256 ⋅ 2)
j =1
12
= 384,33
c
(150 ⋅ 7 + 250 ⋅ 2 + 350 ⋅ 1 + 450 ⋅ 1 + 1256 ⋅ 3)
j =1
14
∑ ˆyjn4 j =
= 348, 48
= 412
3. Confronto tra le medie condizionate
µ1 = 348, 48
µ2 = 266,67
µ3 = 384,33
µ 4 = 412
Commento: si può vedere che le medie delle distribuzioni condizionate differiscono
dalla media generale di Y, quindi i due caratteri non sono indipendenti in media.
Ma quanto è forte il legame di dipendenza in media?
4. Calcolo del numeratore dell’indice
r
∑ (µ
i
2
2
2
− µ Y ) ni• = (348, 48 − 394,96 ) 21 + (266,67 − 394,96 ) 3 +
i =1
2
2
+ (384,33 − 394,96 ) 12 + ( 412 − 394, 96 ) 14 = 99.464,14
5. Calcolo del denominatore dell’indice
c
∑(
j =1
2
2
)
2
ˆ
y j − µ Y n• j = (150 − 394,96 ) 25 + (250 − 394,96 ) 5 +
2
2
2
+ ( 350 − 394,96 ) 7 + ( 450 − 394,96 ) 5 + (1.256 − 394,96 ) 8 = 7.565.618
6. Calcolo dell’indice
2
r
ηY|X =
2
σEXT
Y
σ2Y
∑ (µ
=
i
− µ Y ) ni•
i =1
2
c
∑ ( ˆy
j =1
j
=
)
− µ Y n• j
99.464,14
= 0, 013
7.565.618
La dipendenza in media del carattere FATTURATO dal carattere SETTORE MERCEOLOGICO
è praticamente nulla
ossia:
il fatturato in media non dipende dal settore merceologico