close

Enter

Log in using OpenID

ANALISI DEI DATI PER IL MARKETING 2014

embedDownload
10/10/2014
ANALISI DEI DATI
PER IL MARKETING
2014
Marco Riani
[email protected]
http://www.riani.it
Misura della relazione tra
coppie di variabili
• Matrice di correlazione
quantitative)
(variabili
• Matrice di cograduazione (ranking)
Associazione (variabili
qualitative, nominali o ordinali
con poche categorie) CAP. IV
1
10/10/2014
Formulazioni alternative
di domande qualitative
• Nella scelta d’un punto vendita quali
aspetti consideri importanti?
• Risposte aperte (max tre caratteristiche)
• ….. …..
…..
• Pregi: scoperta di aspetti nuovi, il
rispondente non è vincolato; è utile nelle
indagini preliminari
• Difetti: necessità di codifica a posteriori,
categorie simili da raggruppare.
Continua 1
• Nella scelta d’un punto vendita quali sono
per te gli aspetti più importanti?
• (barrare al max tre risposte)
• (variante: una sola risposta)
•
•
•
•
•
•
•
Convenienza prezzi
Ampiezza dell’assortimento
Vicinanza a casa
Comodità parcheggio
Cortesia del personale
Offerte promozionali
……
□
□
□
□
□
□
2
10/10/2014
Continua 2 (formulazione alternativa)
• Nella scelta d’un punto vendita quali aspetti
ritieni importanti?
• Convenienza prezzi
sì □ 1 no □ 2
• Ampiezza dell’assortimento sì □ 1 no □ 2
• Vicinanza a casa
sì □ 1 no □ 2
• Comodità parcheggio
sì □ 1 no □ 2
• Cortesia del personale
sì □ 1 no □ 2
• Offerte promozionali
sì □ 1 no □ 2
• ……
Continua 3 (scala ordinale di Likert)
• Nella scelta d’un punto vendita quale
importanza attribuisci ai seguenti aspetti?
• Convenienza prezzi
• Pochissima □1
moltissima □ 5
poca □2
media □3
molta □4
• Ampiezza dell’assortimento
• Pochissima □1
moltissima □ 5
poca □2
media □3
molta □4
……
3
10/10/2014
Continua 4 (scala da 1 a 10)
• Su una scala da 1 a 10 quale
importanza attribuisci ai seguenti
aspetti nella scelta d’un punto vendita?
• Convenienza prezzi
• □1 □2 □3 □4 □5 □6 □7 □8 □9 □10
• Ampiezza dell’assortimento
• □1 □2 □3 □4 □5 □6 □7 □8 □9 □10
……
Indici di associazione per tabelle
22
La tabella 22 è generata da variabili
dicotomiche (binarie) o da variabili
(qualitative o quantitative) ricondotte a due
sole modalità.
L’associazione tra le variabili è definita in
funzione delle frequenze riportate nella
tabella (frequenze di cella o casella).
4
10/10/2014
Tabella 2  2
A e B  2 prodotti (items) del «paniere»
A/B
Acquistato
Non
acquistato
Tot.
Acquistato
n11
n12
n1
Non
acquistato
n21
n22
n2
Tot.
n1
n2
n
n11 = numero di transazioni in cui A e B sono acquistati
insieme
n = numero totale di transazioni
A e B  2 pagine web (visitate / non visitate)
Tabella di contingenza 22
1 grado di libertà:
se si mantengono
costanti le distribuzioni
marginali basta fissare
una sola frequenza in
una qualunque cella
affinché le altre tre
siano determinate in
modo univoco
x
y1
y2
Tot
x1
n11
n12
n1.
x2
n21
n22
n2.
Tot
n.1
n.2
n
y
5
10/10/2014
Definizione: Indipendenza
• Teorema della probabilità composta per eventi
indipendenti
• Due variabili dicotomiche X ed Y si dicono
indipendenti, con riferimento alle n unità
statistiche analizzate, se e solo se:
= distribuzione
condizionata
y1
y2
Tot
x1
n11
n12
n1.
x2
n21
n22
n2.
Tot
n.1
n.2
n
Implicazioni dell’indipendenza
Cioè
6
10/10/2014
Interpretazione
In caso di indipendenza, la modalità
assunta da X è irrilevante rispetto alla
modalità assunta da Y.
In tale circostanza, la proporzione di
unità statistiche che presentano la
categoria x1 di X risulta la medesima in
entrambe le classi di Y.
Esempio
• X = ricordo della
pubblicità
• Y = acquisto del
prodotto
• Tabella delle
frequenze teoriche in
caso di indipendenza:
• (275 ×129)/723 = 49.1
sì
no
Tot
sì
87
188
275.
no
42
406
448
Tot
129
594
723
sì
no
Tot
sì
no
Tot
49,1 225,9 275
79,9 368,1 448
129 594 723
7
10/10/2014
Associazione positiva
Consideriamo le modalità di maggior rilievo
per l’analisi: in questo caso sono date dalla
presenza dei fenomeni (modalità “sì”).
Se si verifica che:
(frequenza teorica)
si dice che le variabili mostrano associazione
positiva (sono associate positivamente).
Nell’esempio si ha n11> n*11 per cui vi è associazione
positiva tra il ricordo della pubblicità e l’acquisto del
prodotto.
Associazione negativa
Se si verifica che:
si dice che le variabili mostrano associazione
negativa (sono associate negativamente)
8
10/10/2014
Osservazioni
•
L’associazione si misura con riferimento
alle frequenze teoriche in caso di
indipendenza
•
Se i fenomeni dicotomici non sono del
tipo presenza / assenza, la scelta delle
modalità di riferimento è arbitraria.
Esercizio
• Implementare il calcolo delle frequenze
teoriche in Excel
9
10/10/2014
Definizione: statistica 2
(chi quadrato)
Si dice statistica di Pearson, e si indica con 2
la seguente quantità:
2  0 ed è funzione crescente dell’associazione
2 = 0 se i fenomeni sono indipendenti
E’ una misura globale della “discrepanza” tra le
frequenze osservate e le frequenze teoriche
nell’ipotesi di indipendenza.
Definizione: statistica  (phi)
Poiché 2 dipende da n, ed in particolare
tende a crescere al divergere di n, si
introduce una misura relativa, che
assume valore nell’intervallo [-1, +1]:
ove il simbolo ± significa che alla radice
quadrata è attribuito il segno della
differenza (n11n22 – n21n12)
10
10/10/2014
Proprietà di 
• E’ funzione anche delle frequenze
marginali
•  = -1 se e solo se n11 = n22 = 0
•  = +1 se e solo se n12 = n21 = 0
• Nel caso di variabili del tipo presenzaassenza, si ha  = +1 solo se tutte le unità
statistiche che possiedono X possiedono
anche Y e, viceversa, tutte quelle che non
presentano X non presentano neanche Y.
Si parla di associazione assoluta
Associazione assoluta
sì
no
Tot
sì
n11
0
n1.
no
0
n22
Tot
n.1
n.2
 = +1
sì
no
Tot
sì
0
n12
n1.
n2.
no
n21
0
n2.
n
Tot
n.1
n.2
n
 = -1
11
10/10/2014
Esempio
• X = ricordo pubblicità
• Y = acquisto prodotto
sì
no
Tot
sì
87
188
275.
no
42
406
448
Tot
129
594
723
sì
no
Tot
sì
no
Tot
49,1 225,9 275
79,9 368,1 448
129 594 723
Osservazioni
• Inconvenienti degli indici precedenti
• X2 dipende da n
•  dipende dalle distribuzioni marginali
12
10/10/2014
Misura alternativa di associazione in tabelle 2x2
Rapporto dei prodotti incrociati
(cross product ratio)
L’indice  dipende solo dalle frequenze di cella
• = 0 se n11=0 o n22=0,
•  = + se n12=0 o n21=0
(convenzione)
•  = 1 se le variabili sono indipendenti
 = 1 se le variabili sono indipendenti
y1
y2
Tot
x1
n11
n12
n1.
x2
n21
n22
n2.
Tot
n.1
n.2
n
13
10/10/2014
Proprietà del Cross Product
Ratio
1.E’ invariante se si inverte l’ordine delle
righe e delle colonne
2.E’ invariante se si moltiplicano per delle
costanti le frequenze di riga e di colonna
3.Se  > 1 si ha associazione positiva o
diretta
Esempio
X = ricordo pubblicità
Y = acquisto prodotto
sì
no
Tot
sì
no
87 188
42 406
129 594
sì
sì
no
Tot
no
0.120 0.260
0.058 0.562
Tot
275.
448
723
Tot
0.38
0.62
1.00
0.178 0.822
RAPPORTO DI RAPPORTI: Il rapporto tra acquirenti e non
acquirenti è 0,462 per coloro che ricordano la pubblicità e
0,103 per coloro che non la ricordano (è 4,48 volte più
alto per coloro che ricordano)
14
10/10/2014
Indice normalizzato del rapporto
dei prodotti incrociati
Assume valori nell’intervallo [-1, +1]
Risulta pari a 0 se le variabili sono indipendenti
ed è simmetrico rispetto allo 0
Proprietà dell’indice Q
• Q = +1 se n12 = 0 oppure n21 = 0
• Q = -1 se n11 = 0 oppure n22 = 0
In questi due casi l’associazione è
completa, cioè è la massima
associazione che si può
verificare dati i totali marginali.
15
10/10/2014
Esempio
X = ricordo pubblicità
Y = acquisto prodotto
sì
no
Tot
sì
87
188
275.
no
42
406
448
Tot
129
594
723
Esempio
X = sesso, Y = iscrizione società sportiva
n*11 = ?
2 = ?
=?
=?
Q=?
M
F
Tot
sì
35
18
53
no
37
70
107
Tot
72
88
160
ASSOCIAZIONE COMPLETA
M
F
Tot
sì
53
0
53
no
19
88
107
Tot
72
88
160
16
10/10/2014
Esempio
X = sesso, Y = iscrizione società sportiva
n*11 = 23,85
2 = 14,17
 = 0,298
 = 3,68
Q = 0,57
sì
35
18
53
M
F
Tot
no
37
70
107
Tot
72
88
160
ASSOCIAZIONE COMPLETA
sì
53
0
53
M
F
Tot
no
19
88
107
Tot
72
88
160
Tabella di contingenza rc
(pag. 109 e seg.)
gradi di libertà:
(r-1)  (c-1)
Variabili indipendenti se:
y
X
y1 ... yc Tot
x1
n11
n1c n1.
...
xr
Tot
nr1
n.1
nrc nr.
n.c n
17
10/10/2014
Definizione: Indipendenza
In caso di indipendenza, la modalità assunta da
X non influenza le modalità assunte da Y.
Due variabili nominali X ed Y si dicono
indipendenti, con riferimento alle n unità
statistiche analizzate, se e solo se, per ogni i e j:
Tabella
• Occorre generalizzare la statistica di
Pearson per tabelle 2 x 2 al caso di tabella
rxc
18
10/10/2014
Indice X2 (CHI QUADRATO)
di Pearson
Contingenze
Φ compreso tra -1 e +1 in tabella 2x2
(attribuzione convenzionale del segno in base a: n11 n22 – n12 n21)
• non normalizzato in tabella rxc (può risultare >1)
Indice di Cramer
V = 1 nell’ipotesi di massima
dipendenza tra i caratteri
(per qualsiasi valore di r e c)
V = Φ se r =2 e/o c =2
19
10/10/2014
Esercizio
• Il file SONDAGGIOUSA è una parte di
un’indagine multiscopo
• Per ciascun intervistato sono riportate
informazioni anagrafiche, sulle tendenze
politiche e il pensiero a riguardo di alcune
tematiche di stretta attualità. Gli studiosi sono
interessati ad indagare su relazioni intercorrenti
tra le variabili
• Obiettivo 1 È sostenibile la tesi secondo la
quale la tendenza politica (var. partito) influenzi
in qualche modo il parere riguardo alla pena
capitale (var. penacap)?
Esercizio
• Costuire la tabella di contingenza tra le
variabili partito e penacap
• Mostrare tramite un grafico a barre
sovrapposto (in pila al 100% l’andamento
dei favorevoli e contrari al progredire della
tendenza politica)
• Calcolare il X2 e l’indice di Cramer per
misurare l’associazione tra le due variabili
20
10/10/2014
Soluzione SPSS : Grafici|A barre
Soluzione obiettivo 3
21
10/10/2014
Barre in pila al 100%
Con i grafici interattivi a barre
22
10/10/2014
Output Excel: tabella pivot
Grafico associato alla tabella pivot
23
10/10/2014
Concetto di dipendenza e
interdipendenza
• Dipendenza:
• Esiste un antecedente (logico o
temporale) ed un conseguente
• Interdipendenza:
• Le due variabili sono sullo stesso piano
Massima interdipendenza e
dipendenza (p. 116)
y1
y2
Tot
x1
n11
0
n1.
x2
0
n22
n2.
x3
0
n32
n3.
Tot
n.1
n.2
n
Max dipendenza di Y da X
y1
y2
y3
Tot
0
n12
0
n1.
0
n2.
n33
n3.
Tot n.1 n.2 n.3
n
x1
x2 n21. 0
x3
0
0
Max interdipendenza
La dipendenza di Y da X (r  c) si definisce massima quando vi è una sola
frequenza non nulla per ogni riga
24
10/10/2014
Dipendenza ed Interdipendenza
La dipendenza di Y da X (r  c) si definisce
massima quando vi è una sola frequenza non
nulla per ogni riga
La dipendenza di X da Y (c  r) si definisce
massima quando vi è una sola frequenza non
nulla per ogni colonna
Si ha massima interdipendenza quando
nij = ni. = n.j
(c = r)
INFERENZA SULLA ASSOCIAZIONE
(pag. 148 e seg.)
Obiettivo dell’inferenza:
Estendere la conoscenza da un campione di
osservazioni ad una popolazione (universo) più
ampia
 è un processo che ha a che fare con
l’estrazione della conoscenza (in una fase
confermativa, non esplorativa)
ASSUNZIONE: le n osservazioni bivariate
presentate
nella
tabella
di
contingenza
costituiscono un campione casuale
25
10/10/2014
• Chi quadrato:
X2 > 0 come si interpreta?
Test di significatività dell’associazione (calcolo
p-value)
Se X2 è significativo:
Misura dell’entità della relazione:
•  indici di associazione (simmetrici)
ottenuti da X2
•Il più utile è V di Cramer varia in [0, 1]
Distribuzione di 2 sotto H0
IPOTESI DI INDIPENDENZA STOCASTICA
Stima di nij :
= variabile aleatoria
Se H0 è vera
26
10/10/2014
Variabile aleatoria 2
Y = (Z1)2 + (Z2)2 + ... + (Zg)2
ove Zi ~ N(0,1) i = 1, ..., g
Y ~ 2(g)
1. E (2 (g)) = g
2.VAR (2 (g)) = 2g
3. f (2 (g)) è asimmetrica, ma se g →  la
2(g) standardizzata →NORMALE
Verifica di ipotesi sulla 2
TAVOLA SUL TESTO (Ultima)
f(2)
g=4

2
2
27
10/10/2014
DECISIONE
•
•
•
•
Calcolo del valore di χ2 campionario
H0: indipendenza; H1: associazione (significativa)
g = (r-1)(c-1)
Scelta di α (livello di significatività = prob. di
errore di prima specie)
• Lettura sulla tavola del valore χ2
α
• RIFIUTO H0 SE:
• χ2 camp > χ2 α
•
•
Con SPSS: RIFIUTO H0 se: p-value <α
La probabilità di errore è minore di 
Esercizio
• Nell’esercizio sull’associazione tra
partitato e penacap (file SONDUSA)
calcolare il p-value e commentare la
significatività della relazione.
28
10/10/2014
Osservazioni conclusive
• La verifica della significatività
dell’associazione è una condizione
preliminare al calcolo degli indici
• Se non vi è associazione significativa (almeno al
10%) non si può rifiutare l’ipotesi di
indipendenza stocastica
• Quindi la misura dell’associazione è priva di
senso
• Nel caso di un campione piccolo, è opportuno
aumentare la numerosità (se possibile!) per
verificare se permane la non significatività
dell’associazione
Osservazioni
• Gli indici visti finora sono poco
interpretabili.
• Ad es V=0.3 significa che la relazione è
pari al 30% del valore massimo possibile
• Obiettivo = trovare indici di associazione di
chiaro significato operativo e un modello
probabilistico sottostante
29
10/10/2014
Esempio: previsione del settore
conoscendo la laurea
X
/
Y
Economia
Giurisprud.
Lettere
Totale
Azienda
Privata
150
80
30
260
Azienda
pubblica
80
250
50
380
Libero
Profes
20
30
0
50
Non
occup
Tot
50 300
140 500
120 200
310 1000
Indici con interpretazione
operativa (pag. 117 e seg.)
Previsione della modalità di Y
• 1) In assenza d’informazioni
• 2) Conoscendo la modalità di X
30
10/10/2014
Esempio: previsione del settore
conoscendo la laurea
X
/
Azienda
Privata
Y
Economia
Giurisprud.
Lettere
Totale
150
80
30
260
Azienda
pubblica
80
250
50
380
Libero
Profes
Non
occup
20
30
0
50
Tot
50 300
140 500
120 200
310 1000
Probabilità di errore nel caso 1): 1-380/1000 =0.62
Probabilità di errore nel caso 2): 1-(150+250+120)/1000=0.48
Probabilità di errore
• Probabilità di errore nel caso 1):
• Probabilità di errore nel caso 2):
Proportional
Reduction
Error
(PRE):
31
10/10/2014
Probabilità di errore
Proportional
Reduction
Error
(PRE):
ove ni(max) = max(j) nij
n.(max) = max(j) n.j
Proportional Reduction Error
Indice di Goodman-Kruskal (p. 119)
y|x = 0  Indipendenza
y|x = 1
Dipendenza Predittiva (max dipendenza di
Y da X)
PROPRIETA’
• Invarianza per permutazione di righe o colonne
• Asimmetria: y|x  x|y
32
10/10/2014
Esempio
Economia
Giurisprud.
Lettere
Totale
Azienda
Privata
Azienda
pubblica
Libero
Profes
Non
occup
Tot
150
80
30
260
80
250
50
380
20
30
0
50
50
140
120
310
300
500
200
1000
Commento al valore di lambda
• Riduzione della probabilità di errore nella
previsione del settore conoscendo la
laurea del 22.58%
33
10/10/2014
INDICI BASATI SULLA
RIDUZIONE PROPORZIONALE
DELL’ETEROGENEITÀ
Eterogeneità e Variabilità
• Variabilità  differenze tra i valori di un fenomeno
quantitativo
• Eterogeneità  differenze tra le modalità di un fenomeno
qualitativo
Frequenze ni
Frequenze fi
x1
n1
f1
x2
n2
f2
…
…
…
xi
ni
fi
…
…
xp
Tot
np
fp
n
1
34
10/10/2014
Casi estremi
• Perfetta omogeneità (eterogenità nulla) = il
fenomeno presenta una sola modalità con
frequenza non nulla. Esempio
Frequenze ni
Frequenze fi
x1
0
0
x2
n
1
…
…
…
xi
0
0
…
…
xp
Tot
0
n
0
1
Casi estremi
• Massima eterogeneità = le p modalità del
fenomeno qualitativo presentano uguale
frequenza.
Frequenze ni
Frequenze fi
x1
n/p
1/p
x2
n/p
1/p
…
…
…
xi
n/p
1/p
…
…
xp
Tot
n/p
n
1/p
1
35
10/10/2014
Indici di eterogeneità
• Misure che consentono di valutare in che
posizione si colloca la distribuzione di
frequenze di un fenomeno qualitativo
rispetto ai casi estremi di perfetta
omogeneità e massima eterogeneità
Indice di eterogeneità di Gini
• Perfetta omogeneità 
• Max eterogeneità 
G =0
G = (p-1)/p
36
10/10/2014
Indice di entropia (eterogeneità
di Shannon)
• Perfetta omogeneità 
• Max eterogeneità 
G =0
G = log p
Esempio
• Distribuzione del numero di protesti (in
migliaia) in Italia. File di Excel
entropia.xlsx
• Calcolare gli indici di eterogeneità di Gini e
di Shannon
37
10/10/2014
Definizione
• Si dice indice di associazione basato sulla
riduzione proporzionale dell’eterogeneità
una misura che assume la seguente forma
Indice tau di Goodman e Kruskal
• Se
38
10/10/2014
Coefficiente di incertezza di Theil
• Se
Proprietà di H e Tau
• [0 1]
• 0 se e solo se i due caratteri sono
indipendenti
• 1 se vi è la massima dipendenza di Y da X
• Sono invarianti per permutazioni di righe e
colonne
• Tau = Φ2
• Sono indici asimmetrici
39
10/10/2014
Esercizio
• Aprire il file spumanti.xlsx.
• 1) Costruire la tabella di contigenza tra le
variabili Gusto (x) e Abbinamento (y)
• 2) Calcolare y|x di Goodman e Kruskall,
l’indice tau di Goodman e Kruskall e il
coefficiente di incertezza di Theil
RELAZIONI TRA
VARIABILI ORDINALI
•Cograduazione in serie doppia
•Associazione in tabella di contingenza
con variabili ordinali
40
10/10/2014
ASSOCIAZIONE per variabili ordinali
Esempio: outlet, soddisfazione per due
aspetti
ASSOCIAZIONE per variabili
ordinali (pag. 127 e seg.)
TABELLA DI CONTINGENZA r x c
Relazione fra coppie di unità:
• Concordante se l’unità che ha livello più
elevato su X ha pure livello più elevato su Y.
• Discordante se l’unità che ha livello più
elevato su X ha livello più basso su Y.
• A pari merito se le due unità hanno livello
uguale per X e/o per Y (è sufficiente
l’uguaglianza di una delle due modalità)
41
10/10/2014
Risultati di due prove:
Calcolo di C e D
X = prova scritta; Y = orale
X
Y
Suff
Discreto
Buono
Tot
Suff
20
40
20
80
Discreto
10
45
45
100
Buono
0
5
15
20
Tot
30
90
80
200
Concordanze: 20(45+45+5+15) + 40(45+15) +
10(5+15) + 45(15) = 5475
Discordanze: 40(10) + 20(10+45+5) + 45(5) =
1825
Indice  di Goodman- Kruskal
(simmetrico)
Si basa sul numero di coppie concordanti (C) e
discordanti (D):
È compreso nell’intervallo [-1, 1]:
+1 quando l’ordinamento delle coppie rispetto ai due
caratteri è sempre concorde;
-1 quando è sempre discorde
E’ uguale a 0 quando C=D
42
10/10/2014
Risultati delle due prove: calcolo di 
La concordanza è pari al 50% del valore massimo possibile
(secondo l’indice utilizzato). Ad un risultato migliore nella
prima prova corrisponde più frequentemente un esito
migliore anche nella seconda.
L’indice
gamma
tiene
conto
solo
delle
coppie
concordanti e discordanti, per cui un elevato numero di
coppie a pari merito tende ad elevarne il valore in
maniera artificiosa.
Indice b di Kendall
Tiene conto delle coppie a pari merito
-1  b  1
Vale la relazione |b |  | |
43
10/10/2014
Indice b (tau) di Kendall
Misura di interdipendenza ordinale
+1 quando l’ordinamento delle coppie
rispetto ai due caratteri è sempre
concorde;
-1 quando è sempre discorde
E’ uguale a 0 quando C=D
Indice d di Somers
Misura di dipendenza ordinale (di
tipo asimmetrico)
Y dipendente
X esplicativa
-1  dy|x  1
44
10/10/2014
Indice d di Somers
Y dipendente
X esplicativa
-1  dy|x  1
Esempio
X
Y Suff Discreto Buono
Suff
20
40
20
Tot
80
Discreto
10
45
45
100
Buono
Tot
0
30
5
90
15
80
20
200
C = 5475
D = 1825
 = 0.5
45
10/10/2014
Esempio:
X = prova scritta; Y = orale
X
Y Suff Discreto Buono
Suff
20
40
20
Tot
80
Discreto
10
45
45
100
Buono
Tot
0
30
5
90
15
80
20
200
Relazione tra indici tau e d
• dy | x = 0,315
• dx | y = 0,297
46
10/10/2014
Esempio: Indagine su 100 imprenditori
X
Y Diminuzione Uguale Aumento
Tot
Peggiore
28
1
0
29
Stazionario
17
26
10
53
Migliore
0
5
13
18
Tot
45
32
23
100
X = Giudizio sull’andamento congiunturale dell’economia
Y = Intenzioni di investimento
2 = 65,52
20,01(4) = 13,277 → rifiuto H0
Calcolo di Lambda e di Somers:
misure di dipendenza
47
10/10/2014
Calcolo di Lambda e di Somers
C = 28(26+10+5+13) + 1(10+13) + 17(5+13) + 26(13) = 2179
D = 1(17) + 10(5) = 67
Calcolo di Lambda e di Somers:
misure di dipendenza
48
10/10/2014
Scelta dell’indice di
associazione più appropriato
Occorre considerare:
• In via preliminare, chi quadrato
significativo
• Scala dei fenomeni (nominale o
ordinale)
• Relazione di dipendenza o di
interdipendenza
Comportamento d’acquisto per beni di largo consumo
IMPORTANZA MARCA E PREZZO
49
10/10/2014
INDICI DI ASSOCIAZIONE
ASSOCIAZIONE TRA UN
FENOMENO ORDINALE E UNO
NOMINALE
50
10/10/2014
Notazione
• Tabella 2 x c
• X due soli livelli (esplicativa)
• Y c livelli ordinati (variabile dipendente)
Es. penacap /partito (partito come
variabile ordinale)
• Delta=P(Y1>Y2)-P(Y2>Y1)
• P(Y1>Y2)= Probabilità che l'elemento
estratto nella prima riga della tabella
presenti un livello del fenomeno Y
superiore a quello dell'elemento estratto
nella seconda riga
51
10/10/2014
• P(Y1>Y2)= Probabilità che l'elemento
estratto nella prima riga della tabella
presenti un livello del fenomeno Y
superiore a quello dell'elemento estratto
nella seconda riga
• Casi favorevoli =126(76+…+19)+203(40+
-…19)+…+222(19)=328416
• Casi possibili = 1056*311
ASSOCIAZIONE TRA UN
FENOMENO QUANTITATIVO
ED UNO NOMINALE
52
10/10/2014
Rapporti di correlazione (p.143)
X nominale Y quantitativo
• Scomposizione della varianza di Y nei gruppi e
fra i gruppi:
• I gruppi sono le categorie di X (es. Maschi e
Femmine; Y = voto in statistica)
• Var(Y) = Var FRA + Var NEI
• Var FRA : funzione delle differenze tra le medie
dei gruppi e la media generale
• Var NEI : funzione delle differenze tra i singoli
valori e la media del rispettivo gruppo
Significato delle varianze
• Var FRA = 0 → Var (Y) = Var NEI
• Non vi sono differenze tra le medie dei
gruppi (categorie) (voto medio maschi =
voto medio femmine)
• Var Nei = 0 → Var (Y) = Var FRA
• La variabilità di Y è dovuta interamente
alle differenze fra le medie dei gruppi.
Ogni gruppo è perfettamente omogeneo
nel suo interno (assume un solo valore)
53
10/10/2014
Scomposizione della varianza
• Notazione
• g gruppi
• nj = numero di unità statistiche
appartenenti al gruppo j
• n = n1+ …+ ng
Scomposizione della varianza
54
10/10/2014
Rapporto di correlazione
• ɳ y│x eta di Y dato X
• ɳ y│x = Var FRA / Var (Y)
• ɳ y│x = 1 - [Var NEI/ Var (Y)]
• ɳ y│x = 0 sse Y è indip. in media da X
• ɳ y│x = 1 sse vi è massima dipendenza in
media di Y da X
Osservazione
• SPSS invece di calcolare ɳ y│x calcola la
radice quadrata di ɳ y│x
• CALCOLO ERRATO
55
10/10/2014
Esercizio.
• File UNIVUSAanova.
• Si può sostenere l’ipotesi che le rette medie per
iscriversi a scuole statali, private o del clero
differiscano tra loro significativamente? (variabile
“retta”, variabile di raggruppamento “affil”).
Effettuare analisi preliminari (boxplot e intervallo
di confidenza per ogni gruppo)
• Scomporre la variabilità totale della spesa di
iscrizione (variabile “retta” nella quota tra i grupp
e nei gruppi). Escludere la modalità «altro» nella
variabile «affil»
Analisi esplorativa preliminare
56
10/10/2014
Scomposizione della varianza
Intervallo di confidenza
degli indici di associazione (p.154)
• Intervallo che con probabilità 1 – 
contiene l’ignoto valore del parametro
della popolazione
• Se le variabili sono indipendenti (nella
popolazione): non si può escludere che il
valore dell’indice di associazione >0
calcolato nel campione sia dovuto solo alle
“fluttuazioni campionarie”: Associazione
(positiva) osservata nel campione non è
significativa
57
10/10/2014
STANDARD ERROR
Il valore degli indici campionari varia da
campione a campione  c’è variabilità
campionaria
Come si misura la variabilità campionaria?
STANDARD ERROR = s. q. m. stimato
della distribuzione campionaria
• è calcolato dai software statistici (SPSS)
• è inversamente proporzionale a
Esempio: associazione pizza-coca cola
(modalità: mai o quasi mai, qualche volta, spesso)
(indice Gamma)
Ad esempio: 1 –  = 0.95  z(0.05) = 1.96

58
10/10/2014
• L’int. di confidenza per  fornisce le seguenti
informazioni: non si può escludere che il
valore campionario  = 0.28 sia dovuto solo
alle “fluttuazioni campionarie” e che il “vero”
di  nell’universo sia uguale a 0
(l’associazione
positiva
osservata
nel
campione non è significativa)
• Ad una conclusione analoga si perviene
anche attraverso la verifica dell’ipotesi nulla:
H0:  = 0 sulla base della statistica test
• T = 1.398 (v. SPSS)  p-value = 0.162
Esercizio: Indagine campionaria
sugli effetti del fumo
Respirazione
Normale
Parzialmente
compromessa
Compromessa
Non Fuma
164
4
0
Fuma
occasional.
145
25
7
Fuma
abitualmente
245
47
27
Fumo
59
10/10/2014
Valori degli indici

b
→
d y|x
 y|x
= 0,575
= 0,224
= 0,146
= 0,000
A.S.E. = 0,071
A.S.E. = 0,028
A.S.E. = 0,021
A.S.E. = 0,000
NON INCLUDE LO
ZERO
TABELLE SPARSE
60
10/10/2014
TABELLA CON ACCORPAMENTO
DI MODALITA’
INDICI DI ASSOCIAZIONE
61
10/10/2014
Esempio riepilogativo
• Per 127 modelli di frigoriferi di varie marche si è
calcolata la tabella di contingenza tra la classe
energetica e la classe climatica (entrambe le variabili
espresse su scala ordinale). Una parte dell’output della
procedura di SPSS è riportata nella slide successiva.
• Si verifichi la significatività dell’associazione.
• Si commenti il significato di tutti gli indici che compaiono
nella tabella e si dica qual è l’indice più appropriato per il
caso in esame.
• Si costruisca l’intervallo di confidenza con probabilità
0.99 dell’indice tau di Kendall e si illustrino le
informazioni che esso fornisce.
Output SPSS
Tavola di contingenza Classe energetica * Classe climatica
Conteggio
62
10/10/2014
Soluzione
• Il chi-quadrato può essere calcolato
direttamente sulla tabella, oppure molto
più rapidamente si può ricavare dalla
relazione:
2 = 18.5
Commento sulla significatività
dell’indice 2
• Per g = 8, sulla tavola della variabile
aleatoria chi-quadrato per  = 0.02 si
legge un valore critico uguale a 18.17, e
per  = 0.01 si legge un valore critico
uguale a 20.09, per cui 2 campionario
risulta significativo al livello del 2%, ma
non significativo al livello dell’uno%.
63
10/10/2014
Significato degli indici di
associazione riportati nella tabella
• L’indice Φ (phi) è di scarso interesse nel
caso in esame, poiché essendo la tabella
di dimensioni 3×5 esso può assumere
anche valori maggiori di 1.
• L’indice V di Cramer segnala
un’associazione uguale al 27% del valore
massimo possibile, considerando però i
fenomeni come nominali.
Significato degli indici di
associazione riportati nella tabella
• L’indice tau di Kendall segnala una
concordanza tra le due variabili pari al
30,5% del valore massimo possibile ed è
quello più appropriato per il caso in esame
poiché le due variabili sono ordinali; esso
è preferibile rispetto all’indice Gamma, in
quanto tiene conto anche delle coppie a
pari merito.
64
10/10/2014
Costruzione intervallo di confidenza
dell’indice tau di Kendall
• L’intervallo di confidenza risulta:
• P{0.305 – 2.58 × 0.068 ≤ τ ≤ 0.305 + 2.58 ×
0.068} = 0.99
• P{0.1296 ≤ τ ≤ 0.4804} = 0.99
• Dato che il suddetto intervallo non contiene lo
zero, la concordanza tra classe energetica e la
classe climatica è significativa al livello
dell’uno%
RIEPILOGO ANALISI
UNIVARIATE E BIVARIATE
• Per ogni variabile qualitativa (e quantitativa discreta):
distribuzione di frequenze
• Per ogni variabile binaria (codificata come numerica
0-1): media = frequenza relativa
• Per ogni variabile quantitativa: media e deviazione
standard, CV = σ/M, in %
• Per tutte le coppie di variabili qualitative: tavole di
contingenza, verifica dell’ipotesi d’indipendenza (chiquadrato) e indici di associazione
• Per tutte le coppie di variabili quantitative: matrice di
correlazione con P-VALUE(eventualmente anche di
matrice di cograduazione)
65
Author
Document
Category
Uncategorized
Views
0
File Size
2 648 KB
Tags
1/--pages
Report inappropriate content