Settimana 8. Regressione lineare - Dipartimento di Scienze sociali e

27/05/2014
DIPARTIMENTO DI SCIENZE SOCIALI E POLITICHE
Anno Accademico 2013/2014
Metodologia della Ricerca Sociale (GLO)
dott. Ferruccio Biolcati Rinaldi
Ottava settimana
REGRESSIONE LINEARE
Di che cosa parleremo questa settimana?
Riferimenti Bibliografici
•
•
•
•
•
•
Intensità dell’effetto
Bontà di adattamento del
modello ai dati
Variabili indipendenti categoriali
Dalla regressione semplice alla
regressione multipla
Variabili antecedenti,
intervenienti ed effetti di
interazione
Uso esplorativo della regressione
•
de Lillo A., Arosio L., Sarti S., Terraneo
M. e Zoboli S., Metodi e tecniche
della ricerca sociale, Pearson, Milano,
2011: pp. 344-359.
•
•
Per approfondire
Agresti A. e Finlay B. (2009), Statistica
per le scienze sociali, Pearson
Prentice Hall, Milano.
Bohrnstedt G.E. e Knoke D. (1998),
Statistica per le scienze sociali, il
Mulino, Bologna.
Corbetta P., Gasperoni G. E Pisati M.
(2001), Statistica per la ricerca
sociale, il Mulino, Bologna, 145-166,
173-180, 199-223.
Pisati M. (2003), L’analisi dei dati.
Tecniche quantitative per le scienze
sociali, il Mulino, Bologna.
•
•
•
•
http://essedunet.nsd.uib.no/
1
27/05/2014
4. Quando la variabile indipendente
è categoriale
Quando la variabile indipendente
è categoriale (CGP 2001, 145-180)
•
•
•
•
•
Fino a questo momento abbiamo preso in esame solo relazioni fra coppie
di variabili cardinali. In molti casi, tuttavia, vi è l’esigenza di analizzare il
modo in cui una variabile dipendente cardinale è influenzata da una
variabile indipendente di tipo categoriale, cioè nominale o ordinale.
Esempi.
Ispezione grafica: boxplot.
Regressione lineare impraticabile perché variabile indipendente
categoriale non quantificabile? No, grazie all’idea di presenza/assenza
delle modalità. Regressori indicatori (dummy).
Le informazioni contenute nei regressori non sono indipendenti: se
conosciamo il valore assunto da uno dei due regressori… Ciò significa che
tutta l’informazione di cui abbiamo bisogno è contenuta in uno solo dei
due regressori.
Più in generale: se la variabile qualitativa si articola in k categorie, è
sufficiente creare k-1 regressori indicatori. La categoria esclusa viene
chiamata categoria di riferimento.
2
27/05/2014
Boxplot (scatola coi baffi)
(Bohrnstedt e Knoke 1998, 70-72)
Regressori indicatori:
variabile dicotomica (CGP 2001, 145-180)
Soggetti
Genere
XM
XF
Antonio
Maschio
1
0
Gianni
Maschio
1
0
Laura
Femmina
0
1
Marco
Maschio
1
0
Roberto
Maschio
1
0
Sara
Femmina
0
1
3
27/05/2014
L’interpretazione dei parametri
(CGP 2001, 145-180)
• Modello di regressione: Yˆi = α + βX iF
• Interpretazione formale e sostanziale
Yˆi M = α + βX iF = α + β × 0 = α
Yˆi F = α + βX iF = α + β ×1 = α + β
L’interpretazione dei parametri
(CGP 2001, 145-180)
• Sul piano formale, l’interpretazione dei parametri è identica. Sul
piano sostanziale, carattere particolare: poichè XF=0 quando
genere=maschio, possiamo dire che il parametro α esprime il valore
predetto di Y quando i soggetti sono maschi. A sua volta, il
parametro β ci dice di quanto varia il valore predetto di Y quando il
valore di XF passa da 0 a 1, cioè quando si passa dalla popolazione
maschile a quella femminile.
• Analizzare l’effetto esercitato da una variabile indipendente
categoriale su una variabile dipendente cardinale mediante la
regressione lineare equivale a misurare le differenze osservate fra le
diverse categorie di X in termini di valori medi di Y.
• Regressione semplice e analisi della varianza: unico strumento.
• Utile in analisi multivariata più che bivariata.
• Se la variabile indipendente è politomica: stesso procedimento;
interpretazione dei parametri.
4
27/05/2014
L’interpretazione dei parametri
Regressori indicatori:
variabile politomica (CGP 2001, 145-180)
Soggetti
Settore
XPRIV
XAUT
Anna
Pubblico
0
0
Francesca
Autonomo
0
1
Paola
Privato
1
0
Davide
Privato
1
0
Mario
Privato
1
0
Alessandro
Privato
1
0
Piergiorgio
Pubblico
0
0
Raimondo
Autonomo
0
1
Y* = α + β1*XPRIV + β2*XAUT
Y* = 2.377 + 531*XPRIV + 980*XAUT
5
27/05/2014
5. Regressione lineare multipla
Regressione lineare multipla
(CGP 2001, 199-223)
• Da una a due o più variabili
indipendenti/controllo
• Diretta estensione: modello di regressione
lineare multipla
• Y* = α + β1*X1 + β2*X2 + … + βk*Xk + … + βK*XK
• Variabili e regressori
6
27/05/2014
Regressione lineare multipla:
peculiarità (CGP 2001, 199-223)
1. Stima dei parametri: spazio multidimensionale e iperpiano, stesso criterio
di stima
2. Interpretazione dei parametri:
– il parametro α esprime il valore predetto di Y quando tutti i regressori sono
uguali a zero
– ciascun parametro β esprime la variazione media del valore di Y prodotta da
ogni variazione unitaria del regressore, quando i valori assunti da tutti gli altri
regressori sono tenuti costanti (effetto netto)
3. Valori predetti di Y: stime dei valori medi di Y che si manifestano in
corrispondenza delle diverse combinazioni possibili di valori di tutti i
regressori
4. Errori di predizione e potere predittivo: stessa definizione, pressoché
invariata interpretazione, uguale misura
5. Casi anomali e casi eccentrici
Variabili antecedenti, intervenienti,
effetti di interazione (CGP 2001, 199-223)
M1
α
β1 voto di laurea
β2 origine sociale
β3 genere: femmina
M2
1.728 1.586
34
30
M3
M4
M5
1614 1.511 1.569 1.410
44
5
-587
41
35
44
2
3
4
-571
-506
-133
β settore privato
111
β lavoro autonomo
303
β4 genere*voto
M6
-12
7
27/05/2014
Variabili antecedenti:
effetto causale e spurio (CGP 2001, 199-223)
c(+)
Origine
sociale
Reddito
b(+)
a(+)
Voto di
laurea
Variabili antecedenti:
effetto causale e spurio (CGP 2001, 199-223)
c(-)
Genere
Reddito
b(+)
a(+)
Voto di
laurea
8
27/05/2014
Variabili intervenienti
(effetto diretto e indiretto) (CGP 2001, 199-223)
c(+)
Voto di
laurea
Reddito
a(+)
b(+)
Settore
occupazionale
Uso esplorativo della regressione
(CGP 2001, 199-223)
• Usi della regressione
– Causale
– Esplorativo
– Predittivo
• Due obiettivi dell’uso esplorativo
– Individuare l’insieme di variabili esplicative che spiega meglio
– Stabilire l’importanza relativa delle diverse cause
• Non più distinzione tra variabili indipendenti e di controllo
• Due approcci all’uso esplorativo
– Top-down
– Bottom-up
• Criterio: massimizzare R2; procedure automatiche
• Parametri standardizzati
9
27/05/2014
Limiti dell’uso esplorativo
(CGP 2001, 199-223)
• L’opportunità stessa di un approccio
«onnicomprensivo» all’analisi dei fenomeni
sociali è per lo meno dubbia
• In contrasto col requisito di parsimoniosità
• Soluzione indeterminata
• Effetti causali (totali e diretti) qualitativamente
diversi
• Limiti dei parametri standardizzati
Il calendario
della prossima settimana
Lezione
Esercit.
Giorno
Ora
19
Giu. 3
20
4
21
4
10.30
Aula
Docente
3
Guglielmi
8.30
3
Guglielmi
10.30
3
Romito
10
27/05/2014
Il calendario dell’ultima settimana
Lezione
Esercit.
22
23
Pre-esame
24
Giorno
Ora
Aula
Docente
Giu. 9
8.30
2
Biolcati
Biolcati
10
10.30
3
11
8.30
2
11
10.30
3
Biolcati
11