27/05/2014 DIPARTIMENTO DI SCIENZE SOCIALI E POLITICHE Anno Accademico 2013/2014 Metodologia della Ricerca Sociale (GLO) dott. Ferruccio Biolcati Rinaldi Ottava settimana REGRESSIONE LINEARE Di che cosa parleremo questa settimana? Riferimenti Bibliografici • • • • • • Intensità dell’effetto Bontà di adattamento del modello ai dati Variabili indipendenti categoriali Dalla regressione semplice alla regressione multipla Variabili antecedenti, intervenienti ed effetti di interazione Uso esplorativo della regressione • de Lillo A., Arosio L., Sarti S., Terraneo M. e Zoboli S., Metodi e tecniche della ricerca sociale, Pearson, Milano, 2011: pp. 344-359. • • Per approfondire Agresti A. e Finlay B. (2009), Statistica per le scienze sociali, Pearson Prentice Hall, Milano. Bohrnstedt G.E. e Knoke D. (1998), Statistica per le scienze sociali, il Mulino, Bologna. Corbetta P., Gasperoni G. E Pisati M. (2001), Statistica per la ricerca sociale, il Mulino, Bologna, 145-166, 173-180, 199-223. Pisati M. (2003), L’analisi dei dati. Tecniche quantitative per le scienze sociali, il Mulino, Bologna. • • • • http://essedunet.nsd.uib.no/ 1 27/05/2014 4. Quando la variabile indipendente è categoriale Quando la variabile indipendente è categoriale (CGP 2001, 145-180) • • • • • Fino a questo momento abbiamo preso in esame solo relazioni fra coppie di variabili cardinali. In molti casi, tuttavia, vi è l’esigenza di analizzare il modo in cui una variabile dipendente cardinale è influenzata da una variabile indipendente di tipo categoriale, cioè nominale o ordinale. Esempi. Ispezione grafica: boxplot. Regressione lineare impraticabile perché variabile indipendente categoriale non quantificabile? No, grazie all’idea di presenza/assenza delle modalità. Regressori indicatori (dummy). Le informazioni contenute nei regressori non sono indipendenti: se conosciamo il valore assunto da uno dei due regressori… Ciò significa che tutta l’informazione di cui abbiamo bisogno è contenuta in uno solo dei due regressori. Più in generale: se la variabile qualitativa si articola in k categorie, è sufficiente creare k-1 regressori indicatori. La categoria esclusa viene chiamata categoria di riferimento. 2 27/05/2014 Boxplot (scatola coi baffi) (Bohrnstedt e Knoke 1998, 70-72) Regressori indicatori: variabile dicotomica (CGP 2001, 145-180) Soggetti Genere XM XF Antonio Maschio 1 0 Gianni Maschio 1 0 Laura Femmina 0 1 Marco Maschio 1 0 Roberto Maschio 1 0 Sara Femmina 0 1 3 27/05/2014 L’interpretazione dei parametri (CGP 2001, 145-180) • Modello di regressione: Yˆi = α + βX iF • Interpretazione formale e sostanziale Yˆi M = α + βX iF = α + β × 0 = α Yˆi F = α + βX iF = α + β ×1 = α + β L’interpretazione dei parametri (CGP 2001, 145-180) • Sul piano formale, l’interpretazione dei parametri è identica. Sul piano sostanziale, carattere particolare: poichè XF=0 quando genere=maschio, possiamo dire che il parametro α esprime il valore predetto di Y quando i soggetti sono maschi. A sua volta, il parametro β ci dice di quanto varia il valore predetto di Y quando il valore di XF passa da 0 a 1, cioè quando si passa dalla popolazione maschile a quella femminile. • Analizzare l’effetto esercitato da una variabile indipendente categoriale su una variabile dipendente cardinale mediante la regressione lineare equivale a misurare le differenze osservate fra le diverse categorie di X in termini di valori medi di Y. • Regressione semplice e analisi della varianza: unico strumento. • Utile in analisi multivariata più che bivariata. • Se la variabile indipendente è politomica: stesso procedimento; interpretazione dei parametri. 4 27/05/2014 L’interpretazione dei parametri Regressori indicatori: variabile politomica (CGP 2001, 145-180) Soggetti Settore XPRIV XAUT Anna Pubblico 0 0 Francesca Autonomo 0 1 Paola Privato 1 0 Davide Privato 1 0 Mario Privato 1 0 Alessandro Privato 1 0 Piergiorgio Pubblico 0 0 Raimondo Autonomo 0 1 Y* = α + β1*XPRIV + β2*XAUT Y* = 2.377 + 531*XPRIV + 980*XAUT 5 27/05/2014 5. Regressione lineare multipla Regressione lineare multipla (CGP 2001, 199-223) • Da una a due o più variabili indipendenti/controllo • Diretta estensione: modello di regressione lineare multipla • Y* = α + β1*X1 + β2*X2 + … + βk*Xk + … + βK*XK • Variabili e regressori 6 27/05/2014 Regressione lineare multipla: peculiarità (CGP 2001, 199-223) 1. Stima dei parametri: spazio multidimensionale e iperpiano, stesso criterio di stima 2. Interpretazione dei parametri: – il parametro α esprime il valore predetto di Y quando tutti i regressori sono uguali a zero – ciascun parametro β esprime la variazione media del valore di Y prodotta da ogni variazione unitaria del regressore, quando i valori assunti da tutti gli altri regressori sono tenuti costanti (effetto netto) 3. Valori predetti di Y: stime dei valori medi di Y che si manifestano in corrispondenza delle diverse combinazioni possibili di valori di tutti i regressori 4. Errori di predizione e potere predittivo: stessa definizione, pressoché invariata interpretazione, uguale misura 5. Casi anomali e casi eccentrici Variabili antecedenti, intervenienti, effetti di interazione (CGP 2001, 199-223) M1 α β1 voto di laurea β2 origine sociale β3 genere: femmina M2 1.728 1.586 34 30 M3 M4 M5 1614 1.511 1.569 1.410 44 5 -587 41 35 44 2 3 4 -571 -506 -133 β settore privato 111 β lavoro autonomo 303 β4 genere*voto M6 -12 7 27/05/2014 Variabili antecedenti: effetto causale e spurio (CGP 2001, 199-223) c(+) Origine sociale Reddito b(+) a(+) Voto di laurea Variabili antecedenti: effetto causale e spurio (CGP 2001, 199-223) c(-) Genere Reddito b(+) a(+) Voto di laurea 8 27/05/2014 Variabili intervenienti (effetto diretto e indiretto) (CGP 2001, 199-223) c(+) Voto di laurea Reddito a(+) b(+) Settore occupazionale Uso esplorativo della regressione (CGP 2001, 199-223) • Usi della regressione – Causale – Esplorativo – Predittivo • Due obiettivi dell’uso esplorativo – Individuare l’insieme di variabili esplicative che spiega meglio – Stabilire l’importanza relativa delle diverse cause • Non più distinzione tra variabili indipendenti e di controllo • Due approcci all’uso esplorativo – Top-down – Bottom-up • Criterio: massimizzare R2; procedure automatiche • Parametri standardizzati 9 27/05/2014 Limiti dell’uso esplorativo (CGP 2001, 199-223) • L’opportunità stessa di un approccio «onnicomprensivo» all’analisi dei fenomeni sociali è per lo meno dubbia • In contrasto col requisito di parsimoniosità • Soluzione indeterminata • Effetti causali (totali e diretti) qualitativamente diversi • Limiti dei parametri standardizzati Il calendario della prossima settimana Lezione Esercit. Giorno Ora 19 Giu. 3 20 4 21 4 10.30 Aula Docente 3 Guglielmi 8.30 3 Guglielmi 10.30 3 Romito 10 27/05/2014 Il calendario dell’ultima settimana Lezione Esercit. 22 23 Pre-esame 24 Giorno Ora Aula Docente Giu. 9 8.30 2 Biolcati Biolcati 10 10.30 3 11 8.30 2 11 10.30 3 Biolcati 11
© Copyright 2025 Paperzz