Regressione lineare semplice: inferenza Eduardo Rossi2 2 Universit` a di Pavia (Italy) Marzo 2014 Rossi Regressione lineare semplice Econometria - 2014 1 / 60 Outline 1 Introduzione 2 Verifica di ipotesi 3 Intervalli di confidenza 4 Variabili binarie 5 Omoschedasticit`a 6 Errori standard con omoschedasticit` a 7 Teorema di Gauss-Markov Rossi Regressione lineare semplice Econometria - 2014 2 / 60 Introduzione Sommario L’errore standard di βˆ1 Verifiche di ipotesi concernenti β1 Intervalli di confidenza per β1 La regressione quando X `e variabile binaria Eteroschedasticit`a e omoschedasticit` a Efficienza OLS e distribuzione t di Student Rossi Regressione lineare semplice Econometria - 2014 3 / 60 Introduzione Sommario Vogliamo conoscere la pendenza della retta di regressione. Disponiamo dei dati di un campione, perci` o sussiste l’incertezza dovuta al campionamento. Per raggiungere l’obiettivo si procede in cinque passaggi: Definire la popolazione oggetto di interesse Fornire uno stimatore di questa popolazione Derivare la distribuzione campionaria dello stimatore (ci`o richiede alcune assunzioni). In grandi campioni questa distribuzione campionaria sar`a normale per il TLC. La radice quadrata della varianza stimata della distribuzione campionaria `e l’errore standard (SE) dello stimatore Utilizzare SE per costruire statistiche- t (per le verifiche di ipotesi) e intervalli di confidenza. Rossi Regressione lineare semplice Econometria - 2014 4 / 60 Introduzione L’oggetto di interesse: β1 Yi = β0 + β1 Xi + ui i = 1, 2, . . . , n ∆Y ∆Y per una variazione autonoma in X (effetto casuale). Sotto le assunzioni degli OLS: β1 = 1 E[ui |Xi ] = 0 (prima assunzione) 2 {Yi , Xi }, i = 1, 2, . . . , n sono i.i.d. (seconda assunzione). 3 X, Y hanno momenti quarti finiti non nulli (terza assunzione) Rossi Regressione lineare semplice Econometria - 2014 5 / 60 Introduzione La distribuzione campionaria di βˆ1 Sotto le assunzioni dei minimi quadrati, per n grande, la distribuzione di βˆ1 `e approssimata da βˆ1 ≈ N β1 , Rossi σv2 2 )2 n(σX Regressione lineare semplice Econometria - 2014 6 / 60 Verifica di ipotesi Verifica di ipotesi ed errore standard L’obiettivo `e di verificare un’ipotesi, quale β1 = 0, utilizzando i dati per determinare sperimentalmente se l’ipotesi (nulla) `e corretta. Impostazione generale Ipotesi nulla e alternativa bilaterale: H0 : β1 = β1,0 vs. H1 : β1 6= β1,0 dove β1,0 `e il valore ipotizzato sotto l’ipotesi nulla. Ipotesi nulla e alternativa unilaterale: H0 : β1 = β1,0 vs. H1 : β1 < β1,0 Rossi Regressione lineare semplice Econometria - 2014 7 / 60 Verifica di ipotesi Soluzione generale: costruire la statistica-t In generale: t= stimatore − valore ipotizzato errore standard dello stimatore dove l’SE dello stimatore `e la radice quadrata di uno stimatore della varianza dello stimatore. Per verificare la media di Y : Y¯ − µY,0 √ t= sY / n Per verificare β1 t= βˆ1 − β1,0 , SE(βˆ1 ) dove SE(βˆ1 ) `e la radice quadrata di uno stimatore della varianza della distribuzione campionaria di βˆ1 . Rossi Regressione lineare semplice Econometria - 2014 8 / 60 Verifica di ipotesi Formula per calcolare lo SE(βˆ1 ) Si ricordi l’espressione per la varianza di (n grande): Var [βˆ1 ] = Var [(Xi − µX )ui ] , 2 )2 n(σX dove vi = (Xi − µX )ui . Lo stimatore della varianza di βˆ1 sostituisce i 2 con gli stimatori ricavati dai valori di popolazione ignoti di σv2 e σX dati: 1 stimatore di σv2 2 )2 n (stimatore di σX P 1 ˆi2 1 iv n−2 = P ¯ 2 ]2 n [ n1 i (Xi − X) σ ˆβ2ˆ = 1 Rossi Regressione lineare semplice Econometria - 2014 9 / 60 Verifica di ipotesi Formula per calcolare lo SE(βˆ0 ) Dato Var[Hi ui ] n[E(Hi2 )]2 µX Hi = 1 − Xi E(Xi2 ) Var[βˆ0 ] = lo stimatore σ ˆβ2ˆ 0 1 P 2 ˆ 2u 1 n−2 i=1 H i ˆi = P n 1 n ˆ2 2 H i=1 i n dove " ˆi = 1 − H Rossi 1 n ¯ X P # 2 i=1 Xi Regressione lineare semplice Xi Econometria - 2014 10 / 60 Verifica di ipotesi Formula per calcolare lo SE E’ leggermente complicato, tuttavia: lo `e meno di quanto sembri. La varianza Var[v] `e stimata dal numeratore, mentre Var[X]2 `e stimata dal denominatore. Perch`e la correzione dei gradi di libert` a n − 2? Perch`e sono stati stimati due coefficienti β0 e β1 . SE(βˆ1 ) viene calcolato dal software di regressione Rossi Regressione lineare semplice Econometria - 2014 11 / 60 Verifica di ipotesi Riepilogo Per verificare: H0 : β1 = β1,0 vs H1 : β1 6= β1,0 Costruire la statistica-t t= βˆ1 − β1,0 βˆ1 − β1,0 = q SE(βˆ1 ) σ ˆ 2ˆ β1 Si rifiuta al livello di significativit` a del 5% se |t| > 1, 96. act Il valore p `e p = P r[|t| > |t |] = probabilit` a nell’area delle code act della normale, cio`e > |t |; si rifiuta al livello di significativit` a del 5% se il valore p `e < 5%. Questa procedura si affida all’approssimazione di n grande che βˆ1 sia distribuito normalmente; in generale n = 50 `e grande abbastanza per un’approssimazione eccellente. Rossi Regressione lineare semplice Econometria - 2014 12 / 60 Verifica di ipotesi Esempio: Punteggi nei test e STR dati della California Regressione lineare stimata: \ [ Test Score = 698, 9 − 2, 28ST R Il software di regressione segnala gli errori standard: SE(βˆ0 ) = 10, 4 SE(βˆ1 ) = 0, 52 Verifica dell’ipotesi nulla β1,0 = 0. Rapporto t t= βˆ1 − β1,0 −2, 28 − 0 = −4, 38 = ˆ 0, 52 SE(β1 ) Il livello di significativit` a bilaterale dell’1 % `e 2,58, perci`o rifiutiamo l’ipotesi nulla al livello di significativit`a dell’1%. In alternativa, possiamo calcolare il valore p... Il valore p basato sull’approssimazione normale standard con n grande alla statistica t `e 0,00001 (10–5) Rossi Regressione lineare semplice Econometria - 2014 13 / 60 Verifica di ipotesi P-value Rossi Regressione lineare semplice Econometria - 2014 14 / 60 Intervalli di confidenza Intervalli di confidenza per β1 Si ricordi che un intervallo di confidenza al 95% equivale a: la serie di punti che non pu` o essere rifiutata al livello di significativit`a del 5%; una funzione polidroma (un intervallo funzione dei dati) che contiene il reale valore del parametro il 95% delle volte nei campioni ripetuti. Poich`e la statistica t per β1 `e N (0, 1) in grandi campioni, la costruzione di un intervallo di confidenza al 95% per β1 equivale al caso della media campionaria: intervallo di confidenza al 95% per β1 {βˆ1 ± 1, 96 × SE(βˆ1 )} Rossi Regressione lineare semplice Econometria - 2014 15 / 60 Intervalli di confidenza Esempio di intervallo di confidenza Retta di regressione stimata \ [ Test Score = 698, 9 − 2, 28ST R SE(βˆ0 ) = 10, 4 SE(βˆ1 ) = 0, 52 Intervallo di confidenza al 95% per βˆ1 : {βˆ1 ± 1, 96SE(βˆ1 )} = {−2, 28 ± 1.96 × 0.52} = {−3, 30; −1, 26} Le due affermazioni seguenti sono equivalenti: L’intervallo di confidenza al 95% non include lo zero; L’ipotesi β1 = 0 `e rifiutata al livello del 5%. Rossi Regressione lineare semplice Econometria - 2014 16 / 60 Intervalli di confidenza Riepilogo di inferenza statistica Stima: Gli stimatori OLS hanno approssimativamente distribuzioni campionarie normali in grandi campioni Verifica: H0 : β1 = β1,0 vs β1 6= β1,0 (β1,0 `e il valore di β1 sotto H0 ) T (βˆ1 − β1,0 )/SE(βˆ1 ) valore-p = area sotto la normale standard al di fuori di |tact | (n grande) Intervalli di confidenza: l’intervallo di confidenza al 95% per β1 `e {βˆ1 ± 1, 96 × SE(βˆ1 )} Questo `e l’insieme di β1 che non `e rifiutato al livello del 5% L’IC al 95% contiene il β1 reale nel 95% di tutti i campioni. Rossi Regressione lineare semplice Econometria - 2014 17 / 60 Variabili binarie La regressione quando X `e una variabile binaria A volte un regressore `e binario: 1 se classe piccola X= 0 altrimenti X= X= 1 femmina 0 maschio 1 se trattato (farmaco sperimentale) 0 altrimenti I regressori binari sono a volte chiamati variabili dummy. Fin qui β1 `e stato chiamato pendenza ma ci` o non ha senso se la variabile X `e binaria. Come interpretiamo la regressione con un regressore binario? Rossi Regressione lineare semplice Econometria - 2014 18 / 60 Variabili binarie Interpretazione delle regressioni con un regressore binario Yi = β0 + β1 Xi + ui Quando Xi = 0: Yi = β0 + ui E[Yi |Xi = 0] = β0 quando Xi = 1 Yi = β0 + β1 + ui E[Yi |Xi = 1] = β0 + β1 quindi β1 = E[Yi |Xi = 1] − E[Yi |Xi = 0] `e pari alla differenza tra medie. Rossi Regressione lineare semplice Econometria - 2014 19 / 60 Variabili binarie Esempio Sia Di = 1 se ST R ≤ 20 0 se ST R > 20 Regressione OLS: \ Test Score = 650 + 7, 4 × Di (1,3) (1,8) Dimensione classe Punteggio medio Y¯ Dev.Stand. (sY ) N Piccola STR ≤ 20 Grande STR > 20 Differenza tra medie: 657,4 650 19,4 17,9 238 182 Ypiccola − Ygrande = 657, 4 − 650 = 7, 4 s r s2p s2g 19, 42 17, 92 SE = + = + = 1, 8 np ng 238 182 Rossi Regressione lineare semplice Econometria - 2014 20 / 60 Variabili binarie Riepilogo: regressione quando la variabile X `e binaria β0 media di Yi quando X = 0 β0 + β1 = media di Yi quando X = 1 β1 = differenza tra medie, X =1 meno X = 0 SE(βˆ1 ) ha l’interpretazione consueta statistica-t, intervalli di confidenza costruiti come di consueto. Questo `e un altro modo (facile) per eseguire l’analisi della differenza tra medie La formulazione della regressione `e particolarmente utile quando abbiamo regressori supplementari. Rossi Regressione lineare semplice Econometria - 2014 21 / 60 Omoschedasticit` a Eteroschedasticit`a e omoschedasticit`a Conseguenze dell’omoschedasticit` a Implicazioni per il calcolo degli errori standard Che cosa significano questi due termini? Se Var[u|X = x] `e costante - ossia se la varianza della distribuzione di u condizionata a X non dipende da X –allora u `e detto omoschedastico. In caso contrario, u `e eteroschedastico. Rossi Regressione lineare semplice Econometria - 2014 22 / 60 Omoschedasticit` a Esempio: etero/omoschedasticit`a nel caso di un regressore binario Errore standard quando le varianze sono ineguali: s s2g s2p SE = + np ng Errore standard quando le varianze sono uguali: s 1 1 + SE = sp np ng Vedi SW, Paragrafo 3.6 s2p (ns − 1)s2s + (ng − 1)s2g = np + ng − 2 sp stimatore di σ 2 quando σp2 = σg2 . Varianze uguali = omoschedasticit` a Varianze ineguali = eteroschedasticit` a Rossi Regressione lineare semplice Econometria - 2014 23 / 60 Errori standard con omoschedasticit` a Omoschedasticit`a in un’immagine: E[u|X] = 0 (u soddisfa l’assunzione dei minimi quadrati n. 1) La varianza di u non dipende da x Rossi Regressione lineare semplice Econometria - 2014 24 / 60 Errori standard con omoschedasticit` a Un esempio con dati reali dall’economica del lavoro La retribuzione oraria media rispetto agli anni di istruzione (fonte dati: Current Population Survey): Eteroschedasticit` a o omoschedasticit` a? Rossi Regressione lineare semplice Econometria - 2014 25 / 60 Errori standard con omoschedasticit` a Quale assunzione sulla varianza degli errori? Le tre assunzioni dei minimi quadrati: E[u|X] = 0 (Xi , Yi ), i = 1, 2, . . . , n, sono i.i.d. Gli outlier sono rari Eteroschedasticit`a e omoschedasticit` a concernono Var[u|X]. Poich`e non abbiamo assunto esplicitamente gli errori omoschedastici, abbiamo ammesso implicitamente l’eteroschedasticit` a. Rossi Regressione lineare semplice Econometria - 2014 26 / 60 Errori standard con omoschedasticit` a Errori omoschedastici-Var[βˆ1 ] Si pu`o dimostrare che l’OLS ha la varianza minore tra gli stimatori lineari in Y... un risultato chiamato teorema di Gauss-Markov. La formula per la varianza di βˆ1 e per l’errore standard OLS si semplifica: se Var[ui |Xi = x] = σ 2 Var[βˆ1 ] = σu2 V ar[¯ v] 1 σv2 = = 2 )2 2 [V ar(Xi )]2 n (σX nσX dato Var[(Xi − µX )ui ] = E [vi − E(vi )]2 = E[vi2 ] = E[(Xi − µX )2 u2i ] = E[(Xi − µX )2 E(u2i |Xi )] 2 2 = σX σu Rossisegue da cui Regressione lineare semplice Econometria - 2014 27 / 60 Errori standard con omoschedasticit` a Errori omoschedastici-Var[βˆ0 ] La formula per la varianza di βˆ0 nel caso eteroschedastico Var[Hi ui ] n[E(Hi2 )]2 µX Hi = 1 − Xi E(Xi2 ) Var[βˆ0 ] = dato che E[Hi ui ] = E[Hi E(ui |Xi )] = 0 Var[Hi ui ] = E[Hi2 u2i ] = E[Hi2 E(u2i |Xi )] = σu2 E[Hi2 ] Rossi Regressione lineare semplice Econometria - 2014 28 / 60 Errori standard con omoschedasticit` a Errori omoschedastici–Var[βˆ0 ] Ora 2 µX µX 2 Xi − 2 Xi =1+ E(Xi2 ) E(Xi2 ) µ2X µX 2 E[Hi2 ] = 1 + E[X ] − 2 E[Xi ] i E(Xi2 )2 E(Xi2 ) µ2X =1− E(Xi2 ) E(Xi2 ) − µ2X = E(Xi2 ) 2 σX = E(Xi2 ) Hi2 segue che σβ2ˆ = 0 Rossi 1 E(Xi2 ) 2 σu 2 n σX Regressione lineare semplice Econometria - 2014 29 / 60 Errori standard con omoschedasticit` a Due formule per gli errori standard Errori standard nel caso di omoschedasticit` a: s P 1 2 X s2 σ ˆβˆ1 = Pn i i ¯ u2 i (Xi − X) s s2u σ ˆβˆ1 = P ¯ 2 (Xi − X) i Errori standard per l’omoschedasticit` a sono validi solo se gli errori sono omoschedastici. Gli errori standard consueti – per differenziare i due, `e convenzione chiamarli errori standard robusti all’eteroschedasticit` a, poich`e sono validi a prescindere dall’eteroschedasticit` a o meno degli errori. Il principale vantaggio degli errori standard per l’omoschedasticit`a pura `e che la formula `e pi` u semplice. Lo svantaggio, per`o, `e che la formula `e corretta solo se gli errori sono omoschedastici. Rossi Regressione lineare semplice Econometria - 2014 30 / 60 Errori standard con omoschedasticit` a Implicazioni pratiche... La formula dell’omoschedasticit` a pura per l’errore standard di e la formula “robusta all’eteroschedasticit` a sono diverse - quindi, in generale, si ottengono errori standard diversi utilizzando formule differenti. Gli errori standard per l’omoschedasticit` a pura sono l’impostazione predefinita nei software di regressione - a volte l’unica impostazione (per esempio in Excel). Per ottenere gli errori standard robusti all’eteroschedasticit` a generale occorre modificare l’impostazione di default. Se non si modifica l’impostazione di default e vi ` e eteroschedasticit` a, gli errori standard (e la statistica-t e gli intervalli di confidenza) saranno errati - generalmente, gli SE per l’omoschedasticit` a pura sono troppo piccoli. Rossi Regressione lineare semplice Econometria - 2014 31 / 60 Errori standard con omoschedasticit` a Il punto essenziale Se gli errori sono omoschedastici o eteroschedastici e si utilizzano errori standard robusti all’eteroschedasticit` a, va bene Se gli errori sono eteroschedastici e si utilizza la formula dell’omoschedasticit`a pura per gli errori standard, gli errori standard saranno errati (lo stimatore dell’omoschedasticit`a pura della varianza di β1 `e incoerente in presenza di eteroschedasticit`a). Le due formule coincidono (quando n `e grande) nel caso speciale di omoschedasticit`a Quindi si dovrebbero sempre utilizzare errori standard robusti all’eteroschedasticit`a. Rossi Regressione lineare semplice Econometria - 2014 32 / 60 Errori standard con omoschedasticit` a Fondamenti teorici dei minimi quadrati ordinari Abbiamo gi`a appreso molto sugli stimatori dei minimi quadrati ordinari: lo stimatore OLS `e non distorto e consistente; abbiamo una formula per gli errori standard robusti all’eteroschedasticit`a e possiamo costruire intervalli di confidenza e statistiche di test. Una buona ragione per utilizzare i minimi quadrati ordinari `e anche l’impiego universale, perci` o gli altri saranno in grado di capire ci`o che fate. In effetti, l’OLS `e il linguaggio dell’analisi di regressione, e se utilizzate uno stimatore diverso, parlerete un linguaggio differente. Rossi Regressione lineare semplice Econometria - 2014 33 / 60 Teorema di Gauss-Markov Eppure potreste ancora chiedervi... Tutto quanto detto `e davvero una buona ragione per utilizzare OLS? Non esistono altri stimatori che potrebbero essere migliori – in particolare che potrebbero avere una varianza inferiore? Inoltre, che ne `e stato della distribuzione t di Student? Ora risponderemo a queste domande – ma per farlo abbiamo bisogno di assunzioni pi` u forti delle tre relative ai minimi quadrati che abbiamo gi`a visto. Rossi Regressione lineare semplice Econometria - 2014 34 / 60 Teorema di Gauss-Markov Le assunzioni dei minimi quadrati estese Consistono nelle tre assunzioni dei minimi quadrati, pi` u altre due: 1 2 3 4 5 E[ui |Xi ] = 0, i = 1, 2, . . . , n; (Xi , Yi ), i = 1, 2, . . . , n, sono i.i.d.; Gli outlier sono rari E[Yi4 ] < ∞, E[Xi4 ] < ∞; ui `e omoschedastico ui ha distribuzione N (0, σ 2 ) Le assunzioni 4 e 5 sono pi` u restrittive – perci` o si applicano a un numero inferiori di casi pratici. Tuttavia, facendo queste assunzioni, determinati calcoli matematici si semplificano e si possono dimostrare risultati pi` u robusti –che valgono se tali assunzioni aggiuntive sono vere. Iniziamo con una discussione sull’efficienza dello stimatore OLS Rossi Regressione lineare semplice Econometria - 2014 35 / 60 Teorema di Gauss-Markov Efficienza dello stimatore OLS, parte I: il teorema di Gauss-Markov Nelle assunzioni dei minimi quadrati ordinari estese 1-4 (le tre di base, pi` u l’omoschedasticit`a), βˆ1 ha la varianza minima tra tutti gli stimatori lineari (stimatori che sono funzioni lineari di Y1 , Y2 , . . . , Yn . Questo `e il teorema di Gauss-Markov. Rossi Regressione lineare semplice Econometria - 2014 36 / 60 Teorema di Gauss-Markov Il teorema di Gauss-Markov Date le condizioni 1 E[ui |X1 , . . . , Xn ] = 0, i = 1, 2, . . . , n 2 Var[ui |X1 , . . . , Xn ] = σu2 < ∞ 3 E[ui uj |X1 , . . . , Xn ] = 0, i 6= j, i, j = 1, 2, . . . , n Le condizioni di G-M derivano dalle tre assunzioni degli OLS 1 2 3 Poich`e le osservazioni sono i.i.d. (A.2) E[ui |X1 , . . . , Xn ] = E[ui |Xi ] = 0, i = 1, 2, . . . , n L’A.3 (monenti quarti finiti) assicura che σu2 < ∞ Per l’A.1 E[ui uj |X1 , . . . , Xn ] = E[ui uj |Xi , Xj ], ∀i 6= j, i, j = 1, 2, . . . , n. Per la stessa A.2 E[ui uj |Xi , Xj ] = E[ui |Xi ]E[uj |Xj ] = 0, ∀i 6= j Rossi Regressione lineare semplice Econometria - 2014 37 / 60 Teorema di Gauss-Markov Il teorema di Gauss-Markov βˆ1 `e uno stimatore lineare: Pn ¯ i X (Xi − X)Y ˆ β1 = Pi=1 a ˆ i Yy n ¯ 2 = i=1 (Xi − X) i dove ¯ (Xi − X) a ˆi = Pn ¯ 2 i=1 (Xi − X) i pesi a ˆi , i = 1, 2, . . . , n dipendono da X1 , . . . , Xn ma non da Y1 , Y2 , . . . , Yn , lo stimatore OLS βˆ1 `e uno stimatore lineare. Sotto le condizioni di G-M lo stimatore OLS `e condizionatamente non distorto la varianza della distribuzione di βˆ1 condizionata a X1 , X2 , . . . , Xn σu2 ¯ 2 i=1 (Xi − X) Var[βˆ1 |X1 , . . . , Xn ] = P Rossi Regressione lineare semplice Econometria - 2014 38 / 60 Teorema di Gauss-Markov Il teorema di Gauss-Markov-Prova Per ogni stimatore lineare del tipo β˜1 = n X ai Yi i=1 β˜1 = β0 n X ! ai + β1 i=1 n X ! ai Xi i=1 + n X ai ui i=1 Per la prima condizione n n X X E[ ai Xi |X1 , . . . , Xn ] = ai E[ui |X1 , . . . , Xn ] = 0 i=1 i=1 E[β˜1 |X1 , . . . , Xn ] = β0 n X ! ai + β1 i=1 Rossi Regressione lineare semplice n X ! ai Xi i=1 Econometria - 2014 39 / 60 Teorema di Gauss-Markov Il teorema di Gauss-Markov-Prova Affinch`e β˜1 sia condizionamente non distorto: ! ! n n X X E[β˜1 |X1 , . . . , Xn ] = β0 ai + β1 ai Xi = β1 i=1 deve valere che n X i=1 ai = 0 i=1 n X ai Xi = 1 i=1 da cui β˜1 − β1 = n X ai ui i=1 Rossi Regressione lineare semplice Econometria - 2014 40 / 60 Teorema di Gauss-Markov Il teorema di Gauss-Markov-Prova Sotto le condizioni del Teorema, la varianza condizionale di β˜1 " n # i h X ai ui |X1 , . . . , Xn Var β˜1 |X1 , . . . , Xn = Var i=1 = XX i ai aj Cov [ui , uj |X1 , . . . , Xn ] j Applicando la seconda e terza condizione di G-M, i termini incrociati nella doppia sommatoria si annullano Var[β˜1 |X1 , . . . , Xn ] = σu2 n X a2i i=1 inoltre Var[βˆ1 |X1 , . . . , Xn ] = σu2 n X a ˆ2i i=1 Rossi Regressione lineare semplice Econometria - 2014 41 / 60 Teorema di Gauss-Markov Il teorema di Gauss-Markov-Prova Sia ai = a ˆi + di quindi X i X i a2i = X X X X (ˆ ai + di )2 = a ˆ2i + 2 a ˆi di + d2i i i i i P ¯ i (Xi − X)d a ˆi di = Pi ¯ 2 i (Xi − X) P ¯ P di di Xi − X iP i = 2 ¯ (X − X) i Pi P ¯ (P ai − P a ( ai Xi − a ˆi Xi ) − X ˆi ) P = ¯ 2 i (Xi − X) =0 Rossi Regressione lineare semplice Econometria - 2014 42 / 60 Teorema di Gauss-Markov Il teorema di Gauss-Markov-Prova Pertanto, σu2 X a2i = σu2 i X i a ˆ2i + σu2 X d2i i = Var[βˆ1 |X1 , . . . , Xn ] + σu2 X d2i i segue che Var[β˜1 |X1 , . . . , Xn ] = σu2 n X a2i = Var[βˆ1 |X1 , . . . , Xn ] + σu2 i=1 X d2i i Var[β˜1 |X1 , . . . , Xn ] − Var[βˆ1 |X1 , . . . , Xn ] = σu2 X d2i i Rossi Regressione lineare semplice Econometria - 2014 43 / 60 Teorema di Gauss-Markov Il teorema di Gauss-Markov-Prova Lo stimatore β˜1 ha varianza condizionata maggiore di quella di βˆ1 se di `e diverso da zero per ogni i = 1, 2, . . . , n. Ma se di = 0, ∀i, allora ai = a ˆi e β˜1 = βˆ1 Conclusione: OLS `e BLUE (best linear unbised estimator) Rossi Regressione lineare semplice Econometria - 2014 44 / 60 Teorema di Gauss-Markov Efficienza dello stimatore OLS, parte II In tutte e cinque le assunzioni dei minimi quadrati estese compresa la distribuzione normale degli errori - β1 ha la varianza pi` u piccola di tutti gli estimatori consistenti (funzioni lineari o non lineari di Y1 , Y2 , . . . , Yn ), per n → ∞. Questo `e un risultato assai sorprendente - afferma che, se (in aggiunta alle assunzioni dei minimi quadrati 1-3) gli errori sono omoschedastici e normalmente distribuiti, OLS `e la scelta migliore rispetto a qualsiasi altro stimatore consistente. E poich`e uno stimatore che non sia consistente `e una scelta scadente, ci`o afferma che l’OLS `e davvero la miglior scelta che si possa fare - se valgono tutte e cinque le assunzioni dei minimi quadrati estese. (La dimostrazione di questo risultato va oltre l’ambito di questo corso e non `e fornita nel testo). Rossi Regressione lineare semplice Econometria - 2014 45 / 60 Teorema di Gauss-Markov Alcuni aspetti critici di OLS I risultati precedenti sono impressionanti, tuttavia tali risultati - e lo stimatore OLS - hanno limitazioni importanti. Il teorema di G-M non `e poi cos`ı avvincente: La condizione di omoschedasticit` a spesso non regge (l’omoschedasticit` a `e speciale) Il risultato vale solo per gli stimatori lineari - solo un piccolo sottoinsieme di stimatori (ulteriori informazioni a breve) Il risultato di ottimalit` a pi` u robusto (parte II precedente) richiede errori normali omoschedastici – cosa non plausibile nelle applicazioni (si pensi ai dati delle retribuzioni orarie!) Rossi Regressione lineare semplice Econometria - 2014 46 / 60 Teorema di Gauss-Markov Inferenza con omoschedasticit`a e gaussianit`a 1 E[ui |Xi ] = 0, i = 1, 2, . . . , n; 2 (Xi , Yi ), i = 1, 2, . . . , n, sono i.i.d.; 3 Gli outlier sono rari E[Yi4 ] < ∞, E[Xi4 ] < ∞; 4 ui `e omoschedastico 5 ui ha distribuzione N (0, σ 2 ) Se tutte le cinque assunzioni valgono, allora: βˆ0 e βˆ1 sono normalmente distribuiti per tutti gli n la statistica-t ha una distribuzione t di Student con n − 2 gradi di libert`a, questo vale esattamente per tutti gli n. Rossi Regressione lineare semplice Econometria - 2014 47 / 60 Teorema di Gauss-Markov Distribuzione campionaria gaussiana di βˆ1 P ¯ i (Xi − X)u βˆ1 − β1 = Pi ¯ 2 i (Xi − X) 1X = wi ui n i dove ¯ (Xi − X) P n 1 ¯ 2 i=1 (Xi − X) n Qual `e la distribuzione di una media ponderata di normali? 1X E[βˆ1 − β1 ] = wi E[ui ] = 0 n i !2 X 1 Var[βˆ1 − β1 ] = 2 E wi ui n wi = i Rossi Regressione lineare semplice Econometria - 2014 48 / 60 Teorema di Gauss-Markov Distribuzione campionaria gaussiana di βˆ1 Var[βˆ1 − β1 ] = 1 X 2 1 2X 2 2 w E[u ] = σ wi i i n2 n2 u i Rossi Regressione lineare semplice i Econometria - 2014 49 / 60 Teorema di Gauss-Markov Assunzioni Assunzioni MRL semplice: Yi = β0 + β1 Xi + ui i = 1, 2, . . . , n E[ui |Xi ] = 0 {Xi , Yi } i.i.d Xi , ui momenti quarti finiti non nulli e finiti. Var[ui |Xi ] = σu2 , omoschedasticit` a Distribuzione di ui data Xi `e normale (errori normali): ui ∼ i.i.d.N (0, σu2 ). Stimatori OLS: ¯ βˆ0 = Y¯ − βˆ1 X Pn ¯ (Y − Y¯ )(Xi − X) Pn i βˆ1 = i=1 ¯ 2 i=1 (Xi − X) Rossi Regressione lineare semplice Econometria - 2014 50 / 60 Teorema di Gauss-Markov Distribuzioni campionarie esatte Quando gli errori (ui ) si distribuiscono normalmente e sono omoschedastici le distribuzioni campionarie degli stimatori OLS e delle statistiche test sono note: Lo stimatore OLS si distribuisce in modo normale. la statistica t si distribuisce come una t di Student. Rossi Regressione lineare semplice Econometria - 2014 51 / 60 Teorema di Gauss-Markov Distribuzione di βˆ1 βˆ1 |X1 , . . . , Xn ∼ N (β1 , σβ2ˆ 1 |X dove σβ2ˆ 1 |X =P ) σu2 i=1 (Xi ˆ 2 − X) Per dimostrare che la distribuzione condizionale `e normale, si noti che βˆ1 − β1 `e una media ponderata di u1 , . . . , un 1 P ¯ i (Xi − X)u n ˆ β1 = β1 + 1 Pi=1 ¯ 2 i=1 (Xi − X) n Medie ponderate di variabili casuali che si distribuiscono in modo normale si distribuiscono normalmente. Rossi Regressione lineare semplice Econometria - 2014 52 / 60 Teorema di Gauss-Markov Non distorsione di βˆ1 Abbiamo visto che: E[βˆ1 |X1 , . . . , Xn ] = β1 + Pn ¯ i − X)E[ui |X1 , . . . , Xn ] i=1 (XP n ¯ 2 i=1 (Xi − X) = β1 βˆ1 `e condizionatamente non distorto. Rossi Regressione lineare semplice Econometria - 2014 53 / 60 Teorema di Gauss-Markov Varianza condizionale di βˆ1 Per mostrare che σβ2ˆ 1 |X =P σu2 i=1 (Xi ˆ 2 − X) sfruttiamo l’ipotesi che ui ∼ i.i.d.N (0, σu2 ) Pn ¯ i (Xi − X)u i=1 ˆ Var[β1 |X1 , . . . , Xn ] = Var Pn ¯ 2 |X1 , . . . , Xn i=1 (Xi − X) Pn ¯ 2 Var[ui |X1 , . . . , Xn ] (Xi − X) = i=1 Pn ¯ 2 2 i=1 (Xi − X) Pn ¯ 2σ2 (Xi − X) u = Pi=1 2 n 2 ¯ i=1 (Xi − X) σu2 ¯ 2 i=1 (Xi − X) = Pn Rossi Regressione lineare semplice Econometria - 2014 54 / 60 Teorema di Gauss-Markov Distribuzione della statistica t La statistica t per verificare l’ipotesi nulla β1 = β1,0 `e t= βˆ1 − β1,0 SE(βˆ1 ) Sostituendo la formula per SE(βˆ1 ) s SE(βˆ1 ) ≡ σ ˆβˆ1 = Rossi s2u ¯ 2 i=1 (Xi − X) Pn Regressione lineare semplice Econometria - 2014 55 / 60 Teorema di Gauss-Markov Distribuzione della statistica t t= q βˆ1 − β1,0 s2u ¯ 2 i=1 (Xi −X) Pn =q βˆ1 − β1,0 2 s2u σu ¯ 2 2 i=1 (Xi −X) σu =q Pn =q βˆ1 − β1,0 2 σu ¯ 2 i=1 (Xi −X) s / Pn (βˆ1 − β1,0 )/σβˆ1 |X = p , W/(n − 2) Rossi βˆ1 − β1,0 2 σu ¯ 2 (X i −X) i=1 Pn q s2u 2 σu s2u σu2 n X u ˆ2i W = σu2 i=1 Regressione lineare semplice Econometria - 2014 56 / 60 Teorema di Gauss-Markov Distribuzione della statistica t Sotto l’ipotesi nulla βˆ1 |X1 , . . . , Xn ∼ N (β1 , σβ2ˆ 1 |X ) quindi βˆ1 − β1,0 |X1 , . . . , Xn ∼ N (0, 1) σβˆ1 |X il numeratore della statistica t `e N (0, 1). La variabile casuale W si distribuisce come una chi-quadrato con n − 2 gradi di libert`a. W `e indipendente da βˆ1 −β1,0 σβˆ |X . 1 Rossi Regressione lineare semplice Econometria - 2014 57 / 60 Teorema di Gauss-Markov Distribuzione della statistica t Lo stimatore s2u ha una distribuzione proporzionale a una distribuzione chi-quadrato con n − 2 gradi di libert` a: s2u ∼ σu2 × χ2n−2 n−2 quindi s2u 1 × χ2n−2 ∼ σu2 n−2 Rossi Regressione lineare semplice Econometria - 2014 58 / 60 Teorema di Gauss-Markov Distribuzione della statistica t Se Z ha una distribuzione normale standard, se W ∼ χ2m e Z e W sono indipendentemente distribuite, allora la variabile casuale Z ∼ tm t= p W/m Nel caso della statistica t N (0, 1) q ∼ tn−2 χ2n−2 /(n − 2) Per n < 30 i valori critici t possono essere un po’ pi` u grandi dei valori critici N (0, 1) Per n > 50 o simile, la differenza nelle distribuzioni tn2 e N (0, 1) `e trascurabile. Rossi Regressione lineare semplice Econometria - 2014 59 / 60 Teorema di Gauss-Markov Implicazioni pratiche Se n < 50 e credete davvero che, per la vostra applicazione, u sia omoschedastico e normalmente distribuito, utilizzate tn−2 invece dei valor critici N (0, 1) per le verifiche di ipotesi e gli intervalli di confidenza. Nella maggior parte delle applicazioni econometriche, non vi `e alcun motivo di ritenere che u sia omoschedastico e normale solitamente vi sono ottime ragioni per credere che n´e l’una n´e l’altra assunzione valga. Fortunatamente, nelle applicazioni moderne n > 50, cos`ı possiamo affidarci ai risultati per n grande presentati in precedenza, basati sul teorema limite centrale, per eseguire verifiche di ipotesi e costruire intervalli di confidenza usando l’approssimazione normale per n grande Rossi Regressione lineare semplice Econometria - 2014 60 / 60
© Copyright 2024 Paperzz