Modello di regressione lineare multipla

Il modello di regressione lineare
multivariata
Eduardo Rossi2
2 Universit`
a
di Pavia (Italy)
Aprile 2014
Rossi
MRLM
Econometria - 2014
1 / 39
Outline
1
Notazione
2
il MRLM
3
Il modello partizionato
4
Collinearit`a
Rossi
MRLM
Econometria - 2014
2 / 39
Notazione
Il MRLM
Il modello di regressione lineare multipla:
Yi = β0 + β1 X1i + . . . + βk Xki + ui
i = 1, 2, . . . , n
β0 , β1 , . . . βk parametri fissi ma ignoti, ui ignoto, Yi regredendo,
v.casuale, Xik regressore, covariata casuale.


1
X1i 


β = [β0 , β1 , β2 , . . . , βk ]0 ((k + 1) × 1) Xi =  .  ((k + 1) × 1)
 .. 
Xki


1
X1i 


yi = [β0 , β1 , . . . , βk ]0  .  + ui
.
 . 
Xki
i = 1, 2, . . . , n
Yi = β 0 Xi + ui
Rossi
MRLM
Econometria - 2014
3 / 39
Notazione
Notazione
Notazione matriciale
 
Y1
 .. 
Y =  .  (n × 1)
Yn


 0
1 X11 X21 . . . Xk1
X1


 ..  1 X12 X22 . . . Xk2 
X =  .  = .
.
.
.
..
..
.. 
 ..

0
Xn
1 X1n X2n . . . Xkn

u1
 u2 
 
u= . 
 .. 
(n × (k + 1))

(n × 1)
un
Rossi
MRLM
Econometria - 2014
4 / 39
Notazione

X01 β
 .. 
 .  = Xβ

X0n β
Il vettore Y raccoglie tutte le osservazioni della variabile dipendente.
La matrice X raccoglie le osservazioni sulle variabili esplicative. Ogni
colonna di X contiene tutte le osservazioni per la singola variabile
esplicativa.
Il MRLM in notazione matriciale:
Y = Xβ + u
Rossi
MRLM
Econometria - 2014
5 / 39
il MRLM
MRLM - Assunzioni
1. La media condizionale `e lineare:
E[Yi |Xi ] = X0i β
2. Campionamento casuale. Per ogni istante (unit`a) i un nuovo
vettore (Yi , X0i ) `e estratto dalla popolazione in modo indipendente.
Rossi
MRLM
Econometria - 2014
6 / 39
il MRLM
MRLM - Assunzioni
La conoscenza di xj per ogni j 6= i non pu`
o aiutare nella previsione di
Yi : (Yi , Xi ) sono estratti in modo indipendente, questo significa:
E[Yi |X1 , . . . , Xi , . . . , Xn ] = X0i β
i = 1, . . . , n
e
E[Yi |X1 , . . . , Xi , . . . , Xn , Y1 , . . . , Yi−1 , Yi+1 , . . . , Yn ] = X0i β
Rossi
MRLM
Econometria - 2014
7 / 39
il MRLM
3. Il rango di X `e k + 1.
4. Il termine di disturbo
E[u|X] = 0
E[uu0 |X] = σu2 IN
In modo non condizionale, per la legge delle aspettative iterate:
E{E[u|X]} = E[u] = 0
E{E[uu0 |X]} = E[uu0 ] = σu2 IN
Rossi
MRLM
Econometria - 2014
8 / 39
il MRLM
Il metodo dei minimi quadrati
I caratteri variano simultaneamente tra gli individui. Il metodo dei
minimi quadrati ordinari `e un modo per scomporre le differenze
nella variabile dipendente fra diverse caratteristiche osservate (variabili
esplicative) per le diverse unit`
a nel campione.
Il metodo dei minimi quadrati ordinari (in inglese Ordinary Least
Squares, OLS) `e usato per stimare il valore di βi , i = 1, . . . , k. Questi
sono scelti in modo tale che siano la soluzione al seguente problema:
min
β0 ,β1 ,...,βK
n
X
[Yi − (β0 + β1 X1i + β2 X2i + . . . + βk Xki )]2
i=1
Il termine ”minimi quadrati” si riferisce alla minimizzazione della
somma delle differenze al quadrato:
[Yi − (β0 + β1 X1i + . . . + βk Xki )]
gli scarti.
Rossi
MRLM
Econometria - 2014
9 / 39
il MRLM
La somma dei quadrati
La funzione obiettivo
f (β0 , β1 , . . . , βk ) =
n
X
[Yi − (β0 + β1 X1i + β2 X2i + . . . + βk Xik )]2 (1)
i=1
`e la sum of squared residuals (somma dei quadrati dei residui). Quando
i residui sono valutati in βb1 , . . . , βbk i residui sono detti fitted residuals
(residui fittati, o residui della regressione).
Rossi
MRLM
Econometria - 2014
10 / 39
il MRLM
Lo stimatore dei minimi quadrati (OLS)
Il metodo dei minimi quadrati risolve il problema
b ≡ arg min(Y − Xβ)0 (Y − Xβ)
β
β
Definiamo
S(β) ≡ (Y − Xβ)0 (Y − Xβ) =
X
(Yi − X0i β)2
i
Rossi
MRLM
Econometria - 2014
11 / 39
il MRLM
Lo stimatore dei minimi quadrati (OLS)
P
∂ i (Yi − X0i β)2
∂S(β)
=
∂β
∂β
P
∂(Yi − X0i β)2
= i
∂β
P
0
0
(Y
i − Xi β)∂(β Xi )
= −2 i
∂β
ma
∂β 0
Xi = Ik Xi = Xi
∂β
segue che
P
−2
i (Yi
X
− β 0 Xi )∂(β 0 Xi )
= −2
(Yi − X0i β)Xi
∂β
i
Rossi
MRLM
Econometria - 2014
12 / 39
il MRLM
Lo stimatore dei minimi quadrati (OLS)
Condizione del primo ordine:
X
b i=0
(Yi − X0i β)X
i
X
X i Yi =
i
b=
β
X
b
Xi X0i β
i
"
X
#−1
Xi X0i
i
X
Xi Yi
i
ovvero
b = X0 X
β
−1
X0 Y
Gli OLS sono delle somme ponderate delle {Yi }, cio`e sono funzioni
lineari della variabile dipendente. Questa linearit`
a in {Yi } semplifica
l’analisi statistica degli OLS.
Rossi
MRLM
Econometria - 2014
13 / 39
il MRLM
Non distorsione
b = (X0 X)−1 X0 Y = β + (X0 X)−1 X0 u
β
b
E[β|X]
= β + (X0 X)−1 X0 E[u|X] = β + (X0 X)−1 X0 · 0 = β
Lo stimatore OLS `e condizionalmente non distorto, ma anche non
condizionatamente (per la legge delle aspettative iterate):
b
b =β
E{E[β|X]}
= E[β]
Rossi
MRLM
Econometria - 2014
14 / 39
il MRLM
inoltre,
h
i
b |X = Xβ
E Xβ
h
i
E [b
|X ] = E Y − Xβb |X
h
i
= E [Y|X] − E Xβb |X
b
= Xβ − XE[β|X]
= Xβ − Xβ = 0
Rossi
MRLM
Econometria - 2014
15 / 39
il MRLM
Propriet`a stimatore OLS
Varianza dello stimatore OLS:
b
b − β)(β
b − β)0 |X]
Var[β|X]
= E[(β
= E[(X0 X)−1 X0 uu0 X(X0 X)−1 |X]
= (X0 X)−1 X0 E[uu0 |X]X(X0 X)−1
= σ 2 (X0 X)−1
La matrice di covarianza misura quanto informatico `e il campione per i
parametri. La varianza non condizionale
b = E{V ar[β|X]}
b
Var[β]
= σ 2 E[(X0 X)−1 ]
Se viene ripetuto l’esperimento casuale con estrazioni casuali di X, la
b
distribuzione di βb `e descritta da Var[β].
Rossi
MRLM
Econometria - 2014
16 / 39
il MRLM
Matrici di proiezione
Data
PX = X(X0 X)−1 X0
Simmetrica:
P0X = PX
Idempotente:
PX PX = [X(X0 X)−1 X0 ][X(X0 X)−1 X0 ]
= X(X0 X)−1 (X0 X)(X0 X)−1 X0
= X(X0 X)−1 X0
= PX
con
PX X = [X(X0 X)−1 X0 ]X = X
Rossi
MRLM
Econometria - 2014
17 / 39
il MRLM
Valori stimati
Valori stimati:
b
b = Xβ
Y
= X(X0 X)−1 X0 Y
= PX Y
Rossi
MRLM
Econometria - 2014
18 / 39
il MRLM
Residui
Residui
b
b = Y − Xβ
u
= Y − (X0 X)−1 X0 Y
= In − X(X0 X)−1 X0 Y
= [In − PX ] Y
= MX Y
con
MX = In − PX
dove
MX X = (In − PX )X = X − X = 0
b = MX Y = MX (Xβ + u) = MX u
u
Rossi
MRLM
Econometria - 2014
19 / 39
il MRLM
Matrici di proiezione
MX `e simmetrica ed idempotente (come PX ). Inoltre,
PX MX = PX (In − PX ) = PX − PX = 0
MX e PX sono ortogonali.
Rossi
MRLM
Econometria - 2014
20 / 39
il MRLM
I residui
b = MX Y
u
= MX (Xβ + u)
= MX Xβ + MX u
= MX u
Sebbene i residui siano stime di variabili non correlate per assunzione
risultano correlati
b 0 |X] = E[MX uu0 M0X |X] = σu2 MX
E[b
uu
la distribuzione `e singolare, la matrice di varianza-covarianza `e
singolare con rango n − k − 1. Questa `e la conseguenza
dell’ortogonalit`a con X.
Rossi
MRLM
Econometria - 2014
21 / 39
Il modello partizionato
Il modello partizionato
Assunzioni
X, (n × (k + 1)), `e una matrice di rango-colonna pieno, n > k + 1. Il
modello partizionato `e utile per descrivere come gli OLS assegnano
valori agli elementi di β quando tutte le variabili esplicative cambiano
da osservazione a osservazione.
Y = Xβ
β1
X1 X2
=
= X1 β 1 + X2 β 2
β2
X1 (n × k1 )
X2 (n × k2 )
β 1 (k1 × 1)
β 2 (k2 × 1)
Rossi
MRLM
Econometria - 2014
22 / 39
Il modello partizionato
Il modello partizionato
Frisch e Waugh (1933), Lowell (1963).
Y = PX Y + (In − PX )Y = PX Y + MX Y
b + X2 β
b
PX Y = X 1 β
1
2
b + X2 β
b + MX Y
Y = X1 β
1
2
MX2 = In − X2 (X02 X2 )−1 X02
Premoltiplichiamo con X01 MX2 :
X01 MX2 Y = X01 MX2 X1 βb1 + X01 MX2 X2 βb2 + X01 MX2 MX Y
ma
MX2 X2 = 0
MX MX2 X1 = 0
perch`e MX2 X1 ∈ Col(X).
Rossi
MRLM
Econometria - 2014
23 / 39
Il modello partizionato
Il modello partizionato
b si ottiene
Risolvendo per β
1
b = X0 MX X1
β
1
1
2
−1
X01 MX2 Y
b pu`
Quindi lo stimatore β
o essere trovato con una procedura a due
1
stadi:
1
regressione di X1 su X2 , da cui si ottengono i residui MX2 X1 ;
2
regressione di y sui residui della regressione del primo stadio,
MX2 X1 .
b cattura la componente di y collineare con X1 che non pu`o essere
β
1
spiegata da X2 .
Rossi
MRLM
Econometria - 2014
24 / 39
Il modello partizionato
Il modello partizionato
Con errori omoschedastici:
ˆ = X0 MX X1
β
1
1
2
−1
X01 MX2 Y
−1
X01 MX2 [X1 β 1 + X2 β 2 + u]
−1 0
X1 MX2 u
= β 1 + X01 MX2 X1
= X01 MX2 X1
ˆ |X] = E[(β − β
ˆ )(β − β
ˆ )0 |X]
Var[β
1
1
1
1
1
−1
−1 0
0
|X]
X1 MX2 uu0 MX2 X1 X01 MX2 X1
= E[ X1 MX2 X1
−1
−1
X01 MX2 E[uu0 |X]MX2 X1 X01 MX2 X1
= X01 MX2 X1
−1 0
−1
= σu2 X01 MX2 X1
X1 MX2 X1 X01 MX2 X1
−1
= σu2 X01 MX2 X1
Rossi
MRLM
Econometria - 2014
25 / 39
Il modello partizionato
La distribuzione degli stimatori OLS nella regressione
multipla
Sotto le quattro assunzioni dei minimi quadrati,
La distribuzione campionaria di βˆ1 ha media β1
Var(βˆ1 ) `e inversamente proporzionale a n.
Al di l`a di media e varianza, la distribuzione esatta (n-finita) di βˆi
molto complessa; ma per n grande...
p
`e consistente: βˆ1 → β1 (legge dei grandi numeri)
`e approssimata da una distribuzione N(0,1) (TLC)
Queste propriet`
a valgono per βˆ2 , . . . , βˆk
Concettualmente, non vi `e nulla di nuovo!
Rossi
MRLM
Econometria - 2014
26 / 39
Il modello partizionato
Stima della varianza dell’errore
E[u2i |X] = σ 2
Per la legge delle aspettative iterate:
E{E[u2i |X]} = E[u2i ] = σ 2
Stimatore non distorto:
b0u
b
u
n−k−1
Per dimostrare la correttezza usiamo le seguenti propriet`a della traccia
s2 =
a = tr(a) a ∈ R
tr(AB) = tr(BA)
Rossi
MRLM
Econometria - 2014
27 / 39
Il modello partizionato
Stima della varianza dell’errore
E[s2 |X] =
=
=
=
=
=
Rossi
E[u0 MX u|X]
n−k−1
E[tr(u0 MX u)|X]
n−k−1
tr[E(MX uu0 |X)]
E[tr(MX uu0 )|X]
=
n−k−1
n−k−1
tr[MX E(uu0 |X)]
n−k−1
tr(MX )
n−k−1
tr(σu2 MX )
tr(MX σ 2 IN )
=
= σu2
= σu2
N −K
n−k−1
n−k−1
n−k−1
σu2
MRLM
Econometria - 2014
28 / 39
Il modello partizionato
Stima della varianza dell’errore
Non condizionatamente:
b
b0u
u
E
= σu2
n−k−1
s2 `e corretto solo nel caso di disturbi omoschedastici (E[uu0 ] = σu2 In ).
Rossi
MRLM
Econometria - 2014
29 / 39
Il modello partizionato
La distribuzione degli stimatori OLS nella regressione
con due regressori
Yi = β1 X1i + β2 X2i + ui
Errori omoschedastici:
Var[ui |X1i , X2i ] = σu2
notazione matriciale:
Y = β1 X1 + β2 X2 + u
−1 0
βˆ1 = X01 MX2 X1
X1 MX2 Y
X2 = In − X2 (X02 X2 )−1 X02
In grandi campioni, la distribuzione di βˆ1
βˆ1 ∼ N (β1 , σβ2ˆ )
1
Rossi
MRLM
Econometria - 2014
30 / 39
Il modello partizionato
La distribuzione degli stimatori OLS nella regressione
con due regressori
−1
Var(βˆ1 |X) = σu2 X01 MX2 X1
−1
= σu2 X01 X1 − X01 X2 (X02 X2 )−1 X02 X1
1
(X01 X2 )2
2
= σu 0
1−
X1 X1
(X02 X2 )(X01 X1 )
−1
1
(X01 X2 )2
= σu2 0
1−
X1 X1
(X02 X2 )(X01 X1 )
σβ2ˆ =
1
1 σu2
2
−1
2 (1 − ρX1 ,X2 )
n σX
1
Se X1 e X2 sono fortemente correlati allora 1 − ρ2X1 ,X2 ≈ 0 e la
varianza di βˆ1 `e pi`
u grande di quella che si avrebbe se ρ2X1 ,X2 ≈ 0.
Rossi
MRLM
Econometria - 2014
31 / 39
Collinearit`
a
Collinearit`a perfetta
La collinearit`a perfetta si ha quando uno dei regressori `e una funzione
lineare esatta degli altri.
Esempi di collinearit`a perfetta
Includere STR due volte,
Eseguite la regressione di TestScore su una costante e due variabili
dummy, D e B
1 se STR ≤ 20
Di =
0 altrimenti
1 se STR > 20
Bi =
0 altrimenti
perci`o Bi = 1 − Di e vi `e collinearit`
a perfetta.
Ci sarebbe collinearit`
a perfetta se l’intercetta (costante) fosse
esclusa da questa regressione?
Questo esempio `e un caso di trappola della dummy.
Rossi
MRLM
Econometria - 2014
32 / 39
Collinearit`
a
Dummy per fenomeni stagionali
Consumo:
Ci = β0 + β1 D1i + β2 D2i + βD3i + β4 Xi + ui
0 i = secondo, terzo e quarto trimestre
D1i =
1 i = primo trimestre
0 i = primo, terzo e quarto trimestre
D2i =
1 i = secondo trimestre
0 i = primo, secondo e quarto trimestre
D3i =
1 i = terzo trimestre
La quarta equazione non ha dummy. E’ l’equazione di riferimento cio`e
la base di partenza rispetto alla quale c’`e la correzione di intercetta.
Rossi
MRLM
Econometria - 2014
33 / 39
Collinearit`
a
Dummy per fenomeni stagionali
n = 8, 8 trimestri






X=





1
1
1
1
1
1
1
1
Y1
Y2
Y3
Y4
Y5
Y6
Y7
Y8
1
0
0
0
1
0
0
0
0
1
0
0
0
1
0
0
0
0
1
0
0
0
1
0












Le ultime tre colonne rappresentano le 3 dummy.
Rossi
MRLM
Econometria - 2014
34 / 39
Collinearit`
a
Dummy per fenomeni stagionali
Attenzione: Se inseriamo la quarta dummy

1 Y1 1 0 0
 1 Y2 0 1 0

 1 Y3 0 0 1

 1 Y4 0 0 0
X=
 1 Y5 1 0 0

 1 Y6 0 1 0

 1 Y7 0 0 1
1 Y8 0 0 0
0
0
0
1
0
0
0
1












la prima colonna
X·1 = X·3 + X·4 + X·5 + X·6
abbiamo una matrice di rango ridotto (collinearit`
a perfetta).
Rossi
MRLM
Econometria - 2014
35 / 39
Collinearit`
a
Dummy per fenomeni stagionali
Con dati trimestrali si usano 3 dummy, con dati mensili si usano 11
dummy.
La presenza di outlier la si pu`
o accertare, in prima istanza, attraverso
l’analisi dei residui. Quando vi sono residui molto grandi `e probabile
che siamo in presenza di un outlier.
Rossi
MRLM
Econometria - 2014
36 / 39
Collinearit`
a
Collinearit`a perfetta
Con G variabili binarie,
Se ogni osservazione rientra in una e una sola categoria.
se c’`e un’intercetta nella regressione.
se tutte le variabili binarie G sono incluse come regressori.
allora ci sar`a collinearit`a perfetta.
Per eliminare la collinearit`
a perfetta dobbiamo escludere una delle
variabili binarie. In questo caso i coefficienti associati con le variabili
binarie incluse devono essere interpretati come deviazione dal livello
medio.
Rossi
MRLM
Econometria - 2014
37 / 39
Collinearit`
a
Collinearit`a perfetta
La collinearit`a perfetta solitamente riflette un errore nelle
definizioni dei regressori, o una stranezza nei dati
Se avete collinearit`a perfetta, il software statistico ve lo far`a sapere
– bloccandosi, o mostrando un messaggio di errore, o “scaricando”
arbitrariamente una delle variabili
La soluzione alla collinearit`
a perfetta consiste nel modificare
l’elenco di regressori.
Rossi
MRLM
Econometria - 2014
38 / 39
Collinearit`
a
Collinearit`a imperfetta
La collinearit`a imperfetta `e ben diversa dalla collinearit`a perfetta,
nonostante la somiglianza dei nomi
La collinearit`
a imperfetta si verifica quando due o pi`
u
regressori sono altamente correlati.
Perch`e si usa il termine “collinearit`
a”? Se due regressori sono
altamente correlati, allora il loro diagramma a nuvola apparir`a
molto simile a una retta – sono “co-lineari” – ma a meno che la
correlazione sia esattamente = 1, tale collinearit`a `e imperfetta.
Rossi
MRLM
Econometria - 2014
39 / 39