ALBORADA DUENDEE ALBORADA

Dispensa di Econometria delle Serie Storiche
Giulio Palomba
(semilavorato)
Ultima modifica: ottobre 2014
Premessa
Queste pagine comprendono alcuni argomenti del programma del corso di Econometria delle Serie
Storiche che non hanno trovato e/o che non trovano posto nella dispensa di Jack Lucchetti, Appunti
di analisi delle serie storiche.
Gli argomenti trattati in queste pagine perciò appartengono di diritto al programma del corso e,
come tali, possono costituire oggetto di domande all’esame.
Gli argomenti esposti perci`
o non seguono perciò un filo/nesso logico, ma sono semplicemente
presentati in ordine sparso.
Indice
1 L’OLS come stimatore ML
1.1 Lo stimatore ML nel modello lineare classico . . . . . . . . . . . . . . . . . . . . . . .
1.2 Il modello OLS vincolato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
2
5
2 I test classici di verosimiglianza nel modello OLS
2.1 Test LR . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Test LM . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Test W . . . . . . . . . . . . . . . . . . . . . . . .
2.4 Relazioni tra i test LR, LM, W . . . . . . . . . . .
2.5 Relazione dei test LR, LM, W con il test F . . . .
6
6
7
7
8
8
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Criteri informativi
9
4 Test di autocorrelazione
4.1 Test di Durbin-Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Test di Breusch-Godfrey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Test di Ljung-Box . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
10
12
13
5 Test di radice unitaria
5.1 Test di Phillips-Perron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Test KPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
13
14
6 Test di normalit`
a
6.1 Test di Jarque-Bera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Test di Doornik-Hansen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
15
15
7 Variabili dummy
15
1
1
L’OLS come stimatore ML
` noto che una delle caratteristiche distintive del modello lineare classico o dei minimi quadrati ordinari
E
(OLS) è quella che non occorre specificare una distribuzione per l’errore (ε) all’interno dell’equazione
y = Xβ + ε,
(1)
dove y è la variabile dipendente di dimensione T × 1, X è la matrice dei regressori di dimensione T × k
e β, vettore k × 1, è l’incognito vettore dei parametri. In questo contesto, semplicemente imponendo
le ipotesi “classiche” (incorrelazione tra regressori e termine d’errore, linearità del modello e rango
colonna pieno di X), si ottiene lo stimatore
βˆ = (X 0 X)−1 X 0 y
(2)
che, in campioni finiti, risulta essere corretto e Best Linear Unbiased Estimator (BLUE). Imponendo
l’ulteriore ipotesi classica di omoschedasticità ε ∼ i.i.d.(0, σ 2 IT ), dove IT è una matrice identit`
a di
dimensione T × T , non è difficile dimostrare che, per T → ∞, lo stimatore gode delle fondamentali
proprietà della consistenza e della distribuzione asintotica normale.
1.1
Lo stimatore ML nel modello lineare classico
Stimare i valori del parametro β e quello della varianza σ 2 attraverso lo stimatore (2) non è l’unico
metodo di stima applicabile nell’ambito del modello lineare classico. Un’alternativa possibile è rappresentata dallo stimatore di massima verosimiglianza (ML) che, per definizione, ritorna anch’esso
stime consistenti ed asintoticamente normali. Tuttavia, le proprietà in campioni finiti di correttezza
e di stimatore BLUE decadono, ma ci`
o non ha grande rilevanza se si pensa che di norma l’inferenza
statistica viene condotta utilizzando i risultati di teoria asintotica.
Fermo restando la validit`
a di tutte le ipotesi classiche, l’utilizzo dello stimatore ML necessariamente
impone l’assegnazione di una qualche distribuzione al vettore ε. In questa sezione si discuterà il caso
standard in cui il termine di errore del modello OLS abbia distribuzione multinormale
ε ∼ N (0, σ 2 IT ).
(3)
L’imposizione di questa condizione permette di applicare il metodo ML, quindi di determinare una
forma analitica per la funzione di verosimiglianza costruita su ε che risulta essere:
T
Y
1
ε0 ε
2
−1
√ |σIT | exp − 2
L(y, X; β, σ ) =
2σ
2π
i=1
T
T
(y − Xβ)0 (y − Xβ)
= (2π)− 2 (σ 2 )− 2 exp −
,
(4)
2σ 2
dove |IT | = 1 è il determinante della matrice identità. La log-verosimiglianza è perciò
`(y, X; β, σ 2 ) = −
T
T
(y − Xβ)0 (y − Xβ)
ln(2π) − ln σ 2 −
2
2
2σ 2
(5)
oppure, in forma pi`
u compatta,
T
T
ε0 ε
ln(2π) − ln σ 2 − 2 .
(6)
2
2
2σ
Lo score si configura come il vettore gradiente contenente k + 1 derivate, k rispetto ai parametri
contenuti in β a cui si aggiunge la derivata relativa a σ 2 ; dal punto di vista analitico si ottiene

 

X 0 y − X 0 Xβ
X 0ε

 

σ2
σ2

 

2
s(y, X; β, σ ) = 
(7)
=
.



T
(y − Xβ)0 (y − Xβ)
T
ε0 ε 
− 2+
− 2+ 4
2σ
2σ 4
2σ
2σ
`(y, X; β, σ 2 ) = −
2
Applicando le condizioni del primo ordine sullo score, si ottiene il sistema
 0
X y − X 0 Xβ = 0


(8)
0

 −T + (y − Xβ) (y − Xβ)
σ2
dal quale si ottengono le soluzioni

0
−1 0
ˆ


 β = (X X) X y
(9)

εˆ0 εˆ

 σ
ˆ2 =
T
dove εˆ = y − X βˆ è il residuo ottenuto a seguito della stima OLS.
Dalla prima equazione emerge chiaramente che, per i parametri relativi alla media condizionale E(y|X), la soluzione ottenuta attraverso lo stimatore ML sotto l’ipotesi di normalità dell’errore
coincide esattamente con quella dello stimatore OLS. Dal punto di vista analitico, questa soluzione
scaturisce essenzialmente dal fatto che la prima equazione dello score di cui alla (8) di fatto coincide
con la condizione di ortogonalit`
a imposta dal metodo OLS quando si cerca di ottenere il valore minimo
della funzione obiettivo S(β) = ε0 ε = (y − Xβ)0 (y − Xβ).
Nella seconda equazione lo stimatore per l’incognito parametro σ 2 è dato dallo stimatore varianza
campionaria che, come è noto, non contiene il meccanismo di correzione per i g.d.l. previsto nel metodo
OLS; ciò significa che lo stimatore ottenuto non è corretto in quanto E(ˆ
σ 2 ) 6= σ 2 , resta comunque
consistente, in quanto la distorsione
δσˆ 2
= E(ˆ
σ 2 − sˆ2 )
T −k 2
=
σ − σ2
T
k
= − σ2
T
tende a zero quando T → ∞.
La matrice di informazione di Fisher può essere calcolata in due modi diversi:
(a) attraverso la matrice Hessiana
 2
∂ `(Y, X; β, σ 2 )

∂β 2

2

I(β, σ ) = −E 
 ∂ 2 `(Y, X; β, σ 2 )
∂σ 2 ∂β 0

∂ 2 `(Y, X; β, σ 2 )

1 0

∂β∂σ 2
  2X X
= σ

0
∂ 2 `(Y, X; β, σ 2 ) 
2
2
∂(σ )

0 
T 
2σ 4
(10)
(b) attraverso l’Outer Product Gradient (OPG):
0
∂`(Y, X; β, σ 2 ) ∂`(Y, X; β, σ 2 )

∂β
∂β

2
I(β, σ ) = E 

 ∂`(Y, X; β, σ 2 ) ∂`(Y, X; β, σ 2 ) 0
∂σ 2
∂β


∂`(Y, X; β, σ 2 ) ∂`(Y, X; β, σ 2 )

∂β
∂σ 2

 = E(S 0 S)

2
2
∂`(Y, X; β, σ ) ∂`(Y, X; β, σ ) 
∂σ 2
∂σ 2
dove
S = [s1 (y, X; β, σ 2 ) s2 (y, X; β, σ 2 )
3
...
sT (y, X; β, σ 2 )]0 .
Considerando la funzione score per la t-esima osservazione si ottiene perciò
It (β, σ 2 ) = E st (y, X; β, σ 2 )st (y, X; β, σ 2 )0



1
εt x t

 0

σ2
 x t εt


1
ε2t
= E 

− 2+ 4 
2



2
σ
2σ
2σ
1
ε
− 2 + t4
2σ
2σ

1
ε2t
1
2
0
E(εt )xt xt
− 2 + 4 E(εt xt )

σ4
2σ
2σ

= 


1
1
ε2t
E(ε2t ) E(ε4t )
0
E(εt xt ) − 2 + 4
−
2
+
2σ
2σ
4σ 4
4σ 6
4σ 8


1
0
0
 σ 2 xt xt

= 
2
3 
1
0
−
+
0
4σ 4 4σ 4 4σ 4






dove εt e xt rappresentano rispettivamente la t-esima osservazione per il vettore ε e la t-esima
colonna della matrice dei regressori X. Dato che, per le ipotesi del modello lineare classico,
valgono E(x0t εt ) = 00 , E(εt xt ) = 0 e E(ε2t ) = σ 2 , mentre se εt ∼ N (0, σ 2 ) allora E(ε4t ) = 3σ 2 ,
risulta
I(β, σ 2 ) =
n
X
It (β, σ 2 )
i=1


1
0
n
X
x
x
0
 σ2 t t

=

1 
0
i=1
2σ 4


1 0
XX
0
=  σ2
n 
0
2σ 4
(11)
Proprietà:
• generalmente le equazioni (10) e (11) non coincidono. Esse coincidono solo nel caso in cui
la funzione di verosimiglianza sia correttamente specificata;
• l’equazione (10) ha migliori proprietà in campioni finiti;
• l’equazione (11) richiede di valutare il contributo individuale di tutte le osservazioni.
Di conseguenza, la matrice stimata delle covarianze dei parametri, che coincide con l’estremo di
Cramér-Rao, è


σ 2 (X 0 X)−1
0
I(β, σ 2 )−1 = 
(12)
2σ 4  .
0
T
Da questa espressione derivano le seguenti distribuzioni asintotiche per gli stimatori ML di β e σ 2
√
√
d
d
T (βˆ − β) −→ N 0, σ 2 Σ−1
e
T (ˆ
σ 2 − σ 2 ) −→ N (0, 2σ 4 ),
XX
T
1 0
1X
XX=
xt x0t .
T
T
t=1
Una volta ottenute tutte le grandezze ottenibili attraverso il metodo ML, è possibile utilizzare gli
strumenti standard di questo contesto per condurre opportuni procedimenti di inferenza statistica.
dove ΣXX =
4
1.2
Il modello OLS vincolato
L’equazione (2) è quella dello stimatore ottenuto minimizzando la somma dei quadrati degli errori
` tuttavia possibile stimare lo stesso vettore dei
rispetto ai valori contenuti all’interno del vettore β. E
parametri del modello lineare in presenza di un vincolo introdotto attraverso l’imposizione di un’ipotesi
nulla H0 . Il problema della stima dei minimi quadrati ordinari diviene perciò un problema di ricerca
di un minimo sotto vincolo, cioè
min ε0 ε = (y − Xβ)0 (y − Xβ)
(13)
sub H0 : g(β) = 0
R
R
dove g(β) : k −→ q è una funzione continua e differenziabile in β che proietta lo spazio kdimensionale delle righe di β in un spazio con q ≤ k dimensioni; in altri termini, q è il numero
di vincoli imposti sulle k componenti di β. Per semplicità, e senza perdità di generalità, tutta l’analisi
sarà condotta nel caso di vincolo lineare contenuto all’interno dell’ipotesi nulla è
H0 : Rβ = r,
(14)
dove R è una matrice q × k e r è un vettore di dimensione q.
Per determinare la soluzione del problema (13) si applica il metodo di Lagrange. Il Lagrangiano è
perciò
Λ(β, λ) = (y − Xβ)0 (y − Xβ) + λ0 (Rβ − r),
dove λ è il vettore di dimensione q contenente i moltiplicatori di Lagrange. In Economia essi vengono
definiti come prezzi ombra: ciascun elemento del vettore λ rappresenta l’incremento della funzione
obiettivo a seguito di una variazione “piccola” del vincolo corrispondente. Applicando le condizioni
del primo ordine si ha

∂Λ(β, λ)



=0


 2X 0 (y − Xβ) + R0 λ = 0
∂β
⇒



∂Λ(β,
λ)
Rβ − r = 0,


=0
∂λ
∂(Rβ − r)
dove R =
è la matrice Jacobiana di dimensione q × k. Dopo un po’ di algebra, le soluzioni
∂β
sono

1 0 −1 0


 β˜ = βˆ − (X X) R λ

 β˜ = βˆ − (X 0 X)−1 R0 [R(X 0 X)−1 R0 ]−1 (Rβˆ − r)
2
(15)
⇒
 ˜


 (Rβˆ − r) − 1 (X 0 X)−1 R0 λ = 0
λ = 2[R(X 0 X)−1 R0 ]−1 (Rβˆ − r),
2
dove βˆ è lo stimatore OLS, mentre β˜ è lo stimatore relativo al modello vincolato. Si noti che esso
è uno stimatore corretto solamente nel caso in cui il vincolo Rβ = r sia soddisfatto. Sfruttando la
proprietà X 0 εˆ = 0 e definendo inoltre il residuo del modello vincolato come
ε˜ = y − X β˜
= y − X βˆ − X β˜ + X βˆ
ˆ
= εˆ − X(β˜ − β),
si ottiene la seguente relazione relativa alla somma dei quadrati dei residui
ˆ 0 [ˆ
ˆ
ε˜0 ε˜ = [ˆ
ε − X(β˜ − β)]
ε − X(β˜ − β)]
ˆ 0 X 0 X(β˜ − β).
ˆ
= εˆ0 εˆ + (β˜ − β)
5
(16)
Sostituendo a β˜ la sua definizione di cui alla (15), è piuttosto semplice ottenere quanto segue
ˆ 0 X 0 X(β˜ − β)
ˆ
ε˜0 ε˜ − εˆ0 εˆ = (β˜ − β)
0
−1
0
ˆ 0X 0
= {βˆ − (X X) R [R(X 0 X)−1 R0 ]−1 (Rβˆ − r) − β}
ˆ
X{βˆ − (X 0 X)−1 R0 [R(X 0 X)−1 R0 ]−1 (Rβˆ − r) − β}
= (Rβˆ − r)[R(X 0 X)−1 R0 ]−1 R(X 0 X)−1 X 0 X(X 0 X)−1 R0 [R(X 0 X)−1 R0 ]−1 (Rβˆ − r)
= (Rβˆ − r)[R(X 0 X)−1 R0 ]−1 (Rβˆ − r).
(17)
L’equazione (17) indica che la differenza tra la somma dei quadrati dei residui nel modello vincolato e
la somma dei quadrati dei residui nel modello libero è esprimibile come una forma quadratica (definita
positiva) in Rβˆ − r; tale vettore risulta essere nullo solo nel caso in cui lo stimatore βˆ soddisfa il
˜
vincolo, quindi non è significativamente diverso da β.
Utilizzando inoltre la definizione di cui alla (15), risulta anche
˜ 0 R(X 0 X)−1 R0 λ,
˜
ε˜0 ε˜ − εˆ0 εˆ = λ
(18)
˜ che vale zero solo questo si annulla.
che corrisponde ad una forma quadratica nel vettore λ
2
I test classici di verosimiglianza nel modello OLS
In questa sezione saranno fornite le equazioni dei tre test classici di verosimiglianza LR, LM e W. Come
è noto, asintoticamente i tre test sono equivalenti ed hanno distribuzione χ2q dove q è il numero di
vincoli imposti da H0 . Tuttavia, per campioni finiti e sotto l’ipotesi di normalità (3), vale la gerarchia
(alfabetica)
LM ≤ LR ≤ W.
Anche nel contesto del modello OLS resta valida la proprietà secondo la quale occorre conoscere il
ˆ σ
˜ σ
solo modello libero (β,
ˆ , εˆ) nel caso del test W, del solo modello vincolato (β,
˜ , ε˜) nel caso del test
LM ed entrambi i modelli nel caso del test LR.
2.1
Test LR
Applicando semplicemente la definizione formale risulta
ˆ σ
˜ σ
LR = 2[`(y, X; β,
ˆ 2 ) − `(y, X; β,
˜ 2 )]
T
εˆ0 εˆ
T
ε˜0 ε˜
2
2
= 2 − ln σ
ˆ − 2 + ln σ
˜ + 2
2
2ˆ
σ
2
2˜
σ
2
2
Tσ
ˆ
Tσ
˜
˜2 + 2
= −T ln σ
ˆ 2 − 2 + T ln σ
σ
ˆ
σ
˜
= T [ln σ
˜ 2 − ln σ
ˆ2]
2
0 σ
˜
ε˜ ε˜
= T ln
= T ln 0
.
2
σ
ˆ
εˆ εˆ
6
(19)
2.2
Test LM
Applicando la definizione si ha
˜ σ
˜ σ
˜ σ
LM = s(y, X; β,
˜ 2 )0 I(β,
˜ 2 )−1 s(y, X; β,
˜2)

˜ 2 (X 0 X)−1
0
σ
0
0

T
ε˜ X ε˜ ε˜
=
− 2 

2˜
σ4
σ
˜ 2 2˜
σ4 σ
˜
0
T


0
X ε˜


σ
˜2
0


ε˜ X(X 0 X)−1 0 
=

 ε˜0 ε˜
T 
− 2
2˜
σ4 σ
˜
ε˜0 X(X 0 X)−1 X 0 ε˜
=
σ
˜2
0
ε˜ X(X 0 X)−1 X 0 ε˜
= T
ε˜0 ε˜
0
ε˜ PX ε˜
= T 0 ,
ε˜ ε˜

X 0 ε˜
σ
˜2



 ε˜0 ε˜
T
− 2
4
2˜
σ
σ
˜





(20)
dove PX = X(X 0 X)−1 X 0 , è la matrice simmetrica ed idempotente di proiezione per cui vale PX X =
X 0 PX = X. In pratica, il test risulta essere
LM = T R2 ,
(21)
dove l’R2 è quello di una regressione ausilaria di ε˜ su X. Questo risultato è molto importante perché
diversi test di specificazione e diagnostica in econometria sono test LM in cui la statistica test è
esprimibile come il prodotto della numerosità campionaria per l’indice di determinazione di un qualche
regressione ausiliaria.
` possibile ottenere un’equazione alternativa del test LM come segue
E
LM = T
= T
=
=
=
=
=
2.3
ε˜0 PX ε˜
ε˜0 ε˜
˜ 0 PX PX (y − βX)
˜
(y − βX)
ε˜0 ε˜
y 0 PX PX y − 2β˜0 X 0 PX PX y + β˜0 X 0 PX PX X β˜
T
ε˜0 ε˜
βˆ0 X 0 X βˆ − 2β˜0 X 0 X βˆ + β˜0 X 0 X β˜
T
ε˜0 ε˜
0
0
ˆ X X(β˜ − β)
ˆ
(β˜ − β)
T
0
ε˜ ε˜
ε˜0 ε˜ − εˆ0 εˆ
T
ε˜0 ε˜
2
σ
˜ −σ
ˆ2
T
σ
˜2
(22)
Test W
Poiché la statistica test W è definita come
−1 ˆ
ˆ
ˆ
W = g(β)[J(β)V
ar(β)J(β)]
g(β),
7
(23)
imponendo il vincolo lineare g(β) = Rβ − r, si ha
ˆ 0 ]−1 (Rβˆ − r)
W = (Rβˆ − r)[RV ar(β)R
(Rβˆ − r)[R(X 0 X)−1 R0 ]−1 (Rβˆ − r)
=
σ
ˆ2
(Rβˆ − r)[R(X 0 X)−1 R0 ]−1 (Rβˆ − r)
= T
,
εˆ0 εˆ
(24)
utilizzando l’equazione (17) risulta piuttosto agevole dimostrare che vale anche
W=T
2.4
ε˜0 ε˜ − εˆ0 εˆ
σ
˜2 − σ
ˆ2
.
=n
0
2
εˆ εˆ
σ
ˆ
(25)
Relazioni tra i test LR, LM, W
Dalle equazioni (19), (22) e (25) risulta
2

σ
˜2 − σ
ˆ2
W
σ
˜


= T ln 1 +
= T ln 1 +
LR = T ln


σ
ˆ2
σ
ˆ2
T






σ
ˆ2
σ
˜2 − σ
ˆ2
=
W
LM
=
n


σ
˜2
σ
˜2







σ
˜2 − σ
ˆ2

W=T
,
2
σ
ˆ
quindi
• asintoticamente le tre statistiche test sono equivalenti, poiché
lim (LR − LM) = lim (LR − W) = lim (LM − W) = 0,
n→∞
n→∞
n→∞
• in campioni finiti vale
W
– W≥LR ⇒ W ≥ T ln 1 +
⇒
T
W
σ
ˆ2
≥ 2W
– LR≥LM
⇒
T ln 1 +
T
σ
˜
W
T
per ∀ W> 0;
W
1+
T
– LM≥W per la propriet`
a transitiva.
W
W
≥ ln 1 +
per ∀ W> 0;
T
T
W
1
W
⇒
ln 1 +
≥ 2
T
T
σ
˜
+1−1
2
σ
ˆ
⇒
W
ln 1 +
≥
T
2.5
Relazione dei test LR, LM, W con il test F
I tre test classici, oltre ad essere tra loro in relazione, possono essere espressi in funzione del test F.
Partendo dalla definizione formale di quest’ultimo si ottiene
Fq,T −k =
=
=
ε˜0 ε˜ − εˆ0 εˆ T − k
εˆ0 εˆ
q
σ
˜−σ
ˆT −k
σ
ˆ
q
T −k
W.
Tq
8
(26)
Calcolando la funzione inversa risulta

q


F
LR
=
T
ln
1
+

q,T −k


T −k






T qFq,T −k
W −1 T q
σ
ˆ Tq
Fq,T −k = 1 −
Fq,T −k =
LM =

σ
˜T −k
T
T −k
T − k + qFq,T −k








Tq

 W=
Fq,T −k
T −k
(27)
Per le proprietà della v.c. F di Snedecor risulta che i test LR, LM e W hanno distribuzione χ2q quando
T → ∞.
3
Criteri informativi
I criteri informativi (IC) rappresentano degli strumenti sintetici molto utili nella fase di specificazione
di un modello econometrico. Come è noto, la scelta di quante (e quali) variabili esplicative utilizzare
rappresenta la soluzione di un trade off : aggiungendo variabili (non collineari) infatti non si peggiora
la capacità esplicativa del modello ma, dall’altro lato, si rischia di “imbottire” l’equazione di una o pi`
u
variabili che non migliorano tale capacit`
a in maniera rilevante. In altri termini pi`
u tecnici, l’aggiunta
di variabili comporta che:
(a) il valore della log-verosimiglianza non diminuisce,
(b) il numero dei parametri incogniti da stimare aumenta, quindi il modello è meno parsimonioso.
I criteri informativi consistono in un’equazione pensata per gestire questa contraddizione, infatti la
loro formulazione è generalmente del tipo
IC = f (`(θˆ), k )
(−)
(28)
(+)
ˆ è la log-verosimiglianza calcolata in corrispondenza del valore stimato per il vettore dei
dove `(θ)
parametri del modello, mentre k è il numero dei parametri, quindi il numero delle componenti di θ.
I segni indicati tra parentesi indicano la relazione esistente tra i valori assunti del criterio informativo e le variabili su cui esso è determinato. La logica è pertanto piuttosto semplice: dato che un
aumento del numero dei parametri implica una non diminuzione della log-verosimiglianza, il criterio
informativo è costruito in maniera tale da diminuire al crescere della verosimiglianza, mentre cresce
in valore quando il numero dei parametri k aumenta.
Nello specifico, i tre criteri informativi pi`
u utilizzati in letteratura sono i seguenti:
ˆ + 2k,
1. Criterio di Akaike (1974): AIC= −2`(θ)
ˆ + k log T ,
2. Criterio di Schwarz (1978) o Criterio Bayesiano: BIC= −2`(θ)
ˆ + 2k log log T .
3. Criterio di Hannan e Quinn (1979): HQC= −2`(θ)
Dal punto di vista pratico, i tre criteri informativi vengono solitamente forniti dai software statisticoeconometrici in coda a ciascun modello stimato. Tra i diversi modelli stimati, la “migliore specificazione” corrisponde a quello per il quale i criteri informativi assumono valore minimo.
Naturalmente, pu`
o accadere che i tre criteri proposti siano in conflitto tra loro, selezionando diverse
specificazioni: in questo caso, nella prassi si tende a preferire i criteri BIC e HQC poiché è nota la
tendenza del criterio AIC a preferire modelli caratterizati da un numero di parametri molto pi`
u elevato.
La scelta tra i criteri BIC e HQC, molto simili dal punto d vista della loro definizione analitica, viene
invece lasciata sostanzialmente all’utente, poiché non esistono ragioni fondate per preferire un criterio
rispetto all’altro.
9
4
Test di autocorrelazione
4.1
Test di Durbin-Watson
Il primo tentativo di effettuare un test di autocorrelazione per un modello lineare di serie storiche del
tipo
yt = x0t β + εt
con εt ∼ W N (0, σ 2 )
(29)
è molto conosciuto in letteratura ed è noto come statistica di Durbin e Watson (1950). Tale approccio
in realtà non è un vero e proprio test, ma rappresenta piuttosto una statistica i cui valori dovrebbero
indicare se i residui del modello lineare mostrano una qualche autocorrelazione rilevante del prim’ordine. Oltre a costituire un “classico” nella fase di diagnostica relativa ad un modello lineare di serie
storiche, la statistica di Durbin e Watson (DW) ha senza dubbio il merito di fornire in maniera rapida
un’indicazione della presenza/assenza di autocorrelazione nei residui. Per questa ragione la quasi totalità dei pacchetti statistico-econometrici (quindi anche Gretl) ritorna il suo valore automaticamente
all’interno delle regression statistic che fanno seguito alla stima del modello (29).
La statistica DW si caratterizza per la proprietà di avere una distribuzione nota in campioni finiti
solamente sotto le seguenti ipotesi piuttosto restrittive (Verbeek, 2010):
1. deve essere possibile trattare le xt come deterministiche. Questa ipotesi è fondamentale in quanto
richiede che tutti che tutti i termini di errore εt siano indipendenti da tutte le variabili esplicative
secondo la nota relazione (di Gauss-Markov)
x0t ⊥ εt ≈ E(x0t εt ) = 0.
(30)
Ancora pi`
u rilevante è il fatto che questa condizione di fatto impedisce l’utilizzo di variabili
dipendenti ritardate all’interno dei regressori;
2. i regressori xt devono necessariamente contenere un’intercetta.
La struttura delle ipotesi per valutare la presenza di autocorrelazione attraverso l’utilizzo di DW è la
seguente:
H0 : ρ1 = 0 assenza di autocorrelazione di ordine 1
(31)
H0 : ρ1 6= 0 autocorrelazione di ordine 1
Dal punto di vista formale la statistica di Durbin-Watson (DW) è data da
T
X
DW =
(ˆ
εt − εˆt−1 )2
t=2
T
X
,
(32)
εˆ2t
t=1
dove εˆt è il residuo OLS. In pratica, questa statistica mette in rapporto la media campionaria dei
quadrati della differenza tra le serie dei residui e quella ritardata di un periodo (da qui deriva il fatto
che la sommatoria parte da t = 2) con la varianza campionaria o momento secondo campionario dei
residui stessi. Con un po’ di algebra e per “elevati” valori della numerosità campionaria T si ottiene
T
X
DW =
εˆ2t
−2
t=2
T
X
εˆt εˆt−1 +
t=2
T
X
T
X
t=2
εˆ2t−1
2
≈
εˆ2t
t=1




DW ≈ 2 1 −


T
X
T
X
εˆ2t
−2
t=2
T
X
εˆt εˆt−1
t=2
T
X
εˆ2t
t=1

εˆt εˆt−1 


t=2
 = 2(1 − ρˆ1 ),
T

X
εˆ2t 
t=1
10
(33)
dove ρˆ1 è il coefficiente stimato di autocorrelazione del primo ordine. Analizzando i casi “estremi” è
piuttosto evidente che:
• sotto H0 risulta ρˆ = 0, quindi DW≈ 2,
• in caso di correlazione positiva perfetta risulta ρˆ = 1, quindi DW≈ 0,
• in caso di correlazione negativa perfetta risulta ρˆ = −1, quindi DW≈ 4.
Praticamente, un valore di DW prossimo al valore 2 di per sé è un ottimo indicatore dell’assenza di
autocorrelazione del prim’ordine.
Sfortunatamente, la statistica DW porta con sé anche diversi problemi:
1. DW non è in grado di rilevare autocorrelazioni di ordini superiori al primo; questo limite è indicato chiaramente dalla struttura delle ipotesi di cui alla (31) e rappresenta la ragione principale
per la quale questa statistica non pu`
o essere considerato come un test di autocorrelazione a tutti
gli effetti. Per ovviare a tale inconveniente occorre fare ricorso a vere e proprie procedure di test
di autocorrelazione pi`
u generali come ad esempio il test di Ljung e Box (1978) o, in alcuni casi1 ,
il test di Breusch-Godfrey (1979-1978).
2. come già anticipato, la statistica DW non può essere applicata quando tra i regressori appare la
variabile dipendente ritardata. Nel caso dei modelli ARMA essa sottostima l’autocorrelazione
e si configura perci`
o come uno stimatore distorto per ρ1 . In presenza di grandi campioni un
meccanismo di correzione è fornito dalla statistica h di Durbin
s
T
h = (1 − 0.5DW)
,
(34)
1 − T · V ar(φˆ1 )
dove T · V ar(φˆ1 ) < 1, mentre φˆ1 è la stima del coefficiente associato alla variabile dipendente
ritardata nel modello di regressione lineare. Quando T → ∞ la statistica h si distribuisce come
una variabile casuale normale;
3. la statistica DW soffre del problema delle “zone d’ombra” (o regione di indeterminazione), ovvero
esistono valori per i quali è impossibile stabilire con esattezza se l’ipotesi nulla vada accettata
o rifiutata. Ci`
o accade in quanto le regioni di accettazione e di rifiuto di H0 non sono separate
da un valore critico, bens`ı da un intervallo di valori critici. Intuitivamente, questo problema è
rappresentato in Figura 1.
Sotto l’ipotesi nulla H0 : ρ1 = 0 la distribuzione di DW dipende dalla numerosità del campione
(T ), dal numero di regressori (k) contenuti all’interno di x0t , ma anche dai valori effettivamente
osservati dei regressori stessi: ci`
o da un lato impedisce il calcolo puntuale dei valori critici, ma
dall’altro la conoscenza di T e k ne permette la determinazione di un limite inferiore (dL ) ed
uno superiore (dU ). Questi valori sono stati tabulati da Durbin e Watson (1950) e da Savin e
White (1977) e sono disponibili in Gretl nel men`
u Strumenti/Tavole Statistiche.
Poiché la distribuzione DW è simmetrica, si possono pertanto generare le seguenti situazioni:
- se 0 ≤ DW≤ dL ⇒ ρ1 > 0, quindi si rifiuta H0 ,
- se dL < DW< dU ⇒ il test non fornisce alcuna indicazione chiara (the test is inconclusive),
- se dU ≤ DW≤ 4 − dU ⇒ ρ1 = 0 quindi si accetta H0 ,
- se 4 − dU < DW< 4 − dL ⇒ il test non fornisce alcuna indicazione chiara,
- se 4 − dL ≤ DW≤ 4 ⇒ ρ1 < 0, quindi si rifiuta H0 .
1
Ad esempio, il test di Breusch-Godfrey non pu`
o essere applicato in presenza della componente a media mobile nei
modelli ARMA.
11
Figura 1: Distribuzione della statistica DW con k = 3 e T = 24 (tratta da Cappuccio e Orsi, 2005)
Le zone d’ombra sono date perci`
o dagli intervalli (dL , dU ) e (4 − dU , 4 − dL ) che diminuiscono la
loro ampiezza quando aumenta il valore di T oppure diminuisce il valore di k;
4. la potenza del test DW normalmente è scarsa per specificazioni dell’ipotesi alternativa differenti
dal processo AR(1) εt = φ1 εt−1 + ut (si pensi ad esempio a H1 : εt ∼ MA(1) oppure H1 : εt ∼
RW).
4.2
Test di Breusch-Godfrey
Il test di Breusch (1979)-Godfrey (1978), d’ora in avanti test BG, è utile per stabilire se, all’interno
di un modello lineare dinamico, esiste una qualche dipendenza seriale nelle variazioni della variabile
dipendente. Contrariamente al test di Durbin e Watson (1950) questo test è generale in quanto è in
grado di testare diversi ordini di autocorrelazione seriale e può essere utilizzato anche quando i ritardi
della variabile dipendente sono utilizzati come regressori.
Dal punto di vista tecnico si parte dal modello lineare dinamico di cui all’equazione (29) attraverso
il quale si ottengono i residui
ˆ
εˆt = yt − x0t β.
(35)
La logica del test è la seguente: se c’è un’autocorrelazione non “catturata” dal modello, allora i residui
dovrebbero seguire un processo AR di un qualche ordine q > 0; si consideri pertanto la regressione
ausiliaria
εˆt = x0t δ + ρ1 εˆt−1 + ρ2 εˆt−2 + . . . + ρq εˆt−q + ηt
(36)
nella quale la variabile dipendente è data dalla serie storica dei residui εˆt , mentre la lista dei regressori
è la stessa del modello di partenza a cui sono stati aggiunti tutti i ritardi dei residui fino all’ordine
massimo q.
La struttura delle ipotesi per valutare la presenza di autocorrelazione attraverso l’utilizzo del test
BG è perciò la seguente:
H0 : ρ1 = ρ2 = . . . = ρq = 0
(37)
esiste almeno un ρi 6= 0, con i = 1, 2, . . . , q.
Il test BG si ottiene come test dei moltiplicatori di Lagrange (test LM) calcolato attraverso la regressione ausiliaria (36): in particolare, la statistica test è ottenuta attraverso una comoda approssimazione
asintotica data da
LMBG = T R2 ∼ χ2q ,
(38)
12
dove l’indice R2 si riferisce alla regressione ausiliaria e T è l’ampiezza campionaria2 relativa alla stima
dell’equazione (29).
Poiché è concepito nel contesto del modello OLS, il test BG ha il limite di essere applicabile solo
nel caso di modelli lineari dinamici. Ad esempio, questo test non è mai applicabile in presenza di
termini di media mobile: in questo caso nella regressione ausiliaria si avrebbe perfetta collinearit`
a
dovuta al fatto che i ritardi di εt sono contenuti all’interno del vettore x0t .
4.3
Test di Ljung-Box
Il test di Ljung e Box (1978), d’ora in avanti test LB, rappresenta un test per stabilire se le osservazioni
di una data serie storica sono autocorrelate. Analogamente agli altri test di autocorrelazione, l’ipotesi
nulla prevede l’assenza di autocorrelazione, quindi risulta:
H0 : ρ1 = ρ2 = . . . = ρq = 0
(39)
esiste almeno un ρi 6= 0, con i = 1, 2, . . . , q,
dove ρi (i = 1, 2, . . . , q) rappresenta l’autocorrelazione di ordine i tra le osservazioni. La statistica test
è
q
X
ρî
LB = T (T + 2)
∼ χ2q ,
(40)
T −i
i=1
dove ρî rappresenta l’i-esima autocorrelazione stimata.
Rispetto al test BG, il test LB assume una connotazione pi`
u generale, in quanto risulta essere
applicabile anche per qualsiasi modello di tipo ARMA(p,q). In questo contesto occorre però tenere
presente che l’applicazione del test LB avviene sui residui di un modello stimato e non direttamente
sulla serie storica di interesse; in pratica, l’ipotesi nulla riguarda non implica q restrizioni al modello,
bens`ı un numero inferiore che deve tenere conto della fisiologica perdita di g.d.l. dovuta al fatto che
i residui sono stati ottenuti attrverso p + q ritardi nel modello ARMA stimato. In questo caso, la
distribuzione limite da utilizzare nella procedura di test è quella della v.c. χ2q−p−q .
5
Test di radice unitaria
Questa sezione illustra molto brevemente le caratteristiche principali di due test alternativi al test di
Dickey e Fuller (1979) o test ADF.
5.1
Test di Phillips-Perron
Il test di Phillips e Perron (1988), d’ora in avanti test PP, permette di testare la presenza di una radice
unitaria anche i presenza di dinamiche pi`
u generali rispetto al processo AR(p) utilizzato per derivare
il test ADF. Dal punto di vista analitico, la struttura delle ipotesi è quella di un test ad una coda del
tipo
H0 : ∆yt = εt
(41)
H1 : ∆yt = (φ − 1)yt−1 + εt ,
dove φ < 1 rappresenta il coefficiente del modello AR(1) yt = φyt−1 + εt con εt ∼ W N (0, σ 2 ).
La statistica test PP consiste sostanzialmente in una versione della statistica test di Dickey e
ˆ viene utilizzata la varianza asintotica dello
Fuller (1979) nella quale, al posto della varianza V ar(φ)
stimatore ottenuta attraverso l’espressione
m−1
X
ˆ =
AV ar(φ)
κi γî
(42)
i=−m+1
2
In molti testi l’equazione (38) è presentata nella versione LMBG = (T − q)R2 ∼ χ2q , in quanto la regressione ausiliaria
è effettuata su un campione di (T − q) osservazioni. In realt`
a, affiché la statistica test si distribuisca asintoticamente
cone una v.c. chi quadrato, le prime q osservazioni mancanti devono essere sostituite con valori nulli.
13
dove γî è l’i-esima autocovarianza stimata del processo εt , κi è il peso assegnato a ciascuna autocovarianza, mentre m è il parametro di troncamento che può essere assegnato dall’utente. Il meccanismo di
determinazione dei pesi segue lo schema denominato “tendina di Bartlett (1946)” dato dall’equazione

i


 1 − se |i| < m
m
κi =
(43)



0
altrove
Rispetto al test ADF, il test PP offre i seguenti vantaggi:
(a) è robusto all’eteroschedasticit`
a dell’errore εt ,
(b) non richiede alcuna specificazione del numero dei ritardi all’interno del modello per yt .
Dall’altro lato, Davidson e MacKinnon (2004) mostrano che il test ADF è preferibile al test PP in
campioni finiti.
Analogamente al test ADF, la distribuzione asintotica della statistica test PP non è standard,
quindi i suoi valori critici sono estratti da una distribuzione propria per questo test.
5.2
Test KPSS
Il test KPSS (acronimo derivante dalle iniziali dagli autori Kwiatkowski, Phillips, Schmidt e Shin,
1992) è un test di radice unitaria non parametrico che si basa sulla seguente equazione
yt = bt + µt + εt
(44)
µt = µt−1 + ut
dove t è il trend lineare, µt ∼RW, ut ∼ W N (0, σu2 ), mentre εt è un processo a media nulla e varianza
non necessariamente costante nel tempo (eteroschedasticità). Il KPSS si configura sostanzialmente
come un test di azzeramento della varianza σu2 : sotto l’ipotesi nulla perciò il processo µt è costante nel
tempo ed yt è quindi stazionario. La struttura delle ipotesi è perciò l’inversa di quella dei test ADF e
PP. In pratica, si ha la seguente struttura di test ad una coda
yt ∼ I(0)
H0 : σu2 = 0
(45)
2
H1 : σu > 0
yt ∼ I(1).
La statistica test è data da
T
1 X
KPSS = 2 ∗
St
T γ0
(46)
t=1
dove
- εˆ = yt − µ
ˆ − bt (µt è costante sotto H0 ),
- St =
t
X
εî è un ponte Browniano dato dai valori cumulati dei residui (si noti infatti che S0 =
i=1
ST = 0),
- γ0∗ è la varianza asintorica calcolata attraverso lo stesso procedimento utilizzato per il test PP.
La distribuzione asintotica di tale statistica non è standard, quindi i valori critici per il KPSS sono
calcolati attraverso una distribuzione propria per questo test.
6
Test di normalit`
a
In questa sezione vengono presentati brevemente i test di normalità pi`
u noti in letteratura. Come è
noto, nei modelli dinamici di serie storiche questi test assumono importanza nella fase di diagnostica.
14
6.1
Test di Jarque-Bera
Il test di Jarque e Bera (1980), d’ora in avanti test JB, è un test per stabilire se una serie storica
ha una distribuzione empirica approssimabile ad una distribuzione normale oppure no. In sintesi, la
struttura delle ipotesi è la seguente:
H0 : la serie yt ha distribuzone marginale normale
(47)
H1 : la serie yt ha distribuzone marginale non normale
La statistica di Jarque-Bera è fornita dalla seguente espressione:
2
(γ4 − 3)2
γ3
∼ χ22 ,
+
JB = T
6
24
(48)
dove γ3 e γ4 rappresentano gli indici di asimmetria e di curtosi campionari. La distribuzione asintotica
è quella di una v.c. χ22 , in quanto l’ipotesi nulla di normalità impone l’azzeramento congiunto per
l’indice di asimmetria e per l’eccesso di curtosi (γ4 − 3).
6.2
Test di Doornik-Hansen
da scrivere...
7
Variabili dummy
Nell’ambito dei modelli econometrici di serie storiche, le variabili dummy dt vengono spesso impiegate
come variabili esplicative per interpretare l’impatto di eventi di natura eccezionale come le guerre, le
crisi o le svalutazioni monetarie che esauriscono il loro effetto in corrispondenza di poche osservazioni
campionarie (generalmente una).
Tecnicamente le variabili dummy si configurano come variabili dicotomiche che assumono valore
unitario in corrispondenza della data in cui si osserva la realizzazione dell’evento eccezionale (o outlier ),
mentre assumono valore nulla quando tale evento non si verifica. In riferimento ad un generico modello
dinamico lineare nei parametri del tipo yt = x0t β + δdt + εt si ha che:
yˆt = E(yt |It−1 ) =
x0t βˆ
ˆ t
x0t βˆ + δd
se dt = 0 (al tempo t non si verifica l’evento eccezionale)
se dt = 1 (al tempo t si verifica l’evento eccezionale)
dove It−1 rappresenta il set informativo al tempo (t − 1). Naturalmente il segno del parametro stimato
δˆ indica se, rispetto al valore atteso condizionale di yt , l’outlier assume un valore decisamente pi`
u alto
o pi`
u basso.
Anche se le variabili dummy costituiscono un utile strumento per interpretare i picchi e/o i pavimenti che si osservano nel tempo all’interno dei grafici relativi alle serie storiche, tuttavia non è
una buona abitudine abusare del loro utilizzo. Ciò deriva dal fatto che queste variabili non sono vere
e proprie variabili esplicative perché vengono create ad hoc dall’utente per poter interpretare quei
movimenti che le variabili esplicative “vere” non riescono a catturare.
Un’altra raccomandazione è quella secondo la quale bisogna utilizzare una diversa dummy per
ciascun evento eccezionale. Questa scelta deriva sstanzialmente da due ragioni: dal punto di vista numerico, il coefficiente di una dummy impiegata congiuntamente per un picco ed un pavimento potrebbe
risentire di un qualche effetto di compensazione tale per cui lo stesso coefficiente potrebbe risultare
non significativo; dal punto di vista dell’interpretazione economica, l’utilizzo di una stessa dummy
per pi`
u di un outlier inficierebbe l’analisi perché sarebbe impossibile delineare l’effetto provocato dal
singolo evento eccezionale.
15
Riferimenti bibliografici
Akaike, H. (1974). A new look at the statistical model identification. IEEE Transactions on Automatic
Control, 19(6): 716–723.
Bartlett, M. S. (1946). On the theoretical specification and sampling properties of autocorrelated
time series. Supplement to the Journal of the Royal Statistical Society, 8: 27–41.
Breusch, T. S. (1979). Testing for autocorrelation in dynamic linear models. Australian Economic
Papers, 17: 334–355.
Cappuccio, N. e Orsi, R. (2005). Econometria. Il Mulino. Bologna.
Davidson, R. e MacKinnon, J. G. (2004). Econometric Theory and Methods. Oxford University
Press, New York.
Dickey, D. A. e Fuller, W. A. (1979). Distribution of the estimators for autoregressive time series
with a unit root. Journal of the American Statistical Association, 74(366): 427–431.
Durbin, J. e Watson, G. (1950).
Biometrika, 37: 409–428.
Testing for serial correlation in least squares regression.
Godfrey, L. G. (1978). Testing against general autoregressive and moving average error models
when the regressors include lagged dependent variables. Econometrica, 46: 1293–1302.
Hannan, E. J. e Quinn, B. G. (1979). The determina tion of the order of an autoregression. Journal
of the Royal Statistical Society B, 41: 190–195.
Jarque, C. M. e Bera, A. K. (1980). Efficient tests for normality, homoscedasticity and serial
independence of regression residuals. Economics Letters, 6(3): 255–259.
Kwiatkowski, D., Phillips, P. C. B., Schmidt, P. e Shin, Y. (1992). Testing the null hypothesis
of stationarity against the alternative of a unit root. Journal of Econometrics, 54(1-3): 159–178.
Ljung, G. M. e Box, G. E. P. (1978). On a measure of a lack of fit in time series models.
Biometrika, 65(2): 297–303.
Lucchetti, R. (2001). Appunti di analisi delle serie storiche. Disponibile su www2.econ.univpm.
it/servizi/hpp/lucchetti/didattica/matvario/procstoc.pdf.
Phillips, P. C. B. e Perron, P. (1988). Testing for a unit root in time series regression. Biometrika,
75(2): 335–346.
Savin, N. E. e White, K. J. (1977). The Durbin-Watson test for serial correlation with extreme
sample sizes or many regressors. Econometrica, 45: 1989–1996.
Schwarz, G. E. (1978). Estimating the dimension of a model. Annals of Statistics, 6(2): 461–464.
Verbeek, M. (2010). Econometria. Zanichelli. Bologna.
16

Download Report