Dispensa di Econometria delle Serie Storiche Giulio Palomba (semilavorato) Ultima modifica: ottobre 2014 Premessa Queste pagine comprendono alcuni argomenti del programma del corso di Econometria delle Serie Storiche che non hanno trovato e/o che non trovano posto nella dispensa di Jack Lucchetti, Appunti di analisi delle serie storiche. Gli argomenti trattati in queste pagine perci`o appartengono di diritto al programma del corso e, come tali, possono costituire oggetto di domande all’esame. Gli argomenti esposti perci` o non seguono perci`o un filo/nesso logico, ma sono semplicemente presentati in ordine sparso. Indice 1 L’OLS come stimatore ML 1.1 Lo stimatore ML nel modello lineare classico . . . . . . . . . . . . . . . . . . . . . . . 1.2 Il modello OLS vincolato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 5 2 I test classici di verosimiglianza nel modello OLS 2.1 Test LR . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Test LM . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Test W . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Relazioni tra i test LR, LM, W . . . . . . . . . . . 2.5 Relazione dei test LR, LM, W con il test F . . . . 6 6 7 7 8 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Criteri informativi 9 4 Test di autocorrelazione 4.1 Test di Durbin-Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Test di Breusch-Godfrey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Test di Ljung-Box . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 10 12 13 5 Test di radice unitaria 5.1 Test di Phillips-Perron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Test KPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 13 14 6 Test di normalit` a 6.1 Test di Jarque-Bera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Test di Doornik-Hansen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 15 15 7 Variabili dummy 15 1 1 L’OLS come stimatore ML ` noto che una delle caratteristiche distintive del modello lineare classico o dei minimi quadrati ordinari E (OLS) `e quella che non occorre specificare una distribuzione per l’errore (ε) all’interno dell’equazione y = Xβ + ε, (1) dove y `e la variabile dipendente di dimensione T × 1, X `e la matrice dei regressori di dimensione T × k e β, vettore k × 1, `e l’incognito vettore dei parametri. In questo contesto, semplicemente imponendo le ipotesi “classiche” (incorrelazione tra regressori e termine d’errore, linearit`a del modello e rango colonna pieno di X), si ottiene lo stimatore βˆ = (X 0 X)−1 X 0 y (2) che, in campioni finiti, risulta essere corretto e Best Linear Unbiased Estimator (BLUE). Imponendo l’ulteriore ipotesi classica di omoschedasticit`a ε ∼ i.i.d.(0, σ 2 IT ), dove IT `e una matrice identit` a di dimensione T × T , non `e difficile dimostrare che, per T → ∞, lo stimatore gode delle fondamentali propriet`a della consistenza e della distribuzione asintotica normale. 1.1 Lo stimatore ML nel modello lineare classico Stimare i valori del parametro β e quello della varianza σ 2 attraverso lo stimatore (2) non `e l’unico metodo di stima applicabile nell’ambito del modello lineare classico. Un’alternativa possibile `e rappresentata dallo stimatore di massima verosimiglianza (ML) che, per definizione, ritorna anch’esso stime consistenti ed asintoticamente normali. Tuttavia, le propriet`a in campioni finiti di correttezza e di stimatore BLUE decadono, ma ci` o non ha grande rilevanza se si pensa che di norma l’inferenza statistica viene condotta utilizzando i risultati di teoria asintotica. Fermo restando la validit` a di tutte le ipotesi classiche, l’utilizzo dello stimatore ML necessariamente impone l’assegnazione di una qualche distribuzione al vettore ε. In questa sezione si discuter`a il caso standard in cui il termine di errore del modello OLS abbia distribuzione multinormale ε ∼ N (0, σ 2 IT ). (3) L’imposizione di questa condizione permette di applicare il metodo ML, quindi di determinare una forma analitica per la funzione di verosimiglianza costruita su ε che risulta essere: T Y 1 ε0 ε 2 −1 √ |σIT | exp − 2 L(y, X; β, σ ) = 2σ 2π i=1 T T (y − Xβ)0 (y − Xβ) = (2π)− 2 (σ 2 )− 2 exp − , (4) 2σ 2 dove |IT | = 1 `e il determinante della matrice identit`a. La log-verosimiglianza `e perci`o `(y, X; β, σ 2 ) = − T T (y − Xβ)0 (y − Xβ) ln(2π) − ln σ 2 − 2 2 2σ 2 (5) oppure, in forma pi` u compatta, T T ε0 ε ln(2π) − ln σ 2 − 2 . (6) 2 2 2σ Lo score si configura come il vettore gradiente contenente k + 1 derivate, k rispetto ai parametri contenuti in β a cui si aggiunge la derivata relativa a σ 2 ; dal punto di vista analitico si ottiene X 0 y − X 0 Xβ X 0ε σ2 σ2 2 s(y, X; β, σ ) = (7) = . T (y − Xβ)0 (y − Xβ) T ε0 ε − 2+ − 2+ 4 2σ 2σ 4 2σ 2σ `(y, X; β, σ 2 ) = − 2 Applicando le condizioni del primo ordine sullo score, si ottiene il sistema 0 X y − X 0 Xβ = 0 (8) 0 −T + (y − Xβ) (y − Xβ) σ2 dal quale si ottengono le soluzioni 0 −1 0 ˆ β = (X X) X y (9) εˆ0 εˆ σ ˆ2 = T dove εˆ = y − X βˆ `e il residuo ottenuto a seguito della stima OLS. Dalla prima equazione emerge chiaramente che, per i parametri relativi alla media condizionale E(y|X), la soluzione ottenuta attraverso lo stimatore ML sotto l’ipotesi di normalit`a dell’errore coincide esattamente con quella dello stimatore OLS. Dal punto di vista analitico, questa soluzione scaturisce essenzialmente dal fatto che la prima equazione dello score di cui alla (8) di fatto coincide con la condizione di ortogonalit` a imposta dal metodo OLS quando si cerca di ottenere il valore minimo della funzione obiettivo S(β) = ε0 ε = (y − Xβ)0 (y − Xβ). Nella seconda equazione lo stimatore per l’incognito parametro σ 2 `e dato dallo stimatore varianza campionaria che, come `e noto, non contiene il meccanismo di correzione per i g.d.l. previsto nel metodo OLS; ci`o significa che lo stimatore ottenuto non `e corretto in quanto E(ˆ σ 2 ) 6= σ 2 , resta comunque consistente, in quanto la distorsione δσˆ 2 = E(ˆ σ 2 − sˆ2 ) T −k 2 = σ − σ2 T k = − σ2 T tende a zero quando T → ∞. La matrice di informazione di Fisher pu`o essere calcolata in due modi diversi: (a) attraverso la matrice Hessiana 2 ∂ `(Y, X; β, σ 2 ) ∂β 2 2 I(β, σ ) = −E ∂ 2 `(Y, X; β, σ 2 ) ∂σ 2 ∂β 0 ∂ 2 `(Y, X; β, σ 2 ) 1 0 ∂β∂σ 2 2X X = σ 0 ∂ 2 `(Y, X; β, σ 2 ) 2 2 ∂(σ ) 0 T 2σ 4 (10) (b) attraverso l’Outer Product Gradient (OPG): 0 ∂`(Y, X; β, σ 2 ) ∂`(Y, X; β, σ 2 ) ∂β ∂β 2 I(β, σ ) = E ∂`(Y, X; β, σ 2 ) ∂`(Y, X; β, σ 2 ) 0 ∂σ 2 ∂β ∂`(Y, X; β, σ 2 ) ∂`(Y, X; β, σ 2 ) ∂β ∂σ 2 = E(S 0 S) 2 2 ∂`(Y, X; β, σ ) ∂`(Y, X; β, σ ) ∂σ 2 ∂σ 2 dove S = [s1 (y, X; β, σ 2 ) s2 (y, X; β, σ 2 ) 3 ... sT (y, X; β, σ 2 )]0 . Considerando la funzione score per la t-esima osservazione si ottiene perci`o It (β, σ 2 ) = E st (y, X; β, σ 2 )st (y, X; β, σ 2 )0 1 εt x t 0 σ2 x t εt 1 ε2t = E − 2+ 4 2 2 σ 2σ 2σ 1 ε − 2 + t4 2σ 2σ 1 ε2t 1 2 0 E(εt )xt xt − 2 + 4 E(εt xt ) σ4 2σ 2σ = 1 1 ε2t E(ε2t ) E(ε4t ) 0 E(εt xt ) − 2 + 4 − 2 + 2σ 2σ 4σ 4 4σ 6 4σ 8 1 0 0 σ 2 xt xt = 2 3 1 0 − + 0 4σ 4 4σ 4 4σ 4 dove εt e xt rappresentano rispettivamente la t-esima osservazione per il vettore ε e la t-esima colonna della matrice dei regressori X. Dato che, per le ipotesi del modello lineare classico, valgono E(x0t εt ) = 00 , E(εt xt ) = 0 e E(ε2t ) = σ 2 , mentre se εt ∼ N (0, σ 2 ) allora E(ε4t ) = 3σ 2 , risulta I(β, σ 2 ) = n X It (β, σ 2 ) i=1 1 0 n X x x 0 σ2 t t = 1 0 i=1 2σ 4 1 0 XX 0 = σ2 n 0 2σ 4 (11) Propriet`a: • generalmente le equazioni (10) e (11) non coincidono. Esse coincidono solo nel caso in cui la funzione di verosimiglianza sia correttamente specificata; • l’equazione (10) ha migliori propriet`a in campioni finiti; • l’equazione (11) richiede di valutare il contributo individuale di tutte le osservazioni. Di conseguenza, la matrice stimata delle covarianze dei parametri, che coincide con l’estremo di Cram´er-Rao, `e σ 2 (X 0 X)−1 0 I(β, σ 2 )−1 = (12) 2σ 4 . 0 T Da questa espressione derivano le seguenti distribuzioni asintotiche per gli stimatori ML di β e σ 2 √ √ d d T (βˆ − β) −→ N 0, σ 2 Σ−1 e T (ˆ σ 2 − σ 2 ) −→ N (0, 2σ 4 ), XX T 1 0 1X XX= xt x0t . T T t=1 Una volta ottenute tutte le grandezze ottenibili attraverso il metodo ML, `e possibile utilizzare gli strumenti standard di questo contesto per condurre opportuni procedimenti di inferenza statistica. dove ΣXX = 4 1.2 Il modello OLS vincolato L’equazione (2) `e quella dello stimatore ottenuto minimizzando la somma dei quadrati degli errori ` tuttavia possibile stimare lo stesso vettore dei rispetto ai valori contenuti all’interno del vettore β. E parametri del modello lineare in presenza di un vincolo introdotto attraverso l’imposizione di un’ipotesi nulla H0 . Il problema della stima dei minimi quadrati ordinari diviene perci`o un problema di ricerca di un minimo sotto vincolo, cio`e min ε0 ε = (y − Xβ)0 (y − Xβ) (13) sub H0 : g(β) = 0 R R dove g(β) : k −→ q `e una funzione continua e differenziabile in β che proietta lo spazio kdimensionale delle righe di β in un spazio con q ≤ k dimensioni; in altri termini, q `e il numero di vincoli imposti sulle k componenti di β. Per semplicit`a, e senza perdit`a di generalit`a, tutta l’analisi sar`a condotta nel caso di vincolo lineare contenuto all’interno dell’ipotesi nulla `e H0 : Rβ = r, (14) dove R `e una matrice q × k e r `e un vettore di dimensione q. Per determinare la soluzione del problema (13) si applica il metodo di Lagrange. Il Lagrangiano `e perci`o Λ(β, λ) = (y − Xβ)0 (y − Xβ) + λ0 (Rβ − r), dove λ `e il vettore di dimensione q contenente i moltiplicatori di Lagrange. In Economia essi vengono definiti come prezzi ombra: ciascun elemento del vettore λ rappresenta l’incremento della funzione obiettivo a seguito di una variazione “piccola” del vincolo corrispondente. Applicando le condizioni del primo ordine si ha ∂Λ(β, λ) =0 2X 0 (y − Xβ) + R0 λ = 0 ∂β ⇒ ∂Λ(β, λ) Rβ − r = 0, =0 ∂λ ∂(Rβ − r) dove R = `e la matrice Jacobiana di dimensione q × k. Dopo un po’ di algebra, le soluzioni ∂β sono 1 0 −1 0 β˜ = βˆ − (X X) R λ β˜ = βˆ − (X 0 X)−1 R0 [R(X 0 X)−1 R0 ]−1 (Rβˆ − r) 2 (15) ⇒ ˜ (Rβˆ − r) − 1 (X 0 X)−1 R0 λ = 0 λ = 2[R(X 0 X)−1 R0 ]−1 (Rβˆ − r), 2 dove βˆ `e lo stimatore OLS, mentre β˜ `e lo stimatore relativo al modello vincolato. Si noti che esso `e uno stimatore corretto solamente nel caso in cui il vincolo Rβ = r sia soddisfatto. Sfruttando la propriet`a X 0 εˆ = 0 e definendo inoltre il residuo del modello vincolato come ε˜ = y − X β˜ = y − X βˆ − X β˜ + X βˆ ˆ = εˆ − X(β˜ − β), si ottiene la seguente relazione relativa alla somma dei quadrati dei residui ˆ 0 [ˆ ˆ ε˜0 ε˜ = [ˆ ε − X(β˜ − β)] ε − X(β˜ − β)] ˆ 0 X 0 X(β˜ − β). ˆ = εˆ0 εˆ + (β˜ − β) 5 (16) Sostituendo a β˜ la sua definizione di cui alla (15), `e piuttosto semplice ottenere quanto segue ˆ 0 X 0 X(β˜ − β) ˆ ε˜0 ε˜ − εˆ0 εˆ = (β˜ − β) 0 −1 0 ˆ 0X 0 = {βˆ − (X X) R [R(X 0 X)−1 R0 ]−1 (Rβˆ − r) − β} ˆ X{βˆ − (X 0 X)−1 R0 [R(X 0 X)−1 R0 ]−1 (Rβˆ − r) − β} = (Rβˆ − r)[R(X 0 X)−1 R0 ]−1 R(X 0 X)−1 X 0 X(X 0 X)−1 R0 [R(X 0 X)−1 R0 ]−1 (Rβˆ − r) = (Rβˆ − r)[R(X 0 X)−1 R0 ]−1 (Rβˆ − r). (17) L’equazione (17) indica che la differenza tra la somma dei quadrati dei residui nel modello vincolato e la somma dei quadrati dei residui nel modello libero `e esprimibile come una forma quadratica (definita positiva) in Rβˆ − r; tale vettore risulta essere nullo solo nel caso in cui lo stimatore βˆ soddisfa il ˜ vincolo, quindi non `e significativamente diverso da β. Utilizzando inoltre la definizione di cui alla (15), risulta anche ˜ 0 R(X 0 X)−1 R0 λ, ˜ ε˜0 ε˜ − εˆ0 εˆ = λ (18) ˜ che vale zero solo questo si annulla. che corrisponde ad una forma quadratica nel vettore λ 2 I test classici di verosimiglianza nel modello OLS In questa sezione saranno fornite le equazioni dei tre test classici di verosimiglianza LR, LM e W. Come `e noto, asintoticamente i tre test sono equivalenti ed hanno distribuzione χ2q dove q `e il numero di vincoli imposti da H0 . Tuttavia, per campioni finiti e sotto l’ipotesi di normalit`a (3), vale la gerarchia (alfabetica) LM ≤ LR ≤ W. Anche nel contesto del modello OLS resta valida la propriet`a secondo la quale occorre conoscere il ˆ σ ˜ σ solo modello libero (β, ˆ , εˆ) nel caso del test W, del solo modello vincolato (β, ˜ , ε˜) nel caso del test LM ed entrambi i modelli nel caso del test LR. 2.1 Test LR Applicando semplicemente la definizione formale risulta ˆ σ ˜ σ LR = 2[`(y, X; β, ˆ 2 ) − `(y, X; β, ˜ 2 )] T εˆ0 εˆ T ε˜0 ε˜ 2 2 = 2 − ln σ ˆ − 2 + ln σ ˜ + 2 2 2ˆ σ 2 2˜ σ 2 2 Tσ ˆ Tσ ˜ ˜2 + 2 = −T ln σ ˆ 2 − 2 + T ln σ σ ˆ σ ˜ = T [ln σ ˜ 2 − ln σ ˆ2] 2 0 σ ˜ ε˜ ε˜ = T ln = T ln 0 . 2 σ ˆ εˆ εˆ 6 (19) 2.2 Test LM Applicando la definizione si ha ˜ σ ˜ σ ˜ σ LM = s(y, X; β, ˜ 2 )0 I(β, ˜ 2 )−1 s(y, X; β, ˜2) ˜ 2 (X 0 X)−1 0 σ 0 0 T ε˜ X ε˜ ε˜ = − 2 2˜ σ4 σ ˜ 2 2˜ σ4 σ ˜ 0 T 0 X ε˜ σ ˜2 0 ε˜ X(X 0 X)−1 0 = ε˜0 ε˜ T − 2 2˜ σ4 σ ˜ ε˜0 X(X 0 X)−1 X 0 ε˜ = σ ˜2 0 ε˜ X(X 0 X)−1 X 0 ε˜ = T ε˜0 ε˜ 0 ε˜ PX ε˜ = T 0 , ε˜ ε˜ X 0 ε˜ σ ˜2 ε˜0 ε˜ T − 2 4 2˜ σ σ ˜ (20) dove PX = X(X 0 X)−1 X 0 , `e la matrice simmetrica ed idempotente di proiezione per cui vale PX X = X 0 PX = X. In pratica, il test risulta essere LM = T R2 , (21) dove l’R2 `e quello di una regressione ausilaria di ε˜ su X. Questo risultato `e molto importante perch´e diversi test di specificazione e diagnostica in econometria sono test LM in cui la statistica test `e esprimibile come il prodotto della numerosit`a campionaria per l’indice di determinazione di un qualche regressione ausiliaria. ` possibile ottenere un’equazione alternativa del test LM come segue E LM = T = T = = = = = 2.3 ε˜0 PX ε˜ ε˜0 ε˜ ˜ 0 PX PX (y − βX) ˜ (y − βX) ε˜0 ε˜ y 0 PX PX y − 2β˜0 X 0 PX PX y + β˜0 X 0 PX PX X β˜ T ε˜0 ε˜ βˆ0 X 0 X βˆ − 2β˜0 X 0 X βˆ + β˜0 X 0 X β˜ T ε˜0 ε˜ 0 0 ˆ X X(β˜ − β) ˆ (β˜ − β) T 0 ε˜ ε˜ ε˜0 ε˜ − εˆ0 εˆ T ε˜0 ε˜ 2 σ ˜ −σ ˆ2 T σ ˜2 (22) Test W Poich´e la statistica test W `e definita come −1 ˆ ˆ ˆ W = g(β)[J(β)V ar(β)J(β)] g(β), 7 (23) imponendo il vincolo lineare g(β) = Rβ − r, si ha ˆ 0 ]−1 (Rβˆ − r) W = (Rβˆ − r)[RV ar(β)R (Rβˆ − r)[R(X 0 X)−1 R0 ]−1 (Rβˆ − r) = σ ˆ2 (Rβˆ − r)[R(X 0 X)−1 R0 ]−1 (Rβˆ − r) = T , εˆ0 εˆ (24) utilizzando l’equazione (17) risulta piuttosto agevole dimostrare che vale anche W=T 2.4 ε˜0 ε˜ − εˆ0 εˆ σ ˜2 − σ ˆ2 . =n 0 2 εˆ εˆ σ ˆ (25) Relazioni tra i test LR, LM, W Dalle equazioni (19), (22) e (25) risulta 2 σ ˜2 − σ ˆ2 W σ ˜ = T ln 1 + = T ln 1 + LR = T ln σ ˆ2 σ ˆ2 T σ ˆ2 σ ˜2 − σ ˆ2 = W LM = n σ ˜2 σ ˜2 σ ˜2 − σ ˆ2 W=T , 2 σ ˆ quindi • asintoticamente le tre statistiche test sono equivalenti, poich´e lim (LR − LM) = lim (LR − W) = lim (LM − W) = 0, n→∞ n→∞ n→∞ • in campioni finiti vale W – W≥LR ⇒ W ≥ T ln 1 + ⇒ T W σ ˆ2 ≥ 2W – LR≥LM ⇒ T ln 1 + T σ ˜ W T per ∀ W> 0; W 1+ T – LM≥W per la propriet` a transitiva. W W ≥ ln 1 + per ∀ W> 0; T T W 1 W ⇒ ln 1 + ≥ 2 T T σ ˜ +1−1 2 σ ˆ ⇒ W ln 1 + ≥ T 2.5 Relazione dei test LR, LM, W con il test F I tre test classici, oltre ad essere tra loro in relazione, possono essere espressi in funzione del test F. Partendo dalla definizione formale di quest’ultimo si ottiene Fq,T −k = = = ε˜0 ε˜ − εˆ0 εˆ T − k εˆ0 εˆ q σ ˜−σ ˆT −k σ ˆ q T −k W. Tq 8 (26) Calcolando la funzione inversa risulta q F LR = T ln 1 + q,T −k T −k T qFq,T −k W −1 T q σ ˆ Tq Fq,T −k = 1 − Fq,T −k = LM = σ ˜T −k T T −k T − k + qFq,T −k Tq W= Fq,T −k T −k (27) Per le propriet`a della v.c. F di Snedecor risulta che i test LR, LM e W hanno distribuzione χ2q quando T → ∞. 3 Criteri informativi I criteri informativi (IC) rappresentano degli strumenti sintetici molto utili nella fase di specificazione di un modello econometrico. Come `e noto, la scelta di quante (e quali) variabili esplicative utilizzare rappresenta la soluzione di un trade off : aggiungendo variabili (non collineari) infatti non si peggiora la capacit`a esplicativa del modello ma, dall’altro lato, si rischia di “imbottire” l’equazione di una o pi` u variabili che non migliorano tale capacit` a in maniera rilevante. In altri termini pi` u tecnici, l’aggiunta di variabili comporta che: (a) il valore della log-verosimiglianza non diminuisce, (b) il numero dei parametri incogniti da stimare aumenta, quindi il modello `e meno parsimonioso. I criteri informativi consistono in un’equazione pensata per gestire questa contraddizione, infatti la loro formulazione `e generalmente del tipo IC = f (`(θˆ), k ) (−) (28) (+) ˆ `e la log-verosimiglianza calcolata in corrispondenza del valore stimato per il vettore dei dove `(θ) parametri del modello, mentre k `e il numero dei parametri, quindi il numero delle componenti di θ. I segni indicati tra parentesi indicano la relazione esistente tra i valori assunti del criterio informativo e le variabili su cui esso `e determinato. La logica `e pertanto piuttosto semplice: dato che un aumento del numero dei parametri implica una non diminuzione della log-verosimiglianza, il criterio informativo `e costruito in maniera tale da diminuire al crescere della verosimiglianza, mentre cresce in valore quando il numero dei parametri k aumenta. Nello specifico, i tre criteri informativi pi` u utilizzati in letteratura sono i seguenti: ˆ + 2k, 1. Criterio di Akaike (1974): AIC= −2`(θ) ˆ + k log T , 2. Criterio di Schwarz (1978) o Criterio Bayesiano: BIC= −2`(θ) ˆ + 2k log log T . 3. Criterio di Hannan e Quinn (1979): HQC= −2`(θ) Dal punto di vista pratico, i tre criteri informativi vengono solitamente forniti dai software statisticoeconometrici in coda a ciascun modello stimato. Tra i diversi modelli stimati, la “migliore specificazione” corrisponde a quello per il quale i criteri informativi assumono valore minimo. Naturalmente, pu` o accadere che i tre criteri proposti siano in conflitto tra loro, selezionando diverse specificazioni: in questo caso, nella prassi si tende a preferire i criteri BIC e HQC poich´e `e nota la tendenza del criterio AIC a preferire modelli caratterizati da un numero di parametri molto pi` u elevato. La scelta tra i criteri BIC e HQC, molto simili dal punto d vista della loro definizione analitica, viene invece lasciata sostanzialmente all’utente, poich´e non esistono ragioni fondate per preferire un criterio rispetto all’altro. 9 4 Test di autocorrelazione 4.1 Test di Durbin-Watson Il primo tentativo di effettuare un test di autocorrelazione per un modello lineare di serie storiche del tipo yt = x0t β + εt con εt ∼ W N (0, σ 2 ) (29) `e molto conosciuto in letteratura ed `e noto come statistica di Durbin e Watson (1950). Tale approccio in realt`a non `e un vero e proprio test, ma rappresenta piuttosto una statistica i cui valori dovrebbero indicare se i residui del modello lineare mostrano una qualche autocorrelazione rilevante del prim’ordine. Oltre a costituire un “classico” nella fase di diagnostica relativa ad un modello lineare di serie storiche, la statistica di Durbin e Watson (DW) ha senza dubbio il merito di fornire in maniera rapida un’indicazione della presenza/assenza di autocorrelazione nei residui. Per questa ragione la quasi totalit`a dei pacchetti statistico-econometrici (quindi anche Gretl) ritorna il suo valore automaticamente all’interno delle regression statistic che fanno seguito alla stima del modello (29). La statistica DW si caratterizza per la propriet`a di avere una distribuzione nota in campioni finiti solamente sotto le seguenti ipotesi piuttosto restrittive (Verbeek, 2010): 1. deve essere possibile trattare le xt come deterministiche. Questa ipotesi `e fondamentale in quanto richiede che tutti che tutti i termini di errore εt siano indipendenti da tutte le variabili esplicative secondo la nota relazione (di Gauss-Markov) x0t ⊥ εt ≈ E(x0t εt ) = 0. (30) Ancora pi` u rilevante `e il fatto che questa condizione di fatto impedisce l’utilizzo di variabili dipendenti ritardate all’interno dei regressori; 2. i regressori xt devono necessariamente contenere un’intercetta. La struttura delle ipotesi per valutare la presenza di autocorrelazione attraverso l’utilizzo di DW `e la seguente: H0 : ρ1 = 0 assenza di autocorrelazione di ordine 1 (31) H0 : ρ1 6= 0 autocorrelazione di ordine 1 Dal punto di vista formale la statistica di Durbin-Watson (DW) `e data da T X DW = (ˆ εt − εˆt−1 )2 t=2 T X , (32) εˆ2t t=1 dove εˆt `e il residuo OLS. In pratica, questa statistica mette in rapporto la media campionaria dei quadrati della differenza tra le serie dei residui e quella ritardata di un periodo (da qui deriva il fatto che la sommatoria parte da t = 2) con la varianza campionaria o momento secondo campionario dei residui stessi. Con un po’ di algebra e per “elevati” valori della numerosit`a campionaria T si ottiene T X DW = εˆ2t −2 t=2 T X εˆt εˆt−1 + t=2 T X T X t=2 εˆ2t−1 2 ≈ εˆ2t t=1 DW ≈ 2 1 − T X T X εˆ2t −2 t=2 T X εˆt εˆt−1 t=2 T X εˆ2t t=1 εˆt εˆt−1 t=2 = 2(1 − ρˆ1 ), T X εˆ2t t=1 10 (33) dove ρˆ1 `e il coefficiente stimato di autocorrelazione del primo ordine. Analizzando i casi “estremi” `e piuttosto evidente che: • sotto H0 risulta ρˆ = 0, quindi DW≈ 2, • in caso di correlazione positiva perfetta risulta ρˆ = 1, quindi DW≈ 0, • in caso di correlazione negativa perfetta risulta ρˆ = −1, quindi DW≈ 4. Praticamente, un valore di DW prossimo al valore 2 di per s´e `e un ottimo indicatore dell’assenza di autocorrelazione del prim’ordine. Sfortunatamente, la statistica DW porta con s´e anche diversi problemi: 1. DW non `e in grado di rilevare autocorrelazioni di ordini superiori al primo; questo limite `e indicato chiaramente dalla struttura delle ipotesi di cui alla (31) e rappresenta la ragione principale per la quale questa statistica non pu` o essere considerato come un test di autocorrelazione a tutti gli effetti. Per ovviare a tale inconveniente occorre fare ricorso a vere e proprie procedure di test di autocorrelazione pi` u generali come ad esempio il test di Ljung e Box (1978) o, in alcuni casi1 , il test di Breusch-Godfrey (1979-1978). 2. come gi`a anticipato, la statistica DW non pu`o essere applicata quando tra i regressori appare la variabile dipendente ritardata. Nel caso dei modelli ARMA essa sottostima l’autocorrelazione e si configura perci` o come uno stimatore distorto per ρ1 . In presenza di grandi campioni un meccanismo di correzione `e fornito dalla statistica h di Durbin s T h = (1 − 0.5DW) , (34) 1 − T · V ar(φˆ1 ) dove T · V ar(φˆ1 ) < 1, mentre φˆ1 `e la stima del coefficiente associato alla variabile dipendente ritardata nel modello di regressione lineare. Quando T → ∞ la statistica h si distribuisce come una variabile casuale normale; 3. la statistica DW soffre del problema delle “zone d’ombra” (o regione di indeterminazione), ovvero esistono valori per i quali `e impossibile stabilire con esattezza se l’ipotesi nulla vada accettata o rifiutata. Ci` o accade in quanto le regioni di accettazione e di rifiuto di H0 non sono separate da un valore critico, bens`ı da un intervallo di valori critici. Intuitivamente, questo problema `e rappresentato in Figura 1. Sotto l’ipotesi nulla H0 : ρ1 = 0 la distribuzione di DW dipende dalla numerosit`a del campione (T ), dal numero di regressori (k) contenuti all’interno di x0t , ma anche dai valori effettivamente osservati dei regressori stessi: ci` o da un lato impedisce il calcolo puntuale dei valori critici, ma dall’altro la conoscenza di T e k ne permette la determinazione di un limite inferiore (dL ) ed uno superiore (dU ). Questi valori sono stati tabulati da Durbin e Watson (1950) e da Savin e White (1977) e sono disponibili in Gretl nel men` u Strumenti/Tavole Statistiche. Poich´e la distribuzione DW `e simmetrica, si possono pertanto generare le seguenti situazioni: - se 0 ≤ DW≤ dL ⇒ ρ1 > 0, quindi si rifiuta H0 , - se dL < DW< dU ⇒ il test non fornisce alcuna indicazione chiara (the test is inconclusive), - se dU ≤ DW≤ 4 − dU ⇒ ρ1 = 0 quindi si accetta H0 , - se 4 − dU < DW< 4 − dL ⇒ il test non fornisce alcuna indicazione chiara, - se 4 − dL ≤ DW≤ 4 ⇒ ρ1 < 0, quindi si rifiuta H0 . 1 Ad esempio, il test di Breusch-Godfrey non pu` o essere applicato in presenza della componente a media mobile nei modelli ARMA. 11 Figura 1: Distribuzione della statistica DW con k = 3 e T = 24 (tratta da Cappuccio e Orsi, 2005) Le zone d’ombra sono date perci` o dagli intervalli (dL , dU ) e (4 − dU , 4 − dL ) che diminuiscono la loro ampiezza quando aumenta il valore di T oppure diminuisce il valore di k; 4. la potenza del test DW normalmente `e scarsa per specificazioni dell’ipotesi alternativa differenti dal processo AR(1) εt = φ1 εt−1 + ut (si pensi ad esempio a H1 : εt ∼ MA(1) oppure H1 : εt ∼ RW). 4.2 Test di Breusch-Godfrey Il test di Breusch (1979)-Godfrey (1978), d’ora in avanti test BG, `e utile per stabilire se, all’interno di un modello lineare dinamico, esiste una qualche dipendenza seriale nelle variazioni della variabile dipendente. Contrariamente al test di Durbin e Watson (1950) questo test `e generale in quanto `e in grado di testare diversi ordini di autocorrelazione seriale e pu`o essere utilizzato anche quando i ritardi della variabile dipendente sono utilizzati come regressori. Dal punto di vista tecnico si parte dal modello lineare dinamico di cui all’equazione (29) attraverso il quale si ottengono i residui ˆ εˆt = yt − x0t β. (35) La logica del test `e la seguente: se c’`e un’autocorrelazione non “catturata” dal modello, allora i residui dovrebbero seguire un processo AR di un qualche ordine q > 0; si consideri pertanto la regressione ausiliaria εˆt = x0t δ + ρ1 εˆt−1 + ρ2 εˆt−2 + . . . + ρq εˆt−q + ηt (36) nella quale la variabile dipendente `e data dalla serie storica dei residui εˆt , mentre la lista dei regressori `e la stessa del modello di partenza a cui sono stati aggiunti tutti i ritardi dei residui fino all’ordine massimo q. La struttura delle ipotesi per valutare la presenza di autocorrelazione attraverso l’utilizzo del test BG `e perci`o la seguente: H0 : ρ1 = ρ2 = . . . = ρq = 0 (37) esiste almeno un ρi 6= 0, con i = 1, 2, . . . , q. Il test BG si ottiene come test dei moltiplicatori di Lagrange (test LM) calcolato attraverso la regressione ausiliaria (36): in particolare, la statistica test `e ottenuta attraverso una comoda approssimazione asintotica data da LMBG = T R2 ∼ χ2q , (38) 12 dove l’indice R2 si riferisce alla regressione ausiliaria e T `e l’ampiezza campionaria2 relativa alla stima dell’equazione (29). Poich´e `e concepito nel contesto del modello OLS, il test BG ha il limite di essere applicabile solo nel caso di modelli lineari dinamici. Ad esempio, questo test non `e mai applicabile in presenza di termini di media mobile: in questo caso nella regressione ausiliaria si avrebbe perfetta collinearit` a dovuta al fatto che i ritardi di εt sono contenuti all’interno del vettore x0t . 4.3 Test di Ljung-Box Il test di Ljung e Box (1978), d’ora in avanti test LB, rappresenta un test per stabilire se le osservazioni di una data serie storica sono autocorrelate. Analogamente agli altri test di autocorrelazione, l’ipotesi nulla prevede l’assenza di autocorrelazione, quindi risulta: H0 : ρ1 = ρ2 = . . . = ρq = 0 (39) esiste almeno un ρi 6= 0, con i = 1, 2, . . . , q, dove ρi (i = 1, 2, . . . , q) rappresenta l’autocorrelazione di ordine i tra le osservazioni. La statistica test `e q X ρˆi LB = T (T + 2) ∼ χ2q , (40) T −i i=1 dove ρˆi rappresenta l’i-esima autocorrelazione stimata. Rispetto al test BG, il test LB assume una connotazione pi` u generale, in quanto risulta essere applicabile anche per qualsiasi modello di tipo ARMA(p,q). In questo contesto occorre per`o tenere presente che l’applicazione del test LB avviene sui residui di un modello stimato e non direttamente sulla serie storica di interesse; in pratica, l’ipotesi nulla riguarda non implica q restrizioni al modello, bens`ı un numero inferiore che deve tenere conto della fisiologica perdita di g.d.l. dovuta al fatto che i residui sono stati ottenuti attrverso p + q ritardi nel modello ARMA stimato. In questo caso, la distribuzione limite da utilizzare nella procedura di test `e quella della v.c. χ2q−p−q . 5 Test di radice unitaria Questa sezione illustra molto brevemente le caratteristiche principali di due test alternativi al test di Dickey e Fuller (1979) o test ADF. 5.1 Test di Phillips-Perron Il test di Phillips e Perron (1988), d’ora in avanti test PP, permette di testare la presenza di una radice unitaria anche i presenza di dinamiche pi` u generali rispetto al processo AR(p) utilizzato per derivare il test ADF. Dal punto di vista analitico, la struttura delle ipotesi `e quella di un test ad una coda del tipo H0 : ∆yt = εt (41) H1 : ∆yt = (φ − 1)yt−1 + εt , dove φ < 1 rappresenta il coefficiente del modello AR(1) yt = φyt−1 + εt con εt ∼ W N (0, σ 2 ). La statistica test PP consiste sostanzialmente in una versione della statistica test di Dickey e ˆ viene utilizzata la varianza asintotica dello Fuller (1979) nella quale, al posto della varianza V ar(φ) stimatore ottenuta attraverso l’espressione m−1 X ˆ = AV ar(φ) κi γˆi (42) i=−m+1 2 In molti testi l’equazione (38) `e presentata nella versione LMBG = (T − q)R2 ∼ χ2q , in quanto la regressione ausiliaria `e effettuata su un campione di (T − q) osservazioni. In realt` a, affich´e la statistica test si distribuisca asintoticamente cone una v.c. chi quadrato, le prime q osservazioni mancanti devono essere sostituite con valori nulli. 13 dove γˆi `e l’i-esima autocovarianza stimata del processo εt , κi `e il peso assegnato a ciascuna autocovarianza, mentre m `e il parametro di troncamento che pu`o essere assegnato dall’utente. Il meccanismo di determinazione dei pesi segue lo schema denominato “tendina di Bartlett (1946)” dato dall’equazione i 1 − se |i| < m m κi = (43) 0 altrove Rispetto al test ADF, il test PP offre i seguenti vantaggi: (a) `e robusto all’eteroschedasticit` a dell’errore εt , (b) non richiede alcuna specificazione del numero dei ritardi all’interno del modello per yt . Dall’altro lato, Davidson e MacKinnon (2004) mostrano che il test ADF `e preferibile al test PP in campioni finiti. Analogamente al test ADF, la distribuzione asintotica della statistica test PP non `e standard, quindi i suoi valori critici sono estratti da una distribuzione propria per questo test. 5.2 Test KPSS Il test KPSS (acronimo derivante dalle iniziali dagli autori Kwiatkowski, Phillips, Schmidt e Shin, 1992) `e un test di radice unitaria non parametrico che si basa sulla seguente equazione yt = bt + µt + εt (44) µt = µt−1 + ut dove t `e il trend lineare, µt ∼RW, ut ∼ W N (0, σu2 ), mentre εt `e un processo a media nulla e varianza non necessariamente costante nel tempo (eteroschedasticit`a). Il KPSS si configura sostanzialmente come un test di azzeramento della varianza σu2 : sotto l’ipotesi nulla perci`o il processo µt `e costante nel tempo ed yt `e quindi stazionario. La struttura delle ipotesi `e perci`o l’inversa di quella dei test ADF e PP. In pratica, si ha la seguente struttura di test ad una coda yt ∼ I(0) H0 : σu2 = 0 (45) 2 H1 : σu > 0 yt ∼ I(1). La statistica test `e data da T 1 X KPSS = 2 ∗ St T γ0 (46) t=1 dove - εˆ = yt − µ ˆ − bt (µt `e costante sotto H0 ), - St = t X εˆi `e un ponte Browniano dato dai valori cumulati dei residui (si noti infatti che S0 = i=1 ST = 0), - γ0∗ `e la varianza asintorica calcolata attraverso lo stesso procedimento utilizzato per il test PP. La distribuzione asintotica di tale statistica non `e standard, quindi i valori critici per il KPSS sono calcolati attraverso una distribuzione propria per questo test. 6 Test di normalit` a In questa sezione vengono presentati brevemente i test di normalit`a pi` u noti in letteratura. Come `e noto, nei modelli dinamici di serie storiche questi test assumono importanza nella fase di diagnostica. 14 6.1 Test di Jarque-Bera Il test di Jarque e Bera (1980), d’ora in avanti test JB, `e un test per stabilire se una serie storica ha una distribuzione empirica approssimabile ad una distribuzione normale oppure no. In sintesi, la struttura delle ipotesi `e la seguente: H0 : la serie yt ha distribuzone marginale normale (47) H1 : la serie yt ha distribuzone marginale non normale La statistica di Jarque-Bera `e fornita dalla seguente espressione: 2 (γ4 − 3)2 γ3 ∼ χ22 , + JB = T 6 24 (48) dove γ3 e γ4 rappresentano gli indici di asimmetria e di curtosi campionari. La distribuzione asintotica `e quella di una v.c. χ22 , in quanto l’ipotesi nulla di normalit`a impone l’azzeramento congiunto per l’indice di asimmetria e per l’eccesso di curtosi (γ4 − 3). 6.2 Test di Doornik-Hansen da scrivere... 7 Variabili dummy Nell’ambito dei modelli econometrici di serie storiche, le variabili dummy dt vengono spesso impiegate come variabili esplicative per interpretare l’impatto di eventi di natura eccezionale come le guerre, le crisi o le svalutazioni monetarie che esauriscono il loro effetto in corrispondenza di poche osservazioni campionarie (generalmente una). Tecnicamente le variabili dummy si configurano come variabili dicotomiche che assumono valore unitario in corrispondenza della data in cui si osserva la realizzazione dell’evento eccezionale (o outlier ), mentre assumono valore nulla quando tale evento non si verifica. In riferimento ad un generico modello dinamico lineare nei parametri del tipo yt = x0t β + δdt + εt si ha che: yˆt = E(yt |It−1 ) = x0t βˆ ˆ t x0t βˆ + δd se dt = 0 (al tempo t non si verifica l’evento eccezionale) se dt = 1 (al tempo t si verifica l’evento eccezionale) dove It−1 rappresenta il set informativo al tempo (t − 1). Naturalmente il segno del parametro stimato δˆ indica se, rispetto al valore atteso condizionale di yt , l’outlier assume un valore decisamente pi` u alto o pi` u basso. Anche se le variabili dummy costituiscono un utile strumento per interpretare i picchi e/o i pavimenti che si osservano nel tempo all’interno dei grafici relativi alle serie storiche, tuttavia non `e una buona abitudine abusare del loro utilizzo. Ci`o deriva dal fatto che queste variabili non sono vere e proprie variabili esplicative perch´e vengono create ad hoc dall’utente per poter interpretare quei movimenti che le variabili esplicative “vere” non riescono a catturare. Un’altra raccomandazione `e quella secondo la quale bisogna utilizzare una diversa dummy per ciascun evento eccezionale. Questa scelta deriva sstanzialmente da due ragioni: dal punto di vista numerico, il coefficiente di una dummy impiegata congiuntamente per un picco ed un pavimento potrebbe risentire di un qualche effetto di compensazione tale per cui lo stesso coefficiente potrebbe risultare non significativo; dal punto di vista dell’interpretazione economica, l’utilizzo di una stessa dummy per pi` u di un outlier inficierebbe l’analisi perch´e sarebbe impossibile delineare l’effetto provocato dal singolo evento eccezionale. 15 Riferimenti bibliografici Akaike, H. (1974). A new look at the statistical model identification. IEEE Transactions on Automatic Control, 19(6): 716–723. Bartlett, M. S. (1946). On the theoretical specification and sampling properties of autocorrelated time series. Supplement to the Journal of the Royal Statistical Society, 8: 27–41. Breusch, T. S. (1979). Testing for autocorrelation in dynamic linear models. Australian Economic Papers, 17: 334–355. Cappuccio, N. e Orsi, R. (2005). Econometria. Il Mulino. Bologna. Davidson, R. e MacKinnon, J. G. (2004). Econometric Theory and Methods. Oxford University Press, New York. Dickey, D. A. e Fuller, W. A. (1979). Distribution of the estimators for autoregressive time series with a unit root. Journal of the American Statistical Association, 74(366): 427–431. Durbin, J. e Watson, G. (1950). Biometrika, 37: 409–428. Testing for serial correlation in least squares regression. Godfrey, L. G. (1978). Testing against general autoregressive and moving average error models when the regressors include lagged dependent variables. Econometrica, 46: 1293–1302. Hannan, E. J. e Quinn, B. G. (1979). The determina tion of the order of an autoregression. Journal of the Royal Statistical Society B, 41: 190–195. Jarque, C. M. e Bera, A. K. (1980). Efficient tests for normality, homoscedasticity and serial independence of regression residuals. Economics Letters, 6(3): 255–259. Kwiatkowski, D., Phillips, P. C. B., Schmidt, P. e Shin, Y. (1992). Testing the null hypothesis of stationarity against the alternative of a unit root. Journal of Econometrics, 54(1-3): 159–178. Ljung, G. M. e Box, G. E. P. (1978). On a measure of a lack of fit in time series models. Biometrika, 65(2): 297–303. Lucchetti, R. (2001). Appunti di analisi delle serie storiche. Disponibile su www2.econ.univpm. it/servizi/hpp/lucchetti/didattica/matvario/procstoc.pdf. Phillips, P. C. B. e Perron, P. (1988). Testing for a unit root in time series regression. Biometrika, 75(2): 335–346. Savin, N. E. e White, K. J. (1977). The Durbin-Watson test for serial correlation with extreme sample sizes or many regressors. Econometrica, 45: 1989–1996. Schwarz, G. E. (1978). Estimating the dimension of a model. Annals of Statistics, 6(2): 461–464. Verbeek, M. (2010). Econometria. Zanichelli. Bologna. 16
© Copyright 2024 Paperzz