Verifica di ipotesi e intervalli di confidenza nella

Verifica di ipotesi e intervalli di confidenza
nella regressione multipla
Eduardo Rossi2
2 Universit`
a
di Pavia (Italy)
Maggio 2014
Rossi
MRLM
Econometria - 2014
1 / 54
Sommario
Verifica di ipotesi e intervalli di confidenza per un singolo
coefficiente
Verifica di ipotesi congiunte su pi`
u coefficienti
Altri tipi di ipotesi che implicano pi`
u coefficienti
Variabili di interesse, variabili di controllo e come decidere quali
variabili includere in un modello di regressione
Rossi
MRLM
Econometria - 2014
2 / 54
Verifica di ipotesi e intervalli di confidenza
Verifica di ipotesi e intervalli di confidenza per un
singolo coefficiente
Per verifica di ipotesi e intervalli di confidenza nella regressione
multipla si segue la stessa logica utilizzata per la pendenza in un
modello a singolo regressore.
ˆ
ˆ
β1 −E[β1 ]
√
≈ N (0, 1) (TLC).
ˆ
Var[β1 ]
Perci`o le ipotesi su β1 possono essere verificate mediante la
consueta statistica-t e gli intervalli di confidenza costruiti come
{βˆ1 ± 1, 96SE(βˆ1 )}.
Lo stesso per β2 , . . . , βk .
Rossi
MRLM
Econometria - 2014
3 / 54
Verifica di ipotesi e intervalli di confidenza
Esempio
\ = 698, 933 − 2, 2798 STR
TestScr
(10,364)
\ = 686, 032 − 1, 1013 STR − 0, 649777 PctEL
TestScr
(8,7282)
(0,4329)
(1)
(0,5195)
(2)
(0,031032)
Il coefficiente di STR in (2) `e l’effetto su TestScore del cambio di
unit`a in STR, mantenendo costante la percentuale di studenti non
di madrelingua nel distretto.
Il coefficiente di STR si dimezza.
L’intervallo di confidenza al 95% per il coefficiente di STR in (2) `e
{−1, 10 ± 1, 960, 43} = {−1, 95, −0, 26}.
la statistica test t dell’ipotesi nulla βSTR = 0 `e
t = −1, 10/0, 43 = −2, 54, perci`
o rifiutiamo l’ipotesi al livello di
significativit`a del 5%.
Rossi
MRLM
Econometria - 2014
4 / 54
Verifica di ipotesi e intervalli di confidenza
Verifica di ipotesi congiunte
Sia Expn = spese per studente e si consideri il modello di
regressione:
TestScorei = β0 + β1 STRi + β2 Expni + β3 PctELi + ui
L’ipotesi nulla per cui ”le risorse scolastiche non contano“, e
l’alternativa per cui invece contano, corrisponde a:
H0 : β1 = 0 e β2 = 0
l’ipotesi alternativa
H1 : o β1 6= 0 o β2 6= 0 o entrambi
Rossi
MRLM
Econometria - 2014
5 / 54
Verifica di ipotesi e intervalli di confidenza
Verifica di ipotesi congiunte
H0 : β1 = 0 e β2 = 0
H1 : o β1 6= 0 o β2 6= 0 o entrambe
Un’ipotesi congiunta specifica un valore per due o pi`
u coefficienti,
ossia impone una restrizione su due o pi`
u coefficienti:
H0 : βi = βi,0 , . . . , βj = βj,0
per un totale di q restrizioni.
Nell’esempio precedente, q = 2 e le due restrizioni sono
β1 = β2 = 0.
Se una (o pi`
u) delle uguaglianze sotto l’ipotesi nulla `e falsa, allora
l’ipotesi nulla congiunta `e falsa.
Ipotesi alternativa `e che almeno una delle uguaglianze della H0
non valga.
Rossi
MRLM
Econometria - 2014
6 / 54
Verifica di ipotesi e intervalli di confidenza
Verifica di ipotesi congiunte
Un’idea di ”buon senso” `e quella di rifiutare se l’una o l’altra delle
statistiche-t supera 1,96 in valore assoluto.
ma questa verifica ”coefficiente per coefficiente” non `e valida: la
verifica risultante ha un tasso di rifiuto troppo elevato sotto
l’ipotesi nulla (pi`
u del 5%)!
Rossi
MRLM
Econometria - 2014
7 / 54
Verifica di ipotesi e intervalli di confidenza
Perch`e non possiamo verificare coefficiente per
coefficiente?
Perch`e il tasso di rifiuto sotto l’ipotesi nulla non `e il 5%.
Calcoleremo la probabilit`
a di rifiutare in modo non corretto
l’ipotesi nulla usando la verifica del ”buon senso” basata sulle due
statistiche- t singole. Per semplificare il calcolo, supponete che
siano distribuite in modo indipendente (non `e vero in generale - lo
`e solo in questo esempio).
Siano t1 e t2 le statistiche-t:
t1 =
βˆ1 − 0
SE(βˆ1 )
t1 =
βˆ2 − 0
SE(βˆ2 )
La verifica ”coeff. per coeff.” `e: Rifiuta H0 : β1 = β2 = 0 se
|t1 | > 1, 96 e/o |t2 | > 1, 96
Qual `e la probabilit`a che questa verifica ”coeff. per coeff.” rifiuti
H0 , quando H0 `e effettivamente vero? (Dovrebbe essere 5%.)
Rossi
MRLM
Econometria - 2014
8 / 54
Verifica di ipotesi e intervalli di confidenza
Perch`e non possiamo verificare coefficiente per
coefficiente?
Ipotesi t1 e t2 sono indipendenti (falso!) La probabilit`a di rifiutare in
modo non corretto l’ipotesi nulla mediante la verifica ”coeff. per coeff.”
= PrH0 {|t1 | > 1, 96 e/o |t2 | > 1, 96}
= 1 − PrH0 {|t1 | ≤ 1, 96 e |t2 | ≤ 1, 96}
= 1 − PrH0 {|t1 | ≤ 1, 96} × PrH0 {|t2 | ≤ 1, 96}
= 1 − (0, 95)2 = 0, 0975 > 0, 05
Rossi
MRLM
Econometria - 2014
9 / 54
Verifica di ipotesi e intervalli di confidenza
Dimensione del test
La dimensione del test (la percentuale di rifiuto della nulla quando
`e vera) usando le singole statistiche per decidere sull’ipotesi
congiunta non `e il 5%!
In effetti, la sua dimensione dipende dalla correlazione tra t1 e t2
(e quindi dalla correlazione tra βˆ1 e βˆ2 ).
Due soluzioni:
1
Utilizzare un valore critico diverso in questa procedura - non 1,96
(questo `e il ”metodo Bonferroni”, raramente utilizzato nella
pratica).
2
Utilizzare una statistica test diversa studiata per verificare subito
sia β1 = 0 sia β2 = 0(ipotesi congiunta): la statistica F (questa `e
la pratica comune).
Rossi
MRLM
Econometria - 2014
10 / 54
Statistica F
Ipotesi congiunte in notazione matriciale
Si consideri un’ipotesi congiunta che `e lineare nei coefficienti e impone
q restrizioni, con q ≤ k + 1.
Ognuna di queste restrizioni pu`
o riguardare uno o pi`
u coefficienti di
regressione (un sistema di restrizioni). Restrizioni lineari
H0 : Rβ = r
H1 : Rβ 6= r
(q × 1)
r
(q × (k + 1))
R
r(R)
Rossi
=
q ≤k+1
MRLM
Econometria - 2014
11 / 54
Statistica F
Restrizioni lineari - Esempio
Dato il MRLM:
Yi = β0 + β1 X1i + . . . + βk Xki + ui
Ipotesi nulla:
H0 : β1 + β2 = 0
R = 0, 1, 1, 0, . . . , 0
r=0
 
β0

β1 

Rβ = 0, 1, 1, 0, . . . , 0  .  = β1 + β2
 .. 
βk
Rossi
MRLM
Econometria - 2014
12 / 54
Statistica F
Restrizioni lineari - Esempio modello partizionato
Y = X1 β 1 + X2 β 2 + u
X1 (n × k1 )
X2 (n × k2 )
β 1 (k1 × 1)
β 2 (k2 × 1)
k + 1 = k1 + k2
H0 : β 1 = 0
H0 : Rβ = 0
Rossi
MRLM
Econometria - 2014
13 / 54
Statistica F
Restrizioni lineari - Esempio modello partizionato
dove
R=
Rβ =
h
h
Iq
i
..
. 0(q×k2 )
i β .
Iq .. 0(q×k2 )
1
β2
= β1
dove q = k1 . Sotto H0 il modello si riduce a
Y = X2 β 2 + u
Rossi
MRLM
Econometria - 2014
14 / 54
Statistica F
Statistica F
La statistica F per verificare l’ipotesi congiunta
H0 : Rβ = r
`e
F =
Rossi
h
i−1
ˆ − r)0 RΣ
ˆ − r)
ˆ ˆR0
(Rβ
(Rβ
β
q
MRLM
Econometria - 2014
15 / 54
Statistica F
Distribuzione asintotica della statistica F
Dato che
√
d
ˆ − β) −→ N (0, Σ√ ˆ
n(β
n(β−β) )
segue che sotto H0
√
√
d
ˆ − r) = nR(β
ˆ − β) −→
n(Rβ
N (0, RΣ√n(β−β)
R0 )
ˆ
dati i risultati sulle forme quadratiche di vettori di v.c. asintoticamente
normali, sotto H0 :
i−1
h
ˆ − r)]
ˆ − r)]0 RΣ ˆR0
[(Rβ
[(Rβ
β
i−1 √
h
√
d
ˆ − r)]0 RΣ√ ˆ
ˆ − r)] −→
= [ n(Rβ
[ n(Rβ
R0
χ2
n(β−β)
q
/n. Poich`e
perch`e Σβˆ = Σ√n(β−β)
ˆ
p
ˆ√ ˆ
√ ˆ
Σ
n(β−β) −→ Σ n(β−β)
Rossi
MRLM
Econometria - 2014
16 / 54
Statistica F
Distribuzione asintotica della statistica F
Per il teorema di Slutsky:
h
i−1 √
√
d
0
ˆ − r)]0 RΣ
ˆ − r)] −→
ˆ√ ˆ
[ n(Rβ
n(Rβ
R
χ2q
n(β−β)
o
h
i−1
d
ˆ − r)]0 RΣ
ˆ − r)] −→
ˆ ˆR0
[(Rβ
[(Rβ
χ2q
β
segue che
F =
h
i−1
ˆ − r)0 RΣ
ˆ − r)
ˆ ˆR0
(Rβ
(Rβ
β
q
d
−→
χ2q
q
d
cio`e F −→ Fq,∞ = χ2q /q. E’ equivalente calcolare
h
i−1
ˆ − r)]0 RΣ
ˆ − r)], in questo caso
ˆ ˆR0
[(Rβ
qF = [(Rβ
β
d
qF −→ χ2q
Rossi
MRLM
Econometria - 2014
17 / 54
Statistica F
Regione di rifiuto statistica F
Valore critico:
α
α
Fq,∞
: Pr{Fq,∞ > Fq,∞
}=α
per un livello di significativit`
a 0 ≤ α ≤ 1.
La procedura di test consiste nel calcolare F e rifiutare H0 se il suo
α }, tale che abbia
valore cade nella regione critica, cio`e se F act > Fq,∞
una probabilit`a minore di α di essere estratta dalla distribuzione Fq,∞ .
P-value della statistica F:
p-value = Pr{Fq,∞ > F act }
Se p-value > α (prefissato) accetto H0 altrimenti rifiuto.
Rossi
MRLM
Econometria - 2014
18 / 54
Statistica F
Significativit`a della regressione
L’ipotesi nulla che tutti i coefficienti siano nulli ad eccezione
dell’intercetta.
H0 : β1 = β2 = . . . = βk = 0
H1 : βj 6= 0 per almeno un j, j = 1, 2, . . . , k
Sotto H0 nessuno dei regressori spiega alcunch`e della variazione in Yi .
L’intercetta, sotto H0 , `e la media di Yi :
E(Yi ) = β0
Rossi
MRLM
Econometria - 2014
19 / 54
Statistica F
Statistica F quando q = 1
Quando q = 1, la statistica F verifica una sola restrizione
R (1 × (k + 1)),
r (1 × 1)
h
i−1
ˆ − r)]0 RΣ
ˆ − r)]
ˆ ˆR0
[(Rβ
[(Rβ
β
1
ˆ − r)]2
[(Rβ
i = t2
= h
ˆ ˆR0
RΣ
β
`e il quadrato della statistica t.
Rossi
MRLM
Econometria - 2014
20 / 54
Statistica F
Statistica F - Esempio
const
STR
EXPN stu
EL PCT
Coefficient
Std. Error
t-ratio
p-value
649.578
−0.286399
0.00386790
−0.656023
15.4583
0.482073
0.00158072
0.0317844
42.0212
−0.5941
2.4469
−20.6397
0.0000
0.5528
0.0148
0.0000
Media variabile dipen
SSR
R2
F (3, 416)
654.1565
85699.71
0.436592
147.2037
S.Q.M. variabile dipen
S.E. della regressione
¯2
R
P-value(F )
19.05335
14.35301
0.432529
5.20e–65
H0 : βstr = 0 βexpn = 0
Statistica Test: F (2, 416) = 5.434, con p − value = 0.00468.
Rossi
MRLM
Econometria - 2014
21 / 54
Statistica F
Regioni di confidenza per coefficienti multipli
Una regione di confidenza asintoticamente valida per due o pi`
u
elementi di β pu`o essere costruita come l’insieme dei valori che, se
considerati come ipotesi nulla, non sono rifiutati dalla statistica F .
Sia δ (q × 1) formato dagli elementi di β per i quali si desidera una
regione di confidenza
δ = Rβ
La statistica test F per l’ipotesi nulla δ = δ 0 `e
ˆ ˆR0 ]−1 (δˆ − δ 0 )/q
F = (δˆ − δ 0 )0 [RΣ
β
ˆ Una regione di confidenza al 95% per δ `e l’insieme di
con δˆ = Rβ.
valori δ 0 che non sono rifiutati dalla F .
Rossi
MRLM
Econometria - 2014
22 / 54
Statistica F
Regioni di confidenza per coefficienti multipli
Una regione di confidenza 1 − α per δ `e
ˆ ˆR0 ]−1 (δˆ − δ)/q ≤ F 0.95 }
{δ : (δˆ − δ)0 [RΣ
q,∞
β
La regione di confidenza `e costituita dai punti interni all’ellissoide che
si ottiene quando vale l’uguaglianza.
Rossi
MRLM
Econometria - 2014
23 / 54
Statistica F
Ellisse di confidenza (k = 2)
Yi = β1 X1i + β2 X2i + ui
i = 12, . . . , n
Regione di confidenza per (β1 , β2 ):
1 0 β1
Rβ =
0 1 β2
Nel caso k = 2, la forma quadratica:
ˆ − β)
ˆ − β)0 Σ
ˆ −1 (β
(β
ˆ
β
Σ−1
βˆ
σ
ˆ12 σ
ˆ1,2
=
σ
ˆ1,2 σ
ˆ22
(βb1 − β1 )2 σ
ˆ12 + 2(βb1 − β1 )(βb2 − β2 )ˆ
σ1,2 + (βb2 − β2 )2 σ
ˆ22
Rossi
MRLM
Econometria - 2014
24 / 54
Statistica F
Ellisse di confidenza (k = 2)
Il contorno della funzione implicita
ax2 + byx + cy 2 = K
`e un’ellisse con centro (x = 0, y = 0), inclinata positivamente quando
b < 0.
In questo caso, ellisse inclinata
positivamente quando σ
ˆ1,2 < 0
negativamente quando σ
ˆ1,2 > 0
Rossi
MRLM
Econometria - 2014
25 / 54
Statistica F
Regioni di confidenza per coefficienti multipli
P
βb1 e βb2 sono positivamente correlati quando
x1t x2t < 0.
P
b
b
β1 e β2 sono negativamente correlati quando
x1t x2t > 0.
Rossi
MRLM
Econometria - 2014
26 / 54
Statistica F
Regioni di confidenza per coefficienti multipli - Esempio
\eval = 4, 082 + 0, 149 beauty − 0, 198 female
course
(0,033)
(0,032)
(0,051)
¯ 2 = 0, 0622 F (2, 460) = 16, 331
T = 463 R
σ
ˆ = 0, 53732
Ellisse di confidenza al 95% e intervalli marginali al 95%
-0,05
-0,1
-0,15
female
0,149, -0,198
-0,2
-0,25
-0,3
-0,35
0,06
0,08
0,1
0,12
0,14
0,16
0,18
0,2
0,22
0,24
beauty
Rossi
MRLM
Econometria - 2014
27 / 54
Errori normali e omoschedastici
Errori normali e omoschedastici
Se gli errori sono normali (condizionatamente a X) e omoschedastici,
u|X ∼ N (0, σu2 In )
allora lo stimatore ha una distribuzione normale multivariata in
campionin finiti:
ˆ = β + (X0 X)−1 X0 u
β
ˆ ∼ N (β, σ 2 (X0 X)−1 )
β
u
Rossi
MRLM
Econometria - 2014
28 / 54
Errori normali e omoschedastici
Distribuzione di s2
Se valgono le assunzioni generalizzate degli OLS nel MRLM, allora
s2 =
u0 MX u
n−k−1
per la normalit`a condizionale di u
0
u
u
MX
∼ χ2n−k−1
σu
σu
quindi
χ2n−k−1
s2
∼
σu2
n−k−1
s2 ∼
Rossi
σu2
χ2
n − k − 1 n−k−1
MRLM
Econometria - 2014
29 / 54
Errori normali e omoschedastici
Errori standard classici
ˆ
Var[β|X]
= σu2 (X0 X)−1
\
ˆ
Var[
β|X]
= s2 (X0 X)−1
lo standard error di βi :
SE(βˆi ) = s
Rossi
q
e0i (X0 X)−1 ei
MRLM
Econometria - 2014
30 / 54
Errori normali e omoschedastici
Statistica t˜
Data la statistica:
βˆi − βi,0
t˜ =
SE(βˆi )
se valgono le sei assunzioni generalizzate dei minimi quadrati, la
distribuzione campionaria esatta di t˜
t˜ ∼ tn−k−1
Rossi
MRLM
Econometria - 2014
31 / 54
Errori normali e omoschedastici
Dimostrazione
Se
Z ha una distribuzione N (0, 1)
W ha una distribuzione χ2m
3 Z e W sono indipendentemente distribuite
allora
Z
p
∼ tm
W/m
Ora
βˆi − βi,0
t˜ =
SE(βˆi )
βˆi − βi,0
=p 0
s2 ei (X0 X)−1 ei
βˆi − βi,0
p
=p
s2 /σu2 σu2 e0i (X0 X)−1 ei
1
2
Rossi
MRLM
Econometria - 2014
32 / 54
Errori normali e omoschedastici
Dimostrazione
p
(βˆi − βi,0 )/ σu2 e0i (X0 X)−1 ei
p
t˜ =
s2 /σu2
1
Sotto H0
p
(βˆi − βi,0 )
|X ∼ N (0, 1)
σu2 e0i (X0 X)−1 ei
2
(n − k − 1)
Rossi
s2
∼ χ2n−k−1
σu2
MRLM
Econometria - 2014
33 / 54
Errori normali e omoschedastici
Dimostrazione
Si pu`o scrivere
Z
t˜ = p
W/(n − k − 1)
con
(βˆi − βi,0 )
Z=p
∼ N (0, 1)
σu2 e0i (X0 X)−1 ei
e
W = (n − k − 1)
Rossi
s2
∼ χ2n−k−1
σu2
MRLM
Econometria - 2014
34 / 54
Errori normali e omoschedastici
Dimostrazione
ˆ e s2 . Dato che
Indipendenza tra β
ˆ = β + (X0 X)−1 X0 u
β
s2 =
u0 MX u
n−k−1
ˆ e s2 sono indipendenti se X0 X)−1 X0 u e u0 MX u sono indipendenti.
β
Dato che u|X ∼ N (0, σu2 In )
(X0 X)−1 X0 u|X ∼ N (0, σu2 (X0 X)−1 )
MX u|X ∼ N (0, σu2 MX )
Rossi
MRLM
Econometria - 2014
35 / 54
Errori normali e omoschedastici
Dimostrazione
Poich`e
Cov[(X0 X)−1 X0 u, MX u|X] = E[(X0 X)−1 X0 uu0 MX |X]
= (X0 X)−1 X0 E[uu0 |X]MX
= (X0 X)−1 X0 σu2 In MX
= 0k×n
perch`e
X0 MX = 0k×n
Segue che i due vettori sono indipendenti e che βˆ e s2 sono
indipendenti.
Si pu`o concludere che
βˆi − βi,0
t˜ =
∼ tn−k−1
SE(βˆi )
Rossi
MRLM
Econometria - 2014
36 / 54
Errori normali e omoschedastici
Distribuzione della statistica F˜
ˆ ˆ con
La statistica F con omoschedasticit`
a si ottiene sostituendo Σ
β
s2 (X0 X)−1
ˆ − r)0 [R(X0 X)−1 R0 ]−1 (Rβ
ˆ − r)
(Rβ
F˜ =
qs2
se valogono le sei assunzioni generalizzate degli OLS, sotto l’ipotesi
nulla
F˜ ∼ Fq,n−k−1
F˜ `e la versione di Wald.
Rossi
MRLM
Econometria - 2014
37 / 54
Errori normali e omoschedastici
Dimostrazione
Il rapporto
W1 /n1
∼ Fn1 ,n2
W2 /n2
dove
1
W1 ∼ χ2n1
2
W2 ∼ χ2n2
3
W1 e W2 sono indipendentemente distribuite.
Verifichiamo che queste tre condizioni siano verificate nel caso che
stiamo considerando.
Rossi
MRLM
Econometria - 2014
38 / 54
Errori normali e omoschedastici
Dimostrazione
Sia
ˆ − r)0 [σ 2 R(X0 X)−1 R0 ]−1 (Rβ
ˆ − r)
W1 = (Rβ
u
e
W2 = (n − k − 1)
s2
σu2
possiamo scrivere
F˜ =
Rossi
W1 /q
W2 /n − k − 1
MRLM
Econometria - 2014
39 / 54
Errori normali e omoschedastici
Dimostrazione
Dato che
ˆ
β|X
∼ N (β, σu2 (X0 X)−1 )
ˆ − β = Rβ
ˆ −r
e sotto H0 , Rβ
ˆ − r)|X ∼ N (0, σ 2 R(X0 X)−1 R0 )
(Rβ
u
quindi
ˆ − r)0 [σ 2 R(X0 X)−1 R]−1 (Rβ
ˆ − r) ∼ χ2
(Rβ
u
q
Abbiamo gi`a visto che
χ2n−k−1
s2
∼
σu2
n−k−1
Rossi
MRLM
Econometria - 2014
40 / 54
Errori normali e omoschedastici
Dimostrazione
ˆ e s2 sono indipendentemente distribuiti, segue che
Infine, poich`e β
ˆ − r e s2
Rβ
sono indipendentemente distribuiti, implicando che W1 e W2 sono
indipendentemente distribuite.
Le tre condizioni sono verificate, quindi
F˜ ∼ Fq,n−k−1
Rossi
MRLM
Econometria - 2014
41 / 54
Errori normali e omoschedastici
La distribuzione Fq,n−k−1
La distribuzione Fq,n−k−1 `e tabulata in molti punti.
Per n → ∞, la distribuzione Fq,n−k−1 tende asintoticamente alla
distribuzione χ2 /q, cio`e Fq,∞ .
Per q non troppo grande e n ≥ 100, la distribuzione Fq,n−k−1 e la
distribuzione χ2q /q sono sostanzialmente identiche.
Molti pacchetti di regressione calcolano il valore-p della statistica
F mediante la distribuzione Fq,n−k−1 .
Rossi
MRLM
Econometria - 2014
42 / 54
Errori normali e omoschedastici
Altro modo di calcolo della statistica F˜
Quando il termine di errore ui `e omoschedastico, la F pu`o essere
scritta in termini di miglioramento dell’adattamento della regressione
(misurato con la SSR o l’R2 ).
Eseguire due regressioni, una sotto l’ipotesi nulla (regressione
”vincolata”) e una sotto l’ipotesi alternativa (regressione ”non
vincolata”).
Confrontare la somma dei quadrati dei residui (SSR) delle due
regressioni.
Confrontare gli adattamenti delle regressioni - gli R2 - se il
modello ”non vincolato” si adatta sufficientemente meglio,
rifiutare l’ipotesi nulla
Rossi
MRLM
Econometria - 2014
43 / 54
Errori normali e omoschedastici
Altro modo di calcolo della statistica F˜
Dato il MRLM:
Yi = β0 + β1 X1i + . . . + βk Xki + ui
ui ∼ i.i.d.N (0, σu2 )
H0 : Rβ = r
stima del modello sotto l’ipotesi nulla:
˜ = arg
β
min
β:Rβ−r=0
(Y − Xβ)0 (Y − Xβ)
la somma dei quadrati della regressione vincolata
˜ 0 (Y − Xβ)
˜
SSRr = (Y − Xβ)
la somma dei quadrati della regressione non vincolata
ˆ 0 (Y − Xβ)
ˆ
SSRur = (Y − Xβ)
SSRr − SSRur n − k − 1
∼ Fq,n−k−1
F˜ =
SSRur
q
Rossi
MRLM
Econometria - 2014
44 / 54
Errori normali e omoschedastici
Altro modo di calcolo della statistica F˜
Denotando i residui della regressione vincolata:
˜
˜ = Y − Xβ
u
˜ 0u
˜ −u
ˆ 0u
ˆn−k−1
u
F˜ =
0
ˆu
ˆ
u
q
P 2 P
P 2 P
/
u
˜
(Y
−
Y¯ )2 − i u
ˆi / i (Yi − Y¯ )2 n − k − 1
i
i i
i P
P
=
2
q
ˆi / i (Yi − Y¯ )2
iu
2
2
(1 − Rr ) − (1 − Rur ) n − k − 1
=
2
1 − Rur
q
2
2
R −R n−k−1
= ur 2 r
1 − Rur
q
Rossi
MRLM
Econometria - 2014
45 / 54
Errori normali e omoschedastici
Altro modo di calcolo della statistica F˜
Rr2 `e l’R2 della regressione vincolata
2 `
Rur
e l’R2 della regressione non vincolata
q = numero di restrizioni sotto l’ipotesi nulla
Pi`
u grande `e la differenza tra l’R2 vincolato e non vincolato,
maggiore `e il miglioramento dell’adattamento aggiungendo le
variabili in questione – maggiore `e la F in presenza di
omoschedasticit`a.
Rossi
MRLM
Econometria - 2014
46 / 54
Errori normali e omoschedastici
Regressione ”vincolata” e ”non vincolata”
Esempio: i coefficienti di STR e Expn sono zero?
Regressione senza vincolo, sotto H1 :
TestScorei = β0 + β1 STRi + β2 Expni + β3 PctELi + ui
Regressione vincolata, sotto H0 : β1 = β2 = 0:
TestScorei = β0 + β3 PctELi + ui
Il numero di vincoli sotto H0 `e q = 2.
L’adattamento risulter`
a migliore (R2 sar`
a maggiore) nella
regressione non vincolata.
Di quanto dovr`a aumentare R2 affinch`e i coefficienti di Expn e
PctEL siano giudicati statisticamente significativi?
Rossi
MRLM
Econometria - 2014
47 / 54
Errori normali e omoschedastici
Esempio
Regressione vincolata:
\ i = 644, 7 − 0, 671STRi
TestScore
R2 = 0, 4149
Regressione non vincolata:
\ i = 649, 6−0, 29STRi +3, 87Expni −0, 656PctELi
TestScore
R2 = 0, 4366
Quindi, con q = 2, n = 420, k = 3:
R2 − R2 n − k − 1
F˜ = ur 2 r
1 − Rur
q
(0, 4366 − 0, 4149) (420 − 3 − 1)
=
= 8, 01
(1 − 0, 4366)
2
Valore critico al 1% = 4,61, H0 `e rifiutata.
Nota: F robusta all’eteroschedasticit`
a `e 5,43...
Rossi
MRLM
Econometria - 2014
48 / 54
Errori normali e omoschedastici
La statistica F˜ classica-riepilogo
La statistica F˜ classica rifiuta quando aggiungendo le due variabili
si aumenta R2 di ”quanto basta” - vale a dire, quando
aggiungendo le due variabili si migliora l’adattamento della
regressione di ”quanto basta”.
Se gli errori sono omoschedastici, ma non gaussiani, la statistica
F˜ classica ha una distribuzione in grandi campioni che `e χ2q /q.
Se invece gli errori sono eteroschedastici, la distribuzione in grandi
campioni della statistica F˜ classica non `e χ2q /q.
Se gli errori sono omoschedastici e gaussiani la statistica F˜
classica ha una distribuzione Fq,n−k−1 .
Rossi
MRLM
Econometria - 2014
49 / 54
Errori normali e omoschedastici
La statistica F˜ classica e la distribuzione F
L’uso della statistica F˜ e della distribuzione F `e giustificato solo
sotto condizioni molto forti - troppo forti per essere realistiche.
Dovreste utilizzare la statistica F robusta all’eteroschedasticit`a,
con i valori critici della χ2q /q.
Per n ≥ 100, la distribuzione Fq,n−k−1 `e essenzialmente la
distribuzione χ2q /q.
Per n piccolo, a volte i ricercatori utilizzano la distribuzione F
perch`e ha valori critici pi`
u grandi e in tal senso `e pi`
u prudente.
Rossi
MRLM
Econometria - 2014
50 / 54
Errori normali e omoschedastici
Verifica di restrizioni singole su coefficienti multipli
Yi = β0 + β1 X1i + β2 X2i + ui
Considerate l’ipotesi nulla e l’ipotesi alternativa,
H0 : β1 = β2 vs H1 β1 6= β2
Questa ipotesi nulla impone una singola restrizione ( q = 1) su
coefficienti multipli – non si tratta di ipotesi congiunte con restrizioni
multiple (confrontate con β1 = β2 = 0).
Rossi
MRLM
Econometria - 2014
51 / 54
Errori normali e omoschedastici
Verifica di restrizioni singole su coefficienti multipli
Ecco due metodi per la verifica di restrizioni singole su coefficienti
multipli:
Riorganizzare (”trasformare”) la regressione: Riorganizzare i
regressori in modo che la restrizione diventi una restrizione su un
singolo coefficiente in una regressione equivalente; oppure,
Eseguire la verifica direttamente: Alcuni software, tra cui GRETL,
consentono di verificare le restrizioni utilizzando direttamente
coefficienti multipli
Rossi
MRLM
Econometria - 2014
52 / 54
Errori normali e omoschedastici
Metodo 1: Riorganizzare (”trasformare”) la regressione
Yi = β0 + β1 X1i + β2 X2i + ui
Considerate l’ipotesi nulla e l’ipotesi alternativa,
H0 : β1 = β2 vs H1 β1 6= β2
Sommare e sottrarre β2 X1i :
Yi = β0 + (β1 − β2 )X1i + β2 (X1i + X2i ) + ui
Yi = β0 + γ1 X1i + β2 Wi + ui
dove
γ1 = β1 − β2
Wi = (X1i + X2i )
Rossi
MRLM
Econometria - 2014
53 / 54
Errori normali e omoschedastici
Metodo 1: Riorganizzare (”trasformare”) la regressione
Equazione originale:
Yi = β0 + β1 X1i + β2 X2i + ui
Equazione riorganizzata (”trasformata”):
Yi = β0 + γ1 X1i + β2 Wi + ui
Quindi,
H0 = γ1 = 0 vs H1 : γ1 6= 0
corrisponde a
H0 : β1 = β2 vs H1 : β1 6= β2
Queste due regressioni hanno lo stesso R2 , gli stessi valori previsti e gli
stessi residui. Il problema di verifica `e ora semplice: verificare se γ1 = 0
nella regressione trasformata.
Rossi
MRLM
Econometria - 2014
54 / 54