Econometria

Econometria
lezione 17
variabili
dipendenti
binarie
Econometria
lezione 17
AA 2014-2015
Paolo Brunori
domande di mutui rigettate
Econometria
lezione 17
variabili
dipendenti
binarie
- nei dati raccolti a Boston negli anni ’90 il tasso di
rifiuto è 28% per i neri e 9% per i bianchi
- si può parlare di discriminazione?
- è possibili valutare la probabilità di rifiuto per
richiedenti identici in tutto fuorchè nell’etnia?
- è possibile utilizzare una regressione?
regressione con variabile dipendente
binaria
Econometria
lezione 17
variabili
dipendenti
binarie
- un altro fattore rilevante per la probabilità di rifiuto
è il rapporto P/I
- dove P è la rata e I il reddito mensile
- la rappresentazione di questi dati chiarisce che si
tratta di dati particolari
diagramma a nuvola per deny e P/I
Econometria
lezione 17
variabili
dipendenti
binarie
regressione deny = α + βP/I
Econometria
lezione 17
variabili
dipendenti
binarie
ˆ = 0.28: cosa significa?
- quando P/I è pari a 0.4 deny
- interpretazione: il modello stima la probabilità che
un mutuo con un rapporto P/I sia rifiutato
- un modello OLS con variabile dipendente binaria si
chiama modello lineare di probabilità
- E(Y |X1 , ..., Xk ) = Pr(Y = 1|X1 , ..., Xk )
- l’interpretazione di β1 è identica a quella dell’OLS
inferenza
Econometria
lezione 17
variabili
dipendenti
binarie
- intervalli di confidenza e test delle ipotesi come nel
caso dell’OLS
- variabili omesse, eteroschedasticità rimangono una
minaccia
- R2 invece non può essere utilizzato
- perchè?
- riuscite ad immaginare un caso in cui R2 = 1?
rifiuto di concessione di mutui a Boston
Econometria
lezione 17
variabili
dipendenti
binarie
- 2380 richieste di mutui
- si osserva: concessione/rifiuto, etnia (bianco, nero), il
rapporto P/I , ed altre variabili
- il modello MLP basato solo su P/I restituisce:
ˆ = −0.080(0.032) + 0.604(0.098) P
deny
I
rifiuto di concessione di mutui a Boston
cnt.
Econometria
lezione 17
variabili
dipendenti
binarie
- il modello MLP per valutare discriminazione,
controllando per P/I , restituisce:
ˆ = −0.0091(0.029)+0.559(0.089) P +0.177(0.025)black
deny
I
- come si interpretano i coefficienti?
- cosa è possibile concludere riguardo alla
discriminazione?
pregi e difetti del MLP
Econometria
lezione 17
variabili
dipendenti
binarie
- interpretabilità
- facilità di stima
- se X può variare fra −∞ e +∞ quali valori può
ˆ?
assumere Y
- è possibile che β sia lineare?
regressione probit e logit
Econometria
lezione 17
variabili
dipendenti
binarie
ˆ ∈ [0, 1]
- vogliamo costringere Y
- un modo per farlo è quello di utilizzare una funzione
cumulativa di distribuzione
- le due varianti utilizzate sono quelle basate sulla
c.d.f. normale e quelle basate sulla c.d.f. logistica
regressione probit
Econometria
lezione 17
variabili
dipendenti
binarie
- nel caso di un solo regressore il modello è:
Pr(Y = 1|X ) = Φ(β0 + β1
P
)
I
- Φ è la funzione di ripartizione normale standard e
β0 + β1 X prende il posto della Z
- se P/I = 0.4, β0 = −2 e β1 = 3 la probabilità di
rifiuto ‘e:
Φ(β0 + β1 0, 4) = Φ(−0, 8)
- il valore si trova nelle [tavole]
Econometria
lezione 17
variabili
dipendenti
binarie
interpretazione di un modello probit
Econometria
lezione 17
variabili
dipendenti
binarie
interpretazione di un modello probit
Econometria
lezione 17
variabili
dipendenti
binarie
- il modello si estende immediatamente a regressori
multipli:
Pr(Y = 1|X1 , X2 ) = Φ(β0 + β1 X1 + β2 X2 )
- i coefficienti non possono essere interpretati
- si ne può valutare il segno e la significatività
- non si può interpretare come l’effetto marginale
effetti marginali
Econometria
lezione 17
variabili
dipendenti
binarie
- l’effetto di una variazione di X su Y è non lineare
- l’effetto dipende dal valore iniziale X
- l’effetto di δX è:
ˆ = Φ (β0 + β1 (X + ∆X )) − Φ (β0 + β1 X )
∆Y
rifiuto di concessione di mutui a Boston
cnt.
Econometria
lezione 17
variabili
dipendenti
binarie
- il modello probit per valutare discriminazione,
controllando per P/I , restituisce:
ˆ = Φ(−2.26(0.16)+2.74(0.44) P +0.71(0.083)black)
deny
I
- come si interpretano i coefficienti?
- cosa è possibile concludere riguardo alla
discriminazione?
analisi di regressione logit
Econometria
lezione 17
variabili
dipendenti
binarie
- analogo al modello probit utilizza la funzione di
ripartizione logistica
Pr(Y = 1|X1 , X2 ) =
1
1 + e β0 +β1 X1 +β2 X2
- in pratica non molto diversa dalla funzione normale
curva logit probit al confronto
Econometria
lezione 17
variabili
dipendenti
binarie
probit vs. logit
Econometria
lezione 17
variabili
dipendenti
binarie
- probit:
ˆ = −2.26(0.16) + 2.74(0.44) P + 0.71(0.083)black
deny
I
- logit:
ˆ = −4.13(0.35) + 5.37(0.96) P + 1.27(0.15)black
deny
I
- sembrerebbero molto diversi
logit vs. probit
Econometria
lezione 17
variabili
dipendenti
binarie
- ma l’interpretazione dei coefficienti non è quella
solita!
- valutiamo l’effetto di essere nero nei due casi
(assumiamo P/I = 0.3):
ˆ black − deny
ˆ white =
- probit: deny
= Φ(−2.26+2.74×0.3+0.71)−Φ(−2.26+2.74×0.3) =
= 0.233 − 0.075 = 0.158
ˆ black − deny
ˆ white =
- logit: deny
=
1
1+
e −4.13+5.37×0.3+1.27
−
1
1+
e −4.13+5.37×0.3
= 0.222 − 0.074 = 0.148
=
stima probit e logit
Econometria
lezione 17
- la stima di questi modelli può basarsi sui minimi
quadrati
- in generale non si usano stima di minimi quadrati
generalizzati ma stima di massima verosimiglianza
(ML)
- in pratica si esplicita la funzione di probabilità
congiunta di regressori e variabile dipendente
- dopo di che si cercano quei valori dei parametri che
massimizzano la probabilità che il campione osservato
sia stato estratto se quei parametri sono quelli veri
- potete approfondire nell’appendice del libro ma non
fa parte del programma
variabili
dipendenti
binarie
inferenza con stime logit e probit
Econometria
lezione 17
variabili
dipendenti
binarie
- l’importante per noi è che le stime ML si comportino
“bene”
- per grandi campioni si distribuiscono in modo
approsimativamente normale
- sono non distorte e sono più efficienti di quelle dei
minimi quadrati generalizzati
bondtà di adattamento
Econometria
lezione 17
variabili
dipendenti
binarie
- R2 non può essere utilizzato
- per questo si usano due misure alternative:
frazione correttamente predetta la percentuale
di casi nei quali lla probabilità è predetta con errore
minore di 0.5
pseudo-R2
pseudo − R2 = 1 −
max
ln(fPROBIT
)
max
ln(fBERNOULLI
)
- non sono interpretabili come un R2 !