istatistiksel daraltıcı - Çukurova Üniversitesi Fen Bilimleri Enstitüsü

Ç.Ü. Fen Bilimleri Enstitüsü Yıl:2010 Cilt:22-1
İSTATİSTİKSEL DARALTICI (SHRINKAGE) MODEL VE
*
UYGULAMALARI
A Statistical Shrinkage Model And Its Applications*
Işıl FİDANOĞLU
İstatistik Anabilim Dalı
Fikri AKDENİZ
İstatistik Anabilim Dalı
ÖZET
Bu çalışmada Bridge, LASSO ve Ridge tahmin ediciler verilerek,
içilişki problemi incelenmiş, büzülme ve ayar parametreleri irdelenmiştir.
Uygun bir veri kümesi ile tahmin ediciler karşılaştırılmıştır.
Anahtar Kelimeler : Ridge regresyon, LASSO, Bridge tahmin edicileri,
Daraltıcı modeller
ABSTRACT
In this study, Bridge, LASSO and Ridge estimators are given,
collinearity problem is inspected, tuning and shrinkage parameters are
examined. The estimators were compared with an appropriate set of data.
Key Words : Ridge regression, LASSO, Bridge estimators, Shrinkage
models
Giriş
y  X 
(1)
lineer regresyon modelini düşünelim. Burada, y ;
n1 tipinde rastgele
yanıtlar vektörü, X ; n  p tipinde tasarım matrisi,  ; p 1 tipinde
regresyon parametrelerinin vektörü,  ; n1 tipinde rastgele hatalar vektörü
 ~ iid  N (0; 2 )  dir. Amacımız; (1) nolu modeldeki  ’yı tahmin etmektir.
Bunun için
RSS   y  X  
T
*
 y  X   =  T
Yüksek Lisans Tezi-MSc. Thesis
138
Ç.Ü. Fen Bilimleri Enstitüsü Yıl:2010 Cilt:22-1
kareler toplamı kullanılır ve minimum yapan  bulunur.  ’nın en küçük
kareler tahmin edicisi
ˆOLS   X T X  X T y
1
dir. ˆOLS ; Gauss-Markov koşulları altında en iyi lineer yansız tahmin edicidir
(BLUE). Ancak yansızlık ve minimum varyans ˆOLS için her zaman yeterli
değildir.
1. Regresyon matrisi X tam ranklı değilse, tahmin edici tek değildir. Aslında
hata kareler toplamını minimum yapan pek çok tahmin edici vardır.
2. Regresyon matrisi X de yaklaşık içilişki problemi varsa EKK tahmin edici

 
yine yansızdır fakat Var ˆOLS  X T X

1
 2 varyansı büyük olur.
Örneğin iki açıklayıcı değişkenli basit regresyon problemini düşünelim.
y  1 x1  2 x2  
Buradaki  ~ N (0; 2 )
dağılımına sahiptir. Regresörler arası içilişkinin
etkilerini örnekte gösterelim. Kolaylık için x j  0 , x j  1 , j  1,2 ve  2  1

ile regresyon vektörleri x1 ve x2 ’yi standartlaştırıyoruz. ˆOLS  ˆ1
tahmin edicisinin varyans-kovaryans matrisi


1
Var ˆOLS   X  X  
1
1 r2
 1 r 
 r 1 


ve
 
Var ˆ j 
1
, j  1, 2
1 r2
139
ˆ2


Ç.Ü. Fen Bilimleri Enstitüsü Yıl:2010 Cilt:22-1
 
dir. x1 ve x2 açıklayıcı değişkenleri ilişkisiz ise, Var ˆ j  1 fakat x1 ve x2
  çok büyük olacaktır.
ilişkili ise Var ˆ j
Tablo 1. Korelasyon katsayıları ile artan varyans
0
0.3
0.5
0.7
0.95
r
 
Var ˆ j
1.00
1.10
1.33
1.96
10.26
LASSO ve Ridge Regresyon Tahminleri
LASSO ve Ridge regresyon, tahminleri dengelediği için “Büzülme
Modelleri” olarak adlandırılırlar. LASSO ve Ridge regresyon farklı
cezalandırma kullanırlar.
Tibshirani (1996) En Küçük Mutlak Büzülme ve Operatör Seçimini
(LASSO, Least Absolute Shrinkage And Selection Operator);

j
t
koşulu ile
min  y  X  


y  X
olarak vermiştir. LASSO, EKK tahmin edicisi ˆOLS ’yi sıfıra büzebilir ve
böylece bazı j değerleri için ˆ j  0 olabilir.
Ridge regresyonun amaç fonksiyonu (Hoerl ve Kennard, 1970)
2
m
m


2
 yi  0   xij  j   R   j  min

i 1 
j 1
j

1

n
dir. Problemin çözümü
ˆrdg   X T X  R I  X T y
1
dir. Varyansı R > 0 için ˆOLS ’den daha küçüktür.
140
Ç.Ü. Fen Bilimleri Enstitüsü Yıl:2010 Cilt:22-1
Var (ˆrdg )  ( X  X  R I )1 X  X ( X  X  R I )1 2
 Var (ˆols )   2 ( X  X )1
 L ve  R parametreleri büzülme miktarını kontrol eder ve sıfır
veya daha büyük değerler seçilmelidir. Eğer parametre 0 ise; EKK gibi
LASSO ve Ridge regresyonun sonuçları da aynıdır
Ridge regresyonun büzülme etkisini örneklendirelim. İki açıklayıcı
değişkenli bir lineer regresyon problemini düşünelim. Ridge tahmin edicinin
varyansı
1
r   1 r 1  
r 
1  
Var ( ˆrdg )  
 


1     r 1  r
1  
 r
1
yanlılık
1
r   1 r   1   1 
1  
Bias( ˆrdg )  
 
    
1     r 1   2    2 
 r
ve hata kareler ortalaması
MSE  Var ( ˆ j )   Bias( ˆ j ) 
2
ile verilir.
Tablo 2. Ridge tahmin edicinin varyansı, yanlılık ve MSE değerleri
 0
 1
2
 5
2
  10
2
2
Var bias
Var bias
Var
bias
Var bias
MSE
MSE
MSE
MSE
1.000 0
0.250 0.250
0.028 0.694 0.008 0.826
0
1.000
0.500
0.722
0.834
1.333 0
0.231 0.160
0.026 0.592 0.008 0.756
0.5
1.333
0.391
0.618
0.764
5.263 0
0.154 0.119
0.022 0.525 0.007 0.706
0.9
5.263
0.273
0.547
0.713
2
bias ve MSE değerleri gerçek   (1 1) ile hesaplanmıştır.
r
141
Ç.Ü. Fen Bilimleri Enstitüsü Yıl:2010 Cilt:22-1
Yukarıdaki tabloda  ’ya göre bias ’nin artışı görülmektedir. (Bias) ,
2
2
bias(ˆ j )    (1    r ) olarak hesaplanmıştır ( 1  2    1 özel
durumu için). Varyans değerlerinde  arttıkça azalma görülmektedir. MSE
değeri ise;  =0 ’dan 1’e giderken azalmakta;  =1’den 5 veya 10’a
giderken artmaktadır.
Bridge Tahmin Edicileri
  0 ile


j
t
min  y  X  
kısıtı ile


y  X
ifadesini minimum yapan ˆn değerine Bridge tahmin edici denir (Frank ve
Friedman, 1993; Fu, 1998).   2 iken çok iyi bilinen Ridge tahmin edici,
  1 iken LASSO tahmin edici adını alır (Tibshirani, 1996). Şekil 1’de t  1
için parametre uzayında orijin çevresinde farklı tahminler gösterilmiştir
(Frank ve Friedman, 1993).
Bridge Tahmin Edicinin Yapısı
  1 verilmişken Bridge regresyonun çözümünde aşağıdaki iki
problem dikkate alınır (Fu, 1998).
  1 ve t  0 verilmişken


j

 t koşulu ile min RSS
  1 ve   0 verilmişken min RSS     j




(2)
(3)
Bu problemin ikisi de denktir. İki problem de aynı çözümü paylaşır.
(3) problemi


j
ceza ve  ayar parametresi ile cezalı
regresyon gibi yorumlanabilir.
142
Ç.Ü. Fen Bilimleri Enstitüsü Yıl:2010 Cilt:22-1
Şekil 1. İki boyutlu parametre uzayında Bridge regresyonun sınırlandırıldığı
bölge (Fu,1998)
143
Ç.Ü. Fen Bilimleri Enstitüsü Yıl:2010 Cilt:22-1
(2)’yi
 j  0 ’da
düşünürsek,

G   , X , y,  ,    RSS     j

olsun.
fonksiyonu diferansiyellenebilir olmadığından,  j  0 ’da
j
G ’nin  j ’ye göre kısmi türevini alabiliriz.
S j ( , X , y) 
olsun.
RSS
 j
d ( j ,  ,  )    j
ve
 1
sign( j )
G
 0 alındığında
 j
 S1 (  , X , y )  d ( 1 ,  ,  )  0


S ( , X , y)  d (  ,  ,  )  0
p
 p
(4)
yazılabilir (Fu, 1998).
Bridge Tahmin Edicinin Varyansı
  1 Bridge tahmin edici, (4)’ün tek çözümü olduğundan ve yaklaşık
olarak sıfıra eşit olmadığından, varyansı
 

Var ˆ   X  X  D ˆ


  y| 
0

1


  y| 
X Var ( y) X  X  X  D ˆ

0
1

Delta metodu kullanılarak (4)’ten çıkarılır.Aşağıda 2 özel durum verilmiştir.
1. OLS regresyon,   0 . D ˆ fonksiyonu sıfır matrisi olur. Böylece
 
 
1
1
Var ˆ   X  X  X Var ( y) X  X  X 
144
(5)
Ç.Ü. Fen Bilimleri Enstitüsü Yıl:2010 Cilt:22-1
2.
Ridge regresyon,   2 .
 
I birim matris ve D ˆ   I olmak üzere
 
1
1
Var ˆ   X  X   I  X Var ( y ) X  X  X   I ) 

Bu ridge tahmin edicinin varyansı, Var ˆrdg
 ’e eşittir.
LASSO bazı ˆ j  0 yaptığı için delta metodu uygulanamaz. Buna
rağmen bootstrap ve jackknife metodu (Shao ve Tu, 1995) varyans
hesaplamada kullanılabilir.
Lineer Regresyon Modeli ve Uygulama
40 gözlemli ve 5 açıklayıcı değişkenli
Y  0  1 x1  2 x2  3 x3  4 x4  5 x5  
(6)
basit modelinin simülasyonunda Bridge model ile OLS, LASSO ve Ridge’i

karşılaştıralım.  ~ N 0, 2

‘dir. İçilişkide büzülme etkisini sınamak için
güçlü lineer korelasyonlu X matrisi seçilir.
Doğru model 0 katsayısını içerdiğinde LASSO Ridge’den daha iyi ve
doğru model küçük fakat sıfır olmayan parametreler içerdiğinde de LASSO
Ridge’den daha kötü performans gösterdiğinden; Gerçek  değerinin iki
kümesi, 0 katsayılı modeldeki büzülme etkisini sınaması için seçilir. Sıfır
içeren ve küçük katsayılı fakat sıfır içermeyen modeller:
(a) modeli için 0  0 sabit terimi ile true   0, 0, 0.5, 0,  1 ve (b) modeli
T
için 0  0 sabit terimi ile true   0.5, 3, 1.0, 2.5, 9  ’dir.
T
145
Ç.Ü. Fen Bilimleri Enstitüsü Yıl:2010 Cilt:22-1
Tablo 3. 200 kez tekrarlayan simülasyonla model karşılaştırılması
Model (a)
EKK
Bridge
LASSO
Ridge

0  0.0
0.006 (0.071)
0.006 (0.071)
1  0.0
0.004 (0.074)
-0.004 (0.046)
 2  0.0
-0.007 (0.087)
-0.013 (0.060)
3  0.5
0.495 (0.081)
0.457 (0.080)
 4  0.0
0.009 (0.837)
-0.267 (0.366)
5  1.0
-1.007 (0.843)
-0.700 (0.375)
MSE
1.385 (0.061)
1.104 (0.059)
EKK
Model (b)
Bridge
LASSO
Ridge
0.003(0.757)
0.386 (0.783)
2.956 (0.768)
-0.959 (0.769)
3.679 (4.715)
7.666 (4.883)
129.60 (5.50)
0.003 (0.757)
0.440 (0.783)
2.913 (0.730)
-0.983 (0.757)
4.909 (1.610)
6.257 (1.819)
127.90 (5.70)

0  0.0 0.003(0.757)
1  0.5 0.353 (0.860)
 2  3.0
3  1.0
4  2.5
5  9.0
MSE
3.018 (0.789)
-1.007 (0.811)
2.248 (0.837)
9.205 (7.826)
145.17 (5.97)
0.006 (0.071)
-0.004
(0.046)
-0.013
(0.060)
0.457 (0.080
-0.267
(0.366)
-0.700
(0.375)
1.104 (0,059)
0.003 (0.757)
0.380 (0.791)
2.987 (0.773)
-0.960 (0.779)
3.496 (4.877)
7.910 (5.024)
130.16 (5.52)
0.006 (0.071)
-0.011
(0.069)
-0.018
(0.083)
0.469 (0.080)
-0.394
(0.196)
-0.585
(0.204)
1.212 (0.057)
Tablo 3; parametre tahminleri, parantezlerde standart hataları, EKK’
in, Bridge, LASSO ve Ridge modellerin MSE değerlerini gösterir. (a)
modelinde; Bridge ve LASSO sonra da Ridge en küçük MSE değerini elde
eder. İçilişki nedeniyle EKK en büyük MSE ‘ye sahiptir. (b) modelinde; En
küçük MSE ‘ye sırasıyla Ridge, Bridge, LASSO ve EKK sahiptir.
146
Ç.Ü. Fen Bilimleri Enstitüsü Yıl:2010 Cilt:22-1
Sonuçlar
Yukarıdaki örnekte görülüyor ki, Bridge regresyon EKK tahminlerini
büzer; küçük varyans ve küçük MSE elde edilir.
Bridge tahmin edici, LASSO ve Ridge tahmin ediciye kıyasla ve EKK
tahmin ediciye göre daha iyi performans gösterir. Gerçek  parametresi 0’ı
içerdiğinde LASSO Ridge’den daha iyi, sıfır olmayan fakat küçük
parametreler içerdiğinde ise Ridge regresyon LASSO’dan daha iyi
performans gösterir.
Kaynaklar
FRANK, I. E. ve FRİEDMAN, J. H., 1993. A Statistical View of Some
Chemometrics Regression Tools, Technometrics 35:109-148.
FU, W. J., 1998. Penalized Regressions: The Bridge Versus The LASSO, J.
Computational and Graphical Statistics, 7:397-416.
HOERL, A. E. ve KENNARD, R. W., 1970. Ridge Regression: Biased
Estimation For Nonorthogonal Problems, Technometrics, 12:55-67.
SHAO, J. ve TU, D., 1995. The Jackknife and Bootstrap, Springer New York.
TİBSHİRANİ, R., 1996. Regression Shrinkage And Selection Via The
LASSO, J. Roy. Statist. Soc., Ser. B, 58:267-288.
147