Ç.Ü. Fen Bilimleri Enstitüsü Yıl:2010 Cilt:22-1 İSTATİSTİKSEL DARALTICI (SHRINKAGE) MODEL VE * UYGULAMALARI A Statistical Shrinkage Model And Its Applications* Işıl FİDANOĞLU İstatistik Anabilim Dalı Fikri AKDENİZ İstatistik Anabilim Dalı ÖZET Bu çalışmada Bridge, LASSO ve Ridge tahmin ediciler verilerek, içilişki problemi incelenmiş, büzülme ve ayar parametreleri irdelenmiştir. Uygun bir veri kümesi ile tahmin ediciler karşılaştırılmıştır. Anahtar Kelimeler : Ridge regresyon, LASSO, Bridge tahmin edicileri, Daraltıcı modeller ABSTRACT In this study, Bridge, LASSO and Ridge estimators are given, collinearity problem is inspected, tuning and shrinkage parameters are examined. The estimators were compared with an appropriate set of data. Key Words : Ridge regression, LASSO, Bridge estimators, Shrinkage models Giriş y X (1) lineer regresyon modelini düşünelim. Burada, y ; n1 tipinde rastgele yanıtlar vektörü, X ; n p tipinde tasarım matrisi, ; p 1 tipinde regresyon parametrelerinin vektörü, ; n1 tipinde rastgele hatalar vektörü ~ iid N (0; 2 ) dir. Amacımız; (1) nolu modeldeki ’yı tahmin etmektir. Bunun için RSS y X T * y X = T Yüksek Lisans Tezi-MSc. Thesis 138 Ç.Ü. Fen Bilimleri Enstitüsü Yıl:2010 Cilt:22-1 kareler toplamı kullanılır ve minimum yapan bulunur. ’nın en küçük kareler tahmin edicisi ˆOLS X T X X T y 1 dir. ˆOLS ; Gauss-Markov koşulları altında en iyi lineer yansız tahmin edicidir (BLUE). Ancak yansızlık ve minimum varyans ˆOLS için her zaman yeterli değildir. 1. Regresyon matrisi X tam ranklı değilse, tahmin edici tek değildir. Aslında hata kareler toplamını minimum yapan pek çok tahmin edici vardır. 2. Regresyon matrisi X de yaklaşık içilişki problemi varsa EKK tahmin edici yine yansızdır fakat Var ˆOLS X T X 1 2 varyansı büyük olur. Örneğin iki açıklayıcı değişkenli basit regresyon problemini düşünelim. y 1 x1 2 x2 Buradaki ~ N (0; 2 ) dağılımına sahiptir. Regresörler arası içilişkinin etkilerini örnekte gösterelim. Kolaylık için x j 0 , x j 1 , j 1,2 ve 2 1 ile regresyon vektörleri x1 ve x2 ’yi standartlaştırıyoruz. ˆOLS ˆ1 tahmin edicisinin varyans-kovaryans matrisi 1 Var ˆOLS X X 1 1 r2 1 r r 1 ve Var ˆ j 1 , j 1, 2 1 r2 139 ˆ2 Ç.Ü. Fen Bilimleri Enstitüsü Yıl:2010 Cilt:22-1 dir. x1 ve x2 açıklayıcı değişkenleri ilişkisiz ise, Var ˆ j 1 fakat x1 ve x2 çok büyük olacaktır. ilişkili ise Var ˆ j Tablo 1. Korelasyon katsayıları ile artan varyans 0 0.3 0.5 0.7 0.95 r Var ˆ j 1.00 1.10 1.33 1.96 10.26 LASSO ve Ridge Regresyon Tahminleri LASSO ve Ridge regresyon, tahminleri dengelediği için “Büzülme Modelleri” olarak adlandırılırlar. LASSO ve Ridge regresyon farklı cezalandırma kullanırlar. Tibshirani (1996) En Küçük Mutlak Büzülme ve Operatör Seçimini (LASSO, Least Absolute Shrinkage And Selection Operator); j t koşulu ile min y X y X olarak vermiştir. LASSO, EKK tahmin edicisi ˆOLS ’yi sıfıra büzebilir ve böylece bazı j değerleri için ˆ j 0 olabilir. Ridge regresyonun amaç fonksiyonu (Hoerl ve Kennard, 1970) 2 m m 2 yi 0 xij j R j min i 1 j 1 j 1 n dir. Problemin çözümü ˆrdg X T X R I X T y 1 dir. Varyansı R > 0 için ˆOLS ’den daha küçüktür. 140 Ç.Ü. Fen Bilimleri Enstitüsü Yıl:2010 Cilt:22-1 Var (ˆrdg ) ( X X R I )1 X X ( X X R I )1 2 Var (ˆols ) 2 ( X X )1 L ve R parametreleri büzülme miktarını kontrol eder ve sıfır veya daha büyük değerler seçilmelidir. Eğer parametre 0 ise; EKK gibi LASSO ve Ridge regresyonun sonuçları da aynıdır Ridge regresyonun büzülme etkisini örneklendirelim. İki açıklayıcı değişkenli bir lineer regresyon problemini düşünelim. Ridge tahmin edicinin varyansı 1 r 1 r 1 r 1 Var ( ˆrdg ) 1 r 1 r 1 r 1 yanlılık 1 r 1 r 1 1 1 Bias( ˆrdg ) 1 r 1 2 2 r ve hata kareler ortalaması MSE Var ( ˆ j ) Bias( ˆ j ) 2 ile verilir. Tablo 2. Ridge tahmin edicinin varyansı, yanlılık ve MSE değerleri 0 1 2 5 2 10 2 2 Var bias Var bias Var bias Var bias MSE MSE MSE MSE 1.000 0 0.250 0.250 0.028 0.694 0.008 0.826 0 1.000 0.500 0.722 0.834 1.333 0 0.231 0.160 0.026 0.592 0.008 0.756 0.5 1.333 0.391 0.618 0.764 5.263 0 0.154 0.119 0.022 0.525 0.007 0.706 0.9 5.263 0.273 0.547 0.713 2 bias ve MSE değerleri gerçek (1 1) ile hesaplanmıştır. r 141 Ç.Ü. Fen Bilimleri Enstitüsü Yıl:2010 Cilt:22-1 Yukarıdaki tabloda ’ya göre bias ’nin artışı görülmektedir. (Bias) , 2 2 bias(ˆ j ) (1 r ) olarak hesaplanmıştır ( 1 2 1 özel durumu için). Varyans değerlerinde arttıkça azalma görülmektedir. MSE değeri ise; =0 ’dan 1’e giderken azalmakta; =1’den 5 veya 10’a giderken artmaktadır. Bridge Tahmin Edicileri 0 ile j t min y X kısıtı ile y X ifadesini minimum yapan ˆn değerine Bridge tahmin edici denir (Frank ve Friedman, 1993; Fu, 1998). 2 iken çok iyi bilinen Ridge tahmin edici, 1 iken LASSO tahmin edici adını alır (Tibshirani, 1996). Şekil 1’de t 1 için parametre uzayında orijin çevresinde farklı tahminler gösterilmiştir (Frank ve Friedman, 1993). Bridge Tahmin Edicinin Yapısı 1 verilmişken Bridge regresyonun çözümünde aşağıdaki iki problem dikkate alınır (Fu, 1998). 1 ve t 0 verilmişken j t koşulu ile min RSS 1 ve 0 verilmişken min RSS j (2) (3) Bu problemin ikisi de denktir. İki problem de aynı çözümü paylaşır. (3) problemi j ceza ve ayar parametresi ile cezalı regresyon gibi yorumlanabilir. 142 Ç.Ü. Fen Bilimleri Enstitüsü Yıl:2010 Cilt:22-1 Şekil 1. İki boyutlu parametre uzayında Bridge regresyonun sınırlandırıldığı bölge (Fu,1998) 143 Ç.Ü. Fen Bilimleri Enstitüsü Yıl:2010 Cilt:22-1 (2)’yi j 0 ’da düşünürsek, G , X , y, , RSS j olsun. fonksiyonu diferansiyellenebilir olmadığından, j 0 ’da j G ’nin j ’ye göre kısmi türevini alabiliriz. S j ( , X , y) olsun. RSS j d ( j , , ) j ve 1 sign( j ) G 0 alındığında j S1 ( , X , y ) d ( 1 , , ) 0 S ( , X , y) d ( , , ) 0 p p (4) yazılabilir (Fu, 1998). Bridge Tahmin Edicinin Varyansı 1 Bridge tahmin edici, (4)’ün tek çözümü olduğundan ve yaklaşık olarak sıfıra eşit olmadığından, varyansı Var ˆ X X D ˆ y| 0 1 y| X Var ( y) X X X D ˆ 0 1 Delta metodu kullanılarak (4)’ten çıkarılır.Aşağıda 2 özel durum verilmiştir. 1. OLS regresyon, 0 . D ˆ fonksiyonu sıfır matrisi olur. Böylece 1 1 Var ˆ X X X Var ( y) X X X 144 (5) Ç.Ü. Fen Bilimleri Enstitüsü Yıl:2010 Cilt:22-1 2. Ridge regresyon, 2 . I birim matris ve D ˆ I olmak üzere 1 1 Var ˆ X X I X Var ( y ) X X X I ) Bu ridge tahmin edicinin varyansı, Var ˆrdg ’e eşittir. LASSO bazı ˆ j 0 yaptığı için delta metodu uygulanamaz. Buna rağmen bootstrap ve jackknife metodu (Shao ve Tu, 1995) varyans hesaplamada kullanılabilir. Lineer Regresyon Modeli ve Uygulama 40 gözlemli ve 5 açıklayıcı değişkenli Y 0 1 x1 2 x2 3 x3 4 x4 5 x5 (6) basit modelinin simülasyonunda Bridge model ile OLS, LASSO ve Ridge’i karşılaştıralım. ~ N 0, 2 ‘dir. İçilişkide büzülme etkisini sınamak için güçlü lineer korelasyonlu X matrisi seçilir. Doğru model 0 katsayısını içerdiğinde LASSO Ridge’den daha iyi ve doğru model küçük fakat sıfır olmayan parametreler içerdiğinde de LASSO Ridge’den daha kötü performans gösterdiğinden; Gerçek değerinin iki kümesi, 0 katsayılı modeldeki büzülme etkisini sınaması için seçilir. Sıfır içeren ve küçük katsayılı fakat sıfır içermeyen modeller: (a) modeli için 0 0 sabit terimi ile true 0, 0, 0.5, 0, 1 ve (b) modeli T için 0 0 sabit terimi ile true 0.5, 3, 1.0, 2.5, 9 ’dir. T 145 Ç.Ü. Fen Bilimleri Enstitüsü Yıl:2010 Cilt:22-1 Tablo 3. 200 kez tekrarlayan simülasyonla model karşılaştırılması Model (a) EKK Bridge LASSO Ridge 0 0.0 0.006 (0.071) 0.006 (0.071) 1 0.0 0.004 (0.074) -0.004 (0.046) 2 0.0 -0.007 (0.087) -0.013 (0.060) 3 0.5 0.495 (0.081) 0.457 (0.080) 4 0.0 0.009 (0.837) -0.267 (0.366) 5 1.0 -1.007 (0.843) -0.700 (0.375) MSE 1.385 (0.061) 1.104 (0.059) EKK Model (b) Bridge LASSO Ridge 0.003(0.757) 0.386 (0.783) 2.956 (0.768) -0.959 (0.769) 3.679 (4.715) 7.666 (4.883) 129.60 (5.50) 0.003 (0.757) 0.440 (0.783) 2.913 (0.730) -0.983 (0.757) 4.909 (1.610) 6.257 (1.819) 127.90 (5.70) 0 0.0 0.003(0.757) 1 0.5 0.353 (0.860) 2 3.0 3 1.0 4 2.5 5 9.0 MSE 3.018 (0.789) -1.007 (0.811) 2.248 (0.837) 9.205 (7.826) 145.17 (5.97) 0.006 (0.071) -0.004 (0.046) -0.013 (0.060) 0.457 (0.080 -0.267 (0.366) -0.700 (0.375) 1.104 (0,059) 0.003 (0.757) 0.380 (0.791) 2.987 (0.773) -0.960 (0.779) 3.496 (4.877) 7.910 (5.024) 130.16 (5.52) 0.006 (0.071) -0.011 (0.069) -0.018 (0.083) 0.469 (0.080) -0.394 (0.196) -0.585 (0.204) 1.212 (0.057) Tablo 3; parametre tahminleri, parantezlerde standart hataları, EKK’ in, Bridge, LASSO ve Ridge modellerin MSE değerlerini gösterir. (a) modelinde; Bridge ve LASSO sonra da Ridge en küçük MSE değerini elde eder. İçilişki nedeniyle EKK en büyük MSE ‘ye sahiptir. (b) modelinde; En küçük MSE ‘ye sırasıyla Ridge, Bridge, LASSO ve EKK sahiptir. 146 Ç.Ü. Fen Bilimleri Enstitüsü Yıl:2010 Cilt:22-1 Sonuçlar Yukarıdaki örnekte görülüyor ki, Bridge regresyon EKK tahminlerini büzer; küçük varyans ve küçük MSE elde edilir. Bridge tahmin edici, LASSO ve Ridge tahmin ediciye kıyasla ve EKK tahmin ediciye göre daha iyi performans gösterir. Gerçek parametresi 0’ı içerdiğinde LASSO Ridge’den daha iyi, sıfır olmayan fakat küçük parametreler içerdiğinde ise Ridge regresyon LASSO’dan daha iyi performans gösterir. Kaynaklar FRANK, I. E. ve FRİEDMAN, J. H., 1993. A Statistical View of Some Chemometrics Regression Tools, Technometrics 35:109-148. FU, W. J., 1998. Penalized Regressions: The Bridge Versus The LASSO, J. Computational and Graphical Statistics, 7:397-416. HOERL, A. E. ve KENNARD, R. W., 1970. Ridge Regression: Biased Estimation For Nonorthogonal Problems, Technometrics, 12:55-67. SHAO, J. ve TU, D., 1995. The Jackknife and Bootstrap, Springer New York. TİBSHİRANİ, R., 1996. Regression Shrinkage And Selection Via The LASSO, J. Roy. Statist. Soc., Ser. B, 58:267-288. 147
© Copyright 2024 Paperzz