Diss. ETH No. 21982 L1–Regularization for Non-linear Models A dissertation submitted to ETH ZURICH for the degree of Doctor of Sciences presented by ¨ PATRIC MULLER MSc ETH Mathematics born October 16, 1985 citizen of Reichenbach BE accepted on the recommendation of Prof. Dr. Sara Anna van de Geer, examiner Prof. Dr. Nicolai Meinshausen, co-examiner 2014 Abstract Statistical inference tries to draw statistical conclusions on the entire population from given observational data. A prominent example can be found in model estimation, where the goal is to recover how the predictor variable(s) affect the response. A relatively simple but very useful model is the linear model. In this case the true unknown parameters defining the model can be estimated by least squares (LSE). LSE only guaranties appreciable results if the number of unknown parameters to be estimated is much smaller than the number of observations. This condition fails in highdimensional contexts, where the number of observation is smaller than the number of unknown parameters. The LSE does not even provide a unique solution, a different approach is therefore needed when dealing with highdimensional data. A prominent method is the so called LASSO (Least Absolute Shrinkage and Selection Operator) which was deeply studied in the last decades (see B¨ uhlmann and van de Geer (2011) and references therein) and turns out to be appreciable in sparse contexts. Generally high-dimensional statistics became more and more popular in the last years and is nowadays a large and dynamic research area. Even if the linear case is well studied, only little theoretical work was done on high-dimensional models which are not (fully) linear. The aim of this thesis is to study some of them and provide for each studied model a suitable estimator. In particular three different non-linear models are considered in this thesis: First we analyze the partial linear model in high dimensions, where the response variable depends on both a linear, parametric, high-dimensional term and on a non-linear, low-dimensional, nuisance function. We propose the DP (doubly penalized estimator) which basically combines the l1 penalty on the coefficients of the linear part with a smoothing penalty xii Abstract on the nuisance function. We show that, assuming the compatibility condition, one can recover the linear part with the same (oracle) rate as in the fully linear case. Furthermore the nuisance function can be estimated with the same rate as in the case where the linear term in the model is low-dimensional. The estimator of the nuisance function converges slower than the one for the linear part. The only price to pay for the increased complexity of the model is a constant multiplicative term. Empirical studies suggest that this term is moderately larger than one. In other words the price to pay for the increased difficulty given by the nuisance function is small. The second model considered is the censored linear model in high dimensions where the response variable linearly depends on the predictors but is only observed if its value is above some known censoring level. We combine low-dimensional standard theory for censored data with the LASSO in order to obtain the CL (censored regression with l1 -penalization), an estimator which aims to provide a remarkable estimation of the unknown model despite the censored data. We prove theoretical results and give oracle bounds for both the prediction and the estimation error of CL. Simulation studies support our theoretical results. Third we consider the high-dimensional generalized linear model with the LASSO, and prove bounds for the prediction error and l1 -error. We moreover show that under an irrepresentable condition, the l1 -penalized quasilikelihood estimator has no false positives. Sommario La statistica inferenziale ha come obiettivo quello di ricavare, da un campione di dati, informazioni sulla distribuzione dell’intera popolazione. Ne `e un esempio la stima di modelli dove l’applicazione di metodi statistici ha lo scopo di scoprire come la variabile indipendente influenzi quella di risposta. Nel caso particolare in cui la dipendenza tra le variabili `e lineare il modello che ne risulata (modello lineare) `e relativamente semplice e al contempo, proprio per la sua semplicit` a, molto usato. Per avere completa conoscenza di questo modello `e necessario (e sufficiente) determinare una serie di parametri. Una soluzione che perviene a questo scopo consiste nell’applicare il metodo dei minimi quadrati (LSE) che permette per`o di stimare i citati parametri solo in un contesto a basse dimensioni, ossia nel caso in cui il numero di osservazioni sia nettamente superiore a quello dei parametri da stimare. Al contrario, in modelli ad alte dimensioni (dove il numero di parametri da stimare `e superiore a quello delle osservazioni fatte) l’LSE `e inutilizzabile. Esso non `e neppure in grado di garantire l’unicit`a della soluzione. In un contesto ad alte dimensioni si rende quindi necessario un approccio differente come ad esempio il LASSO (dall’inglese Least Absolute Shrinkage and Selection Operator), che `e uno tra i pi` u importanti e studiati stimatori (vedi B¨ uhlmann and van de Geer (2011) e fonti in esso citate) in grado, nel caso lineare, di lavorare con dati ad alte dimensioni. Particolarmente apprezzate sono le stime ottenute in modelli dove il vettore contenete i parametri da stimare `e sparso. Pi` u in generale, tutta la statistica ad alte dimensioni ha conosciuto negli ultimi lustri un grande sviluppo ed oggigiorno `e, anche grazie al LASSO, un dinamico campo di ricerca in continua espansione. Nonostante le varie ricerche svolte in questo campo, in passato ci si `e principalmente limitati xiv Sommario ad analizzare modelli lineari. Lo scopo di questa tesi `e quello di studiare, sia da un punto di vista teorico che pratico modelli non lineari ad alte dimensioni e quindi colmare (almeno in parte) la carenza di ricerche nel settore. Nello specifico in questa tesi vengono presi in considerazione tre diversi modelli non lineari: Come primo `e analizzato il modello parzialmente lineare ad alte dimensioni, qui la variabile di risposta dipende (in modo lineare) da un termine ad alte dimensioni e inoltre in modo non lineare da una funzione di disturbo a basse dimensioni. Per stimare al contempo sia la componente lineare che la funzione di disturbo proponiamo DP (stimatore con doppia penalit` a). Questo stimatore `e caratterizzato dalla combinazione della penalit`a l1 proveniente dal LASSO e da una penalit` a per controllare la stima della parte non lineare ed evitare il cosiddetto ”overfitting”. In questa tesi dimostriamo come DP sia in grado di stimare la parte lineare ad alte dimesioni con la stessa precisione (pagando unicamente il prezzo di una costante moltiplicativa) che si otterrebbe se la funzione di disturbo fosse conosciuta e al contempo stimare tale funzione come se la parte lineare fosse a basse dimensioni. Si noti comunque che la stima della parte lineare ha una velocit` a di convergenza maggiore rispetto a quella della parte non lineare. Concludiamo lo studio del modello con una serie di simulazioni che da un lato confermano i risultati teorici e dall’altro mostrano come il prezzo da pagare in termini di costanti sia sorprendentemente piccolo, questo a conferma della qualit` a di DP. Il secondo modello analizzato `e il modello lineare ad alte dimensioni con dati censurati da sinistra. In altre parole si consideri un modello lineare ad alte dimensioni in cui la variabile dipendente `e osservata solo se supera una certa soglia, altrimenti solo la soglia `e conosciuta. Similmente all’esempio precedente, combinando la teoria standard per dati censurati con quella per i dati ad alte dimensioni abbiamo creato CL (regressione censurata con penalizzazione l1 ), uno stimatore che perviene allo scopo di determinare con la maggior precisione possibile, nonostante la censura di una parte dei dati, le caratteristiche del modello iniziale. Anche per questo modello proponiamo e dimostriamo soglie teoriche basate su un oracolo per l’errore di stima e di previsione. A supporto della teoria presentiamo i risultati di diverse simulazioni al computer. Il terzo modello considerato `e il modello lineare generalizzato ad alte di- Sommario xv mensioni. Dimostriamo, dando un limite superiore all’errore di previsione e a quello di stima, come l’applicazione del LASSO anche in questo caso garantisca un risultato di qualit` a. Proviamo inoltre come una condizione di irrappresentabilit` a sia sufficiente per avere selezione di variabili, ossia non avere falsi positivi.
© Copyright 2024 Paperzz