多1–Regularization for Non-linear Models - ETH E

Diss. ETH No. 21982
L1–Regularization
for Non-linear Models
A dissertation submitted to
ETH ZURICH
for the degree of
Doctor of Sciences
presented by
¨
PATRIC MULLER
MSc ETH Mathematics
born October 16, 1985
citizen of Reichenbach BE
accepted on the recommendation of
Prof. Dr. Sara Anna van de Geer, examiner
Prof. Dr. Nicolai Meinshausen, co-examiner
2014
Abstract
Statistical inference tries to draw statistical conclusions on the entire population from given observational data. A prominent example can be found
in model estimation, where the goal is to recover how the predictor variable(s) affect the response. A relatively simple but very useful model is the
linear model. In this case the true unknown parameters defining the model
can be estimated by least squares (LSE). LSE only guaranties appreciable results if the number of unknown parameters to be estimated is much
smaller than the number of observations. This condition fails in highdimensional contexts, where the number of observation is smaller than the
number of unknown parameters. The LSE does not even provide a unique
solution, a different approach is therefore needed when dealing with highdimensional data. A prominent method is the so called LASSO (Least
Absolute Shrinkage and Selection Operator) which was deeply studied in
the last decades (see B¨
uhlmann and van de Geer (2011) and references
therein) and turns out to be appreciable in sparse contexts. Generally
high-dimensional statistics became more and more popular in the last years
and is nowadays a large and dynamic research area.
Even if the linear case is well studied, only little theoretical work was
done on high-dimensional models which are not (fully) linear. The aim of
this thesis is to study some of them and provide for each studied model a
suitable estimator.
In particular three different non-linear models are considered in this thesis:
First we analyze the partial linear model in high dimensions, where the
response variable depends on both a linear, parametric, high-dimensional
term and on a non-linear, low-dimensional, nuisance function. We propose the DP (doubly penalized estimator) which basically combines the
l1 penalty on the coefficients of the linear part with a smoothing penalty
xii
Abstract
on the nuisance function. We show that, assuming the compatibility condition, one can recover the linear part with the same (oracle) rate as in
the fully linear case. Furthermore the nuisance function can be estimated
with the same rate as in the case where the linear term in the model is
low-dimensional. The estimator of the nuisance function converges slower
than the one for the linear part. The only price to pay for the increased
complexity of the model is a constant multiplicative term. Empirical studies suggest that this term is moderately larger than one. In other words
the price to pay for the increased difficulty given by the nuisance function
is small.
The second model considered is the censored linear model in high dimensions where the response variable linearly depends on the predictors but is
only observed if its value is above some known censoring level. We combine low-dimensional standard theory for censored data with the LASSO
in order to obtain the CL (censored regression with l1 -penalization), an
estimator which aims to provide a remarkable estimation of the unknown
model despite the censored data. We prove theoretical results and give
oracle bounds for both the prediction and the estimation error of CL.
Simulation studies support our theoretical results.
Third we consider the high-dimensional generalized linear model with the
LASSO, and prove bounds for the prediction error and l1 -error. We moreover show that under an irrepresentable condition, the l1 -penalized quasilikelihood estimator has no false positives.
Sommario
La statistica inferenziale ha come obiettivo quello di ricavare, da un campione di dati, informazioni sulla distribuzione dell’intera popolazione. Ne
`e un esempio la stima di modelli dove l’applicazione di metodi statistici
ha lo scopo di scoprire come la variabile indipendente influenzi quella di
risposta. Nel caso particolare in cui la dipendenza tra le variabili `e lineare
il modello che ne risulata (modello lineare) `e relativamente semplice e al
contempo, proprio per la sua semplicit`
a, molto usato. Per avere completa
conoscenza di questo modello `e necessario (e sufficiente) determinare una
serie di parametri. Una soluzione che perviene a questo scopo consiste
nell’applicare il metodo dei minimi quadrati (LSE) che permette per`o di
stimare i citati parametri solo in un contesto a basse dimensioni, ossia nel
caso in cui il numero di osservazioni sia nettamente superiore a quello dei
parametri da stimare.
Al contrario, in modelli ad alte dimensioni (dove il numero di parametri da
stimare `e superiore a quello delle osservazioni fatte) l’LSE `e inutilizzabile.
Esso non `e neppure in grado di garantire l’unicit`a della soluzione. In un
contesto ad alte dimensioni si rende quindi necessario un approccio differente come ad esempio il LASSO (dall’inglese Least Absolute Shrinkage
and Selection Operator), che `e uno tra i pi`
u importanti e studiati stimatori
(vedi B¨
uhlmann and van de Geer (2011) e fonti in esso citate) in grado,
nel caso lineare, di lavorare con dati ad alte dimensioni. Particolarmente
apprezzate sono le stime ottenute in modelli dove il vettore contenete i
parametri da stimare `e sparso.
Pi`
u in generale, tutta la statistica ad alte dimensioni ha conosciuto negli
ultimi lustri un grande sviluppo ed oggigiorno `e, anche grazie al LASSO,
un dinamico campo di ricerca in continua espansione. Nonostante le varie
ricerche svolte in questo campo, in passato ci si `e principalmente limitati
xiv
Sommario
ad analizzare modelli lineari.
Lo scopo di questa tesi `e quello di studiare, sia da un punto di vista teorico
che pratico modelli non lineari ad alte dimensioni e quindi colmare (almeno
in parte) la carenza di ricerche nel settore.
Nello specifico in questa tesi vengono presi in considerazione tre diversi
modelli non lineari:
Come primo `e analizzato il modello parzialmente lineare ad alte dimensioni, qui la variabile di risposta dipende (in modo lineare) da un termine ad
alte dimensioni e inoltre in modo non lineare da una funzione di disturbo
a basse dimensioni. Per stimare al contempo sia la componente lineare
che la funzione di disturbo proponiamo DP (stimatore con doppia penalit`
a). Questo stimatore `e caratterizzato dalla combinazione della penalit`a
l1 proveniente dal LASSO e da una penalit`
a per controllare la stima della
parte non lineare ed evitare il cosiddetto ”overfitting”.
In questa tesi dimostriamo come DP sia in grado di stimare la parte lineare
ad alte dimesioni con la stessa precisione (pagando unicamente il prezzo di
una costante moltiplicativa) che si otterrebbe se la funzione di disturbo fosse conosciuta e al contempo stimare tale funzione come se la parte lineare
fosse a basse dimensioni. Si noti comunque che la stima della parte lineare
ha una velocit`
a di convergenza maggiore rispetto a quella della parte non
lineare. Concludiamo lo studio del modello con una serie di simulazioni
che da un lato confermano i risultati teorici e dall’altro mostrano come
il prezzo da pagare in termini di costanti sia sorprendentemente piccolo,
questo a conferma della qualit`
a di DP.
Il secondo modello analizzato `e il modello lineare ad alte dimensioni con
dati censurati da sinistra. In altre parole si consideri un modello lineare ad
alte dimensioni in cui la variabile dipendente `e osservata solo se supera una
certa soglia, altrimenti solo la soglia `e conosciuta. Similmente all’esempio
precedente, combinando la teoria standard per dati censurati con quella
per i dati ad alte dimensioni abbiamo creato CL (regressione censurata con
penalizzazione l1 ), uno stimatore che perviene allo scopo di determinare
con la maggior precisione possibile, nonostante la censura di una parte
dei dati, le caratteristiche del modello iniziale. Anche per questo modello
proponiamo e dimostriamo soglie teoriche basate su un oracolo per l’errore
di stima e di previsione. A supporto della teoria presentiamo i risultati di
diverse simulazioni al computer.
Il terzo modello considerato `e il modello lineare generalizzato ad alte di-
Sommario
xv
mensioni. Dimostriamo, dando un limite superiore all’errore di previsione
e a quello di stima, come l’applicazione del LASSO anche in questo caso
garantisca un risultato di qualit`
a. Proviamo inoltre come una condizione
di irrappresentabilit`
a sia sufficiente per avere selezione di variabili, ossia
non avere falsi positivi.