Università degli Studi di Napoli Federico II Master di I° Livello in Tecnologie per il CAlcolo Scientifico ad Alte Prestazioni - CASAP Tesi di Master Tecniche e metodologie di imputazione singola per dataset non normali Relatori Candidato Prof. Roberto Bellotti Dt.ssa Sonia Sabina Tangaro Giulia De Luca matr. Z62000002 Anno Accademico 2012-2013 Indice generale 1 Elementi di teoria: mancate risposte e imputazione singola...................................5 1.1 Il problema dei missing data...........................................................................5 1.2 Il concetto di non risposta ...............................................................................5 1.2.1 Meccanismo generatore dei dati mancanti ..............................................6 1.3 Imputazione dei dati mancanti ........................................................................8 1.4 Metodi deduttivi .............................................................................................8 1.4.1 Imputazione con media campionaria........................................................9 1.4.2 Imputazione con regressione predittiva....................................................9 1.5 Metodi stocastici .........................................................................................10 1.5.1 Imputazione con regressione casuale.....................................................11 1.5.2 Imputazione tramite algoritmo EM........................................................11 2 Materiali e metodi.................................................................................................16 2.1 Cosa è l'EGDI................................................................................................16 2.2 Descrizione del problema..............................................................................17 2.3 Dettagli implementativi.................................................................................18 2.3.1 3.1 Media incondizionata.......................................................................18 2.3.2 Regressione...........................................................................................20 2.3.3 Regressione stocastica............................................................................22 2.3.4 Stima a massima verosimiglianza.........................................................24 2.3.4.1 Stima a massima verosimiglianza dell'indice HCI....................................25 Giulia De Luca Z62000002 di 54 2.3.4.2 Stima a massima verosimiglianza dell'indice OSI....................................26 2.3.4.3 Stima a massima verosimiglianza dell'indice II........................................26 2.3.4.4 Imputazione dei missing...........................................................................28 2.4 Matlab per le applicazioni statistiche............................................................29 3 Conclusioni...........................................................................................................31 3.1 Metodi di analisi............................................................................................31 3.2 Visualizzazione grafica dei risultati...............................................................31 3.3 Indici numerici...............................................................................................38 3.4 Valutazioni incrociate....................................................................................41 APPENDICE B.........................................................................................................44 Indice delle illustrazioni Illustrazione 1: Scatter plot dei valori di OSI imputati e osservati...........................19 Illustrazione 2: Scatter plot dei valori di HCI imputati e osservati...........................22 Illustrazione 3: Scatter plot dei valori di II imputati e osservati...............................24 Illustrazione 4: Istogramma dei valori di HCI..........................................................25 Illustrazione 5: Istogramma dei valori di OSI...........................................................26 Illustrazione 6: Istogramma dei valori di II...............................................................27 Illustrazione 7: Istogramma ricostruito dei valori di II.............................................27 Illustrazione 8: Scatter plot dei valori di II imputati e osservati...............................29 Illustrazione 9............................................................................................................32 Illustrazione 10..........................................................................................................33 Illustrazione 11..........................................................................................................33 Illustrazione 12..........................................................................................................34 Illustrazione 13..........................................................................................................34 Illustrazione 14..........................................................................................................35 Giulia De Luca Z62000002 di 54 Illustrazione 15..........................................................................................................36 Illustrazione 16..........................................................................................................36 Illustrazione 17..........................................................................................................37 Illustrazione 18..........................................................................................................37 Illustrazione 19: ........................................................................................................41 Indice delle tabelle Tabella 1:distribuzione percentuali di missing..........................................................18 Tabella 2: medie campionarie...................................................................................19 Tabella 3: Parametri della GEV................................................................................25 Tabella 4: Parametri della gamma.............................................................................26 Tabella 5: Parametri della gaussiana.........................................................................28 Tabella 6: Valori attesi della funzioni di distribuzione di probabilità gev, gamma, normale......................................................................................................................28 Tabella 7: Performance nel caso di 6,8% missing.....................................................39 Tabella 8: Performance case delection per 13 missing.............................................39 Tabella 9: Performance nel caso di 25,8% missing...................................................40 Tabella 10: Performance case delection con 49 missing...........................................40 Giulia De Luca Z62000002 di 54 Tabella 11: Indice err calcolato per ogni variabile....................................................42 1 Elementi di teoria: mancate risposte e imputazione singola 1.1 Il problema dei missing data Il problema dei dati mancanti è molto molto sentito nelle scienze economicosociali, ambito in cui somministrazione di questionari è una delle tecniche più utilizzata per raccogliere dati e informazioni. problema, non esiste un’unica tecnica o Data le forte dipendenza dal approccio al problema, ma ogni esperimento rappresenta un caso a sé. Nel caso il problema dei dati mancanti sia irrisolvibile per via fisica (utilizzando diversi strumenti per la misura dei dati), la quantità e la distribuzione dei dati mancanti (missing data), la struttura dei dati e la natura delle variabili coinvolte, saranno l’unica indicazione in base alla quale prendere decisioni. Nella letteratura sono presenti svariate tecniche e metodologie per poter affrontare il problema dei dati mancanti come ad esempio i lavori di Rubin [1]e Schafer[2]. Prima di parlare dei metodi per il trattamento dei dati mancanti e quindi per la generazione delle imputazioni è doveroso introdurre alcune questioni metodologiche fondamentali come il concetto di non risposta, la notazione, il meccanismo generatore dei dati mancanti. 1.2 Il concetto di non risposta Il termine non-risposta si riferisce ad un insieme di situazioni in cui il dato non viene rilevato. Si parla di non risposta ogni qualvolta non si riesce ad ottenere il dato su una o più variabili di interesse per una o più unità campionarie. In conseguenza di ciò si ha un incremento nella variabilità degli stimatori, dovuta ad Giulia De Luca Z62000002 di 54 una riduzione della base campionaria di analisi e alle eventuali applicazioni di metodi per il trattamento della stessa. Si distinguono due tipi di non risposta la non risposta totale e la non risposta parziale. La non risposta totale si riferisce al caso in cui non si ha nessuna informazione disponibile rilevata per unità campionarie. Mentre la non risposta parziale indica il caso in cui le informazioni rilevate sono tali da essere ritenute accettabili, ma alcune informazioni risultano mancanti. Le metodologie che si adottano per trattare le due tipologie di mancata risposta sono sostanzialmente diverse. In questo lavoro verrà trattato il caso delle non risposte parziali. 1.2.1 Meccanismo generatore dei dati mancanti Sia Y una matrice di dimensione n × p di dati non completamente osservata, indichiamo con θ la parte osservata di Y con Y m la parte mancante di Y . Supponiamo inoltre che R sia la matrice di dimensione n × p degli indicatori di risposta, i cui elementi assumono valore zero o uno a seconda che il corrispondente elemento di Y sia mancante o osservato. Euristicamente si può stabilire che meccanismo generatore dei dati mancanti è MAR (Missing At Random) se la probabilità che una data osservazione sia mancante dipende da Y o ma non da Y . Un caso particolare di meccanismo MAR è il meccanismo MCAR (Missing Completely At Random), in questo caso la probabilità che una data osservazione sia mancante non dipende né da Y o né da Y m ; i dati mancanti sono essenzialmente un campione casuale dei dati osservabili. Se il processo generatore dei dati mancanti è MAR e il parametro del meccanismo generatore dei dati mancanti ed il parametro del modello sui dati completi sono distinti, allora il processo generatore dei dati mancanti è ignorabile. Formalmente assumere un meccanismo MAR implica che la distribuzione di R può dipendere da Y o ma non da Y m . Giulia De Luca Z62000002 di 54 p (R∣Y o ,Y m )= p(R∣Y o) (1) Nel caso del meccanismo MCAR si ha invece: p ( R∣Y o ,Y m )= p(R) (2) La definizione formale di ignorabilità del meccanismo dei dati mancanti è stata formulata da Rubin e Schafer ed è la seguente: siano φ e φ ' rispettivamente i parametri del modello dei dati ed i parametri del meccanismo generatore dei dati mancanti, se tali parametri sono distinti, ovvero la conoscenza dell’uno non fornisce alcuna informazione sull’altro, ed il meccanismo è MAR, ne consegue che il meccanismo dei dati mancanti è ignorabile. Tale assunzione è di fondamentale importanza in quanto permette di stimare il parametro incognito senza specificare la distribuzione dei dati mancanti. Nella maggior parte delle situazioni, in cui i dati mancanti provengono da un processo di non risposta, la natura del processo generatore non è facilmente verificabile, tuttavia ci sono situazioni nelle quali possiamo avere la certezza sullo stato di ignorabilità del processo. Il pattern dei dati mancanti (missing data pattern) vieni definito come la l'insieme ordinato degli stati di risposta associato alla matrice dei dati Y , la matrice R definisce il pattern dei dati mancanti. Un caso particolare di pattern di dati mancanti è il pattern monotono. Siano Y 1, Y 2, ... ,Y p le variabili ordinate misurate, si definisce pattern monotono quando si verifica la mancanza della variabile Y j unità implica che tutte le variabili che seguono Y k , k >j , siano mancanti per tutte le unità. Di contro, nel caso in cui una variabile Y j è osservata per una particolare unità anche tutte le variabili antecedenti Y k , k <j , risultano osservate per tutte le unità. Giulia De Luca Z62000002 di 54 1.3 Imputazione dei dati mancanti Nel trattamento delle mancate risposte parziali la procedura comunemente utilizzata, al fine al fine di ripristinare la completezza della matrice dei dati, è l’imputazione, la quale consiste nell’assegnazione di un valore sostitutivo del dato mancante. Svariati sono i metodi di imputazione disponibili in letteratura e in linea del tutto generale si posso distinguere tre classi di metodi: • Metodi deduttivi: il valore imputato è ricostruito da relazioni o informazioni note. • Metodi deterministici: imputazioni ripetute per unità aventi le stesse caratteristiche generano sempre i medesimi valori imputati. • Metodi stocastici, nei quali imputazioni ripetute per unità aventi le stesse caratteristiche possono produrre differenti valori imputati; si caratterizzano per la presenza di una componente aleatoria, corrispondente ad uno schema probabilistico associato al particolare metodo d’imputazione prescelto Ad eccezione fatta dei metodi deduttivi, tutti i metodi di imputazione per le mancate risposte si basano, esplicitamente o implicitamente, sull'ipotesi che il meccanismo generatore dei dati mancanti sia MAR. Nel seguito verranno in dettaglio alcuni dei metodi di imputazione più utilizzati. 1.4 Metodi deduttivi Questa tipologia di metodi si fonda sulla possibilità di sfruttare le informazioni presenti nell'insieme dei dati in modo da poter ricavare il valore da sostituire al dato mancante da una o più variabili ausiliarie. Si tratta di metodi la cui applicazione dipende fortemente dei fenomeni studiati e che richiedono la costruzione di modelli di comportamento specifici del fenomeno in oggetto sviluppati da esperti del dominio. Il grave difetto di tale imputazione è essere molto legato a valutazioni soggettive e spesso dipende dal grado di conoscenza del tipo di dati trattati. Nessun Giulia De Luca Z62000002 di 54 metodo generalizzato permette di effettuare automaticamente imputazioni deduttive. Necessariamente algoritmi “ad hoc” devono essere sviluppati per implementare i modelli di imputazione voluti. 1.4.1 Imputazione con media campionaria Questo metodo appartiene ai metodi deterministici e consiste nella sostituzione sostituiscono di tutte le mancate risposte con un unico valore, corrispondente la media calcolata campionaria calcolata sul totale dei rispondenti. E’ un metodo che può essere utilizzato solo per le variabili quantitative, per le variabili qualitative al posto del valore medio si può imputare la moda. L'utilizzo tipico di tale metodologia si riduce solo ai casi in cui il numero dei dati mancanti per ciascuna variabile è ridotto in cui è ragionevole supporre una relazione debole tra le variabili. Gli ovvi vantaggi di tale metodo sono la preservazione la media dei rispondenti ed la sua estrema facilita computazionale. Di contro gli svantaggi non sono trascurabili, infatti: • introduce una seria distorsione nella distribuzione della variabile creando un picco artificiale in corrispondenza del suo valore medio • non restituisce buoni risultati nella stima della varianza • provoca distorsioni nelle relazioni tra le variabili. 1.4.2 Imputazione con regressione predittiva Anche questo secondo metodo è un metodo deterministici. Si basa sull'utilizzo dei valori dei rispondenti per stimare i parametri di una regressione per la variabile d'interesse y su prefissate variabili ausiliarie considerate esplicative di y . I valori della variabile y sono, inseguito imputati come valori estrapolati dell’equazione di regressione. Le variabili ausiliarie possono essere sia di natura quantitativa che qualitativa. Se la variabile Giulia De Luca Z62000002 y è quantitativa generalmente sono utilizzate di 54 regressioni lineari: y m=β r 0+∑ j β rj z mij (3) Nel caso in cui, invece, la variabile y sia qualitativa, si possono adottare modelli log-lineari o logistici. Una variazione di questo metodo utilizza la suddivisione in classi dei dati; in tal modo diversi modelli possono essere adottati in ogni classe. Il metodo dell'imputazione con regressione ben si adatta a situazioni in cui la variabile sulla quale effettuare l’imputazione è quantitativa oppure binaria oltre che ovviamente essere fortemente correlata con altre variabili. Si presta molto meno nei casi in cui le variabili qualitative presentano numerose modalità. Si può fare uso di un numero elevato di variabili, sia quantitative che qualitative, in modo da ridurre, più che con altri metodi, la distorsioni generate dalle mancate risposte. Tale metodo, nonostante preservi le relazioni delle variabili usate nel modello, introduce distorsioni nella distribuzione della variabile ed essendo un metodo deterministico, ha una scarsa attitudine nel preservare la variabilità delle distribuzioni marginali. Nel caso in cui si applichi il metodo suddividendo in classi i dati, è necessario stimare molti modelli diversi tra loro, tanti quante sono le celle di imputazione il che può richiedere la conoscenze tecniche molto specifiche per la messa a punto di modelli appropriati. Essendo un metodo parametrico, richiede assunzioni sulle distribuzioni delle variabili per evitare il rischio che possano essere imputati valori non permessi. 1.5 Metodi stocastici Un altra classe di metodi, più complessa, è l’imputazione di valori stocastici, provenienti da una distribuzione teorica o empirica. Tramite questi ultimi si ottengono risultati più soddisfacenti in termini di distribuzioni marginali dei dati completi ed è possibile ridurre le distorsioni statistiche. Gli errori standard calcolati Giulia De Luca Z62000002 di 54 risultano essere più veritieri rispetto alle stime con metodi deterministici. 1.5.1 Imputazione con regressione casuale Il metodo della regressione predittiva può essere reso stocastico, in pratica i valori da imputare sono ottenuti dalla regressione predittiva a cui viene aggiunto un termine residuo εij . A seconda delle assunzioni fatte, i residui vengo determinati in diversi modi, alcuni criteri possono essere: • assumendo che i residui siano omoschedastici e normalmente distribuiti, essi possono essere generati casualmente da una distribuzione normale con media pari a zero e varianza pari a quella residua della regressione. • nel caso si assuma che i residui siano generati dalla stessa distribuzione non nota, possono essere selezionati casualmente dai residui dei rispondenti. • se linearità e l'additività delle componenti del modello di regressione non sono certe, i residui potrebbero essere presi dai rispondenti con i valori delle variabili ausiliarie più simili a quelli dell'osservazione incompleta. In tal modo, se il rispondente ha lo stesso insieme di valori del non rispondente, il metodo si riduce ad assegnare il valore del rispondente al non rispondente 1.5.2 Imputazione tramite algoritmo EM Nel caso si possa specificare un modello probabilistico è possibile stimare i suoi parametri attraverso funzioni di massima verosimiglianza. Se f (X o , X mj∣θ) è la distribuzione di probabilità congiunta dei valori osservati e di quelli mancanti, si definisce verosimiglianza rispetto ai dati osservati la funzione: L(θ∣X o)∝f (X o∣θ)=∫ f (X o , X m∣θ)dX m (4) Affinché si possano effettuare inferenze sui parametri utilizzando soltanto i valori Giulia De Luca Z62000002 di 54 osservati, evitando di esplicitare un modello per le non risposte, occorre che il meccanismo di mancata risposta sia ignorabile. Si consideri infatti, la distribuzione congiunta dei dati X e delle variabili indicatrici M , se sussiste la decomposizione Ωθ φ=Ωθ×Ωφ , essa può essere fattorizzata come segue: f (X o , X m , M∣θ , φ)=f (M , X o , X m∣φ)f ( X o , X m∣θ) (5) Analizzando i soli dati osservati, la funzione di verosimiglianza per la stima dei parametri sarà data da: L(θ , φ∣X o , M )∝∫ f ( M∣X o , X m , φ) f ( X o , X m∣θ)dX m (6) Supponendo che il meccanismo generatore delle mancate risposte non dipenda dai valori mancanti condizionatamente a quelli osservati, ovvero se vale la condizione (2) o la condizione (1), si ottiene: L(θ , φ∣X o , M )∝f ( M∣X o , φ)∫ f ( X o , X m∣θ)dX m =f (M∣X o , φ)f ( X o∣θ)L(θ∣X o ) (7) I valori che massimizzano la funzione (6) risultano gli stessi che massimizzano anche la funzione (7), quindi le inferenze possono essere effettuate sulla verosimiglianza dei soli dati osservati. L' ipotesi di trascurabilità del meccanismo generatore dei dati mancanti, ciò non assicura che la massimizzazione della verosimiglianza sia un problema di semplice soluzione. Infatti, è estremamente difficile, a meno che la matrice dei dati sia di tipo monotono, trovare soluzioni analitiche per le equazioni di massima verosimiglianza. Per superare questo ostacolo viene utilizzato l'algoritmo numerico Expectation-Maximization (EM). Tale metodo iterativo consente, di ottenere le stime di massima verosimiglianza dei parametri in presenza di dati incompleti, riconducendo l'analisi ad un problema di stima per dati completi. Partendo da una stima iniziale t =0 , l'algoritmo ad ogni ciclo t applica i due Giulia De Luca Z62000002 di 54 seguenti passi: passo-E: viene calcolato il valore atteso della funzione di log-verosimiglianza dei (t ) dati completi Q(θ∣θ ) , integrando la log-verosimiglianza dei dati completi rispetto alla distribuzione dei dati mancanti condizionata ai valori osservati e alle stime correnti dei parametri θ(t) Q(θ∣θ(t ))=∫ ln L(θ∣X o , X m )f ( X m∣X o ,θ(t ))dX m (8) Passo-M: si determinano le nuove stime θ(t+1 ) , massimizzando la funzione (t ) Q(θ∣θ ) rispetto a θ : θ(t+1 )=arg maxθ Q(θ∣θ(t) ) (9) L'algoritmo genera una successione {θ(t ) }t =1,2 ,... che sotto alcune ipotesi di regolarità converge alla stima di massima verosimiglianza dei parametri. L'applicazione dell'EM porta al seguente risultato fondamentale: Q(θ(t +1)∣θ(t ))⩾Q(θ(t)∣θ(t) )→ln L(θ(t +1)∣X o )⩾ln L(θ(t)∣X o) (10) Poiché la distribuzione congiunta dei valori mancanti e dei valori osservati può essere fattorizzata come: f ( X o , X m∣θ)=f (X o∣θ)f (X m∣X o , θ) (11) considerando la corrispondente scomposizione della log-verosimiglianza, si ottiene: Giulia De Luca Z62000002 di 54 ln L(θ∣X o , X m)=ln L(θ∣X o )+ln f (θ∣X o , X m) (12) La log-verosimiglianza dei dati osservati può riformulata come: ln L(θ∣X o)=ln L(θ∣X o , X m ) ln L( X m∣X o , θ) (13) Prendendo il valore atteso di entrambi i membri, rispetto alla distribuzione dei dati mancanti, condizionata ai valori osservati e alle stime correnti (t) si ha: ln L(θ∣X o)=Q(θ∣θ(t) ) H (θ∣θ (t )) (14) H (θ∣θ(t) )=∫ ln ( f ( X m∣X o ,θ) ) f ( X m∣X o , θ(t ) ) dX m (15) con La differenza tra i valori di ln L(θ∣X o) in tra due successive iterazioni è data da: ln L(θ(t+1)∣X o ) ln L(θ(t)∣X o)=Q(θ(t+1 )∣θ(t )) Q (θ(t )∣θ(t ) ) +H (θ(t )∣θ(t) ) H (θ(t +1)∣θ(t ) ) Risulta sussistere Q(θ(t +1)∣θ(t )) ≥ Q(θ(t)∣θ(t) ) (16) per il passo-M, mentre per la (t) (t ) (t +1) (t) disuguaglianza di Jensen si ha H (θ ∣θ ) ≥ H ( θ ∣θ ) . Nel contesto delle mancate risposte parziali, l'algoritmo EM è utilizzato per la stima dei parametri del modello attraverso il quale vengono successivamente effettuate le imputazioni dei valori non osservati. Tali imputazioni possono essere effettuate in due modi diversi: • Generazione casuale: i dati vengono completati generando i valori dalla Giulia De Luca Z62000002 di 54 distribuzione di probabilità condizionata dai valori osservati e dai parametri stimati con l'algoritmo EM, P ( X m∣X o , θ̂ ) . • Imputazione tramite media condizionata: i dati mancanti vengono imputati mediante i valori attesi condizionati ai valori osservati e alle stime individuate, E [ X m∣X o , θ̂ ] . Essendo un metodo deterministico, il secondo approccio è preferibile se si vogliono stimare quantità univariate lineari nei dati come medie o totali. Nel caso si è interessati alla stima di parametri distribuzionali legati alle relazioni di interdipendenza tra le variabili, conviene utilizzare un metodo stocastico come l'imputazione mediante generazione casuale[2]. Giulia De Luca Z62000002 di 54 2 Materiali e metodi 2.1 Cosa è l'EGDI Uno dei principali scopi della pubblica amministrazione è fornire al cittadino dei servizi di utilità pubblica. Lo sviluppo di nuove tecnologie di comunicazione e la crescente importanza di internet obbliga le autorità nazionali a fornire un sempre più crescente numeri di servizi online[3]: si parla perciò di e-governament. Esso è il sistema di gestione digitalizzata della pubblica amministrazione, il quale consente di trattare la documentazione e di gestire i procedimenti con sistemi informatici, grazie all’uso delle tecnologie della comunicazione e dell'informazione (ICT), allo scopo di ottimizzare il lavoro degli enti e di offrire agli utenti servizi più rapidi[4]. Per misurare le capacità di sviluppo dell'e-governament delle nazioni è stato creato un indice composito “E-GOVERNMENT DEVELOMENT INDEX”(EGDI), che è la media pesata di tre altri tre indici, al loro volta compositi, di seguito elencati: • Human capital index • Online service index • Infrastructure index Ai fini di una maggiore chiarezza espositiva indicheremo in seguito i tre indici Human capital index, Online service index e Infrastructure index con i loro acronimi, ossia rispettivamente con HCI,OSI, II. L'EGDI è calcolato come: EGDI =0,34 x OSI +0,33 X HCI+0,33 X II A partire dalla sua creazione nel 2003, tale indice viene annualmente per (17) calcolato e aggiornato 193 paesi dall'UNPAP (United Nations Public Administration Programme)[5]. Giulia De Luca Z62000002 di 54 2.2 Descrizione del problema Obiettivo del lavoro di tesi era confrontare le diverse tecniche di imputazione singola per ricostruire i valori assunti da un indice composito, EGDI, che non era osservato per tutti i paesi. Il dataset assegnato può essere rappresentato come una matrice rettangolare le cui righe rappresentano i paesi per ciascuno dei quali sono indicati i valori di HCI,OSI,II, e le cui colonne sono le variabili stesse: HCI Paese 1 ? Paese 2 . . . ? OSI II ? ? ? Paese N ? La matrice consta di 193 entries, ciascuna corrispondente a un determinato paese. Ciascuna entry è composta da un vettore i cui elementi sono i valori, calcolati per ciascun paese, dei tre indici (HCI,OSI,II). Inoltre è fornito anche il valore di EGDI, derivato da questi. Per tre dei centonovanta-tre paesi non è fornito il valore di EGDI e dell'indice II necessario al suo calcolo, per cui sono stati tolti dall'analisi. In definitiva la matrice utilizzata è composta da 190 entries. A partire da tale dataset, sono stati eliminati in maniera casuale diverse percentuali di elementi per ciascuno dei tre indici. In particolare si sono eliminati i missing ottenendo un pattern univariato, ossia per ognuna delle entry della matrice è stato tolto un solo valore degli indici, mentre gli altri due sono stati lasciati invariati. Si sono considerati le seguenti percentuali di missing: • 6,8% (13 missing) Giulia De Luca Z62000002 di 54 • 25,8% (49 missing) La tabella che segue spiega in che modo sono stati distribuiti i i missing tra i diversi indici. Missing HCI Missing OSI 6 16 Missing II 3 17 Totale numero di missing 4 16 13 49 Tabella 1:distribuzione percentuali di missing Utilizzando le classificazioni introdotta da Rubin(1976), e quindi considerando le procedure di missingness come fenomeno probabilistico, i missing data sono stati considerati MCAR (Missing completely at random): ciò è perfettamente in linea con la procedura adottata per generare le risposte mancanti. Sono state implementate diverse tecniche di imputazione singola per ricostruire il dataset costituito dai valori di HCI,OSI e II. Con tali valori imputati si è ricostruito il valore EGDI per le non risposte. La bontà dei diversi metodi di imputazione singola è stata valutata confrontando il dataset completo contenente i valori di EGDI e il dataset contenete i valori osservati e imputati di tale indice. 2.3 Dettagli implementativi Sono state utilizzate quattro diverse tecniche di imputazione singola: 1. sostituzione del valore medio incondizionato 2. regressione 3. regressione stocastica 4. stima a massima verosimiglianza 2.3.1 3.1 Media incondizionata Per ciascuna variabile HCI,OSI e II, valutate separatamente dalle altre, sono stati considerati i singoli dataset e se ne è calcolata la media campionaria con la funzione “mean” di matlab e con tale valore si sono imputate le non riposte. Le medie campionarie stimate sono riassunti in tabella: Giulia De Luca Z62000002 di 54 numero di missing 13 missing 49 missing HCI OSI II 0,7223 0,7251 0,4355 0,4278 0,3233 0,3252 Tabella 2: medie campionarie Come si nota le stime delle medie campionarie differiscono di poco nei due casi con differenti percentuali di missing. Questo metodo introduce una seria distorsione nelle distribuzioni della variabili (HCI,OSI,II), creando un picco artificiale in corrispondenza dei rispettivi valori medi. Ciò si nota anche nello scatter plot sotto, che rappresenta i valori di indice OSI imputati e osservati. Illustrazione 1: Scatter plot dei valori di OSI imputati e osservati Ovviamente tale distorsione è più evidente nel caso con maggiori missing, al contrario nel caso in cui i dati non rispondenti sono in numero esiguo è molto meno evidente. Giulia De Luca Z62000002 di 54 2.3.2 Regressione Tale metodo è stato implementato nel modo seguente: il dataset con gli osservati e non osservati è stato privato di tutte le entries che contenevano un missing, al fine di ottenere un dataset con osservazioni complete. Successivamente questi dati rispondenti sono stati utilizzati per stimare i parametri della regressione B0, B1, B 2 per la ciascuna delle variabili separatamente (HCI,OSI,II) sulle altre due considerate esplicative della prima. Le determinazioni della variabile (alternativamente HCI,OSI, II) sono, state poi, imputate con valori stimati dell’equazione di regressione : y 1=Bo +B1∗y 2∗B2∗y 3 dove y 1, y 2 y 1 sono alternativamente HCI,OSI,II e sono rispettivamente (OSI,II),(HCI,II),(HCI,OSI). I coefficienti di regressioni sono stati calcolati utilizzando la funzione “mvnrmle” di matlab. Tale funzione considera la pari y1 come una variabile aleatoria gaussiana di media ̄B ̄y e matrice di covarianza Ĉ , dove ̄B è [ B 0, B1, B2 ] e ̄y è [1 , y1 , y 2 ]T . In tale ottica i dati osservati di tale variabile aleatoria e quindi y1 possono essere visti come realizzazione di ̄ B ̄y e Ĉ sono ottenuti massimizzando la funzione di log-verosimiglianza. Si utilizza un approccio iterativo che nel caso in esame coincide con la regressione ai minimi quadrati implementata in matlab con la funzione “regress”. Di seguito sono riportati i risultati ottenuti : Giulia De Luca Z62000002 di 54 I caso:13 missing HCI i=0,7159+0,7159∗OSI i 0,0045∗II i OSI i=0,0820+0,7927∗HCI i 0,0026∗II i II i=0,1070+0,5234∗HCI i 0,0084∗OSI i (18) II caso: 49 missing HCI i=0,7169+0,0065∗OSI i 0,0013∗II i OSI i=0,4104+0,0065∗HCI i 0,0058∗II i II i=0,2808+0,0149∗HCI i 0,0153∗OSI i (19) Come si nota nel caso con quarantanove missing, le variabili sembrano essere non correlate, infatti i coefficienti angolari per ciascuna formula di regressione sono un ordine di grandezza se non addirittura due ordini di grandezza più piccoli dell'intercetta. Anche in questo caso perciò si altera le funzioni di distribuzione di probabilità delle variabili che risultano più smussate. Giulia De Luca Z62000002 di 54 Illustrazione 2: Scatter plot dei valori di HCI imputati e osservati 2.3.3 Regressione stocastica La regressione stocastica è stata implementata nello stesso modo in cui si è stato stato svolto il metodo precedente con la sola differenza che a ciascun elemento del della variabile dipendente (alternativamente HCI, OSI , II) della formula di regressione nel dataset completamente osservato è stato sommato un numero estrapolato a caso in intervallo [ σ σ ] dove σ è la varianza della funzione di distribuzione di probabilità della variabile dipendente, stimata mediante il metodo di stima a massima verosimiglianza descritto nel paragrafo successivo. In altre parole si è svolta la seguente operazione: y 1+ε=B o+B1∗y 2∗B 2∗y 3 dove Giulia De Luca Z62000002 ε è un numero pescato a caso nell'intervallo di 54 [ σσ] . Di seguito sono riportati i risultati. I caso:13 missing HCI i=0,6943 0,0005∗OSI i 0,0152∗II i OSI i=0,0647 0,7988∗HCI i 0,0084∗II i II i=0,0855+0,5651∗HCI i 0,0170∗OSI i (20) II caso:49 missing HCI i=0,7159 0,0024∗OSI i 0,0045∗II i OSI i=0,0820 0,7927∗HCI i 0,0026∗II i II i=0,1070+0,5234∗HCI i 0,0084∗OSI i (21) In questo caso rispetto al caso precedente si evidenzia meglio la correlazione tra gli indici. Nello specifico le variabili OSI e II sembrano essere correlate con l'indice HCI, che sembra al contrario indipendente dalle alle altre due. Si noti ad esempio il grafico di seguito: i valori di OSI imputati sono differenti l'uno dall'altro, al contrario i valori di HCI imputati variano di poco l'uno dall'altro. Giulia De Luca Z62000002 di 54 Illustrazione 3: Scatter plot dei valori di II imputati e osservati 2.3.4 Stima a massima verosimiglianza La stima a massima verosimiglianza è stata condotta considerando i tre indici statisticamente indipendenti tra loro, ossia considerando la funzione di distribuzione di probabilità congiunta delle tre variabili come il prodotto delle funzioni di distribuzioni di probabilità marginali. In altre parole si sono considerate le variabili separatamente, private dei missing: il problema multivariato è stato ricondotto a tre problemi univariati. In prima battuta si sono valutati gli istogrammi delle tre variabili. Poi sulla base di questi si sono stimate le funzioni di distribuzione. Giulia De Luca Z62000002 di 54 2.3.4.1 Stima a massima verosimiglianza dell'indice HCI Illustrazione 4: Istogramma dei valori di HCI Per stimare la funzione di distribuzione di questo indice è stato utilizzato il tool statistico di matlab “dfittool”. Tra le varie funzioni di distribuzione di probabilità si è scelta quella a cui corrispondeva un valore della funzione di log-verosimiglianza più elevato. Successivamente, considerata la forma di tale distribuzione e i valori dei parametri stimati, è stato effettuato un test del chi-quadro per valutare se effettivamente la stima ottenuta fosse effettivamente compatibile con i dati. La funzione di distribuzione che meglio si adattava ai dati è risultata una generalized extreme value (Appendice A), i cui parametri sono riassunti in tabella. numero di missing k µ 6 -0,7009 16 -0,6801 0,2166 0,2093 σ 0,6931 0,6950 Tabella 3: Parametri della GEV I parametri, essendo la differenza della percentuale di missing molto vicine per ciascun indice, quasi coincidono nei due casi. Giulia De Luca Z62000002 di 54 2.3.4.2 Stima a massima verosimiglianza dell'indice OSI Illustrazione 5: Istogramma dei valori di OSI Per la stima della distribuzione di tale indice si è effettuato lo stesso procedimento spiegato sopra. La funzione di probabilità stimata è stata con una gamma:in tabella sono riassunti valori dei parametri. α θ numero di missing 3 17 3,15 3,16 0,14 0,14 Tabella 4: Parametri della gamma 2.3.4.3 Stima a massima verosimiglianza dell'indice II Per questo indice la stima della forma della distribuzione è stata condotta in modo differente. Dall'istogramma, rappresentato in figura, si è notata una certa somiglianza con la forma di una mezza campana di una distribuzione gaussiana con media nulla. Giulia De Luca Z62000002 di 54 Illustrazione 6: Istogramma dei valori di II Pertanto si è aumentato la dimensionalità del dataset di valori dell'indice II in modo da ottenere istogramma l'istogramma che segue: Illustrazione 7: Istogramma ricostruito dei valori di II Si è effettuato un test del chi-quadro per saggiare l'ipotesi che i dati si distribuissero secondo una gaussiana. Tale test ha dato risultato positivo. A tal punto si è utilizzata la stima a massima verosimiglianza per stimare i parametri di questa distribuzione, di seguito riportati. Giulia De Luca Z62000002 di 54 numero di missing µ σ 4 16 0,0000 0,0000 0,4122 0,41 Tabella 5: Parametri della gaussiana Anche in questo caso i parametri della funzione non differiscono nei due casi. 2.3.4.4 Imputazione dei missing Per l'imputare i missing di ogni distribuzione sono stati considerati due modalità: 1. imputazione con il valore medio della funzione di distribuzione di probabilità 2. imputazione con un valore a caso estrapolato dalla funzione di distribuzione di probabilità Nel primo caso a ciascun valore di missing è stato sostituito il valore medio della distribuzione a cui esso appartiene. numero di missing 13 missing 49 missing media media OSI media II HCI 0,3068 0,4355 0,3231 0,3063 0,4278 0,3252 Tabella 6: Valori attesi della funzioni di distribuzione di probabilità gev, gamma, normale Riprendendo la tabella relativa all'imputazione con il valore medio incondizionato(tabella 2) si nota che se il valore di media campionaria per gli indici OSI e II si avvicinano molto alla stima della media delle funzioni di distribuzioni di probabilità, nel caso dell'indice HCI se ne distanzia molto. Ciò è da attribuire alla presenza nel dataset di valori estremi di HCI, nei confronti dei quali la media campionaria è fortemente sensibile. Nel secondo caso i missing sono stati imputati utilizzando le funzioni matlab di generazioni di numeri casuali a partire da una funzione di distribuzione di probabilità nota. Le funzioni di distribuzione di probabilità stimate hanno supporto che ricopre tutto l'insieme reale, ma gli indici, invece, variano in un intervallo di ampiezza unitaria, pertanto si è stati attenti ad escludere eventuali numeri casuali fuori da Giulia De Luca Z62000002 di 54 tale intervallo. Rispetto all'imputazione con il valore medio campionario e valore medio stimato con la massima verosimiglianza si preserva la variabilità dei dati stesse, come mostrato in figura. Illustrazione 8: Scatter plot dei valori di II imputati e osservati 2.4 Matlab per le applicazioni statistiche Il software Matlab è molto applicato nel campo ingegneristico e scientifico ma ancora non è utilizzato in ambito statistico, nonostante contenga un pacchetto relativamente completo con implementate funzioni statistiche. Di seguito verranno indicati i principali strumenti utilizzati per il lavoro di tesi. Stimatori Il software Matlab mette a disposizione funzioni che permettono di stimare la Giulia De Luca Z62000002 di 54 media, la varianza e curtosi campionarie che possono essere richiamate direttamente con i comandi “mean” e “var”, “kurtosis”. Stima a massima verosimiglianza Matlab offre algoritmi numerici che permettono, conosciuta la forma di una distribuzione di probabilità di un campione univariato, di fare inferenza sui parametri di tale distribuzione. Infatti a partire dalle funzioni log-verosimiglianza delle diverse funzioni di probabilità che sono note in letteratura e a partire da una stima iniziale dei parametri, implementa l'algoritmo Nelder–Mead per trovare il massimo di tali funzioni multiparametriche. Inoltre mette a disposizioni il tool “dfittool” un'interfaccia grafica per importare i dati dal workspace, fittare diverse distribuzioni e disegnarle. Generatori di numeri casuali Sono disponibili routine che permettono di estrarre numeri casuali a partire da una distribuzione univariata o multivariata. Esse sfruttano tale proprietà: a partire da sequenze di numeri pseudo-casuali, che sono effettivamente distribuiti uniformemente, U in [0,1] e una funzione di ripartizione invertibile F, la variabile casuale X = F−1(U) è distribuita secondo F . Giulia De Luca Z62000002 di 54 3 Conclusioni 3.1 Metodi di analisi Al fine di condurre delle analisi riguardanti le performance dei diversi metodi di imputazione singola, si sono scelte due differenti strade: • visualizzazione grafica dei risultati • valutazioni di indici numerici La visualizzazione grafica presenta il vantaggio di essere di facile e soprattutto di immediata comprensione, però non permette un'analisi quantitativa ed è più sensibile alla soggettività dell'occhio dell'osservatore: questo è il motivo per cui ci si è affidati anche ad indici numerici. 3.2 Visualizzazione grafica dei risultati Di seguito sono riportati i grafici relativi ai risultati dell'imputazione singola dell'EGDI per ciascun metodo utilizzato, con due diverse percentuali di missing. Nel primo caso il dataset comprendente il valore di EGDI calcolato per centonovanta paesi è stato privato di tredici valori, nel secondo caso di quarantanove. Per ciascuno dei metodi utilizzati si è scelto di plottare il valore imputato in funzione del valore reale, ossia i punti di coordinate (EGDI_IMPUTATO,EGDI_REALE): ciò per rendere visivamente l'ammontare dello scostamento tra il singolo valore imputato e il valore osservato. Infatti, se le tecniche utilizzate permettessero, per assurdo, di recuperare in maniera esatta il valore non noto, i punti si distribuirebbero nel piano cartesiano sulla retta bisettrice del primo e secondo quadrante, caratteristica della trasformazione identica. Giulia De Luca Z62000002 di 54 I caso:13 missing data Sostituzione con il valore di media incondizionata Illustrazione 9 Giulia De Luca Z62000002 di 54 Regressione non stocastica Illustrazione 10 Regressione stocastica Illustrazione 11 Giulia De Luca Z62000002 di 54 Verosimiglianza con imputazione del valore medio Illustrazione 12 Verosimiglianza con valori casuali Illustrazione 13 Giulia De Luca Z62000002 di 54 II caso:49 missing data Sostituzione con il valore di media incondizionata Illustrazione 14 Giulia De Luca Z62000002 di 54 Regressione non stocastica Illustrazione 15 Regressione stocastica Illustrazione 16 Giulia De Luca Z62000002 di 54 Verosimiglianza con imputazione del valore medio Illustrazione 17 Verosimiglianza con valori casuali Illustrazione 18 Giulia De Luca Z62000002 di 54 Qualitativamente, si nota che, la dispersione intorno alla bisettrice del primo e secondo quadrante è maggiore nel caso con di presenza dei soli 13 missing: le tecniche garantiscono risultati migliori nel caso di un numero maggiore di missing. 3.3 Indici numerici Per confrontare il comportamento dei diverse tecniche di imputazione in funzione in modo numerici, si è utilizzato l'indice di Willmott, così definito: N ∑ ( Pi d =1 Oi )k i=1 N ∑ (∣Pi O∣+∣O i O∣) k i=1 dove : Pi è il valore imputato all'i-esimo missing Oi è il valore osservato per i-esimo missing N O è la media dei dati osservati completi,ossia O=1 / N ∑ Oi con N numero dei i=1 dati osservati k è un numero adimensionale che può assumere valore 1 o 2. Di seguito sono riportate le tabelle con i diversi risultati. Fissata la percentuale di missing, i diversi metodi di imputazioni sono stati confrontati valutando somma degli scarti tra il valore imputato e quello osservato: err=∑ ∣Pi Oi∣ Giulia De Luca Z62000002 di 54 I caso:13 missing metodo media regressione regressione_stocastica verosimiglianza(media) verosimiglianza(casuale) EGDI_reale media 0,4937 0,3229 0,5157 0,4893 0,5763 0,4954 Indice di Indice di Willmott Willmott err (k=1) (k=2) 0,0390 0,9950 0,9975 0,039 0,9868 0,9990 0,0295 0,9924 0,9948 0,0393 0,9489 0,9157 0,0425 0,9932 0,9969 varianza 1,0419 1,0601 1,2882 1,4294 1,1392 0,0416 Tabella 7: Performance nel caso di 6,8% missing Dalla tabella si nota che la migliore stima della media del dataset EGDI è ottenuto con con la tecnica di sostituzione del valore medio incondizionato, tuttavia con tale metodo di sottostima la varianza. D'altra parte buoni risultati, in termini di stima del valore atteso, si sono ottenuti anche con il metodo a massima verosimiglianza, imputando le mancate risposte parziali con il valore medio della funzione di distribuzione di probabilità. La varianza è, tuttavia, sottostima anche in questo caso. La migliore stima della varianza è ottenuta imputando i dati mancanti estrapolando a caso campioni dalla funzione di distribuzioni di probabilità delle variabili. Vale la pena notare che in realtà stime più precisa della media e della varianza del dataset EGDI sono ottenute semplicemente eliminando dal dataset i valori mancanti. In letteratura[6] è noto che qualora l'ammontare dei missing rispetto al dataset completo sia inferiore al 5%, migliori performance si ottengono con la tecnica del case delection, ossia eliminando dall'analisi i missing data. Poiché i dati mancanti sono solo tredici, costituiscono cioè il solo 6,8% del dataset completo, si può ipotizzare che tale comportamento sia da imputare alla esiguità dei valori missing. Giulia De Luca Z62000002 di 54 metodo case delection media varianza 0,4965 0,0414 Tabella 8: Performance case delection per 13 missing D'altra parte valutando le prestazioni dei diversi metodi in termini generali(considerando l'indice err o di Willmott), si denota che quasi tutti hanno un comportamento simile. Per quasi tutti i metodi utilizzati l'agreement index, sia per k=1 che per k=2, si avvicina a 1. Valori leggermente diversi sono ottenuti per l'imputazione con il valore medio delle funzioni di distribuzioni di probabilità delle variabili. Interessanti risultano invece i risultati ottenuti per la stima della varianza del dataset EGDI sostituendo i missing dati con valori estrapolati in maniera casuale dalle funzioni di distribuzione di probabilità stimate: senza dubbio è il metodo che meglio stima questo parametro. II caso:49 missing Indice di Indice di metodo media varianza Willmott Willmott err (k=1) (k=2) media 0,4925 0,0332 0,9989 0,9971 regressione 0,3231 0,0586 0,9988 0,9979 regressione_stocastica 0,5092 0,0294 0,9980 0,9968 verosimiglianza(media) 0,4809 0,0339 0,9741 0,9175 verosimiglianza(casuale) 0,4889 0,0304 0,9897 0,9863 EGDI_reale 0,4954 3,8238 3,8009 4,1208 4,6369 5,5861 0,0416 Tabella 9: Performance nel caso di 25,8% missing Anche in questo caso valgono le considerazioni precedenti. La migliore stima del valore medio si ottiene con la sostituzione di media incondizionata, pur se si sottostima la varianza. Tuttavia questa volta la tecnica case delection, come ben riassunto nella tabella sottostante, non offre le migliori prestazioni in termini di stima di media e varianza. Giulia De Luca Z62000002 di 54 Infatti l'ammontare del numero di missing è pari al 25,8%. metodo media varianza case delection 0,4854 0,1896 Tabella 10: Performance case delection con 49 missing 3.4 Valutazioni incrociate Dal grafico che segue, si nota, che sia per valori di missing parti al 6,8% che 26,8% rispetto al totale di valori osservati, l'andamento dell'indice di Wilmott è lo stesso. Illustrazione 19: Si sono indicati con A il metodo con media incondizionata, B il metodo di regressione semplice, C regressione stocastica, D valore medio della funzione di distribuzione di probabilità, E valori casuali a partire dalla funzione di distribuzione di probabilità Le tecniche di imputazione singola risulta essere più performante con numero di missing più elevati. In effetti è già stato notato che nel caso di soli 13 valori di Giulia De Luca Z62000002 di 54 missing il case delection è la migliore alternativa. Si nota inoltre che che la stima a massima verosimiglianza ha, rispetto alle altre tecniche, un peggiore comportamento. Questo è da imputare ai dati stessi, che risultano essere abbastanza variabili: la stima della deviazione standard del dataset completo contente i valori di EGDI è pari a 0.2039. Considerando che il valore di EGDI varia in un intervallo [0,1], è evidente l'elevata dispersione dei dati. Ricordiamo che l'imputazione dei valori di EGDI non è stata effettuata direttamente, ma considerando che esso è la media pesata di tre diversi indici, si sono imputati i valori di tali indici e poi si calcolato il valore di EGDI con la nota formula(16). Per ciascuno dei tre indici, considerati statisticamente indipendenti tra loro, si sono considerate le funzioni di massima verosimiglianza. La distribuzione dell'indice HCI è stata modellata con una genalized extreme value. Tale distribuzione presenta una coda a sinistra non trascurabile (asimmetria a sinistra), pertanto stima bene i valori intorno al valore medio, ma non quelli che sia allontanano da essa anche se di poco. Ciò risulta tanto più evidente si considera che la stima della curtosi del dataset composto dai valori di HCI è pari a -1,0254 a fronte di quella di una gaussiana pari a 3. La distribuzione è pertanto una distribuzione platicurtica. A prova che ad essere problematico è proprio l'indice HCI e non gli altri due, si sono riportati in tabella la somma degli scarti in valore assoluto tra il valore imputato con la media della funzioni di distribuzione e il valore osservato per ogni indice(err). indice err HCI OSI II 6,2425 3,9792 3,6625 Tabella 11: Indice err calcolato per ogni variabile Si noti che, essendo l'EGDI calcolato con una media pesata dei tre indici, l'indice err calcolato considerando i valori imputati di questo indice risulta minore rispetto al massimo valore assunto dell'indice err per ciascuno indici di cui è funzione. Più in generale le elevate performance delle diverse tecniche di imputazione singola utilizzate sono da attribuire a due cause: Giulia De Luca Z62000002 di 54 1. l'elevata dispersione dei dati 2. l'errore commesso nell'imputare le non risposte nel dataset contenente i valori di EGDI è un terzo rispetto a quello commesso nell'imputare i missing degli indice HCI,OSI e II. Questi sono i due motivi per cui i risultati ottenuti discordanti non poco da quello che intuitivamente ci sarebbe aspettato, ossia che i metodi non deterministici dessero migliori risultati. Giulia De Luca Z62000002 di 54 APPENDICE B Di seguito sono riportati le righe del dataset con almeno un missing imputato utilizzando le diverse tecniche di imputazioni singola. In rosso sono indicati i valori imputati. I caso: 13 missing Imputazione con media campionaria HCI OSI II 0,7223 0,3791 0,7223 0,5817 0,7223 0,2484 0,7223 0,3660 0,7223 0,8431 0,7223 0,4837 0,7089 0,4355 0,1723 0,4355 0,9494 0,4355 0,8751 0,5621 0,9467 0,8824 0,8971 0,7516 0,2576 0,1699 EGDI 0,2173 0,4389 0,4179 0,5740 0,2772 0,4143 0,1239 0,4037 0,8225 0,7964 0,3215 0,5089 0,2638 0,4690 0,0645 0,2262 0,8356 0,7371 0,3233 0,5866 0,3233 0,7191 0,3233 0,6583 0,3233 0,2495 Regressione non stocastica HCI OSI II 0,7153 0,3791 0,7200 0,5817 0,7158 0,2484 0,7134 0,3660 0,7290 0,8431 0,7177 0,4837 0,7089 0,4068 0,1723 0,4251 0,9494 0,4175 0,8751 0,5621 0,9467 0,8824 0,8971 0,7516 0,2576 0,1699 Giulia De Luca Z62000002 0,2173 0,4179 0,2772 0,1239 0,8225 0,3215 0,2638 0,0645 0,8356 0,2975 0,3138 0,3056 0,3104 EGDI 0,4366 0,5733 0,4122 0,4008 0,7986 0,5074 0,4593 0,2227 0,7310 0,5781 0,7160 0,6524 0,2452 di 54 Regressione stocastica HCI OSI III EGDI 0,6974 0,3791 0,2173 0,4307 0,7003 0,5817 0,4179 0,5668 0,6984 0,2484 0,2772 0,4064 0,6960 0,3660 0,1239 0,3950 0,7064 0,8431 0,8225 0,7912 0,6989 0,4837 0,3215 0,5012 0,7089 0,3289 0,2638 0,4328 0,1723 0,3126 0,0645 0,1844 0,9494 0,2413 0,8356 0,6711 0,8751 0,5621 0,2082 0,5486 0,9467 0,8824 0,1831 0,6728 0,8971 0,7516 0,2549 0,6357 0,2576 0,1699 0,4306 0,28 Stima a massima verosimiglianza(imputazione con il valore medio) HCI OSI II 0,3068 0,3791 0,3068 0,5817 0,3068 0,2484 0,3068 0,3660 0,3068 0,8431 0,3068 0,4837 0,7089 0,4355 0,1723 0,4355 0,9494 0,4355 0,8751 0,5621 0,9467 0,8824 0,8971 0,7516 0,2576 0,1699 Giulia De Luca Z62000002 EGDI 0,2173 0,3018 0,4179 0,4369 0,2772 0,2772 0,1239 0,2666 0,8225 0,6593 0,3215 0,3718 0,2638 0,4690 0,0645 0,2262 0,8356 0,7371 0,3231 0,5865 0,3231 0,7190 0,3231 0,6582 0,3231 0,2494 di 54 Stima a massima verosimiglianza (imputazione con valore casuale) HCI OSI II 0,8810 0,3791 0,5377 0,5817 0,9210 0,2484 0,9898 0,3660 0,7701 0,8431 0,9310 0,4837 0,7089 0,7089 0,1723 0,1723 0,9494 0,9494 0,8751 0,5621 0,9467 0,8824 0,8971 0,7516 0,2576 0,1699 EGDI 0,2173 0,4913 0,4179 0,5131 0,2772 0,4799 0,1239 0,4920 0,8225 0,8122 0,3215 0,5778 0,2638 0,3778 0,0645 0,1859 0,8356 0,7481 0,1694 0,5358 0,0590 0,6319 0,31 0,4489 0,2128 0,2130 II caso: 49 missing Imputazione con il valore di media campionaria HCI OSI II 0,7251 0,2941 0,7251 0,3333 0,7251 0,8562 0,7251 0,3791 0,7251 0,5425 0,7251 0,5752 0,7251 0,5817 0,7251 0,2484 0,7251 0,9608 0,7251 0,3660 0,7251 0,2288 0,7251 0,1830 0,7251 0,8431 0,7251 0,1373 0,7251 0,2418 0,7251 0,4837 0,3113 0,4278 0,7572 0,4278 0,9332 0,4278 0,7089 0,4278 Giulia De Luca Z62000002 0,0454 0,1019 0,8615 0,2173 0,8772 0,6697 0,4179 0,2772 0,8342 0,1239 0,0411 0,5648 0,8225 0,0744 0,2069 0,3215 0,1118 0,1595 0,5531 0,2638 EGDI 0,3543 0,3862 0,8147 0,4399 0,7132 0,6559 0,5750 0,4152 0,8413 0,4046 0,3307 0,4879 0,7974 0,3105 0,3898 0,5099 0,2851 0,4480 0,6359 0,4664 di 54 0,8969 0,9134 0,1723 0,8057 0,7590 0,8182 0,4521 0,9347 0,7862 0,9494 0,8696 0,6841 0,9007 0,6463 0,9232 0,5554 0,8751 0,5588 0,9467 0,8971 0,6151 0,9982 0,6533 0,1103 0,8129 0,2576 0,7830 0,8228 0,7434 0,4278 0,4278 0,4278 0,4278 0,4278 0,4278 0,4278 0,4278 0,4278 0,4278 0,4278 0,4278 0,4278 0,2549 0,3725 0,3007 0,5621 0,6013 0,8824 0,7516 0,2876 0,7843 0,3137 0,1961 0,5163 0,1699 0,4837 0,0523 0,4248 0,6460 0,3555 0,0645 0,7192 0,0425 0,5375 0,0597 0,7870 0,1968 0,8356 0,5147 0,2886 0,8135 0,3252 0,3252 0,3252 0,3252 0,3252 0,3252 0,3252 0,3252 0,3252 0,3252 0,3252 0,3252 0,3252 0,3252 0,3252 0,3252 0,6546 0,5642 0,2236 0,6487 0,4099 0,5928 0,3143 0,7136 0,4698 0,7345 0,6023 0,4664 0,7111 0,4073 0,5386 0,3928 0,5872 0,4962 0,7198 0,6589 0,4081 0,7034 0,4296 0,2104 0,5511 0,2501 0,5302 0,3966 0,4971 Regressione non stocastica HCI OSI II 0,7184 0,2941 0,7186 0,3333 0,7222 0,8562 0,7190 0,3791 0,7207 0,5425 0,7206 0,5752 0,7203 0,5817 0,7185 0,2484 0,7227 0,9608 Giulia De Luca Z62000002 EGDI 0,0454 0,3520 0,1019 0,3841 0,8615 0,8137 0,2173 0,4379 0,8772 0,7118 0,6697 0,6544 0,4179 0,5734 0,2772 0,4130 0,8342 0,8404 di 54 0,7188 0,7180 0,7185 0,7221 0,7176 0,7183 0,7197 0,3113 0,7572 0,9332 0,7089 0,8969 0,9134 0,1723 0,8057 0,7590 0,8182 0,4521 0,9347 0,7862 0,9494 0,8696 0,6841 0,9007 0,6463 0,9232 0,5554 0,8751 0,5588 0,9467 0,8971 0,6151 0,9982 0,6533 0,1103 0,8129 0,2576 0,7830 0,8228 0,7434 0,3660 0,2288 0,1830 0,8431 0,1373 0,2418 0,4837 0,4122 0,4175 0,4730 0,4199 0,4144 0,4203 0,4188 0,4178 0,4207 0,4204 0,4176 0,4184 0,4181 0,4133 0,4748 0,4193 0,4208 0,2549 0,3725 0,3007 0,5621 0,6013 0,8824 0,7516 0,2876 0,7843 0,3137 0,1961 0,5163 0,1699 0,4837 0,0523 0,4248 Giulia De Luca Z62000002 0,1239 0,0411 0,5648 0,8225 0,0744 0,2069 0,3215 0,1118 0,1595 0,5531 0,2638 0,6460 0,3555 0,0645 0,7192 0,0425 0,5375 0,0597 0,7870 0,1968 0,8356 0,5147 0,2886 0,8135 0,2876 0,2990 0,2976 0,2939 0,2986 0,3024 0,2985 0,3089 0,3058 0,2987 0,3001 0,3060 0,2934 0,3007 0,3045 0,2961 0,4025 0,3283 0,4857 0,7964 0,3081 0,3875 0,5080 0,2798 0,4445 0,6513 0,4638 0,6501 0,5616 0,2205 0,6453 0,4075 0,5903 0,3109 0,7104 0,4665 0,7296 0,6182 0,4635 0,7088 0,3949 0,5300 0,3837 0,5769 0,4874 0,7122 0,6501 0,4027 0,6970 0,4208 0,2021 0,5448 0,2396 0,5221 0,3898 0,4875 di 54 Regressione stocastica HCI OSI II 0,7014 0,2941 0,7014 0,3333 0,7009 0,8562 0,7012 0,3791 0,7003 0,5425 0,7008 0,5752 0,7012 0,5817 0,7009 0,2484 0,7011 0,9608 0,7014 0,3660 0,7013 0,2288 0,7003 0,1830 0,7010 0,8431 0,7011 0,1373 0,7010 0,2418 0,7012 0,4837 0,3113 0,1847 0,7572 0,5240 0,9332 0,1822 0,7089 0,1852 0,8969 0,4196 0,9134 0,3792 0,1723 0,5309 0,8057 0,4380 0,7590 0,8097 0,8182 0,8002 0,4521 0,3112 0,9347 0,5428 0,7862 0,7668 0,9494 0,4126 0,8696 0,2965 0,6841 0,5266 0,9007 0,5611 0,6463 0,2549 0,9232 0,3725 0,5554 0,3007 0,8751 0,5621 0,5588 0,6013 0,9467 0,8824 0,8971 0,7516 Giulia De Luca Z62000002 EGDI 0,0454 0,3464 0,1019 0,3784 0,8615 0,8067 0,2173 0,4320 0,8772 0,7050 0,6697 0,6478 0,4179 0,5671 0,2772 0,4072 0,8342 0,8333 0,1239 0,3968 0,0411 0,3228 0,5648 0,4797 0,8225 0,7894 0,0744 0,3026 0,2069 0,3818 0,3215 0,5020 0,1118 0,2024 0,1595 0,4807 0,5531 0,5524 0,2638 0,3839 0,6460 0,6518 0,3555 0,5477 0,0645 0,2586 0,7192 0,6521 0,0425 0,5398 0,5375 0,7195 0,0597 0,2747 0,7870 0,7527 0,1968 0,5851 0,8356 0,7293 0,5147 0,5576 0,2886 0,5000 0,8135 0,7565 0,3098 0,4022 0,1570 0,4831 0,4700 0,4406 0,2436 0,5603 0,2944 0,4860 0,1596 0,6651 0,4346 0,6950 di 54 0,6151 0,9982 0,6533 0,1103 0,8129 0,2576 0,7830 0,8228 0,7434 0,2876 0,7843 0,3137 0,1961 0,5163 0,1699 0,4837 0,0523 0,4248 0,2608 0,2722 0,3679 0,5200 0,3439 0,3033 0,1875 0,5725 0,2847 0,3868 0,6859 0,4436 0,2747 0,5573 0,2428 0,4847 0,4782 0,4837 Stima a massima verosimiglianza (imputazione con il valore atteso) HCI OSI II 0,3063 0,2941 0,3063 0,3333 0,3063 0,8562 0,3063 0,3791 0,3063 0,5425 0,3063 0,5752 0,3063 0,5817 0,3063 0,2484 0,3063 0,9608 0,3063 0,3660 0,3063 0,2288 0,3063 0,1830 0,3063 0,8431 0,3063 0,1373 0,3063 0,2418 0,3063 0,4837 0,3113 0,4278 0,7572 0,4278 0,9332 0,4278 0,7089 0,4278 0,8969 0,4278 0,9134 0,4278 0,1723 0,4278 0,8057 0,4278 0,7590 0,4278 0,8182 0,4278 0,4521 0,4278 0,9347 0,4278 0,7862 0,4278 Giulia De Luca Z62000002 EGDI 0,0454 0,2161 0,1019 0,2480 0,8615 0,6765 0,2173 0,3017 0,8772 0,5750 0,6697 0,5177 0,4179 0,4368 0,2772 0,2770 0,8342 0,7031 0,1239 0,2664 0,0411 0,1924 0,5648 0,3497 0,8225 0,6592 0,0744 0,1723 0,2069 0,2516 0,3215 0,3716 0,1118 0,2851 0,1595 0,4480 0,5531 0,6359 0,2638 0,4664 0,6460 0,6546 0,3555 0,5642 0,0645 0,2236 0,7192 0,6487 0,0425 0,4099 0,5375 0,5928 0,0597 0,3143 0,7870 0,7136 0,1968 0,4698 di 54 0,9494 0,8696 0,6841 0,9007 0,6463 0,9232 0,5554 0,8751 0,5588 0,9467 0,8971 0,6151 0,9982 0,6533 0,1103 0,8129 0,2576 0,7830 0,8228 0,7434 0,4278 0,4278 0,4278 0,4278 0,2549 0,3725 0,3007 0,5621 0,6013 0,8824 0,7516 0,2876 0,7843 0,3137 0,1961 0,5163 0,1699 0,4837 0,0523 0,4248 0,8356 0,5147 0,2886 0,8135 0,3252 0,3252 0,3252 0,3252 0,3252 0,3252 0,3252 0,3252 0,3252 0,3252 0,3252 0,3252 0,3252 0,3252 0,3252 0,3252 0,7345 0,6023 0,4664 0,7111 0,4073 0,5386 0,3928 0,5872 0,4962 0,7197 0,6589 0,4081 0,7034 0,4296 0,2104 0,5511 0,2501 0,5302 0,3966 0,4971 Stima a massima verosimiglianza(imputazione con valori casuali) HCI OSI II 0,9160 0,2941 0,6411 0,3333 0,8630 0,8562 0,5126 0,3791 0,9075 0,5425 0,5137 0,5752 0,8027 0,5817 0,6940 0,2484 0,8946 0,9608 0,7647 0,3660 0,7580 0,2288 0,9254 0,1830 0,6865 0,8431 0,7384 0,1373 0,9699 0,2418 0,3293 0,4837 0,3113 0,3113 0,7572 0,7572 Giulia De Luca Z62000002 0,0454 0,1019 0,8615 0,2173 0,8772 0,6697 0,4179 0,2772 0,8342 0,1239 0,0411 0,5648 0,8225 0,0744 0,2069 0,3215 0,1118 0,1595 EGDI 0,4173 0,3585 0,8602 0,3698 0,7734 0,5861 0,6006 0,4050 0,8972 0,4177 0,3415 0,5540 0,7846 0,3149 0,4706 0,3792 0,2030 0,4596 di 54 0,9332 0,7089 0,8969 0,9134 0,1723 0,8057 0,7590 0,8182 0,4521 0,9347 0,7862 0,9494 0,8696 0,6841 0,9007 0,6463 0,9232 0,5554 0,8751 0,5588 0,9467 0,8971 0,6151 0,9982 0,6533 0,1103 0,8129 0,2576 0,7830 0,8228 0,7434 0,9332 0,7089 0,8969 0,9134 0,1723 0,8057 0,7590 0,8182 0,4521 0,9347 0,7862 0,9494 0,8696 0,6841 0,9007 0,2549 0,3725 0,3007 0,5621 0,6013 0,8824 0,7516 0,2876 0,7843 0,3137 0,1961 0,5163 0,1699 0,4837 0,0523 0,4248 Giulia De Luca Z62000002 0,5531 0,2638 0,6460 0,3555 0,0645 0,7192 0,0425 0,5375 0,0597 0,7870 0,1968 0,8356 0,5147 0,2886 0,8135 0,1851 0,3912 0,2957 0,9429 0,0687 0,6963 0,5285 0,0918 0,3213 0,1586 0,2870 0,02 0,0363 0,5865 0,0026 0,2829 0,6002 0,6015 0,5494 0,5823 0,1866 0,5751 0,3461 0,5475 0,4329 0,8957 0,3714 0,8057 0,5997 0,5065 0,6558 0,2389 0,5604 0,3831 0,7911 0,4115 0,8422 0,7260 0,3310 0,7021 0,3746 0,1978 0,4385 0,1548 0,6164 0,2902 0,4831 di 54 Bibliografia 1: Rubin RB, Inference and missing data, 2: Joseph L.Schafer, John W. Graham, Missing Data:Our View of State of Art, 3: United Nations (2012), E-Government Survey 2012. E-Government for the People , 4: Marco Mancaralla, eJustice amministrativa in Europa, 5: UN Public Administration Programme, United Nations E-Government Survey 2010, 6: JRC European Commission, Handbook on Constructing on Composite Indicators, Giulia De Luca Z62000002 di 54 Giulia De Luca Z62000002 di 54
© Copyright 2024 Paperzz