A.A. 2013/2014 Corso di Laurea triennale in Economia Aziendale e Bancaria Insegnamento: Ricerche di Mercato Prova scritta -- 26 maggio 2014 1. Si dia una definizione delle tecniche di imputazione (a) deduttiva; (b) per medie; (c) hot deck ______________________________________________________________________ (a) imputazione deduttiva: le variabili rilevate sono connesse tra loro da vincoli logici (esempio: reddito = consumi + risparmio) che consentono di sostituire o imputare valori consistenti con detti vincoli. (b) imputazione per medie: il dato mancante e’ stimato tramite l’informazione contenuta nelle risposte fornite dai rispondenti, incluso l'intervistato. Esempi di imputazione: media complessiva del carattere nei rispondenti; valor medio del carattere calcolato sui rispondenti della stessa classe; trasformazione lineare di variabili che hanno influenza sulla variabile di risposta. (c) procedura hot deck nella versione piu’ semplice: estrazione casuale di un’unita’ per ogni dato mancante effettuata con o senza ripetizione sulla distribuzione empirica della caratteristica. ______________________________________________________________________ 2. Una compagnia aerea, nell’ambito di una rilevazione mediante campionamento di convenienza che mira a valutare la soddisfazione della clientela rileva, tra le altre cose, i seguenti aspetti: (a) Numero del volo (b) Motivo del viaggio (a. Affari/Lavoro; b. Visita parenti/amici; c. Turismo/Vacanze; d. Altro) (c) Quanti viaggi aerei ha effettuato negli ultimi 4 mesi? (d) Come giudica il comfort sul volo che sta effettuando? (Ottimo Buono Medio Scarso Pessimo) Si indichi la natura della scala associata a ciascuna misurazione. Si considerino inoltre le seguenti misure di dispersione: la varianza, il campo di variazione, lo scarto interquartile; si indichi per quali misurazioni, tra quelle sopra elencate, esse risultino appropriate. ______________________________________________________________________ (a) scala nominale (b) scala nominale, (c) scala di rapporti, (d) scala ordinale: se tuttavia si assegnano punteggi ad esempio da -2 a 2 sulla base dell'ipotesi che tra una modalita' e la successiva la differenza sia costante uguale a 1 la scala e' ad intervallo. La varianza, il campo di variazione e lo scarto interquartile sono appropriate per (c) ed eventualmente per (d). ______________________________________________________________________ 3. Si consideri la seguente scala attitudinale semplice: Indichi il Suo giudizio sulla marca Z: (a) Si definisca il concetto di bilanciamento della scala e si indichi se la scala e' bilanciata. (b) Indicare quali aspetti formali del quesito siano apprezzabili e quali altri lo rendano inadeguato ai fini della misurazione della soddisfazione dei clienti. (c) Illustrare la scala attitudinale complessa di Thurstone. ______________________________________________________________________ (a) Le scale bilanciate implicano un identico numero di opzioni favorevoli e sfavorevoli; in questo caso ha rilievo se viene scelto un numero pari o dispari di opzioni. La scala riportata nella domanda è bilanciata in quanto presenta due opzioni sfavorevoli e due favorevoli, mentre l'opzione 'non so' è posta all'esterno della scala e non indica indifferenza nel giudizio di preferenza sulla marca Z. (b) E' apprezzabile che sia messo in rilievo che l'opzione 'non so' non ha il significato di indifferenza o giudizio neutrale ma stia a significare che non si esprime alcun giudizio. Non è apprezzabile che le opzioni sfavorevoli siano presentate con aggettivi più decisamente orientati rispetto alle opzioni favorevoli. (c) La costruzione della scala di Thurstone (o equintervallata) passa attraverso le seguenti fasi: a) Si colleziona un numero m di statement o quesiti sufficientemente elevato, nei confronti dei quali l’intervistato dovrà manifestare il proprio assenso o dissenso. b) Viene reclutato un numero elevato di giudici, ai quali si chiede di ordinare in 11 gruppi i quesiti in ragione della loro connotazione (positiva o negativa) nei confronti del dominio di indagine. c) Per ciascun quesito si calcola il valore mediano ed il campo di variazione. d) Sono eliminati i quesiti che presentano dispersione più elevata, e che pertanto sono piu ambigui e si seleziona un numero ridotto (20-30) di quesiti in modo da coprire l’intero spazio di misurazione delle attitudini. e) I quesiti scelti sono sottoposti al campione di individui f) Il valore della scala attitudinale per il rispondente viene ottenuto considerando il punteggio mediano realizzato sulle affermazioni con le quali è d’accordo. ______________________________________________________________________ 4. Si illustri il metodo di raggruppamento non gerarchico detto K-means. ______________________________________________________________________ Il metodo di raggruppamento non gerarchico detto K-means consiste nello specificare k punti iniziali, o seeds (scegliendo in maniera opportuna alcune unita' o prendendo la configurazione determinata da una tecnica gerarchica). Al primo passo ciascuna unita' e' assegnata ai k punti in ragione della distanza piu' piccola. Viene calcolata la media o il centroide per ciascuno dei k gruppi e si verifica che ciascuna unita' sia assegnata al grappolo che ha il centroide piu' vicino. Se questo non si verifica si procede a spostare l’unita' presso il grappolo che ha il centroide piu' vicino e si controlla la nuova soluzione, per cui si procede iterativamente a spostamenti successivi fino a raggiungere una configurazione stabile. ______________________________________________________________________ 5. Con riferimento al problema della misura della distanza e della similarita', (a) Si scriva la formula della distanza euclidea tra due oggetti a e b caratterizzati dagli attributi a1,..,an e b1,..,bn. (b) Si pongano in evidenza i limiti della distanza euclidea e si suggerisca una possibile alternativa. ______________________________________________________________________ (a) d = {(a1-b1)2 + (a2-b2)2 + ... + (an-bn)2}1/2 (b) Il valore della distanza euclidea può essere influenzato in modo eccessivo da valori molto grandi o molto piccoli delle differenze dovuti a dati errati o anomali. La distanza euclidea è definita solo per variabili quantitative e dipende dall'unita' di misura della variabili. Una distanza meno sensibile a dati errati o anomali è la distanza della città a blocchi (o distanza di Manhattan). La distanza di Canberra e' utile per attenuare la dipendenza dei valori delle distanze dall'unita' di misura. Per variabili categoriali si può adoperare la distanza di Hamming, data dalla percentuale di modalità per le quali sono stati rilevati valori differenti. ______________________________________________________________________ 6. Una popolazione di N=100000 individui e' stata ripartita in 3 zone di residenza e un campione stratificato di n = 1000 individui e' stato selezionato mediante l’estrazione entro ciascuno strato di un campione casuale semplice senza ripetizione di numerosita' nh, h=1,2,3. La tabella sotto riportata contiene la dimensione, le medie e le varianze campionarie di strato. Strato (h) 1 2 3 Nh 70000 25000 5000 nh yh s h2 500 1.5 15 300 2.9 22 200 4.1 84 (a) Definire un campione stratificato e dire quali sono i vantaggi rispetto al campionamento casuale semplice. (b) Scrivere la formula dello stimatore stratificato della media della popolazione e la formula della sua varianza. (c) Spiegare se il campione stratificato come riportato nella tabella e' proporzionale oppure no. ______________________________________________________________________ (a) Il campionamento stratificato consiste nel suddividere la popolazione in sottogruppi mutuamente esclusivi, detti strati, in base ad una o piu' variabili ausiliarie o di classificazione. L’h-esimo strato, con h = 1..H, contiene Nh elementi dai quali viene estratto in maniera indipendente un campione casuale semplice di numerosita' nh. La stratificazione ha i seguenti vantaggi rispetto al campionamento casuale semplice: la precisione delle stime aumenta qualora i sottogruppi siano omogenei al loro interno e disomogenei tra di loro; si puo' adattare il campionamento alle caratteristiche dei sottogruppi; e' possibile ottenere stime differenziate per sottogruppo. 1 3 1 3 σ 2 = 2 ∑ N h ( N h − nh ) sh2 Y = ∑ N h yh N h =1 N h =1 , la varianza (b) la media e’ (c) non e' proporzionale. ______________________________________________________________________ 7. Scrivere i comandi R per il calcolo dell’indice di Cronbach con k=12, σi2 = (0.68, 0.62, 0.53, 1.72, 0.97, 1.74, 1.88, 1.92, 1.68, 2.30, 3.30, 3.08) e σt2 =113.5. ______________________________________________________________________ si2 <- c(0.68, 0.62, 0.53, 1.72, 0.97, 1.74, 1.88, 1.92, 1.68, 2.30, 3.30, 3.08) st2 <- 113.5 k <- 12 alfaCronbach <- (k/(k-1))*(1-sum(si2)/st2) ______________________________________________________________________ ______________________________________________________________________ A.A. 2013/2014 Corso di Laurea triennale in Economia Aziendale e Bancaria Insegnamento: Ricerche di Mercato Prova scritta -- 25 giugno 2014 ______________________________________________________________________ 1. Descrivere le tecniche di imputazione per medie, condizionate e non condizionate, nelle versioni deterministica e stocastica. ______________________________________________________________________ Nell'imputazione per medie il dato mancante e’ stimato tramite l’informazione contenuta nelle risposte fornite dai rispondenti, incluso l'intervistato. E' possibile imputare la media non condizionata, cioe' la media complessiva del carattere nei rispondenti, oppure una media condizionata. Si prendono in esame le variabili che si puo' assumere influenzino la variabile per la quale la risposta e' stata omessa. Tali variabili (covariate) possono essere qualitative dicotomiche o quantitative. Nel primo caso e' imputato il valor medio del carattere calcolato sui rispondenti della stessa classe, cioe' la media condizionata ad una o piu' variabili dicotomiche. Nel secondo caso la media condizionata e' ottenuta da una trasformazione lineare delle variabili che influenzano la variabile di risposta. Il caso piu' semplice di imputazione per medie e' quello deterministico. Il metodo puo' essere reso stocastico aggiungendo alla media un termine aleatorio di media nulla e varianza stimata sulla base dei valori forniti dai rispondenti. ______________________________________________________________________ 2. Sia N la dimensione della popolazione e n la dimensione del campione. (a) Si dia una definizione di campionamento probabilistico. (b) Come si estrae un campione casuale semplice a blocchi e un campione bernoulliano? (c) Quanti sono i possibili campioni nei due casi? (d) Con quale probabilita' una unita' statistica è inclusa in un campione casuale semplice? ______________________________________________________________________ (a) Campionamento probabilistico: le unita' statistiche sono selezionate con meccanismo casuale e hanno tutte una probabilita' nota e non nulla di essere selezionate. (b) Il campionamento casuale semplice a blocchi e' caratterizzato dall’assenza di ripetizione nel senso che un’unita' non puo' entrare a far parte dello stesso campione piu' di una volta, ovvero l’unita' selezionata viene rimossa dalla popolazione e non puo' essere piu' estratta. Il campionamento casuale semplice bernoulliano e' invece con ripetizione nel senso che un’unita' puo' entrare a far parte dello stesso campione piu' di una volta in quanto l’unita' selezionata viene nuovamente immessa nella popolazione e puo' essere ancora estratta. (c) Il numero di campioni in blocco e' il coefficiente binomiale N su n, di campioni bernoulliani e' N+n-1 su n. (d) La probabilita' per una unita' statistica di essere inclusa in un campione casuale semplice e' pari alla frazione di campionamento n/N. ______________________________________________________________________ 3. Si consideri la seguente scala attitudinale: E' soddisfatto dei servizi offerti dalla banca x? Per niente_____________________________________________________ Molto (a) Come si chiama questo tipo di scala? (b) E' una scala comparativa? (c) E' una scala semplice? ______________________________________________________________________ (a) E' una scala grafica, o di valutazione continua (b) Non e' comparativa (c) E' una scala semplice ______________________________________________________________________ 4. La tabella seguente riassume i risultati di un'indagine campionaria condotta con la tecnica del campionamento stratificato. Sono riportate le dimensioni di ciascuno strato nella popolazione (Nh) e nel campione (nh) e le medie campionarie di strato (mh). Che tipo di allocazione e' stata effettuata? Come e' definito lo stimatore stratificato della media della popolazione? In base a quali considerazioni si puo' suddividere in strati una popolazione? Strato h Nh nh mh 1 3000 120 9.3 2 1800 72 5.7 3 7200 288 4.8 ______________________________________________________________________ (a) L'allocazione e' proporzionale. (b) Lo stimatore stratificato della media e' pari a ΣhNhmh/ΣNh (c) Nel campionamento stratificato la popolazione e' suddivisa in sottogruppi mutuamente esclusivi, detti strati, in base ad una o piu' variabili ausiliarie o di classificazione. ______________________________________________________________________ 5. Per una analisi in componenti principali sono disponibili i dati per ciascuna di k=6 variabili. (a) Come si possono definire le componenti principali? (b) In questo caso quante componenti principali si possono estrarre? (c) Che cosa si intende per matrice dei factor loadings? (d) Cosa si intende per comunalita'? ______________________________________________________________________ (a) La variabile y=a1x1+a2x2+...+akxk determinata in modo da estrarre la quota massima di varianza dalle misurazioni originarie e' detta prima componente principale e si indica con y1. In tal modo la combinazione lineare con coefficienti {a1, a2, ..., ak} delle variabili quantitative (o al piu' binarie) {x1, x2, ..., xk} osservate, le quali costituiscono le misurazioni (variabili) originarie, produce la nuova variabile artificiale y1. In modo analogo si possono calcolare altre k-1 combinazioni lineari imponendo una condizione di ortogonalita' tra le y in aggiunta al criterio di massimizzazione della varianza, per ottenere fino a k-1 altre variabili artificiali {y2, y3, ..., yk} che formano l'insieme delle componenti principali. (b) Almeno una e al piu' 6. (c) La matrice dei pesi (factor loadings) delle componenti principali e' l'insieme dei coefficienti delle combinazioni lineari che trasformano le variabili originarie nelle componenti principali, disposti per riga in una tabella di k righe (k = numero delle variabili originarie) e p colonne (p = numero prescelto di componenti principali). (d) Per ogni j = 1, ...,k, la comunalita' della variabile j e' data da hj2=aj12|λ1|+aj22 |λ2|+...+ajp2|λp|, dove i quadrati dei coefficienti a sono moltiplicati per gli autovalori λ. La comunalita' indica in quale misura le p componenti principali prescelte sono in grado di rappresentare ciascuna delle k variabili originali. ______________________________________________________________________ 6. Si vuole eseguire un'analisi dei cluster nell'insieme {A,B,C,D} adoperando il metodo agglomerativo con il criterio del legame completo in base alla seguente matrice delle distanze A B C B 5 C 8 1 D 7 3 2 (a) Come si definiscono i metodi agglomerativi per l'analisi dei cluster? (b) In questo esempio, quanti cluster si formano all'iterazione 1? (c) Quanti passi occorrono per completare l'algoritmo? ______________________________________________________________________ (a) Le tecniche di raggruppamento gerarchiche agglomerative procedono per aggregazioni successive delle unita'. Detto n il numero degli individui si assume inizialmente che vi siano n cluster formati da un solo individuo. I cluster sono aggregati in iterazioni successive fino a formare un unico cluster che contiene tutti gli n individui. (b) All'iterazione 1 si formano 3 cluster. (c) Per completare l'algoritmo occorrono 3 passi. Dettaglio delle iterazioni dell'algoritmo (solo per controllo, non richiesto nella risposta) Iterazione Cluster Distanza di aggregazione 0 (A),(B),(C),(D) 1 1 (A),(B,C),(D) 3 2 (A),(B,C,D) 8 3 (A,B,C,D) ______________________________________________________________________ 7. Adoperando i dati riportati nella domanda 4, scrivere i comandi R per: (a) Costruire la matrice D dei dati le cui colonne corrispondono a N, n, ed m ed ha in ciascuna riga i rispettivi valori riportati nella tabella. (b) Scrivere la formula per il calcolo delle somme per colonna della matrice D. (c) Scrivere la formula della stima stratificata della media a partire dalla matrice D. ______________________________________________________________________ (a) D <- matrix(c(3000,1800,7200,120,72,288,9.3,5.7,4.8),3,3) (b) S <- colSums(D) (c) media_stratificata <- sum(D[,1]*D[,3])/S[1] Dettaglio dell'output ottenuto eseguendo i comandi di R (solo per controllo, non richiesto nella risposta) >D [,1] [,2] [,3] [1,] 3000 120 9.3 [2,] 1800 72 5.7 [3,] 7200 288 4.8 >S [1] 12000.0 480.0 19.8 > media_stratificata [1] 6.06 ______________________________________________________________________ ______________________________________________________________________ A.A. 2013/2014 Corso di Laurea triennale in Economia Aziendale e Bancaria Insegnamento: Ricerche di Mercato Prova scritta -- 15 luglio 2014 ______________________________________________________________________ 1. Si consideri la seguente scala attitudinale: E' soddisfatto dei servizi offerti dalla banca x? Molto |______________________________________________________| Per niente (a) Come si chiama questo tipo di scala? (b) E' una scala comparativa? (c) E' una scala semplice? ______________________________________________________________________ (a) E' una scala grafica, o di valutazione continua (b) Non e' comparativa (c) E' una scala semplice ______________________________________________________________________ 2. Si consideri il seguente esempio di quesito formulato secondo una scala di Likert: "Wikipedia e' la mia prima fonte di ricerca": Totalmente in disaccordo __ in disaccordo __ non concordo ne’ dissento__ in accordo __pienamente d’accordo (a) E' una scala comparativa? (b) E' una scala semplice? (c) Quali sono vantaggi e svantaggi nell'inserire l'opzione centrale? ______________________________________________________________________ (a) No (b) No (c) Il vantaggio e' evitare la 'polarizzazione' delle risposte. Lo svantaggio e' che l'opzione 'centrale' viene scelta sia da chi e' neutrale rispetto all'affermazione sia da chi non sa o non vuole rispondere. ______________________________________________________________________ 3. Si dia una definizione di campionamento non probabilistico e si descrivano le piu' note tecniche comunemente adoperate per la formazione di un campione non probabilistico. ______________________________________________________________________ (a) Nel campionamento non probabilistico le unita' statistiche che entrano a fare parte del campione sono scelte direttamente dal responsabile dell'indagine. (b) A scelta ragionata, per quote, di convenienza, a valanga. ______________________________________________________________________ 4. Si illustri il metodo di raggruppamento non gerarchico detto K-means. ______________________________________________________________________ Il metodo di raggruppamento non gerarchico detto K-means consiste nello specificare k punti iniziali, o seeds (scegliendo in maniera opportuna alcune unita' o prendendo la configurazione determinata da una tecnica gerarchica, o tramite generazione casuale) i quali costituiscono i centroidi di altrettanti cluster (gruppi, grappoli). Al primo passo ciascuna unita' e' assegnata ad uno dei k centroidi in ragione della distanza piu' piccola. Viene calcolata quindi la media delle coordinate dei punti attribuiti a ciascuno dei k cluster, ed i punti cosi' individuati sono assunti come nuovi centroidi. Si ripete la procedura di assegnazione dei punti ai centroidi e di ricalcolo dei centroidi fino a raggiungere una configurazione stabile. In genere, specialmente se il problema e' di grandi dimensioni, si fissa un numero massimo di iterazioni raggiunto il quale l'algoritmo si ferma e restituisce la partizione ottenuta nel passo piu' recente, la quale si assume come soluzione anche se non e' garantito sia stabile. ______________________________________________________________________ 5. Con riferimento al problema della misura della distanza e della similarita', (a) Si scriva la formula della distanza euclidea tra due oggetti a e b caratterizzati dagli attributi a1,..,an e b1,..,bn. (b) Si pongano in evidenza i limiti della distanza euclidea e si suggerisca una possibile alternativa. ______________________________________________________________________ (a) d = {(a1-b1)2 + (a2-b2)2 + ... + (an-bn)2}1/2 (b) Il valore della distanza euclidea può essere influenzato in modo eccessivo da valori molto grandi o molto piccoli delle differenze dovuti a dati errati o anomali. La distanza euclidea è definita solo per variabili quantitative e dipende dall'unita' di misura delle variabili. Una distanza meno sensibile a dati errati o anomali è la distanza della città a blocchi (o distanza di Manhattan). La distanza di Canberra e' utile per attenuare la dipendenza dei valori delle distanze dall'unita' di misura. ______________________________________________________________________ 6. Si vuole eseguire un'analisi dei cluster nell'insieme {A,B,C,D} adoperando il metodo agglomerativo con il criterio del legame medio in base alla seguente matrice delle distanze A B C B 5 C 8 1 D 7 3 2 (a) Come si definiscono i metodi agglomerativi per l'analisi dei cluster? (b) In questo esempio, quanti passi occorrono per completare l'algoritmo? (c) Come si misura la distanza tra gruppi con il criterio del legame medio? ______________________________________________________________________ (a) Le tecniche di raggruppamento agglomerative procedono per aggregazioni successive delle unita' partendo da tanti gruppi quante sono le unita' (ogni gruppo e' formato da un solo individuo) fino ad ottenere un solo gruppo che contiene tutte le unita'. (b) Occorrono 3 iterazioni. Se 0 indica la situazione iniziale, si ha: it.0 (A)(B)(C)(D), it.1 (A),(B,C),(D), it.2 (A),(B,C,D), it.3 (A,B,C,D). La seguente Tabella delle distanze tra i cluster ottenuti nella iterazione 1 non e' richiesto sia specificata ma si riporta qui per completezza in quanto e' utile per passare dalla iterazione 1 alla 2: A (B,C) (B,C) 13/2 D 7 5/2 (c) La distanza tra gruppi e' misurata dalla distanza media calcolata tra tutti gli elementi appartenenti ad un gruppo e tutti quelli appartenenti ad un altro. ______________________________________________________________________ 7. Un'analisi in componenti principali ha fornito gli autovalori {12, 8, 4.5, 1.5, 1} relativi ad altrettanti fattori. Quanti fattori sono da impiegare in base al criterio della media? E quanti se si vuole almeno il 70% di varianza spiegata? ______________________________________________________________________ (a) 2 fattori, dato che la media degli autovalori e' 27/5 = 5.4 e solo i primi due sono piu' grandi. (b) La somma degli autovalori e' 27. Il primo autovalore e' il (12/27)100% = 44% del totale degli autovalori, il secondo (8/27)100% = 29%. I primi due autovalori presi insieme totalizzano il 73% e spiegano quindi piu' del 70% di varianza. ______________________________________________________________________ 8. Con riferimento alla precedente domanda 7, scrivere i comandi di R per (a) definire il vettore degli autovalori, (b) effettuare i calcoli per fornire le risposte ai quesiti formulati e per (c) disegnare il grafico degli autovalori. ______________________________________________________________________ autovalori <- c(12, 8, 4.5, 1.5, 1) media_autovalori <- mean(autovalori) percentuali <- (autovalori/sum(autovalori))*100 plot(autovalori,type="b") # "b" sta per 'both', cioe' sono disegnati sia i punti che le linee che li uniscono ______________________________________________________________________
© Copyright 2024 Paperzz