Compiti_Sessione_Estiva_2013_2014

A.A. 2013/2014 Corso di Laurea triennale in Economia
Aziendale e Bancaria
Insegnamento: Ricerche di Mercato
Prova scritta -- 26 maggio 2014
1. Si dia una definizione delle tecniche di imputazione
(a) deduttiva; (b) per medie; (c) hot deck
______________________________________________________________________
(a) imputazione deduttiva: le variabili rilevate sono connesse tra loro da vincoli logici
(esempio: reddito = consumi + risparmio) che consentono di sostituire o imputare
valori consistenti con detti vincoli.
(b) imputazione per medie: il dato mancante e’ stimato tramite l’informazione contenuta
nelle risposte fornite dai
rispondenti, incluso l'intervistato. Esempi di imputazione: media complessiva del
carattere nei rispondenti; valor medio del carattere calcolato sui rispondenti della stessa
classe; trasformazione lineare di variabili che hanno influenza sulla variabile di risposta.
(c) procedura hot deck nella versione piu’ semplice: estrazione casuale di un’unita’ per
ogni dato mancante effettuata con o senza ripetizione sulla distribuzione empirica della
caratteristica.
______________________________________________________________________
2. Una compagnia aerea, nell’ambito di una rilevazione mediante campionamento di
convenienza che mira a valutare la soddisfazione della clientela rileva, tra le altre cose, i
seguenti aspetti:
(a) Numero del volo
(b) Motivo del viaggio (a. Affari/Lavoro; b. Visita parenti/amici; c. Turismo/Vacanze;
d. Altro)
(c) Quanti viaggi aerei ha effettuato negli ultimi 4 mesi?
(d) Come giudica il comfort sul volo che sta effettuando? (Ottimo Buono Medio
Scarso Pessimo)
Si indichi la natura della scala associata a ciascuna misurazione. Si considerino inoltre
le seguenti misure di dispersione: la varianza, il campo di variazione, lo scarto
interquartile; si indichi per quali misurazioni, tra quelle sopra elencate, esse risultino
appropriate.
______________________________________________________________________
(a) scala nominale (b) scala nominale, (c) scala di rapporti, (d) scala ordinale: se tuttavia
si assegnano punteggi ad esempio da -2 a 2 sulla base dell'ipotesi che tra una modalita' e
la successiva la differenza sia costante uguale a 1 la scala e' ad intervallo. La varianza, il
campo di variazione e lo scarto interquartile sono appropriate per (c) ed eventualmente
per (d).
______________________________________________________________________
3. Si consideri la seguente scala attitudinale semplice:
Indichi il Suo giudizio sulla marca Z:
(a) Si definisca il concetto di bilanciamento della scala e si indichi se la scala e'
bilanciata.
(b) Indicare quali aspetti formali del quesito siano apprezzabili e quali altri lo rendano
inadeguato ai fini della misurazione della soddisfazione dei clienti.
(c) Illustrare la scala attitudinale complessa di Thurstone.
______________________________________________________________________
(a) Le scale bilanciate implicano un identico numero di opzioni favorevoli e
sfavorevoli; in questo caso ha rilievo se viene scelto un numero pari o dispari di opzioni.
La scala riportata nella domanda è bilanciata in quanto presenta due opzioni sfavorevoli
e due favorevoli, mentre l'opzione 'non so' è posta all'esterno della scala e non indica
indifferenza nel giudizio di preferenza sulla marca Z.
(b) E' apprezzabile che sia messo in rilievo che l'opzione 'non so' non ha il significato di
indifferenza o giudizio neutrale ma stia a significare che non si esprime alcun giudizio.
Non è apprezzabile che le opzioni sfavorevoli siano presentate con aggettivi più
decisamente orientati rispetto alle opzioni favorevoli.
(c) La costruzione della scala di Thurstone (o equintervallata) passa attraverso le
seguenti fasi: a) Si colleziona un numero m di statement o quesiti sufficientemente
elevato, nei confronti dei quali l’intervistato dovrà manifestare il proprio assenso o
dissenso. b) Viene reclutato un numero elevato di giudici, ai quali si chiede di ordinare
in 11 gruppi i quesiti in ragione della loro connotazione (positiva o negativa) nei
confronti del dominio di indagine. c) Per ciascun quesito si calcola il valore mediano ed
il campo di variazione. d) Sono eliminati i quesiti che presentano dispersione più
elevata, e che pertanto sono piu ambigui e si seleziona un numero ridotto (20-30) di
quesiti in modo da coprire l’intero spazio di misurazione delle attitudini. e) I quesiti
scelti sono sottoposti al campione di individui f) Il valore della scala attitudinale per il
rispondente viene ottenuto considerando il punteggio mediano realizzato sulle
affermazioni con le quali è d’accordo.
______________________________________________________________________
4. Si illustri il metodo di raggruppamento non gerarchico detto K-means.
______________________________________________________________________
Il metodo di raggruppamento non gerarchico detto K-means consiste nello specificare k
punti iniziali, o seeds (scegliendo in maniera opportuna alcune unita' o prendendo la
configurazione determinata da una tecnica gerarchica). Al primo passo ciascuna unita' e'
assegnata ai k punti in ragione della distanza piu' piccola. Viene calcolata la media o il
centroide per ciascuno dei k gruppi e si verifica che ciascuna unita' sia assegnata al
grappolo che ha il centroide piu' vicino. Se questo non si verifica si procede a spostare
l’unita' presso il grappolo che ha il centroide piu' vicino e si controlla la nuova
soluzione, per cui si procede iterativamente a spostamenti successivi fino a raggiungere
una configurazione stabile.
______________________________________________________________________
5. Con riferimento al problema della misura della distanza e della similarita',
(a) Si scriva la formula della distanza euclidea tra due oggetti a e b caratterizzati dagli
attributi a1,..,an e b1,..,bn.
(b) Si pongano in evidenza i limiti della distanza euclidea e si suggerisca una possibile
alternativa.
______________________________________________________________________
(a) d = {(a1-b1)2 + (a2-b2)2 + ... + (an-bn)2}1/2
(b) Il valore della distanza euclidea può essere influenzato in modo eccessivo da valori
molto grandi o molto piccoli delle differenze dovuti a dati errati o anomali. La distanza
euclidea è definita solo per variabili quantitative e dipende dall'unita' di misura della
variabili. Una distanza meno sensibile a dati errati o anomali è la distanza della città a
blocchi (o distanza di Manhattan). La distanza di Canberra e' utile per attenuare la
dipendenza dei valori delle distanze dall'unita' di misura. Per variabili categoriali si può
adoperare la distanza di Hamming, data dalla percentuale di modalità per le quali sono
stati rilevati valori differenti.
______________________________________________________________________
6. Una popolazione di N=100000 individui e' stata ripartita in 3 zone di residenza e un
campione stratificato di n = 1000 individui e' stato selezionato mediante l’estrazione
entro ciascuno strato di un campione casuale semplice senza ripetizione di numerosita'
nh, h=1,2,3. La tabella sotto riportata contiene la dimensione, le medie e le varianze
campionarie di strato.
Strato (h)
1
2
3
Nh
70000
25000
5000
nh
yh s h2
500 1.5 15
300 2.9 22
200 4.1 84
(a) Definire un campione stratificato e dire quali sono i vantaggi rispetto al
campionamento casuale semplice.
(b) Scrivere la formula dello stimatore stratificato della media della popolazione e la
formula della sua varianza.
(c) Spiegare se il campione stratificato come riportato nella tabella e' proporzionale
oppure no.
______________________________________________________________________
(a) Il campionamento stratificato consiste nel suddividere la popolazione in sottogruppi
mutuamente esclusivi, detti strati, in base ad una o piu' variabili ausiliarie o di
classificazione. L’h-esimo strato, con h = 1..H, contiene Nh elementi dai quali viene
estratto in maniera indipendente un campione casuale semplice di numerosita' nh. La
stratificazione ha i seguenti vantaggi rispetto al campionamento casuale semplice: la
precisione delle stime aumenta qualora i sottogruppi siano omogenei al loro interno e
disomogenei tra di loro; si puo' adattare il campionamento alle caratteristiche dei
sottogruppi; e' possibile ottenere stime differenziate per sottogruppo.
1 3
1 3
σ 2 = 2 ∑ N h ( N h − nh ) sh2
Y = ∑ N h yh
N h =1
N h =1
, la varianza
(b) la media e’
(c) non e' proporzionale.
______________________________________________________________________
7. Scrivere i comandi R per il calcolo dell’indice di Cronbach
con k=12, σi2 = (0.68, 0.62, 0.53, 1.72, 0.97, 1.74, 1.88, 1.92, 1.68, 2.30, 3.30, 3.08) e
σt2 =113.5.
______________________________________________________________________
si2 <- c(0.68, 0.62, 0.53, 1.72, 0.97, 1.74, 1.88, 1.92, 1.68, 2.30, 3.30, 3.08)
st2 <- 113.5
k <- 12
alfaCronbach <- (k/(k-1))*(1-sum(si2)/st2)
______________________________________________________________________
______________________________________________________________________
A.A. 2013/2014 Corso di Laurea triennale in Economia
Aziendale e Bancaria
Insegnamento: Ricerche di Mercato
Prova scritta -- 25 giugno 2014
______________________________________________________________________
1. Descrivere le tecniche di imputazione per medie, condizionate e non condizionate,
nelle versioni deterministica e stocastica.
______________________________________________________________________
Nell'imputazione per medie il dato mancante e’ stimato tramite l’informazione
contenuta nelle risposte fornite dai rispondenti, incluso l'intervistato. E' possibile
imputare la media non condizionata, cioe' la media complessiva del carattere
nei rispondenti, oppure una media condizionata. Si prendono in esame le
variabili che si puo' assumere influenzino la variabile per la quale la risposta e'
stata omessa. Tali variabili (covariate) possono essere qualitative dicotomiche
o quantitative. Nel primo caso e' imputato il valor medio del carattere calcolato
sui rispondenti della stessa classe, cioe' la media condizionata ad una o piu'
variabili dicotomiche. Nel secondo caso la media condizionata e' ottenuta da
una trasformazione lineare delle variabili che influenzano la variabile di
risposta. Il caso piu' semplice di imputazione per medie e' quello deterministico.
Il metodo puo' essere reso stocastico aggiungendo alla media un termine
aleatorio di media nulla e varianza stimata sulla base dei valori forniti dai
rispondenti.
______________________________________________________________________
2. Sia N la dimensione della popolazione e n la dimensione del campione.
(a) Si dia una definizione di campionamento probabilistico.
(b) Come si estrae un campione casuale semplice a blocchi e un campione
bernoulliano?
(c) Quanti sono i possibili campioni nei due casi?
(d) Con quale probabilita' una unita' statistica è inclusa in un campione casuale
semplice?
______________________________________________________________________
(a) Campionamento probabilistico: le unita' statistiche sono selezionate con
meccanismo casuale e hanno tutte una probabilita' nota e non nulla di essere
selezionate.
(b) Il campionamento casuale semplice a blocchi e' caratterizzato dall’assenza
di ripetizione nel senso che un’unita' non puo' entrare a far parte dello stesso
campione piu' di una volta, ovvero l’unita' selezionata viene rimossa dalla
popolazione e non puo' essere piu' estratta. Il campionamento casuale
semplice bernoulliano e' invece con ripetizione nel senso che un’unita' puo'
entrare a far parte dello stesso campione piu' di una volta in quanto l’unita'
selezionata viene nuovamente immessa nella popolazione e puo' essere
ancora estratta.
(c) Il numero di campioni in blocco e' il coefficiente binomiale N su n, di
campioni bernoulliani e' N+n-1 su n.
(d) La probabilita' per una unita' statistica di essere inclusa in un campione
casuale semplice e' pari alla frazione di campionamento n/N.
______________________________________________________________________
3. Si consideri la seguente scala attitudinale: E' soddisfatto dei servizi offerti dalla
banca x?
Per niente_____________________________________________________ Molto
(a) Come si chiama questo tipo di scala?
(b) E' una scala comparativa?
(c) E' una scala semplice?
______________________________________________________________________
(a) E' una scala grafica, o di valutazione continua
(b) Non e' comparativa
(c) E' una scala semplice
______________________________________________________________________
4. La tabella seguente riassume i risultati di un'indagine campionaria condotta con la
tecnica del campionamento stratificato. Sono riportate le dimensioni di ciascuno strato
nella popolazione (Nh) e nel campione (nh) e le medie campionarie di strato (mh). Che
tipo di allocazione e' stata effettuata? Come e' definito lo stimatore stratificato della
media della popolazione? In base a quali considerazioni si puo' suddividere in strati
una popolazione?
Strato h
Nh nh mh
1 3000 120 9.3
2 1800 72 5.7
3 7200 288 4.8
______________________________________________________________________
(a) L'allocazione e' proporzionale.
(b) Lo stimatore stratificato della media e' pari a ΣhNhmh/ΣNh
(c) Nel campionamento stratificato la popolazione e' suddivisa in sottogruppi
mutuamente esclusivi, detti strati, in base ad una o piu' variabili ausiliarie o di
classificazione.
______________________________________________________________________
5. Per una analisi in componenti principali sono disponibili i dati per ciascuna di k=6
variabili.
(a) Come si possono definire le componenti principali?
(b) In questo caso quante componenti principali si possono estrarre?
(c) Che cosa si intende per matrice dei factor loadings?
(d) Cosa si intende per comunalita'?
______________________________________________________________________
(a) La variabile y=a1x1+a2x2+...+akxk determinata in modo da estrarre la quota
massima di varianza dalle misurazioni originarie e' detta prima componente
principale e si indica con y1. In tal modo la combinazione lineare con coefficienti
{a1, a2, ..., ak} delle variabili quantitative (o al piu' binarie) {x1, x2, ..., xk}
osservate, le quali costituiscono le misurazioni (variabili) originarie, produce la
nuova variabile artificiale y1. In modo analogo si possono calcolare altre k-1
combinazioni lineari imponendo una condizione di ortogonalita' tra le y in
aggiunta al criterio di massimizzazione della varianza, per ottenere fino a k-1
altre variabili artificiali {y2, y3, ..., yk} che formano l'insieme delle componenti
principali.
(b) Almeno una e al piu' 6.
(c) La matrice dei pesi (factor loadings) delle componenti principali e' l'insieme
dei coefficienti delle combinazioni lineari che trasformano le variabili originarie
nelle componenti principali, disposti per riga in una tabella di k righe (k =
numero delle variabili originarie) e p colonne (p = numero prescelto di
componenti principali).
(d) Per ogni j = 1, ...,k, la comunalita' della variabile j e' data da hj2=aj12|λ1|+aj22
|λ2|+...+ajp2|λp|, dove i quadrati dei coefficienti a sono moltiplicati per gli
autovalori λ. La comunalita' indica in quale misura le p componenti principali
prescelte sono in grado di rappresentare ciascuna delle k variabili originali.
______________________________________________________________________
6. Si vuole eseguire un'analisi dei cluster nell'insieme {A,B,C,D} adoperando il metodo
agglomerativo con il criterio del legame completo in base alla seguente matrice delle
distanze
A
B
C
B
5
C
8
1
D
7
3
2
(a) Come si definiscono i metodi agglomerativi per l'analisi dei cluster?
(b) In questo esempio, quanti cluster si formano all'iterazione 1?
(c) Quanti passi occorrono per completare l'algoritmo?
______________________________________________________________________
(a) Le tecniche di raggruppamento gerarchiche agglomerative procedono per
aggregazioni successive delle unita'. Detto n il numero degli individui si assume
inizialmente che vi siano n cluster formati da un solo individuo. I cluster sono
aggregati in iterazioni successive fino a formare un unico cluster che contiene
tutti gli n individui.
(b) All'iterazione 1 si formano 3 cluster.
(c) Per completare l'algoritmo occorrono 3 passi.
Dettaglio delle iterazioni dell'algoritmo (solo per controllo, non richiesto nella
risposta)
Iterazione
Cluster
Distanza di aggregazione
0
(A),(B),(C),(D)
1
1
(A),(B,C),(D)
3
2
(A),(B,C,D)
8
3
(A,B,C,D)
______________________________________________________________________
7. Adoperando i dati riportati nella domanda 4, scrivere i comandi R per:
(a) Costruire la matrice D dei dati le cui colonne corrispondono a N, n, ed m ed ha in
ciascuna riga i rispettivi valori riportati nella tabella.
(b) Scrivere la formula per il calcolo delle somme per colonna della matrice D.
(c) Scrivere la formula della stima stratificata della media a partire dalla matrice D.
______________________________________________________________________
(a) D <- matrix(c(3000,1800,7200,120,72,288,9.3,5.7,4.8),3,3)
(b) S <- colSums(D)
(c) media_stratificata <- sum(D[,1]*D[,3])/S[1]
Dettaglio dell'output ottenuto eseguendo i comandi di R (solo per controllo, non
richiesto nella risposta)
>D
[,1] [,2] [,3]
[1,] 3000 120 9.3
[2,] 1800 72 5.7
[3,] 7200 288 4.8
>S
[1] 12000.0 480.0 19.8
> media_stratificata
[1] 6.06
______________________________________________________________________
______________________________________________________________________
A.A. 2013/2014 Corso di Laurea triennale in Economia
Aziendale e Bancaria
Insegnamento: Ricerche di Mercato
Prova scritta -- 15 luglio 2014
______________________________________________________________________
1. Si consideri la seguente scala attitudinale:
E' soddisfatto dei servizi offerti dalla banca x?
Molto |______________________________________________________| Per niente
(a) Come si chiama questo tipo di scala?
(b) E' una scala comparativa?
(c) E' una scala semplice?
______________________________________________________________________
(a) E' una scala grafica, o di valutazione continua
(b) Non e' comparativa
(c) E' una scala semplice
______________________________________________________________________
2. Si consideri il seguente esempio di quesito formulato secondo una scala di Likert:
"Wikipedia e' la mia prima fonte di ricerca": Totalmente in disaccordo __ in disaccordo
__ non concordo ne’ dissento__ in accordo __pienamente d’accordo
(a) E' una scala comparativa? (b) E' una scala semplice? (c) Quali sono vantaggi e
svantaggi nell'inserire l'opzione centrale?
______________________________________________________________________
(a) No
(b) No
(c) Il vantaggio e' evitare la 'polarizzazione' delle risposte. Lo svantaggio e' che l'opzione
'centrale' viene scelta sia da chi e' neutrale rispetto all'affermazione sia da chi non sa o
non vuole rispondere.
______________________________________________________________________
3. Si dia una definizione di campionamento non probabilistico e si descrivano le piu'
note tecniche comunemente adoperate per la formazione di un campione non
probabilistico.
______________________________________________________________________
(a) Nel campionamento non probabilistico le unita' statistiche che entrano a fare parte
del campione sono scelte direttamente dal responsabile dell'indagine.
(b) A scelta ragionata, per quote, di convenienza, a valanga.
______________________________________________________________________
4. Si illustri il metodo di raggruppamento non gerarchico detto K-means.
______________________________________________________________________
Il metodo di raggruppamento non gerarchico detto K-means consiste nello specificare k
punti iniziali, o seeds (scegliendo in maniera opportuna alcune unita' o prendendo la
configurazione determinata da una tecnica gerarchica, o tramite generazione casuale) i
quali costituiscono i centroidi di altrettanti cluster (gruppi, grappoli). Al primo passo
ciascuna unita' e' assegnata ad uno dei k centroidi in ragione della distanza piu' piccola.
Viene calcolata quindi la media delle coordinate dei punti attribuiti a ciascuno dei k
cluster, ed i punti cosi' individuati sono assunti come nuovi centroidi. Si ripete la
procedura di assegnazione dei punti ai centroidi e di ricalcolo dei centroidi fino a
raggiungere una configurazione stabile. In genere, specialmente se il problema e' di
grandi dimensioni, si fissa un numero massimo di iterazioni raggiunto il quale
l'algoritmo si ferma e restituisce la partizione ottenuta nel passo piu' recente, la quale si
assume come soluzione anche se non e' garantito sia stabile.
______________________________________________________________________
5. Con riferimento al problema della misura della distanza e della similarita',
(a) Si scriva la formula della distanza euclidea tra due oggetti a e b caratterizzati dagli
attributi a1,..,an e b1,..,bn.
(b) Si pongano in evidenza i limiti della distanza euclidea e si suggerisca una possibile
alternativa.
______________________________________________________________________
(a) d = {(a1-b1)2 + (a2-b2)2 + ... + (an-bn)2}1/2
(b) Il valore della distanza euclidea può essere influenzato in modo eccessivo da valori
molto grandi o molto piccoli delle differenze dovuti a dati errati o anomali. La distanza
euclidea è definita solo per variabili quantitative e dipende dall'unita' di misura delle
variabili. Una distanza meno sensibile a dati errati o anomali è la distanza della città a
blocchi (o distanza di Manhattan). La distanza di Canberra e' utile per attenuare la
dipendenza dei valori delle distanze dall'unita' di misura.
______________________________________________________________________
6. Si vuole eseguire un'analisi dei cluster nell'insieme {A,B,C,D} adoperando il metodo
agglomerativo con il criterio del legame medio in base alla seguente matrice delle distanze
A
B
C
B 5
C 8
1
D 7
3
2
(a) Come si definiscono i metodi agglomerativi per l'analisi dei cluster?
(b) In questo esempio, quanti passi occorrono per completare l'algoritmo?
(c) Come si misura la distanza tra gruppi con il criterio del legame medio?
______________________________________________________________________
(a) Le tecniche di raggruppamento agglomerative procedono per aggregazioni
successive delle unita' partendo da tanti gruppi quante sono le unita' (ogni gruppo e'
formato da un solo individuo) fino ad ottenere un solo gruppo che contiene tutte le
unita'.
(b) Occorrono 3 iterazioni. Se 0 indica la situazione iniziale, si ha: it.0 (A)(B)(C)(D),
it.1 (A),(B,C),(D), it.2 (A),(B,C,D), it.3 (A,B,C,D).
La seguente Tabella delle distanze tra i cluster ottenuti nella iterazione 1 non e'
richiesto sia specificata ma si riporta qui per completezza in quanto e' utile per passare
dalla iterazione 1 alla 2:
A
(B,C)
(B,C) 13/2
D
7
5/2
(c) La distanza tra gruppi e' misurata dalla distanza media calcolata tra tutti gli elementi
appartenenti ad un gruppo e tutti quelli appartenenti ad un altro.
______________________________________________________________________
7. Un'analisi in componenti principali ha fornito gli autovalori {12, 8, 4.5, 1.5, 1}
relativi ad altrettanti fattori. Quanti fattori sono da impiegare in base al criterio della
media? E quanti se si vuole almeno il 70% di varianza spiegata?
______________________________________________________________________
(a) 2 fattori, dato che la media degli autovalori e' 27/5 = 5.4 e solo i primi due sono piu'
grandi.
(b) La somma degli autovalori e' 27. Il primo autovalore e' il (12/27)100% = 44% del
totale degli autovalori, il secondo (8/27)100% = 29%. I primi due autovalori presi
insieme totalizzano il 73% e spiegano quindi piu' del 70% di varianza.
______________________________________________________________________
8. Con riferimento alla precedente domanda 7, scrivere i comandi di R per (a) definire il
vettore degli autovalori, (b) effettuare i calcoli per fornire le risposte ai quesiti formulati
e per (c) disegnare il grafico degli autovalori.
______________________________________________________________________
autovalori <- c(12, 8, 4.5, 1.5, 1)
media_autovalori <- mean(autovalori)
percentuali <- (autovalori/sum(autovalori))*100
plot(autovalori,type="b")
# "b" sta per 'both', cioe' sono disegnati sia i punti che
le linee che li uniscono
______________________________________________________________________