x - I blog di Unica

Descrivere i dati
Strumenti di indagine
per la valutazione psicologica
Dovendo scegliere un esame opzionale, uno studente ha
intenzione di seguire le lezioni del prof. Nepero.
Il prof. Nepero, tuttavia, ha fama di non essere
particolarmente generoso con le valutazioni: sarà davvero
conveniente scegliere il suo corso come opzionale?
1.2 - Richiami di statistica descrittiva
Davide Massidda
[email protected]
Popolazione: tutti gli studenti del prof. Nepero.
Campione: trenta studenti distribuiti tra le sessioni degli
ultimi due anni.
Università di Cagliari, a.a. 2013/2014
Descrivere i dati
Voti = { 22, 27, 27, 26, 28, 30, 25, 23, 24, 26, 26, 24, 28, 22,
26, 25, 30, 26, 21, 30, 23, 18, 25, 23, 25, 24, 23, 27, 25, 26 }
Come fare a capire se c'è qualche tendenza nascosta dietro
i numeri?
Frequenze
●
●
Numero di osservazioni registrato per ciascuno dei valori
di una variabile (utile per variabili qualitative).
Numero di osservazioni registrato per ciascun intervallo
di valori (classe) in cui una variabile è stata suddivisa
(utile per variabili quantitative).
Dei buoni punti di partenza potrebbero essere:
Di che natura è la variabile voti?
1. Studio della distribuzione di frequenza della variabile.
2. Calcolo di indici
riassumere i dati.
descrittivi
che
permettono
3. Visualizzare gli indici utilizzando dei grafici.
di
Istogramma
Indicatori di tendenza centrale
Visualizza la frequenza di ciascun intervallo e permette di
studiare come le frequenze si distribuiscono attraverso i
valori assunti dalla variabile.
Consentono di sintetizzare un insieme di dati tramite un
unico valore “rappresentativo” che riassume e descrive i
dati e dipende dalla loro scala di misura.
Classe
Frequenza
≤ 20
1
21-22
3
23-24
7
25-26
11
27-28
5
29-30
3
I più importanti:
●
Moda
●
Mediana
●
Media aritmetica
Moda
Mediana
È il valore che si presenta più spesso. Nella variabile “Voti”,
la moda è 5:
Valore che occupa la posizione centrale in una sequenza di
dati ordinati. È il valore al di sopra o al di sotto del quale si
trova il 50% dei casi (o un uguale numero di casi).
●
●
●
●
18
21
22
23
24
25
1
1
2
4
3
5
26
6
27
28
30
3
2
3
Calcolo della mediana:
Per individuare la moda si parte dalle frequenze.
1. Disporre i dati in ordine crescente.
È un indice che può essere utilizzato su dati misurati su
qualsiasi scala.
2. Individuare la posizione occupata all’interno della serie
numerica dal valore che si trova in posizione mediana.
Su variabili quantitative la moda non è un indice molto
informativo.
3. Individuare il valore che si trova in posizione mediana.
È l'unico indice di tendenza centrale che può essere
utilizzato per variabili misurate su scala nominale.
Mediana
La mediana dei voti del campione di 30 studenti del prof.
Nepero:
[...]
23
24
24
24
25
25
25
8
9
10
11
12
13
14
25
15
25
16
26
26
26
26
26
26
27
17
18
19
20
21
22
23
Peculiarità:
●
[...]
N +1 30+1
PosMdn=
=
=15.5
2
2
Mdn=
Mediana
●
●
È un indice che può essere utilizzato per descrivere dati
su scala di misura ordinale, a intervalli, a rapporti.
Insieme alla moda, è l’indice di tendenza centrale che può
essere usato per descrivere dati qualitativi misurati su
scala ordinale.
La mediana corrisponde al 2° quartile e al 50° percentile.
25+25
=25
2
Quantili
Indicatori di posizione (quantili)
La mediana spacca in due la sequenza ordinata di dati ed
equivale a quel valore che si lascia sia alla sinistra che alla
destra il 50% dei dati.
Per esempio, i quartili spaccano in quattro la sequenza
ordinata di dati e ognuno si lascia alla propria sinistra il
25% dei dati.
min(x)
Mdn
50% dei dati
max(x)
50% dei dati
La distribuzione può essere spaccata non solo in due ma
anche in più parti: si parla di quantili.
I principali quantili sono i quartili, i decili e i (per)centili.
min(x)
Q1
Q2
Q3
Q4 = max(x)
25% dei dati 25% dei dati 25% dei dati 25% dei dati
PosQk =
N +1
k
Q
Indicatori di posizione (quantili)
Se la posizione risultante è un numero con la virgola:
si moltiplica la differenza tra i due valori dell’intervallo per
la quantità che eccede l’intero della posizione. Il quantile
sarà la somma tra il risultato di questa operazione e
l’estremo inferiore dell’intervallo.
Media aritmetica
Può essere usata su variabili quantitative misurate su scale
a intervalli o a rapporti.
n
∑ xi
̄x =
Esempio: 90° percentile del vettore voti:
PosP90 =
30 +1
90=27.9
100
x 27=28
x 28=30
P90 =28+0.9(30−28)=29.8
n
∑ ( x i− x̄ )=0
i=1
La somma dei quadrati degli scarti di ciascun valore dalla
è minore della somma degli scarti degli stessi valori
dax un qualsiasi altro numero k (proprietà dei minimi
i
i quadrati).
1 media
=∑
n
n
∑ ( x i− x̄ ) < ∑ ( x i−k )2
i=1
2
i=1
n
=
755
=25.17
30
Rispetto alla mediana, la media è più sensibile ai valori
estremi e anomali (outliers). Questi valori anomali sono
tanto più influenti quanto più piccolo è il valore di n.
Proprietà della media
La somma degli scarti dei singoli valori dalla media è
sempre uguale a zero.
i=1
Tutto converge (più o meno)
●
Classe con frequenza più elevata: (25,26]
●
Moda: 26
●
Mediana: 25
●
Media: 25.17
…ma queste informazioni sono sufficienti per decidere
se affrontare o meno il corso del prof. Nepero?
Quando la media non basta
La media dei voti di 30 studenti dei professori A e B è
uguale: 25.8. Possiamo accontentarci di questo dato per
dire che i due giudicano nello stesso modo?
Quando la media non basta
●
●
●
●
Indicatori di dispersione
Per far fronte al problema della perdita d'informazione,
agli indici di tendenza centrale vengono associati degli altri
indici che permettono di recuperare, almeno parzialmente,
l'informazione perduta nel processo di sintesi.
Gli indicatori di dispersione sono in grado di quantificare la
variabilità di un fenomeno.
●
Mediana → Scarto inter-quartile (IQR)
●
Media → Varianza (s2), deviazione standard (s)
Il problema è che la media (o moda o mediana che sia) è
pur sempre un'approssimazione.
Usare la media per descrivere i dati significa ricondurre
tutte le n osservazioni a un unico indice riassuntivo:
stiamo perdendo della preziosa informazione.
La necessità di scartare informazione per comprendere
un fenomeno deriva da un limite umano: non possiamo
tenere contemporaneamente a mente tutti i valori
osservati.
L'uomo ha bisogno della sintesi: si scarta informazione per
ottenere informazione!
Indicatori di dispersione
Sarà banale ma... meglio sottolinearlo!
La varianza assume valore minimo 0 quando tutti i dati
sono uguali tra loro e aumenta all’aumentare della
dispersione dei dati rispetto alla media.
Scarto inter-quartile
È la differenza tra terzo e primo quartile:
Varianza e deviazione standard
Varianza: sommatoria degli scarti dalla media al quadrato
diviso n-1.
IQR = Q3 – Q1
n
Q3 voti = 27
2
s=
Q1voti = 23
Limite: non tiene in considerazione cosa accade all’interno
della distribuzione (casi centrali) e agli estremi.
2
s=
●
●
●
i=1
n−1
Deviazione standard: radice quadrata della varianza.
IQRvoti = 27 – 23 = 4
n
∑ ( x i− ̄x )2
s= √ s 2
Rispetto a s2, s è misurata sulla stessa scala di misura dei
dati osservati (è quindi più immediata da interpretare).
I gradi di libertà
I gradi di libertà
Conte S. (2010) pag. 85
Conte S. (2010) pag. 85
n
∑ (x i− ̄x )
2
i=1
2
s=
n−1
La somma degli scarti dalla media è zero.
Una volta che abbiamo calcolato n-1 scarti dalla media, il
valore dell'n-esimo scarto dovrà necessariamente
assumere quel valore per cui si dovrà ottenere zero se
tutti gli scarti venissero sommati.
Se i primi n-1 scarti sono fra loro indipendenti, il valore
dell'n-esimo è vincolato al risultato delle precedenti
operazioni.
●
●
●
●
∑ ( x i− ̄x )2
i=1
n−1
Insomma: l'ultimo scarto non è libero di assumere il
valore che vuole, ma dipende da tutti gli altri.
L'informazione relativa al valore dell'n-esimo scarto è già
contenuta negli altri scarti, per cui è superflua.
I gradi di libertà sono il numero di valori indipendenti
necessari al calcolo della statistica.
(Nota bene: questo discorso vale per la varianza ma non
per la media).
Pochi indici per descrivere il campione
I voti dei prof. Nepero:
mdn=25
IQR=4
̄x =25.17
s=2.70
Mediamente, i voti oscillano tra 25.17-2.70 = 22.47 e
25.17+2.70 = 27.87.
Boxplot
Outliers
min(max( x),Q 3 +1.5×IQR)
Q3
25%
Q2
Q1
25%
max (min( x) ,Q 1−1.5×IQR)
Outliers
Boxplot