Nozioni e Richiami di Statistica

Nozioni e Richiami di Statistica
Nozioni e Richiami di Statistica
Dott. Chiara Genovese
Prof. Monia Lupparelli
Università di Bologna Scuola di Economia, Management e Statistica CLAMEP
Statistica per l’analisi dei dati
10 Novembre 2014
Nozioni e Richiami di Statistica
Indice Parte 1
Parte 1
1
Definizioni preliminari
2
Natura dei dati e classificazione delle variabili
3
Metodologia statistica
4
La distribuzione Normale
5
La distribuzione Normale Standard Z
6
L’uso delle tavole
7
Esempi
Nozioni e Richiami di Statistica
Definizioni preliminari
Definizioni preliminari
Elementi di una rilevazione statistica
Variabile X - fenomeno o caratteristica di interesse.
Modalita’ - valori/livelli/categorie diversi che può assumere la variabile oggetto di studio.
Unità statistica - entità elementare osservabile che presenta la caratteristica di interesse.
Popolazione - insieme N-dimensionale formato dalle unità statistiche
che esauriscono le informazioni sulla variabile X.
Parametro - caratteristica specifica della popolazione.
Campione - sottoinsieme n-dimensionale di unità osservate nella popolazione di riferimento n N
p ¤ q
Statistica: caratteristica specifica del campione.
Nozioni e Richiami di Statistica
Natura dei dati e classificazione delle variabili
Natura dei dati e classificazione delle variabili
VARIABILI QUALITATIVE (categoriche)
Alla modalità della variabile osservata non si può attribuire un valore
numerico; le modalità possono essere:
Ñ sconnesse o nominali (sesso, colore dei capelli)
Ñ ordinali (titolo di studio, livello di soddisfazione)
VARIABILI QUANTITATIVE (numeriche)
Alla modalità della variabile osservata si attribuisce un valore numerico,
pertanto le modalità osservate sono sempre ordinali:
Ñ discrete (numero di esami, numero di dipendenti)
Ñ continue (altezza, peso)
Nozioni e Richiami di Statistica
Natura dei dati e classificazione delle variabili
Metodologia statistica
STATISTICA DESCRITTIVA è l’insieme delle metodologie statistiche utilizzate per descrivere il comportamento della popolazione attraverso l’elaborazione e la sintesi dei dati:
rappresentazioni grafiche
indicatori sintetici
modello
TEORIA DELLA PROBABILITA’ è lo strumento attraverso il quale si
descrive il comportamento della popolazione in condizioni di incertezza.
STATISTICA INFERENZIALE è un processo che studia il comportamento
della popolazione in condizioni di incertezza tramite l’analisi del campione:
stima
verifica di ipotesi
previsione
Nozioni e Richiami di Statistica
Variabili casuali e distribuzioni di probabilità
Variabili casuali e distribuzioni di probabilità
Il comportamento della popolazione rispetto una variabile casuale X viene
descritto attraverso una funzione parametrica di probabilità o di densità
(pX x θ , fX x θ ) dove θ è l’insieme dei parametri noti che caratterizza la
popolazione.
p|q
p|q
ALCUNI ESEMPI DI DISTRIBUZIONI
Variabili aleatorie discrete
Ñ X Beppq, Bernoulli, x 0, 1
Ñ X Popλq, Poisson, x ¥ 0
Variabili aleatorie continue
Ñ X N2pµ, σ2 q, Normale, 8 x 8
Ñ X χ pr q, Chi-quadrato, x ¥ 0
Nozioni e Richiami di Statistica
La distribuzione Normale
La distribuzione Normale
La variabile casuale X Normale o Gaussiana ha forma campanulare e
simmetrica, con funzione di densità
p|
fX x µ, σ 2
q ? 1
2πσ 2
exp
px µq2 , 8 ¤ x ¤ 8
2σ 2
caratterizzata da due parametri
E X
µ, media o parametro di posizione
V X
σ 2 , varianza o parametro di dispersione
p q
p q
Figura: La distribuzione Normale al variare dei parametri
Nozioni e Richiami di Statistica
La distribuzione Normale
La distribuzione Normale
Le probabilità associate a intervalli di valori di X sono rappresentate
dall’area sottesa alla curva in tali intervalli e si calcolano attraverso
l’integrale:
p ¤ X ¤ bq »b
P a
p ¤ aq P X
p ¥ aq P X
NB. Si dimostra che
³
a
»a
p|
p|
p|
q F paq
p|
q 1 F pa q
fX x µ, σ 2 dx
8
» 8
a
q F pb q F pa q
fX x µ, σ 2 dx
fX x µ, σ 2 dx
q
fX x µ, σ 2 dx
1, ma questi integrali non si
possono calcolare in forma analitica, ma numerica (uso delle tavole).
Nozioni e Richiami di Statistica
La distribuzione Normale Standard
Standardizzazione e vc. Normale Standard (Z)
Attraverso una trasformazione lineare chiamata standardizzazione, si ottiene la variabile Normale Standard Z
Z
X σ µ Z p0, 1q 8 ¤ z ¤ 8
Tale distribuzione è caratterizzata dalla funzione di densità
p |
q ?1
fZ z 0, 1
2π
r z2 s
2
exp
0 e σ 1 si ottengono come
µ q E p X µ q E p X q E p µ q E pX q µ 0
E pZ q E p σ
σ
σ
σ
σ
σ
σ
ed i parametri µ
X
p q V p X σµ q V p Xσ q
V Z
V
p σµ q V pσX q
0
1
Nozioni e Richiami di Statistica
La distribuzione Normale Standard
Le tavole della Normale
Nozioni e Richiami di Statistica
Indice Parte 2
Parte 2
1
Concetti generali
2
Procedure inferenziali
3
Alcuni esempi di stimatori
4
Lo Stimatore Media Campionaria
5
Il problema e l’interpretazione inferenziale
6
Stima puntuale
7
Intervalli di confidenza
8
Test di ipotesi
Nozioni e Richiami di Statistica
Concetti generali
Concetti generali
Popolazione di riferimento
Si ipotizza che il comportamento della popolazione rispetto ad una
variabile casuale X venga descritto attraverso una funzione parametrica
di probabilità pX x θ o di densità fX x θ di cui non si conosce il
vettore dei parametri θ.
X
fX x θ
p|q
p|q
p|q
Estrazione del campione mediante piano di campionamento
Si genera una n-pla X1 , X2 , . . . , XN di v.c. la cui determinazione
numerica specifica una n-pla di numeri reali osservati x1 , x2 , . . . , xn .
Il metodo più comune è quello CSS, Campionamento Casuale Semplice
p
q
p
q
Ñ Generalmente non si conosco i dati dell’intera popolazione, ma solo quelli
relativi ad un campione rappresentativo px1 , x2 , . . . , xn q e attraverso la conoscenza del campione si cerca di stimare o di verificare la validità di alcune
congetture per θ.
Nozioni e Richiami di Statistica
Concetti generali
Concetti generali
p
q
Statistica Tn
T X1 , X2 , . . . , Xn
V.c. funzione a valori reali del campione X
dipende da altre quantità incognite.
p
pX1 , X2 , . . . , Xn q che non
q p q
p
Si definisce con tn
T x1 , x2 , . . . , xn
T x il valore della statistica
Tn calcolato sul campione osservato x1 , x2 , . . . , xn .
p
q
q
Stimatore Tn
T X1 , X2 , . . . , Xn
E’ una particolare statistica campionaria T X1 ; . . . ; Xn che viene utilizzata per stimare, dedurre informazioni, sul parametro della popolazione θ.
T X
fT t θ
p
q
p q p | q
Ai fini inferenziali è necessario conoscere la distribuzione campionaria
dello stimatore o almeno le sue caratteristiche essenziali. Si definisce
stima tn una realizzazione campionaria della v.c. stimatore Tn .
Nozioni e Richiami di Statistica
Procedure inferenziali
Procedure inferenziali
La parte centrale dell’inferenza è costituita dalle tecniche mediante le quali
l’informazione ottenuta dal campione viene riportata alla conoscenza della
popolazione.
Teoria della stima - Si ricerca una valore numerico per parametro
θ (o vettore di parametri θ) che caratterizza la popolazione sulla base delle informazioni campionarie desumibili dal campione osservato
x1 , x2 , . . . , xn generato dalle v.c. X1 , X2 , . . . , Xn .
p
q
p
q
Intervalli di confidenza - Si determina un intervallo di valori reali in
cui riporre una prefissata ed elevata ”fiducia” 1 α per il parametro
di interesse.
p q
Test delle ipotesi statistiche - Si controlla quale tra due informazioni complementari chiamata ”ipotesi statistiche” possa essere più
verosimile sulla base dell’evidenza empirica.
Nozioni e Richiami di Statistica
Alcuni esempi di stimatori e lo stimatore media campionaria
Alcuni esempi di stimatori
Stimatore Media Campionaria
1 °n
X
i 1 Xi
n
Stimatore Varianza Campionaria
1 °n
˜2
S2
X 2 oppure S
i 1 Xi
n 1
p q
Stimatore Proporzione Campionaria
1 °n
p
ˆ
i 1 Xi
n
Stimatore Mediana campionaria
...
n1 °ni1 pXi X q2
Nozioni e Richiami di Statistica
Lo stimatore media campionaria
La distribuzione dello stimatore media campionaria X
p
q
t
u
Se X
N µ, σ 2 e se X1 , . . . , Xn è un CCS, la media campionaria
1 °n
X
i 1 Xi è una combinazione di variabili casuali i.i.d.
n
Quindi per le proprietà della normale
X
N
µ,
σ2
n
p q
p q
Ñ
Se X è una v.c. qualsiasi con E X
µeV X
σ 2 , la media campionaria è sempre una combinazione di variabili i.i.d., ma potremmo
non conoscere la distribuzione esatta di X.
Tuttavia se il campione
è sufficientemente grande, per il Teorema del Limite Centrale (TLC),
la distribuzione di X si approssima con una distribuzione normale
X
ÑN
µ,
σ2
n
Nozioni e Richiami di Statistica
Problema inferenziale
Esempio
Consideriamo gli iscritti al primo anno del CLAMEP. Siamo interessati
a conoscere l’altezza media della classe. Inoltre vogliamo verificare se in
media l’altezza degli studenti sia pari la media italiana di 170 cm.
PROBLEMA INFERENZIALE:
1
Stimare l’altezza media µ
2
Stimare l’intervallo di confidenza µ
3
Verificare l’hp che la classe in media sia pari l’altezza media italiana.
Nozioni e Richiami di Statistica
Interpretazione del problema inferenziale
Interpretazione del problema inferenziale
Si ha una v.c. continua normale X = altezza degli studenti
Per conoscere le vera altezza media µ basterebbe osservare la popolazione degli studenti iscritti al primo anno del CLAMEP e fare la
media dei dati osservati.
Per vari motivi non si può osservare l’intera popolazione quindi si
considera un campione n-dimensionale x1 , x2 , . . . , xn
p
Dati la v.c. di interesse X
x1 , x2 , . . . , xn si ricerca:
p
q
1
2
3
q
N pµ, σ2 q e i valori campionari osservati
Ñ Stimare l’altezza media µ
STIMA INTERVALLARE Ñ Stimare l’intervallo di confidenza µ
TEST DI IPOTESI Ñ Verificare l’hp µ 170
STIMA PUNTUALE
Nozioni e Richiami di Statistica
Stima Puntuale
Stima Puntuale
p
q
Sia X
N µ, σ 2
64 . Supponiamo quindi che σ 2 sia noto e si ricerca
una valore numerico per il parametro incognito µ.
Una volta estratto il campione X1
x1 , . . . , Xn
xn la stima puntuale
di µ è
n
1 ¸
x
xi
n
i 1
e l’accuratezza della stima di µ
p q ?σn
SE x
Esempio
n
30
p177.5, 158.9, 163, . . . , 165.1, 171.3, 180.8q
°
x n1 ni1 xi 168.3
SE px q ?σn ?8 1.46
30
Nozioni e Richiami di Statistica
Stima Intervallare
Stima Intervallare
In alcuni casi si preferisce stimare un intervallo di valori plausibili per il
parametro: un intervallo di confidenza (o fiduciario).
In generale la stima per intervallo si basa su:
p q θ.
Uno stimatore Tn per il parametro incognito θ con E Tn
p |q
Un livello di confidenza α P p0, 1q ovvero la probabilità che indica
La distribuzione di probabilità fT tn θ dello stimatore Tn .
l’affidabilità della stima.
Un intervallo di confidenza, ovvero un insieme di valori per θ.
Si può dimostrare che fissato un α abbastanza piccolo
T θ
p ¤ SE
pT q ¤ b q 1 α
P a
rp aSE pT q, T
p qs
Da qui si ottiene l’intervallo per θ T
realizzazione t aSE t , t bSE t
r
pq
p qs e la sua
bSE T
Nozioni e Richiami di Statistica
Stima Intervallare
IC per la media
Consideriamo la nostra v.c. X
p
2
q
N pµ, σq altezza con varianza nota e lo
N µ, σn media campionaria per il parametro µ.
stimatore X
Fissato α 0.05 si ottiene l’intervallo casuale:
P
z ¤ Xbσ µ ¤ z
α
2
2
α
2
P
X
1.96 ?σn ¤ µ ¤ X
1.96
?σn 0.95
n
In pratica, supponiamo di estrarre 1000 campioni:
950 generano X
x tale che la stima per intervallo è corretta (IC)
σ
σ µP x z ? ; x z ?
n
n
α
2
50 generano X
α
2
x tale che la stima per intervallo è errata
σ
σ µR x z ? ; x z ?
n
n
α
2
α
2
Nozioni e Richiami di Statistica
Verifica di ipotesi
Verifica di ipotesi
Sia X un certo fenomeno casuale oggetto di interesse di cui si conosce la
famiglia di distribuzione di probabilità pX x θ o fX x θ , ma non si conosce
il valore del parametro θ.
p|q
p|q
Si vuole verificare una certa ipotesi su θ sulla base di un campione di
osservazioni. La verifica di ipotesi si basa su:
1
uno stimatore Tn per θ
2
la distribuzione fT t θ dello stimatore Tn
3
4
p|q
l’ipotesi nulla H0 : θ θ0
l’ipotesi alternativa H1
semplice: H1 : θ
θ1
¡ θ 0 o H1 : θ θ 0
bi-direzionale: H1 : θ θ0
unidirezionale: H1 : θ
Nozioni e Richiami di Statistica
Verifica di ipotesi
Verifica di ipotesi (2)
Inoltre abbiamo bisogno di :
Una regola per prendere una decisione sulla base del campione estratto:
accettare H0 o rifiutare H0
Fissare una probabilità α di commettere un errore nel prendere una
decisione: rifiutare H0 anche se è vera.
SISTEMA DI IPOTESI
L’ipotesi nulla H0 : θ
precedente:
θ0 esprime ciò che ci interessa verificare.
H0 : µ
Nell’esempio
170
L’ipotesi alternativa H1 smentisce l’ipotesi nulla ed ed indica altri possibili valori
per θ diversi da θ0 . Nell’esempio precedente:
H1 : µ
ma potremmo testare anche
H1 : µ
¤ 170
170
H1 : µ
¥ 170
Nozioni e Richiami di Statistica
Verifica di ipotesi
Regola decisionale
Sia Ω lo spazio campionario, cioè l’insieme di tutti i possibili campioni
x1 , . . . , xn che si possono estrarre.
La regola va definita sullo spazio Ω il quale viene diviso in due parti disgiunte
ed esaustive, Ω A R, A R
A: l’insieme dei campioni per cui si accetta H0
Y
X H
R: l’insieme dei campioni per cui si rifiuta H0
Consideriamo il sistema di ipotesi
H0 : θ
θ0 ,
H1 : θ
θ0
e lo stimatore Tn di θ che in ogni campione x1 , . . . , xn assume un certo
valore tn . La regola dovrebbe essere definita in modo tale che:
per ogni campione in A, t deve essere abbastanza vicino a θ0
per ogni campione in R, t deve essere abbastanza diverso da θ0
Nozioni e Richiami di Statistica
Verifica di ipotesi
Regola decisionale(2)
La regola deve essere definita in modo tale che campioni che producono
stime Tn
tn per il parametro θ molto vicine (diverse) a θ0 portano ad
accettare (rifiutare) l’ipotesi nulla H0 .
p| q
Si considera la distribuzione di probabilità fT t θ0 dello stimatore Tn
quando è vera H0 e sulla base di fT t θ0 , la regola definisce
p | q
A: zona di accettazione, cioè i valori di Tn per cui si accetta H0
R: zona di rifiuto, cioè i valori di Tn per cui si rifiuta H0
se H0 è vera, A è un insieme di valori di Tn molto probabili secondo la
funzione fT t θ0
p| q
se H0 è vera, R è un insieme di valori di Tn poco probabili secondo la
funzione fT t θ0
p| q
Nozioni e Richiami di Statistica
Verifica di ipotesi
Verifica di ipotesi per µ con σ noto
Sia X
p
N µ,
N pµ, σq la v.c altezza con varianza nota e lo stimatore X q media campionaria per il parametro µ.
σ2
n
Sistema di ipotesi:
H0 : µ
H1 : µ
µ0
µ0
Statistica-test utilizzata per misurare la differenza tra valore osservato
e valore atteso sotto l’ipotesi nulla
Z
Xσ{?µn0
p q
Sotto H0 la statistica test ha distribuzione N 0, 1
P-value : probabilità di ottenere valori della statistica test più estremi
rispetto a quello realmente osservato.