Campionamento

Rilevazione statistica e inferenza
Censuaria (o esaustiva)
Indagine
statistica
Campionaria
L’inferenza è un insieme di metodologie statistiche che, attraverso
l’analisi del campione, mirano ad ottenere la migliore conoscenza
possibile della popolazione
Calcolo delle probabilità
???
Procedimento deduttivo
Popolazione
Campione
Inferenza
Procedimento induttivo
???
Popolazione
Campione
Procedimento deduttivo
Dal generale al particolare
Esempi
In generale:
In particolare:
I triangoli rettangoli hanno un angolo retto
A è un triangolo rettangolo
A ha un angolo retto
I ragazzi iscritti all’università studiano
Antonio è iscritto all’università
Antonio studia
Procedimento induttivo
Dal particolare al generale
1) Si effettua un esperimento
2) Si generalizzano i risultati
Esempio
Esame universitario
In particolare:
Poche domande
In generale:
Livello di preparazione
N.B.: nel procedimento induttivo vi è sempre la possibilità di errore!!!
Popolazione e Campione
POPOLAZIONE:
Insieme di tutte le informazioni sul fenomeno
oggetto di studio
Viene descritta mediante una variabile casuale
X:
X ~ f x; ϑ
θ = costante incognita
(
)
• Qual è il valore di θ?
• E’ verosimile un’ipotesi sul valore di θ?
CAMPIONE:
Sottoinsieme della popolazione
Come devono essere scelte le unità
appartenenti al campione?
CAMPIONE CASUALE
Ciascuna unità ha eguale probabilità di
essere estratta
Il campione casuale
Campione casuale
Non è un campione a casaccio!!!
E’ un campione scelto da una popolazione in cui ciascuna unità ha
una probabilità non nulla di essere estratta.
Campione casuale semplice
E’ un campione scelto da una popolazione in cui ciascuna unità ha
la stessa probabilità di essere estratta.
I 3 elementi dell’inferenza
Popolazione
Campione
Campione osservato
X ~ f ( x; ϑ )
(X 1 , X 2 , … , X n )
(x 1 , x 2 , …
, xn
)
Spazio campionario: insieme di tutti i possibili campioni
Prima dell’estrazione, il campione è costituito da una n-pla di variabili
casuali
Se il campione è formato da n elementi, ogni suo elemento può essere
considerato come la realizzazione della variabile casuale Xi, indicando con Xi
la i-esima estrazione della v.c. X.
Variabili casuali “osservazioni campionarie”
X i ~ f ( x; ϑ ) i = 1, 2, … ,n
Ciascuna variabile Xi ha la stessa distribuzione della variabile casuale che
descrive la popolazione
In pratica, data la popolazione:
X~f(x, µ, σ2) µX=100
Se:
σX=12
Min(Xi)=50
Max(Xi)=180
C = numero dei possibili campioni estraibili da X
n = 8 = ampiezza di ogni campione
Si avranno 8 v.c. Xi “osservazione campionaria”:
X1
1a oss.
X2
2a oss.
X3
3a oss.
X4
4a oss.
X5
5a oss.
X6
6a oss.
X7
7a oss.
X8
8a oss.
1° campione
x11
x12
x13
x14
x15
x16
x17
x18
2° campione
x21
x22
x23
x24
x25
x26
x27
x28
3° campione
:
x31
x32
x33
x34
x35
x36
x37
x38
C° campione
xC1
xC2
xC3
xC4
xC5
xC6
xC7
xC8
In questo senso:
Prima dell’estrazione il campione è una n-pla di variabili casuali (in questo caso n = 8): X1, …, X8
Ciascun campione x1, …, x8 ne costituisce una determinazione
Le determinazioni di ogni Xi sono in totale C
Ciascuna v.c. osservazione campionaria, Xi, ha la stessa distribuzione e gli
stessi parametri della variabile X nella popolazione.
Se:
X~f(x, θ)
µX=100
σX=12
Min(Xi)=50
Max(Xi)=180
∀i si ha:
Xi~f(x, θ)
µXi=100
σXi=12
Min(Xi)=50
Max(Xi)=180
X~f(x, θ)
X1
1a oss.
1° campione
2° campione
3° campione
:
C° campione
X2
2a oss.
X3
3a oss.
X4
4a oss.
X5
5a oss.
X6
6a oss.
X7
7a oss.
X8
8a oss.
Statistiche e parametri
Poiché ciascuna osservazione campionaria Xi è una variabile casuale, ogni
funzione f(X1, …, Xn) delle osservazioni campionarie sarà essa stessa una
variabile casuale ed è detta statistica
(
) ∑ xi
Esempi: f X1 , … , Xn =
= x1 + x2 + + xn
i
f ( X1, … , Xn ) =
∏x
i
= x1 ⋅ x2 ⋅ … ⋅ xn
i
f ( X1, … , Xn ) =
1
1
xi = ( x1 + x2 + + xn )
∑
n i
n
Quindi, i valori ottenuti attraverso una qualsiasi trasformazione dei valori
osservati vengono chiamate statistiche,
statistiche mentre i rispettivi valori della
popolazione, che sono delle costanti, vengono definiti parametri.
parametri
Esempi:
Media campionaria
X =
1
(x1 + x 2 + + x n )
n
Statistica
Media della popolazione
µ
Parametro
Statistiche e statistiche calcolate
Si definisce statistica
Tn = T(X1, X2, …, Xn)
una qualsiasi funzione a valori reali del campione casuale (X1, X2, …, Xn) che
non dipende da quantità incognite.
Il valore della statistica Tn calcolata sul campione osservato (x1, x2, …, xn)
costituisce la statistica calcolata
tn = T(x1, x2, …, xn).
Tn
statistica
Variabile casuale
tn
statistica calcolata
Realizzazione della variabile casuale Tn
La distribuzione campionaria
Ogni statistica è, dunque, una sintesi delle variabili casuali campionarie
media campionaria
1 n
X = ∑ Xi
n i=1
varianza campionaria
1 n
S = ∑ Xi − Xn
n i=1
varianza
campionaria corretta
2 =
S
n
2
n
(
2
)
1 n
∑ Xi − Xn
n − 1 i=1
(
2
)
Dato un campione casuale (X1, X2, …, Xn), definita la statistica
Tn= T(X1, X2, …, Xn), funzione delle osservazioni campionarie, la distribuzione di
probabilità della statistica T(X1, X2, …, Xn) viene definita distribuzione
campionaria di Tn.
La media campionaria
La variabile casuale media campionaria,
campionaria X , è una combinazione lineare delle
variabili casuali “osservazioni campionarie”
campionarie Xi , i=1,..,n.
1 n
X = ∑ Xi
n i=1
Le n variabili casuali X1, X2, …, Xn sono indipendenti e identicamente distribuite
alla variabile X nella popolazione, con media µ e varianza σ2.
E’ importante definire la distribuzione di X , ma prima ancora determinarne il
valore atteso e la varianza.
( )
E X =
( )
Var X =
Identificano il valore centrale e la
variabilità di una variabile casuale
In generale, data una v.c. X conoscere E(X) e
Var(X) significa conoscere due parametri
cruciali della distribuzione di X, ossia due
caratteristiche fondamentali della v.c.
Somma di n variabili casuali
X1, X 2 ,… , Xn
E Xi  = µ,
∀i
Var ( Xi ) = σ2 ,
n
Sn = ∑ Xi = X1 + X2 + + Xn
∀i
Xi indipendenti
i=1
n
E S n  =
∑ E  X
i
 = nµ
i=1
V a r (S n ) =
n
∑
V a r (X i ) = n σ 2
i=1
Media di n variabili casuali
1
Xn =
n
n
∑
Xi =
i =1
E  X n  = µ
( )
Var Xn
σ2
=
n
1
1
1
X1 + X 2 + + X n
n
n
n
E  X  =
( )
1
1
1
1
E X 1  + E X 2  + ⋅ ⋅ ⋅ + E X n  = n µ = µ
n
n
n
n
1
1
1
Var ( X 1 ) + 2 Var ( X 2 ) + ⋅ ⋅ ⋅ + 2 Var ( X n ) =
2
n
n
n
1
σ2
2
= 2 nσ =
n
n
Var X =
Un esempio
Estrazione con reintroduzione
Popolazione:
7
N=3
5
10
µ = 7,33
σ2 = 4,22
Campione:
n=2
1 n
X = ∑ Xi
n i=1
campione
1°
2°
3°
4°
5°
6°
7°
8°
9°
Media
Varianza
Media di n variabili casuali
E  X  =
( )
1
1
1
1
E X 1  + E X 2  + ⋅ ⋅ ⋅ + E X n  = n µ = µ
n
n
n
n
1
1
1
Var
X
+
Var
X
+
⋅
⋅
⋅
+
Var ( X n ) =
(
)
(
)
1
2
2
2
2
n
n
n
2
1
σ
= 2 n σ2 =
n
n
Var X =
X1
5
5
5
7
7
7
10
10
10
X2
5
7
10
5
7
10
5
7
10
5,0
6,0
7,5
6,0
7,0
8,5
7,5
8,5
10,0
7,33
4,22
7,33
4,22
7,33
2,11
X
c ampione
Un esempio
1°
Estrazione senza reintroduzione
2°
Popolazione:
7
5
3°
10
4°
N=3
Campione:
µ = 7,33
5°
σ2 = 4,22
6°
Media
Varianza
n=2
1 n
X = ∑ Xi
n i=1
Media di n variabili casuali
( )
σ N − n
Var ( X ) =
⋅

n N −1
E X =µ
2
Ma quando N è grande:
N−n
→1
N−1
σ2
Var X →
n
( )
X1
5
5
7
7
10
10
7,33
4,22
X2
7
10
5
10
5
7
6,0
7,5
6,0
8,5
7,5
8,5
7,33
4,22
7,33
1,06
X
Qualche osservazione…
Campionamento con reintroduzione
(CCR)
( )
E X =µ
;
2
σ
Var X =
n
( )
Campionamento senza reintroduzione
(CSR)
( )
E X =µ
;
σ2
Var X =
n
( )
N − n
⋅

N −1
n=1: i risultati ottenuti con lo schema di CCR coincidono con quelli ottenuti nel
CSR;
n=N: la varianza della media campionaria nello schema di CSR è nulla. In
questo caso, infatti, il campione coincide con la popolazione e non si ha più
alcuna incertezza legata al campionamento;
n<N: il fattore di correzione utilizzato nello schema di CSR è <1. Questo vuol
dire che la varianza della media campionaria nel CSR è minore di quella che si
ottiene nel CCR;
n molto piccola rispetto alla numerosità della popolazione N: il fattore di
correzione per lo schema di CSR è prossimo a 1. La differenza tra i due schemi
può quindi essere considerata trascurabile.
La distribuzione della media campionaria
!!! Se è noto che:
X ~ N(µ, σ2) !!!
Allora si sa anche:
Xi ~ N(µ, σ2)
Campionamento con reintroduzione
( )
E X =µ
σ2
Var X =
n
( )
X−µ
~ N ( 0, 1)
σ
n
1 n
Xi = X ~ N (?, ? )
∑
n i=1
∀i
Campionamento senza reintroduzione
( )
E X =µ
σ2
Var X =
n
X−µ
σ
N−n
⋅
N −1
n
Ma se non si conosce la distribuzione di X???
( )
N − n
⋅

N −1
~ N ( 0,1)
Teorema limite centrale
Lindeberg-Levy
Data una successione Xn di variabili casuali X1, X2, …, Xn, indipendenti e identicamente
distribuite con media µ e varianza σ2 costanti, definita la variabile casuale Xn =
e la sua standardizzazione Zn =
( )
Var ( X )
Xn − E Xn
X1 + X2 + … + Xn
n
, al crescere di n si ha che Zn → N(0, 1) (Zn tende
n
ad una Normale standardizzata)
Lindeberg-Cramer
Il teorema limite centrale resta valido anche quando la successione Xn è formata da variabili
casuali che non sono identicamente distribuite, purché ciascuna v.c. Xi sia indipendente dalle
altre e abbia momenti primi e secondi finiti (µ e σ2 non costanti).
Inoltre:
Sotto condizioni molto generali, la somma di n v.c. indipendenti è asintoticamente
Normale, e questo è vero qualunque sia il tipo di distribuzione di ciascuna delle Xi.
Zn =
In altre parole…
Sn − E ( Sn )
Var (Sn )
→ N ( 0, 1)
Tutte le volte che un fenomeno reale può essere interpretato come la somma, oppure la
media, di un gran numero di cause indipendenti, indipendentemente dai modelli probabilistici
che generano le singole variabili casuali è ragionevole attendersi che la distribuzione di
probabilità di quel fenomeno possa essere approssimabile mediante la v.c. Normale.
Esempio
Un produttore di cosmetici ha 1500 venditori porta a porta che, mediamente,
nell’ultimo mese hanno realizzato vendite per un valore pari a µ = 3100 $ e con s.q.m.
σ = 450 $. Si estrae un campione di 64 venditori, senza reimmissione.
Qual è la probabilità che questo gruppo abbia realizzato, in media nell’ultimo mese, vendite
per un valore inferiore a 3000 $?
Soluzione
X = vendite individuali, distribuzione non nota
µ = 3100 $
N = 1500
σ = 450 $
n = 64
Teorema limite centrale
Zn =
( ) → N (0, 1)
Var ( X )
Xn − E Xn
n
(
)
P X64 < 3000 = ?
(
P X64




X64 − µ
3000 − 3100


< 3000 = P
<
 σ2 N − n
4502 1500 − 64 


×
×
64
1500 − 1 
 n N −1




3000 − 3100 
= P Z <
= P ( Z < −1, 81) = 0, 0351

202500 1436 
×


64
1499 

)
Esempio
Le funi di sostegno di un ponte sono formate da cavi di acciaio. La resistenza alla trazione di
ogni cavo è una variabile casuale con media µ = 0,1 tonnellate e s.q.m. σ = 0,06 tonnellate.
Assumendo che una fune abbia una resistenza alla trazione uguale alla somma delle
resistenze dei cavi che la compongono, si calcoli:
a)La probabilità che una fune costituita da 100 cavi sopporti una trazione di 9 tonnellate;
b)Il numero di cavi necessario affinché una fune sopporti un carico di 10 tonnellate con
probabilità 0,99.
Soluzione
Xi = resistenza del cavo i
∀Xi: µ = 0,1
σ = 0,06
Xi iid; distribuzione non nota
Xn = resistenza della fune composta da n cavi
100
a)
X100 =
∑X
µ X100 = nµ = 100 × 0,1 = 10
1 =1
σ2X100 = nσ2 = 100 × 0, 0036 = 0,36
i
P ( X100 > 9 ) = ?
9 − 10 

P ( X100 > 9 ) = P  Z100 >
 = P (Z100 > −1, 67 ) = 0, 9525
0, 6 

Teorema limite centrale
Zn =
Sn − E ( Sn )
Var (Sn )
→ N ( 0, 1)
b)
P ( Xn > 10 ) = 0, 99
Cerchiamo quel valore di n tale che:

10 − nµ 
P  Z ≥
 = 0,99
2 
nσ 

10 − nµ
nσ2
=
10 − nµ
σ n
=
10 − n × 0,1
0, 06 × n
=
10 n − 0,1
0, 06
n

10 n − 0,1 
P  Z ≥
 = 0, 99
0,06
n


2,33
⇒
10 n − 0,1
⋅ n + 2,33 = 0
0, 06
 10

⇒ 
− 0,1  ⋅ n + 2,33 ⋅ 0, 06 = 0
 n

10 − 0,1 ⋅ n
⇒ 10 − 0,1 ⋅ n + 0,1398 ⋅ n = 0
y= n
⇒
−b ± b2 − 4ac
y=
2a
n
y=
+ 0,1398 = 0
−0,1398 ±
− 0,1 y2 + 0,1398 y + 10 = 0
- 9,325
2
(0,1398 ) − 4 ( −0,1) ⋅ 10
2 ( −0,1)
 10 − 0,1 ⋅ n 
⇒ 
 ⋅ n + 0,1398 = 0
n


=
2
+ 10,723 ⇒ n = (10,723) = 115
Distribuzioni campionarie di uso frequente
Distribuzione χ2 (chi quadro)
(Somma di n v.c. Normali standardizzate al quadrato)
Date n v.c. X1, X2, …, Xn indipendenti e ognuna distribuita secondo una
2
Normale di parametri µi e σ i, allora la variabile casuale definita come:
2
 X − µi 
χ2(n) = ∑  i

σ
i =1 
i

n
segue una distribuzione χ2 con g = n gradi di libertà.
0.5
f(x;g) =
0.4
0.3
 x
exp  −  x
 g
 2
2 Γ 
2
1
g
2
g
−1
2
La variabile
χ2 è continua, non può essere
negativa e varia tra zero e infinito. La sua forma e
il suo centro dipendono dal numero di gradi di
libertà.
g=2
Y~
χ(2n)
E (Y) = g ; Var (Y) = 2g ;
0.2
g=4
Relazione tra χ2 e Normale:
0.1
se una v.c. Z segue una distribuzione Normale
g=8
standardizzata, la trasformata Y=Z2 si distribuirà
0.0
5
10
15
20
secondo una v.c.
χ2 con 1 grado di libertà.
Distribuzione t di Student
(Rapporto tra una v.c. Normale standardizzata e la radice
quadrata di una v.c. c2 divisa per i suoi gradi di libertà)
Data una v.c. Z, distribuita secondo la legge Normale standardizzata, e la v.c.
Y, distribuita secondo un χ2 con n gradi di libertà, con Z e Y tra loro
indipendenti, la variabile casuale t definita dal rapporto t =
distribuzione denominata t di Student con n gradi di libertà:
g + 1
g +1
−
Γ 

2
 2
 1 + x  2
f(x; g) =


0.5
g 
g  
πgΓ  
2 
g=∞
∞
0.4
Z
Yn
Z
Y n
segue una
~ t(n)
La distribuzione t di Student ha una forma
simmetrica che dipende dal valore di n,
parametro che indica i gradi di libertà e che
deriva dalla variabile χ2, al denominatore della
formula.
0.3
Y~t
E ( Y ) = 0 ; Var ( Y ) =
0.2
g=10
n
;
n−2
Relazione con la Normale:
0.1
Quando n→∞, la v.c. t converge alla Normale.
g=3
0.0
-6
-4
-2
0
2
g=1
4
Quindi, quando n è elevato, la f(t) può essere
approssimata dalla N(0,1).
Distribuzione F di Fisher
(Rapporto di due v.c. χ2 indipendenti, ciascuna divisa per
il proprio numero di gradi di libertà.)
Date due v.c. X e Y tra loro indipendenti, ognuna delle quali distribuita secondo
un χ2 rispettivamente con g1 e g2 gradi di libertà, il rapporto
distribuzione F con g1 e g2 gradi di libertà.
(g1 / g2 )g1 / 2
xg1 / 2 −1
f(x;g1 , g2 ) =
(g1 + g2 ) / 2
B(g1 / 2, g2 / 2) 
g1 
x
1 +
g
2


X g1
segue la
Y g2
X g1
~ Fg1 ,g2
Y g2
La distribuzione F di Fisher è
1.0
continua e, essendo ottenuta come
0.8
rapporto tra due v.c. χ2, è definita
g1=20, g2=10
nell’intervallo (0, +∞).
Y~ F
0.6
n
n−2
2 ⋅ n2 ⋅ ( m + n − 2 )
Var (Y ) =
2
m ⋅ ( n − 2) ⋅ ( n − 4)
E (Y ) =
g1=5, g2=5
0.4
0.2
g1=5, g2=1
0.0
1
2
3
4
5