[12.05.14] Elementi di Statistica

Elementi di statistica
Argomenti:
¾ costruzione di modelli matematici di variabili casuali mediante i
parametri stocastici;
¾ definizione della migliore stima di una misura;
¾ valutazione dell’incertezza della miglior stima di una misura;
¾ qualità delle stime e correzione per campioni con numero scarso
di dati;
¾ rigetto dei dati.
1
Introduzione
Abbiamo visto come, con la teoria della probabilità, sia possibile produrre
modelli probabilistici (distribuzioni di probabilità) adattabili ai fenomeni
aleatori reali.
Accedere a tutta la p
popolazione
p
è nella maggioranza
gg
dei casi impossibile
p
perché il numero di individui è troppo alto (es. interviste pre elettorali) e
spesso, sebbene possibile, non conveniente economicamente (durata di una
lampadina) o in termini di tempo.
Acquisire sperimentalmente la distribuzione di probabilità è quindi, all’atto
pratico, irragionevole
Risulta conveniente adottare un modello che, sotto alcune ipotesi, potrà
essere caratterizzato sulla base di un numero limitato, e tendenzialmente
piccolo di informazioni
piccolo,
La statistica parte da un campione aleatorio per descrivere le sue proprietà
statistiche oppure risalire o inferire al modello probabilistico sotteso e alla
stima dei suoi parametri (media, varianza, deviazione standard, moda,
mediana).
2
•1
Introduzione
La media, m, e la deviazione standard, s, associate ad una funzione di
densità di probabilità, sono parametri completamente descrittivi delle
caratteristiche statistiche di una popolazione, a patto di elaborare le
informazioni relative ad ogni singolo individuo di essa.
I parametri del modello sono definiti, grazie alle tecniche statistiche, sulla
scorta di un numero ridotto di informazioni desunte da indagini sperimentali
spesso svolte su un numero ridotto di casi.
Una caratterizzazione di questo tipo sarà inevitabilmente imprecisa.
Nel caso di una grandezza discreta e finita, la popolazione (insieme di
tutti gli individui) viene campionata: per limitare il numero di osservazioni
si estrarrà un campione, sottoinsieme di n individui, di una popolazione di
dimensione N.
N
Nel caso di una grandezza continua parlare di popolazione non ha senso
in quanto sarebbe infinita. In questi casi avremo solo il campione dei dati a
descrivere la grandezza stessa.
In questo contesto, i termini «campione» e «campionare» hanno un
significato diverso da quello dell’acquisizione dati
3
Media e varianza campionaria
Nel caso di una misura la popolazione è infinita e il limite al numero di
misure acquisibili è solo pratico e/o economico.
In questi casi si ha a disposizione come estimatori della media e della
varianza della grandezza in esame solo l’approssimazione costituita dalla
media e dalla deviazione standard del campione fisicamente osservato.
osservato
μ≈x=
1
N
N
∑x
i =1
i
σ ≈S=
1 N
( xi − x ) 2
∑
N − 1 i =1
Cosa succede se non possiamo operare su tutta la popolazione e ci
dobbiamo accontentare di un campione?
I parametri statistici che abbiamo individuato analizzando il campione
quanto sono rappresentativi di quelli dell’intera popolazione?
Dato un campione come si stima il valore della misura e la sua variabilità?
4
•2
Media e varianza campionaria
Analizziamo come variano i parametri statistici fondamentali all’aumentare
della dimensione del campione per due diversi processi casuali.
Al crescere del numero degli eventi la media e la deviazione del campione
tendono a stabilizzarsi identificando i parametri dell’intera popolazione.
Nel grafico si mostra il diagramma di stabilizzazione di media e dev.
dev std.
std
per due tipologie di distribuzioni di probabilità: a sinistra distribuzione
uniforme 0-1 (μ=0.5 , σ=0.5/sqrt(3)); a destra distribuzione gaussiana
(μ=0,σ=1).
(fig. da pr01.m)
5
Media e varianza campionaria
Si noti come a partire da campioni di 20/30 individui i valori dei parametri
statistici siano nell’intorno di quelli di convergenza.
E’ spontaneo ora chiedersi quale sia l’effetto della scelta di un particolare
campione e quindi cercare di capire come variano media e deviazione
standard
t d d se, fifissata
t lla di
dimensione
i
d
dell campione,
i
sii considerano
id
campioni
i i
diversi.
Campioni diversi di una popolazione, anche se di pari dimensione,
forniranno ciascuno una propria media ed una propria deviazione
standard, in generale differenti per ogni campione (la variabile è
casuale).
Analizziamo i risultati ottenuti da una serie di campioni di una variabile
casuale a distribuzione gaussiana (μ=0,σ=1), campioni tutti di eguale
numero di individui.
6
•3
Media e varianza campionaria
Esaminiamo alcuni istogrammi che
riportano le distribuzioni
corrispondenti a 20 campioni di
numero crescente di eventi
eventi.
Si nota che, anche quando gli
istogrammi sono significativamente
diversi, i valori medi e le deviazioni
standard sono poco variabili.
Si vede inoltre che all’aumentare
del numero di eventi di ciascun
campione
i
lla di
dispersione
i
di media
di e
dev. std. diviene sempre più
contenuta.
Media e deviazione standard esibiscono anch’esse una distribuzione:
sono delle variabili casuali caratterizzabili a loro volta tramite media e
deviazione standard.
7
Media e varianza campionaria
Media e deviazione standard di un campione caratterizzano i dati acquisiti
in termini di valore atteso e dispersione, risentendo di tutti gli effetti
mostrati.
Applicati ad un processo di misura i parametri statistici campionari
possono essere impiegati per prevedere
prevedere, conoscendo la distribuzione
distribuzione, la
probabilità di rilevare ulteriori misure in un certo intervallo attraverso
l’utilizzo della densità di probabilità.
L’obiettivo di un’operazione di misura non è però questo.
Il problema di misurare è stimare il misurando, depurando gli effetti del
processo di misura, ovvero fornire il valore più probabile e un indicatore di
incertezza di tale stima.
Problema: possiamo utilizzare la media campionaria e la deviazione
standard di un campione per fornire la migliore stima possibile della
misura e della sua incertezza?
8
•4
Misura come parametro statistico
Simuliamo un processo di misura.
Esecuzione di un esperimento basato su N ripetizioni della valutazione
della grandezza di interesse, invariante nel corso dell’esperimento.
Poiché la misura è affetta da errore e può essere quindi
vista come una variabile casuale l’esperimento evidenzierà
una distribuzione e fornirà un valore di media e dev. std.
x=
S=
1
N
N
∑x
i =1
i
1 N
∑ ( xi − x )2
N − 1 i =1
Siccome siamo scettici...
ripetiamo l’esperimento!
9
Misura come parametro statistico
Esecuzione di M ripetizioni dell’esperimento precedente, ciascuna basata
su N valutazioni della grandezza di interesse, sempre invariante.
O i ripetizione
Ogni
i ti i
evidenzierà
id
i à la
l stessa
t
distribuzione e fornirà un valore medio ed
una deviazione standard che saranno
diversi in generale tra esperimento e
esperimento.
xk =
Sk =
1
N
N
∑x
i =1
ki
1 N
∑ ( xki − xk )2
N − 1 i =1
10
•5
Misura come parametro statistico
Valore medio e dev. std., come già mostrato, sono
due variabili casuali: ognuna può essere descritta
mediante il proprio valore medio e la propria
deviazione standard.
Trattazione
valori medi
Sx =
xk =
Sk =
1
N
N
i =1
ki
1 N
( xki − xk ) 2
∑
N − 1 i =1
∑x
1
M
∑ (x − x )
S Sk =
∑x
?
k
k =1
M
2
k
k =1
1
M
1
M
S Sk =
M
1
M
x=
M
∑S
k =1
k
M
∑ (S
k =1
Trattazione
deviazione std.
Sk
− Sk )2
11
Misura come parametro statistico
Per ogni esperimento, k, avremo :
valor medio e deviazione standard.
xk =
Sk =
1
N
N
∑x
ki
i =1
1 N
∑ ( xki − xk )2
N − 1 i =1
Quindi possiamo definire due nuove popolazioni, indipendenti, di grandezza
M, pari al numero di esperimenti, alle quali afferiscono i valori assunti da
media e deviazioni standard.
A noi interessano in particolare:
¾ la media delle medie:
¾ la deviazione standard delle medie:
x=
Sx =
M
1
M
∑x
1
M
∑ (x − x )
k =1
k
M
k =1
2
k
12
•6
Media e deviazione standard della media
Data una popolazione a distribuzione
gaussiana (μ=0,σ=1), si sono svolti
12 esperimenti basati su 500
campioni contenenti un numero di
eventi via via crescente.
crescente
Distribuzioni delle medie: si vede
una distribuzione centrata sul valore
nullo, media di tutte le misure
disponibili, con dispersione
decrescente.
Distribuzioni delle dev. std.: attestate
sul valore unitario, con dispersione
decrescente.
Dev. std. delle medie: minore di
quella dei dati e decrescente
all’aumentare del campione.
13
Dimostrazione euristica
All’aumentare del numero di misure:
• La deviazione standard del campione rimane costante (linee verdi)
• La deviazione standard delle medie diminuisce (tratti rossi).
Vogliamo individuare, se esiste, una legge empirica che lega le due
deviazioni standard.
L’andamento suggerisce una diminuzione della deviazione all’aumentare
della dimensione del campione
Lecito supporre che il numero n di eventi compaia a denominatore del
rapporto σdati/σmedia.
14
•7
Dimostrazione euristica
Un coefficiente proporzionale all’inverso del numero di misure porta ad
una eccessiva diminuzione (linea verde).
Un coefficiente proporzionale all’inverso della radice quadrata porta ad
una corretta interpretazione
p
dell’andamento della deviazione della
media in funzione del numero di dati presenti nel campione.
Per n sufficientemente grande la media ha
distribuzione gaussiana con deviazione standard
data da:
σx =
σ
n
≈
S
n
15
Dimostrazione euristica
Non è necessario che la popolazione sia a distribuzione gaussiana per
ottenere i risultati presentati relativi alla media di una popolazione: per
una distribuzione uniforme gli andamenti sono analoghi.
16
•8
Dimostrazione rigorosa
Esperimento singolo
con N valutazioni:
N
1
N
x=
∑x
i =1
S=
i
1 N
( xi − x ) 2
∑
N − 1 i =1
Ripetizione dell’esperimento M volte: k=1:M
(Matrice dei valori xki: la riga k-esima contiene le i misure dell’esperimento k)
1
N
xk =
N
∑ xki
Sk =
i =1
1
M
1
=
M
xMN =
Valutazione globale N x M misure:
2
S MN
1 N
∑ ( xki − xk )2
N − 1 i =1
1 M N
∑∑ xki
N k =1 i =1
1 M N
( xki − xMN ) 2
∑∑
N k =1 i =1
17
Dimostrazione rigorosa
I valori medi xk costituiscono un insieme di variabili casuali indipendente
che possiamo ipotizzare gaussiano, quindi caratterizzato da un valore
medio e da una deviazione standard
mx , S x
Vogliamo identificare questi due parametri.
L’operatore di media dei valori medi è lineare ovvero la media dei valori
medi coincide con la media di tutte le valutazioni fatte in tutti gli
esperimenti.
xMN =
1 1 M N
1
xki =
∑∑
M N k =1 i =1
M
M
∑x
k =1
k
= mx
xMN = mx
Se N è sufficientemente grande le deviazioni casuali della media sono già
compensate in un singolo campione di dati, quindi:
mx ≈ xk
In particolare:
mx ≈ x1
∀k
e non c’è necessità di ripetere l’esperimento!
18
•9
Dimostrazione rigorosa
Cerchiamo un risultato analogo per la deviazione standard dei valori
medi, S x ; cioè vogliamo metterla in relazione alla dev. std. totale e,
possibilmente, con la dev. std. di una sola serie di dati.
p
, analogamente
g
al
Abbiamo visto che anche la dev.std del campione,
valore medio, si stabilizza con l’aumento del numero di dati.
2
S MN
=
Dev. std. di tutti i dati:
M
1 1
M N
ki
k =1 i =1
1
M
S x2 =
Dev. std dei valori medi:
N
∑∑ ( x
− mx ) 2 S k2
M
∑ (x
k
k =1
− mx ) 2
Il termine quadratico della seconda relazione può essere sviluppato in
termini di media delle deviazioni delle singole misure dalla media
globale:
xk − mx =
1
N
N
∑ xki −
i =1
N
1
mx =
N
N
N
∑ xki −
i =1
1
N
N
∑ mx =
i =1
1
N
N
∑( x
ki
i =1
− mx )
19
Dimostrazione rigorosa
xk − mx =
1
N
N
∑ ( xki − mx )
1
M
S x2 =
i =1
M
∑ (x
k
k =1
− mx ) 2
Utilizzando questa relazione della dev. std. dei valori medi otteniamo:
M
⎛1
∑
⎜
k =1 ⎝ N
M
1
S =
M
1
( xk − mx ) =
∑
M
k =1
1 1
=
M N2
1 1
⎛ N
⎞
∑
⎜ ∑ d ki ⎟ = M N 2
k =1 ⎝ i =1
⎠
2
x
2
2
M
2
⎞
( xki − mx ) ⎟ =
∑
i =1
⎠
N
⎛ N 2 N N
⎞
⎜ ∑ d ki + ∑ ∑ 2d kj d ki ⎟
∑
k =1 ⎝ i =1
i =1 j =i i ≠ j
⎠
M
Il secondo termine, p
per N sufficientemente alto, tende a zero trattandosi
di scostamenti casuali dotati di segno e a distribuzione simmetrica: la
deviazione standard dei valori medi diventa:
S x2 ≈
1 1
M N2
M
N
∑∑ d
k =1 i =1
2
ki
=
1 1
M N2
M
N
∑∑ ( x
k =1 i =1
ki
− mx )
2
20
•10
Dimostrazione rigorosa
Caratterizzazione del processo di misura: deviazione standard dei valori
medi.
S x2 ≈
Ma poiché:
M
1 1
M N2
2
S MN
=
∑∑ ( x
Assumendo
S MN ≈
1
M
M
1 1
M N
∑S
k =1
k
− mx )
ki
− mx ) 2
N
∑∑ ( x
k =1 i =1
M
1 1
M N2
M
ki
k =1 i =1
Otteniamo:
S x2 ≈
N
N
2
1 2
S MN
N
∑∑ ( x
− xk ) 2 =
≈ S k ∀k
abbiamo infine:
k =1 i =1
ki
Sx ≈
1
S
N
21
Dimostrazione rigorosa
Per essere considerato grande N dovrebbe essere superiore a 30.
P N che
Per
h ttende
d ad
d iinfinito
fi it la
l deviazione
d i i
standard
t d dd
della
ll media
di ttende
d a
zero.
Riassumendo:
¾ se la popolazione è a distribuzione gaussiana, la distribuzione delle
medie dei campioni è gaussiana;
¾ se la popolazione non è a distribuzione gaussiana ma N è grande (N >
30) la distribuzione delle medie è gaussiana;
30),
¾ se la popolazione non è gaussiana e N < 30, la media segue la
distribuzione gaussiana solo approssimativamente e si discosta tanto più
da questo andamento quanto minore è il numero di dati acquisiti.
22
•11
La stima del misurando, intesa come media dei valori medi, è quindi una
grandezza per la quale si può adottare l’ipotesi di distribuzione casuale,
caratterizzata da:
valore medio
deviazione standard
x≅x
1
Sx ≈
S
N
La deviazione dal valore nominale della misura essere normalizzata con
la deviazione standard e rientrando nello schema della Distribuzione
Normale:
z=
x −μ
σx
Si potrà dunque utilizzare la tabella di integrazione della funzione di
densità di probabilità normale, con le medesime procedure operative
sviluppate per una distribuzione di valori, per stimare l’intervallo di
confidenza sotteso dal parametro z.
24
Esempio 1
Si deve calcolare l’intervallo di confidenza della media di un certo numero
di resistenze. Viene effettuata la misura di un campione composto da 36
resistenze; la resistenza media misurata, x , è pari a 25Ω e la deviazione
standard (stimata dal campione), S, è pari a 0.5Ω.
Determinare l’intervallo di confidenza della media per una probabilità pari
al 90%.
25
•12
Esempio 1
Occorre trovare il valore di zα/2: cioè l’intervallo espresso in deviazioni
standard che racchiude un’area del 90% (esclude un’area del 10%).
Essendo la funzione densità simmetrica è sufficiente ricercare nella
tabella 0
0.45=0.9/2.
45=0 9/2
Il valore di z corrispondente è circa z=1.645, circa a metà tra i valori
della tabelle che limitano 0.45.
---------------------------------------------------------------0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
---------------------------------------------------------------…
1.4 41924 42073 42220 42364 42507 42647 42786 42922 43056 43189
1.5 43319 43448 43574 43699 43822 43943 44062 44179 44295 44408
1.6 44520 44630 44738 44845 44950 45053 45154 45254 45352 45449
1.7 45543 45637 45728 45818 45907 45994 46080 46164 46246 46327
1.8 46407 46485 46562 46638 46712 46784 46856 46926 46995 47062
…
---------------------------------------------------------------26
Esempio 1
Assumendo una distribuzione di tipo gaussiano e utilizzando S come
migliore stima della deviazione standard, tenendo conto dell’intervallo di
confidenza e riferendo la deviazione alla media, otteniamo con n=36 :
S
S
≤ μ ≤ x + zα / 2
n
n
0.5
0.5
≤ μ ≤ 25 + 1.645
25 − 1.645
6
6
24.86 ≤ μ ≤ 25.14
x − zα / 2
In definitiva la resistenza media avrà un valore di:
25 ± 0.14Ω
Con un livello di confidenza pari al 90%, cioè il valore medio della
popolazione di resistenza avrà una probabilità del 90% di essere
compreso nell’intervallo tra 24.86 e 25.14 Ω.
27
•13
Esempio 1
La misura della resistenza è data dal valore medio delle Ri ma sempre da
intendersi come approssimazione del valore medio della popolazione.
Variabile gaussiana: (media=
mx , deviazione standard=S x )
mx ≈ x = R
Misure individuali
Mi
i di id li
resistenze
S mx ≈ S x =
R i ⇒ R,SR
SR
N
z% ⋅ S x
z
P = 0.45
1−α
2
Livello di
probabilità 90%
Densità
cumulativ
gaussian
1
0.8
Probabilità
Tipologia problema
1-α = 0.9 = 90%
α/2 = 5%
1−α
P=
= 0.45
2
Intervallo di confidenza
della media?
0.6
0.4
- z0
0.2
z0
0 -5
-4
-3
-2
-1
0
1
2
3
α / 2 (code)
4
5
28
Esempio 1
La misura della resistenza è data dal valore medio delle Ri ma sempre da
intendersi come approssimazione del valore medio della popolazione.
Variabile gaussiana: (media=
Misure individuali
resistenze
i t
R i ⇒ R,SR
Livello di probabilità 90%
Tipologia di problema
1-α = 0.9 = 90%
α/2 = 5%
1−α
P=
= 0.45
2
mx , deviazione standard=S x )
mx x = R
mx S x =
Intervallo di confidenza
della media?
SR
N
z% ⋅ S x
z
P = 0.45
1−α
2
- z0
z0
Densità
D
ità
cumulativa
gaussiana
α / 2 (code)
29
•14
Distribuzione t Student
30
Distribuzione t Student
La distribuzione normale rappresenta uno schema corretto per la
rappresentazione statistica della misura quando il numero di dati in un
campione è elevato.
Solo in questo caso la stima della deviazione a partire da quella
campionaria costituisce una base valida per la definizione dell’intervallo
di confidenza della misura.
In caso si abbia un numero limitato di misure la deviazione standard
della popolazione, σ, non sarà bene approssimata dalla deviazione del
campione,
i
S e, a causa della
S,
d ll iincertezza
t
nella
ll d
deviazione
i i
standard
t d dd
dell
campione, ci possiamo aspettare sia necessario garantirsi un intervallo
di confidenza più ampio, a parità di livello di confidenza.
31
•15
Distribuzione t Student
Nel caso di poche misure, viene utilizzato al posto della gaussiana
un’altra distribuzione statistica, detta t-Student.
La funzione di densità t-Student è
g al
simmetrica e si abbassa e si allarga
diminuire del numero di misure nel
campione.
Graficamente, le distribuzioni t sono simili
alla distribuzione normale, e diventano
equivalenti ad essa al crescere del
numero delle misure.
La distribuzione t-Student, al contrario della distribuzione normale,
dipende non solo da media e deviazione standard ma anche dal numero
di gradi di libertà (ν=N-1).
In analogia al parametro z della gaussiana
normalizzata si definisce un parametro che prende
(x − μ) = (x − μ)
il nome di t. Esso è pari alla deviazione della media t =
σx
S/ n
del campione da quella vera, divisa per la dev. std.
32
della media.
Distribuzione t Student
L’espressione analitica di queste distribuzione è definita a partire da
un’altra distribuzione (Gamma function) e da un parametro v, che
definisce il numero di gradi di libertà (numero di misure meno il numero
minimo di misure necessarie a definire un indicatore statistico, N-1)
⎛ v +1 ⎞
Γ⎜
⎟
⎝ 2 ⎠
f (t , v) =
2 ( v +1) / 2
⎛ v ⎞⎛ t ⎞
vπ Γ ⎜ ⎟⎜1 + ⎟
v⎠
⎝ 2 ⎠⎝
Esempio: per definire il diametro di un tubo il numero minimo di misure
necessarie per definire una stima statistica è 1
1.
Se eseguiamo 10 misure, il numero di gradi di libertà è 9, cioè v=10-1.
33
•16
Distribuzione t Student
La distribuzione t, può essere utilizzata, analogamente a quella normale,
per stimare l’intervallo di confidenza della media a partire da un certo
numero di misure, quando queste sono inferiori a 30.
Il modo di procedere è del tutto analogo a quello utilizzato con la
di t ib i
distribuzione
normale:
l una volta
lt scelta
lt la
l curva corrispondente
i
d t aii gradi
di
di libertà in questione (v), possiamo definire la probabilità che t cada
nell’intervallo:
−tα / 2 e + tα / 2
Ovvero:
O
eo
P [ −tα / 2 ≤ t ≤ +tα / 2 ] = 1 − α
34
Distribuzione t Student
Sostituendo l’espressione di t otteniamo:
x −μ
S
S ⎤
⎡
⎤
⎡
P ⎢ −tα / 2 ≤
≤ +tα / 2 ⎥ = P ⎢ x − tα / 2
≤ μ ≤ x + tα / 2
⎥ =1−α
S/ n
n
n⎦
⎣
⎦
⎣
Che si può esprimere come:
μ = x ± tα/ 2
S
n
con probabilità 1-α
Dato che le tabelle complete che
riportano
i t
le
l di
distribuzioni
t ib i i t sono
voluminose, vengono solitamente
specificati solo alcuni valori di t
funzioni di ν ed α.
35
•17
Distribuzione t Student
Dal punto di vista operativo si tratta di introdurre un termine di
amplificazione delle incertezze che permette di compensare una
deficienza di attendibilità degli estimatori dovuta alla scarsa disponibilità
di dati.
Infatti con pochi dati si rischia di avere una non corretta stima delle code,
vuoi perché siamo stati fortunati e i dati sono tutti nella zona centrale,
vuoi perché siamo stati sfortunati e abbiamo troppi dati, statisticamente
parlando, lontano dalla zona centrale.
Con la deviazione standard determinata da questi dati e il numero di
misure a disposizione (ridotto di 1), attraverso l’apposita tabella si ricava
il coefficiente tα/2; che garantisce il livello di confidenza desiderato (1-α).
In base a questo coefficiente si esprime l’incertezza:
μ = x ± tα/ 2
S
n
36
Distribuzione t Student
37
•18
La trattazione fornisce risultati praticamente sovrapponibili a quelli ottenuti
con l’utilizzo della funzione di densità normale ( o ), quando si utilizzano
numerosi eventi
2
coefficiente t-Student
10
50.0
50
0
70.0
90.0
98.0
99.5
99.9
1
10
Livello di
confidenza
0
10
Numero di misure
-1
10
0
1
10
2
10
3
10
10
30
100
1000
Andamento del coefficiente t-Student al variare del numero di gradi di
libertà e del coefficiente di copertura α ( P=1- α ) confrontato con i valori
asintotici di z
38
Esempio 2
Si vuole valutare il tempo medio di guasto di schermi VCR con un
intervallo di confidenza del 95%, partendo da 6 misure del tempo di
guasto, pari a ore:
1250,, 1320,
3 , 1542,, 1464,, 1275 e 1383
3 3
Si chiede di stimare la media e l’intervallo di confidenza della media per
un livello di confidenza del 95%.
Soluzione: Il valor medio e la deviazione del tempo di guasto valgono:
x=
1250 + 1320 + 1542 + 1464 + 1275 + 1383
= 1372h
6
n
S=
∑d
i
2
i
1
n −1
= 114 h
39
•19
Esempio 2
I parametri sono intervallo di confidenza e numero di campioni:
95% ⇒ α = 0.05 ; v = n − 1 = 5
Dalla tabelle si ottiene:
tν ,α/ 2 = t5,95% = 2.571
μ = x ± tα/ 2
S
114
= 1372 ± 2.571
= 1372 ± 120h
n
6
Se non si fosse tenuto conto della correzione t-Student, ovvero si fosse
applicata la distribuzione gaussiana il coefficiente, a parità di intervallo di
confidenza, sarebbe stato 1.96 anziché 2.571.
I due risultati sono alquanto differenti e quindi l’uso della gaussiana in
queste situazioni è sbagliato!
40
Esempio 3
Se nell’esempio precedente si volesse limitare l’intervallo di confidenza
sulla media a ±80 ore, sempre con un livello di confidenza pari al 95%,
quante altre misure sono necessarie?
Soluzione: L’intervallo di confidenza è dato da:
IC = ±tν ,α / 2
S
n
Avendo eseguito 6 misure, dalla tabella di t-Student per v=6-1=5 e il 95%
otteniamo t5,95% = 2.571 ; risolvendo rispetto al numero di misure
avremo (quindi ipotizzando S e t costanti):
114
±80 = ±2.571
n
⎛ 2.571 × 114 ⎞
n=⎜
⎟ = 13.42 14
80
⎝
⎠
2
Occorrerebbe quindi acquisire altre 8 misure e verificare che la nuova
statistica rispetti il requisito IC ≤ 80 con probabilità del 95%.
In realtà poiché con 14 misure la t si riduce, l’intervallo si riduce più del
richiesto: necessario iterare per ottenere il numero di misure corretto.
Si noti comunque che in tutto il procedimento il valore di S rimane
costante per ipotesi.
41
•20
Esempio 3bis
Soluzione: è necessario assumere costanti sia S che t ?
S
Abbiamo ottenuto
t5,α /2
5 +1
= 120
Eseguendo il rapporto otteniamo:
mentre vogliamo
S
tn ,α /2
n + 1 = 80
t
120
S 5,α /2
5 +1
S
tn ,α /2
n +1
= 80
tn ,α /2
n + 1 = 0.667
t5,α /2
5 +1
La dipendenza da S è scomparsa e la divisione per la radice del numero di
dati porta alla definizione di una prima colonna aggiuntiva contenente
tν ,α / 2
ν +1
la normalizzazione per il coefficiente relativo alle misure iniziali ad una
seconda colonna aggiuntiva che contiene le riduzioni degli intervalli di
confidenza
42
Esempio 3bis
ν
tν
…
5
6
7
8
9
10
11
12
13
14
t ν 95%/
rad(ν+1)
95%
t ν 95%/
rad(ν+1)
/
t 5,95%/
rad(6)
…
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.16
2.145
0.4285
0.349571
0.295625
0.256222
0.2262
0.202545
0.183417
0.167615
0.154286
0.143
1
0.815803
0.689907
0.597952
0.527888
0.472685
0.428044
0.391168
0.36006
0.333722
In questo modo la riduzione
richiesta è ottenuta con 9 = 8+1
misurazioni in totale, q
quindi solo
3 in più rispetto a quelle
disponibili, contro le 8 previste
con la prima soluzione
In questo modo la sola ipotesi
necessaria è che la deviazione
standard dei dati, S , rimanga
costante
Ipotesi che andrà comunque
verificata.
44
•21
χ2 distribution
Anche la qualità della stima della varianza può risultare di interesse
pratico.
In questo caso vengono definiti due coefficienti moltiplicativi della
deviazione standard calcolata sul campione, S, che permettono di
stabilire
t bili un valore
l
massimo
i
e minimo
i i
all’interno
ll’i t
d
dell quale
l d
dovrebbe
bb
trovarsi la deviazione standard vera, σ, con un livello di confidenza,
anche in questo caso, da esprimersi in termini tipo probabilistici, es. 95%
ν
S
χν ,1−α/ 2
≤σ ≤ ν
S
χν ,α/ 2
L’argomento non viene discusso se non per dire che si utilizza una
distribuzione di densità di probabilità particolare, denominata χ2. Si
rimanda chi fosse interessato alla bibliografia.
45
Da ricordare
Problemi inerenti all’aleatorietà nelle misura.
Come gestire la misura di una singola variabile a partire dai dati
individuali di misura.
Come definire il livello di aleatorietà da associare ad una misura intesa
come valore medio di una serie di misure individuali.
Come si capisce quando la definizione del modello è insufficiente.
Come si correggere l’entità di aleatorietà della misura quando gli eventi
disponibili sono pochi.
46
•22
Domande ?
47
•23