Lucidi di Inferenza Statistica

Statistica Applicata
Parte 3 - Inferenza statistica
Paolo Vidoni
Dipartimento di Scienze Economiche e Statistiche
Universit`a di Udine
via Tomadini 30/a - Udine
[email protected]
www.dies.uniud.it/vidoni.html
Per alcuni argomenti si `
e preso spunto da materiale didattico di
R. Bellio, G. Masarotto, C. Romualdi, N. Sartori e L. Ventura.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
1/ 130
Inferenza statistica
• Si vuole studiare una popolazione, reale o virtuale, con
riferimento a un particolare fenomeno o a particolari
caratteristiche di interesse.
• La popolazione viene esaminata in modo parziale,
considerando un campione di unit`a statistiche, cio`e un
aggregato di unit`a selezionate mediante l’esperimento di
campionamento, che `e un esperimento aleatorio.
• La Statistica inferenziale fornisce strumenti e metodi per:
I
I
ricavare dai dati campionari informazioni sulla popolazione
(fenomeno) di interesse;
quantificare (utilizzando il linguaggio del Calcolo delle
probabilit`a) la fiducia da accordare a tali informazioni.
• Quindi, con le informazioni rilevate sul solo campione,
l’obiettivo `e arrivare a conclusioni che possano essere valide
per tutta la popolazione.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
2/ 130
Campionamento
I dati che si hanno a disposizione, quando si effettua una indagine
campionaria, sono stati ottenuti mediante misurazioni o rilevazioni
di certe caratteristiche di interesse su una parte delle unit`a
statistiche di una popolazione.
Con l’inferenza statistica si vogliono ricavare, dai dati campionari,
informazioni sulla popolazione e quantificare la attendibilit`a di tali
conclusioni.
Si effettuano indagini campionarie per le seguenti motivazioni:
• presenza di vincoli di tempo e/o problemi di costo;
• la popolazione di interesse pu`
o essere infinita e virtuale;
• la rilevazione potrebbe distruggere le unit`a statistiche o essere
potenzialmente dannosa (ad esempio nel controllo di qualit`a
oppure nelle sperimentazioni mediche);
• la precisione dei risultati nelle rilevazioni censuarie potrebbe
non essere adeguata.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
3/ 130
Esempio. Si vuole studiare la distribuzione dei redditi delle
famiglie italiane, mediante un’indagine campionaria. L’insieme
delle famiglie italiane costituisce la popolazione reale (finita),
mentre l’insieme ristretto delle famiglie su cui viene condotto lo
studio `e il campione.
♦
Esempio. Per studiare l’efficacia di un determinato farmaco si
studiano i suoi effetti su un gruppo di pazienti, che costituiscono il
campione. La popolazione di riferimento `e virtuale (potenzialmente
infinita) ed `e costituita da tutti i pazienti a cui si potrebbe
somministrare il farmaco. L’interesse sulla popolazione, in questo
caso, `e sinonimo di interesse sull’efficacia del farmaco.
♦
Esempio. Per effettuare un controllo di qualit`a si analizzano le
caratteristiche di un determinato gruppo di oggetti prodotti da un
certo macchinario. Il gruppo di oggetti analizzati `e il campione,
mentre la popolazione virtuale (potenzialmente infinita) `e
costituita da tutti i pezzi che il macchinario pu`
o produrre, nelle
stesse condizioni.
♦
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
4/ 130
Esempio. Si effettuano misurazioni ripetute, nelle medesime
condizioni, di un determinato oggetto con uno strumento affetto
da errore non sistematico. La popolazione virtuale di riferimento `e
costituita dall’insieme di tutte le infinite, potenziali misurazioni. Il
campione `e costituito dal numero finito di misurazioni che sono
state effettuate. L’interesse sulla popolazione `e, in questo caso,
sinonimo di interesse sulla vera dimensione dell’oggetto.
♦
L’inferenza statistica studia l’analisi dei dati che costituiscono un
campione casuale, cio`e selezionato mediante un esperimento di
campionamento, che `e un esperimento casuale (aleatorio).
` essenziale che i dati campionari possano essere interpretati come
E
risultato di un esperimento aleatorio, perch´e altrimenti verrebbe
meno la rappresentativit`a del campione e la possibilit`a di ricavare
informazioni sulla popolazione di riferimento (inferenza).
L’utilizzazione di un campione di convenienza rende improponibile
ogni analisi statistica inferenziale.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
5/ 130
I dati campionari vengono trattati dati come sperimentali anche se
provengono da osservazione e il campione viene selezionato da una
popolazione reale, finita.
Esistono vari metodi per la raccolta dei dati. In particolare,
• esperimenti in laboratorio;
• interviste telefoniche;
• questionati inviati per posta;
• questionari compilati via web;
• interviste porta a porta;
• interviste per strada;
• ...
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
6/ 130
Nel seguito si considereranno principalmente campioni casuali
semplici di dimensione n ≥ 1, che possono venire interpretati come
n realizzazioni indipendenti di un esperimento di base, nelle
medesime condizioni.
In un campione casuale semplice le unit`a vengono selezionate dalla
popolazione di riferimento di modo che ognuna abbia la stessa
possibilit`a di far parte del campione (estrazioni, con reinserimento,
da un’urna).
Per popolazioni virtuali (infinite) o reali (finite) molto numerose,
campionare con reinserimento o senza reinserimento (in blocco)
non porta a differenze sostanziali.
In questa sede non si considerano le problematiche legate al
campionamento da popolazioni finite.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
7/ 130
Non si considerano nemmeno piani di campionamento pi`
u efficienti
del campionamento casuale semplice, come ad esempio il
campionamento stratificato, campionamento a grappoli e il
campionamento in accettazione.
Se non specificato diversamente, si assumer`a sempre di disporre di
un campione casuale semplice, ottenuto selezionando le unit`a
mediante estrazioni con reinserimento o con procedure che sono di
fatto ad esse equivalenti.
Alla luce di quanto detto, i dati osservati x = (x1 , . . . , xn ), n ≥ 1,
sono riferiti a caratteristiche di interesse, rilevate sulle n unit`a
statistiche che costituiscono il campione; in particolare, xi ,
i = 1, . . . , n, indica l’osservazione effettuata sulla i-esima unit`a
statistica.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
8/ 130
L’ipotesi fondamentale su cui poggia l’inferenza statistica `e che i
dati campionari x sono una realizzazione di un vettore casuale
X = (X1 , . . . , Xn ).
Questa ipotesi tiene conto del fatto che si `e estratto uno tra i molti
possibili campioni e che quindi siamo in presenza di una certa
variabilit`a campionaria.
La distribuzione di probabilit`a di X `e, almeno in parte, ignota e si
utilizza l’informazione ricavabile dai dati per ottenerne una
ricostruzione.
Nell’inferenza statistica c’`e un rovesciamento di punto di vista. Il
processo di generazione dei dati (modello probabilistico) non `e
noto in modo completo. Il processo in questione `e, in definitiva, la
popolazione (fenomeno) oggetto di indagine.
Nel campionamento casuale semplice, le variabili casuali marginali
X1 , . . . , Xn sono indipendenti e identicamente distribuite.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
9/ 130
Modelli statistici parametrici
Dato un campione casuale semplice X1 , . . . , Xn , la distribuzione di
probabilit`a delle singole variabili casuali dipende dalla natura dei
dati e del fenomeno oggetto di indagine.
Ad esempio, per dati binari sar`a naturale ipotizzare Xi ∼ Ber(p),
per misurazioni Xi ∼ N (µ, σ 2 ), per conteggi Xi ∼ P (λ), per
tempi di funzionamento Xi ∼ Esp(λ), ecc. Queste distribuzioni di
probabilit`a possono rappresentare una buona approssimazione della
realt`a.
La distribuzione assunta per le variabili casuali del campione
dipende da costanti ignote dette parametri; ad esempio, le quantit`a
p, µ, σ 2 , λ, ecc.
Nell’inferenza statistica parametrica si assume che la distribuzione
delle variabili casuali del campione sia nota a meno dei valori dei
parametri, che corrispondono tipicamente agli aspetti di interesse
dell’analisi.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
10/ 130
Le assunzioni viste, ed elencate nel seguito, definiscono un modello
statistico parametrico per i dati di un campione casuale semplice:
• le variabili casuali X1 , . . . , Xn sono indipendenti;
• tutte le Xi hanno la stessa distribuzione di probabilit`a;
• tale distribuzione `e nota a meno dei valori di uno o pi`
u
parametri, indicati genericamente come θ = (θ1 , . . . , θd ),
d ≥ 1.
Scopo dell’inferenza statistica parametrica `e utilizzare i dati
osservati x1 , . . . , xn per ottenere informazioni su θ, i cui possibili
valori appartengono ad un certo insieme Θ, chiamato spazio
parametrico.
Il supporto congiunto di X1 , . . . , Xn `e detto spazio campionario e
corrisponde all’insieme dei possibili campioni x1 , . . . , xn che si
possono osservare.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
11/ 130
Le tre assunzioni citate in precedenza non `e detto che siano
soddisfatte nella pratica, ma possono rappresentare una descrizione
semplice e operativamente utile di una realt`a complessa.
La scelta del modello `e molto importante, poich´e le conclusioni
inferenziali dipendono fortemente dalle assunzioni fatte.
Nella specificazione del modello statistico parametrico `e
importante considerare:
• la natura dei dati (qualitativi o quantitativi, discreti o
continui, ecc.);
• gli aspetti notevoli presenti nei dati come, ad esempio,
posizione, variabilit`a, simmetria, curtosi, ecc.;
• tutte le informazioni sul meccanismo generatore dei dati.
Esistono anche modelli per dati dipendenti e/o non identicamente
distribuiti (ad esempio per serie storiche e spaziali) e modelli che
prescindono dalla forma della distribuzione di probabilit`a delle
variabili casuali del campione (modelli non parametrici).
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
12/ 130
Esempio. Controllo di qualit`a. Per effettuare un controllo di
qualit`a si analizzano n oggetti, scelti a caso, tra quelli prodotti da
un certo macchinario.
Il campione osservato x = (x1 , . . . , xn ) sar`a costituito da una
sequenza di valori 0 o 1, che indicano, rispettivamente, se l’oggetto
`e o non `e conforme agli standard di qualit`a.
Se le osservazioni sono state effettuate in modo indipendente e
nelle medesime condizioni, `e ragionevole ipotizzare che le Xi ,
i = 1, . . . , n, siano indipendenti con distribuzione Ber(p).
In questo caso, θ = p e corrisponde alla probabilit`a che un singolo
oggetto sia difettoso, cio`e alla porzione di oggetti difettosi prodotti
dal macchinario.
Inoltre, lo spazio parametrico `e Θ = (0, 1) e lo spazio campionario
`e SX = {0, 1} × . . . × {0, 1} = {0, 1}n , cio`e l’insieme di tutti i
possibili vettori n-dimensionali costituiti da 0 e 1.
♦
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
13/ 130
Esempio. Misurazioni. Si misura un determinato oggetto con uno
strumento affetto da errore non sistematico. Il campione osservato
x = (x1 , . . . , xn ) sar`a costituito da una sequenza di numeri, che
corrispondono alle n ≥ 1 misurazioni.
Se le n osservazioni sono state effettuate in modo indipendente e
nelle medesime condizioni, `e ragionevole ipotizzare che le Xi ,
i = 1, . . . , n, siano indipendenti con distribuzione N (µ, σ 2 ).
Si pu`o verificare graficamente l’ipotesi di normalit`a considerando,
ad esempio, istogrammi e q-q plots.
In questo caso, θ = (θ1 , θ2 ) = (µ, σ 2 ), dove µ `e la misura vera
dell’oggetto in esame e σ 2 `e riconducibile alla precisione dello
strumento di misura.
Inoltre, lo spazio parametrico `e Θ = R × R+ e lo spazio
campionario SX = R × . . . × R = Rn corrisponde all’insieme dei
vettori reali n-dimensionali.
♦
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
14/ 130
In alcuni casi, soprattutto per dati continui, la specificazione del
modello statistico parametrico pu`
o non essere banale, ed `e allora
necessario procedere ad un controllo empirico del modello.
A tal fine, si possono utilizzare:
• alcuni strumenti della Statistica descrittiva, come ad esempio
l’istogramma delle frequenze relative e la funzione di
ripartizione empirica;
• i grafici di probabilit`a: p-p plots e q-q plots.
L’istogramma basato sui dati campionari pu`
o essere interpretato,
in ambito inferenziale, come una stima della funzione di densit`a.
Tale stima `e valida a prescindere da quale sia la vera distribuzione
dei dati ed `e tanto pi`
u precisa quanto pi`
u l’informazione
campionaria aumenta.
Analogamente, la funzione di ripartizione empirica calcolata sui
dati campionari pu`o essere vista come una stima della funzione di
ripartizione.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
15/ 130
Il controllo si effettua confrontando graficamente l’istogramma
calcolato su x1 , . . . , xn con la funzione di densit`a del modello
teorico, con i parametri rimpiazzati da opportune stime basate sui
dati campionari.
In modo analogo, si possono confrontare la funzione di ripartizione
empirica calcolata su x1 , . . . , xn con la funzione di ripartizione del
modello teorico, con i parametri rimpiazzati da opportune stime
basate sui dati campionari.
I grafici di probabilit`a consentono di confrontare un qualsiasi
modello parametrico (continuo) con i dati campionari x1 , . . . , xn .
Sono la tecnica pi`
u comunemente utilizzata.
Il p-p plot `e il diagramma di dispersione delle coppie
(F (xi ), Fn (xi )), i = 1, . . . , n, dove F (·) `e la funzione di
ripartizione teorica, con i parametri stimati, e Fn (·) `e la funzione di
ripartizione empirica.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
16/ 130
Il q-q plot `e il diagramma di dispersione delle coppie
(F −1 (pi ), x(i) ), i = 1, . . . , n, con pi = (i − 0.5)/n, dove F −1 (pi ) `e
il quantile teorico di livello α = i/n, con i parametri stimati, e x(i)
`e l’i-esima osservazione ordinata, che `e il quantile empirico di
livello α = i/n.
Se il modello teorico `e accettabile, i punti in entrambi i grafici
tenderanno ad essere allineati lungo una linea retta.
Una applicazione di alcuni di questi metodi `e stata presentata nel
contesto della verifica di normalit`a, nella parte dedicata al Calcolo
delle probabilit`a.
In particolare, per definire il q-q plot nel caso della verifica di
normalit`a si considerano i seguenti passi:
1. definire n valori equispaziati tra 0 e 1: pi = (i − 0.5)/n,
i = 1, . . . , n;
2. rappresentare con un diagramma di dispersione le coppie
(Φ−1 (pi ), x(i) ), i = 1, . . . , n.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
17/ 130
Se il modello normale si adatta bene ai dati, i punti tenderanno ad
essere disposti lungo una linea retta.
Nel grafico seguente si presentano due tipiche situazioni di
allontanamento dalla normalit`a dovute, rispettivamente, alla
asimmetria e alla presenza di code pesanti.
Code pesanti
!5
Quantili empirici
0
!15
!10
3
2
1
Quantili empirici
0
4
5
5
Asimmetria
!2
!1
0
1
2
Quantili teorici
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
!2
!1
0
1
2
Quantili teorici
18/ 130
Nell’ambito dell’inferenza statistica parametrica si possono
individuare tre classi generali di procedure che affrontano i seguenti
problemi inferenziali, con riferimento al parametro di interesse θ:
• la stima puntuale: si vuole ottenere, sulla base
dell’osservazione x, una congettura puntuale su θ;
• la stima intervallare o regione di confidenza: si vuole ottenere,
sulla base dell’osservazione x, un sottoinsieme (intervallo) di
Θ in cui `e plausibilmente incluso θ;
• verifica di ipotesi: data una congettura o un’ipotesi su θ, si
vuole verificare, sulla base dell’osservazione x, se essa `e
accettabile (cio`e in accordo con i dati x).
Una procedura statistica deve fornire buoni risultati qualsiasi sia il
vero valore del parametro θ e deve essere utilizzabile con
riferimento ad ogni possibile campione osservato x.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
19/ 130
Statistiche campionarie
Ogni analisi statistica inferenziale `e caratterizzata da una
componente di incertezza, poich´e i dati campionari x sono
interpretati come realizzazione di un vettore casuale X.
Se si ripete l’esperimento, nelle medesime condizioni, si ottengono
dei dati x0 , tipicamente diversi da x.
Ogni inferenza sulla popolazione (sul parametro di interesse) va
accompagnata da una valutazione, in termini di probabilit`a, sul suo
grado di affidabilit`a/incertezza.
Nell’effettuare una analisi statistica, i dati campionari x non
vengono considerati cos`ı come sono ma vengono opportunamente
sintetizzati.
Si chiama statistica (campionaria) ogni trasformata
T = t(X1 , . . . , Xn ), che sintetizza opportunamente il campione
casuale X1 , . . . , Xn .
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
20/ 130
La scelta della statistica riassuntiva T deve essere fatta tenendo
conto del modello statistico e dell’obiettivo dell’inferenza.
Il valore osservato t = t(x1 , . . . , xn ) di T `e un’opportuna sintesi dei
dati campionari osservati x1 , . . . , xn , utile per l’inferenza su θ.
Se si ripete l’esperimento, nelle medesime condizioni, si ottengono
dei dati x0 e, tipicamente, si ha che t0 = t(x0 ) 6= t = t(x).
T `e una variabile casuale con una determinata distribuzione di
probabilit`a, chiamata distribuzione campionaria.
La bont`a di T , come statistica riassuntiva per fare inferenza su θ,
si pu`o valutare analizzando la sua distribuzione campionaria.
La distribuzione di probabilit`a di T , che `e una funzione di
X = (X1 , . . . , Xn ), dipende dal parametro ignoto θ. Quindi, va
intesa sotto θ, cio`e nell’ipotesi che θ sia il vero valore del
parametro, qualunque esso sia.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
21/ 130
Dato un campione casuale X1 , . . . , Xn , sono esempi di statistiche
campionarie:
¯ n , la
• la somma campionaria Sn , la media campionaria X
2
varianza campionaria S e la sua versione corretta Sc2 ;
• le statistiche ordinate X(1) ≤ · · · ≤ X(n) , dove X(i) `e la
variabile casuale che occupa l’i-esima posizione nel campione;
• la variabile casuale minimo X(1) = min{X1 , . . . , Xn } e la
variabile casuale massimo X(n) = max{X1 , . . . , Xn };
• la mediana campionaria, definita da X((n+1)/2) , se n `e dispari,
e da (X(n/2) + X((n/2)+1) )/2, se n `e pari;
• i momenti
centrati
centrati,
Pn campionari,
Pn e non
−1
r
−1
r
+
¯
n
i=1 Xi , r ∈ N .
i=1 (Xi − Xn ) , n
Per determinare media e varianza, oltre che la distribuzione
¯ n , S 2 e Sc2 , si
campionaria, esatta o approssimata, di Sn , X
possono considerare i risultati noti dal Calcolo delle probabilit`a.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
22/ 130
Esempio. Sia X1 , . . . , Xn un campione casuale semplice tratto da
una popolazione normale, cio`e Xi ∼ N (µ, σ 2 ), i = 1, . . . , n. Si `e
¯n
interessati al parametro θ = µ ed `e ragionevole considerare X
come statistica campionaria.
Si ripete per due volte l’esperimento e si osservano i vettori:
x = (−0.89, −0.66, 0.93, 2.42, −2.29, −1.39, −0.86, 0.20,
1.96, −0.59, −1.36, −0.11, 0.52, 1.17, 0.13),
x
0
= (−0.19, −1.52, 2.80, −0.17, −0.30, −0.02, 0.07, 1.69,
−1.53, −2.74, −1.03, −0.88, 0.21, 0.18, −1.17).
I due campioni osservati x e x0 sono diversi e danno origine a due
realizzazioni
diverse per P
la media campionaria: rispettivamente,
P15
15
0
i=1 xi /15 = −0.05 e
i=1 xi /15 = −0.31.
Si determinano gli istogrammi delle frequenze relative riferiti ai
campioni osservati x e x0 .
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
23/ 130
5
0
1
2
3
4
5
4
3
2
1
0
−3
−2
−1
0
1
2
3
x
−3
−2
−1
0
1
2
3
x’
Dalla analisi degli istogrammi si pu`
o ragionevolmente confermare
0
che x e x provengono dalla medesima popolazione. Quindi, nei
due casi, l’inferenza su µ porter`a a conclusioni simili, anche se non
uguali per effetto della variabilit`a campionaria.
♦
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
24/ 130
Esempio. Bottiglie. Una azienda produce giornalmente migliaia di
bottiglie di soluzione glucosata con contenuto nominale dichiarato
500 ml.
Per tenere sotto controllo il processo di imbottigliamento si estrae
casualmente un campione di n = 25 bottiglie e si misura il loro
contenuto effettivo.
I dati campionari x1 , . . . , x25 possono essere ragionevolmente
interpretati come determinazioni osservate di variabili casuali
indipendenti con distribuzione N (µ, σ 2 ).
Se si `e interessati al parametro µ, che definisce il contenuto medio
di una generica bottiglia, si pu`
o considerare come statistica
¯ n , che con riferimento al
riassuntiva la media campionaria X
campione osservato ha assunto valore 498 ml.
¯ n per fare inferenza su µ, e quindi
Per poter valutare l’utilit`a di X
interpretare il valore osservato 498, bisognerebbe conoscere la sua
distribuzione di probabilit`a (distribuzione campionaria).
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
25/ 130
¯ n ∼ N (µ, σ 2 /n) e che,
Dal Calcolo delle probabilit`a `e noto che X
p
¯ n → µ.
se n → +∞, X
Quindi, le fluttuazioni, da campione a campione, attorno a µ della
media campionaria sono sintetizzate dal suo scarto quadratico
√
medio σ/ n.
√
Al crescere di n, tale valore si riduce di un fattore pari a n;
questo aspetto `e legato alla Legge debole dei grandi numeri.
Se si `e interessati al parametro σ 2 , che specifica la precisione del
processo di imbottigliamento, si pu`
o considerare come statistica
riassuntiva la varianza campionaria S 2 o la sua versione corretta
Sc2 . A questo proposito si possono fare valutazioni analoghe a
¯ n , considerando la distribuzione χ2 (n − 1).
quelle fatte per X
♦
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
26/ 130
Esempio. Ricoveri. Il direttore di una clinica vuole capire con che
percentuale i suoi pazienti attuali sono stati ricoverati pi`
u di una
volta nella sua struttura.
Si estrae un campione casuale semplice di n = 100 pazienti
attualmente ricoverati e si verifica se si tratta del primo ricovero
oppure di un ricovero successivo al primo.
I dati campionari x1 , . . . , x100 , che costituiscono una sequenza di 0
(primo ricovero) e 1 (ricovero successivo al primo), possono essere
ragionevolmente interpretati come determinazioni osservate di
variabili casuali indipendenti con distribuzione Ber(p).
Si `e interessati al parametro p, che indica la proporzione di
pazienti con pi`
u di un ricovero, e si considera come statistica
¯ n , che corrisponde alla
riassuntiva la media campionaria X
proporzione campionaria di pazienti con pi`
u di un ricovero.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
27/ 130
¯ n ha assunto valore 0.48.
Con riferimento al campione osservato, X
¯ n per fare inferenza su p, e quindi
Per poter valutare l’utilit`a di X
interpretare il valore osservato 0.48, bisognerebbe conoscere la sua
distribuzione di probabilit`a, almeno in forma approssimata.
Dal Calcolo delle probabilit`a `e noto che, con n elevato,
p
¯ n ∼· N (p, p(1 − p)/n) e che, se n → +∞, X
¯n →
p.
X
Quindi, le fluttuazioni, da campione a campione,
attorno a p della
p
media campionaria sono sintetizzate da p(1 − p)/n.
♦
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
28/ 130
Funzione di verosimiglianza
La nozione di funzione di verosimiglianza riveste un ruolo centrale
nella Statistica inferenziale e permette la definizione di procedure
statistiche per affrontare problemi di stima puntuale, intervallare e
di verifica di ipotesi.
In particolare, tali procedure risultano essere generali e molto
spesso hanno propriet`a ottimali.
Esempio. Controllo di qualit`a (continua). Con riferimento al
problema di controllo della qualit`a considerato in precedenza, si
supponga di avere osservato un campione di n = 40 oggetti e di
aver ottenuto i seguenti dati
x = (0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0);
quindi, si rilevano 3 oggetti non conformi agli standard di qualit`a,
su 40 analizzati.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
29/ 130
Si considera la funzione di probabilit`a congiunta del campione
casuale di X = (X1 , . . . , X40 ) valutata nell’osservazione x che, per
le ipotesi fatte sulle variabili casuali Xi , i = 1, . . . , 40, `e pari a
P (X = x) = fX (x; p) = fX1 (0; p) · · · fX40 (0; p) = p3 (1 − p)37 ,
Di fatto si `e determinata probabilit`a dell’osservazione campionaria
x, sotto p, cio`e sotto l’ipotesi che p ∈ (0, 1) sia il vero valore del
parametro.
Poich´e il parametro p `e ignoto, se si fa variare p nell’intervallo
(0, 1) risulta definita la funzione
L(p) = L(p; x) = p3 (1 − p)37 .
che viene chiamata funzione di verosimiglianza e definisce la
probabilit`a dell’osservazione campionaria x, al variare dei possibili
valori per il parametro p, nello spazio parametrico (0, 1).
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
30/ 130
2.0e−05
L(p)
1.0e−05
0.0e+00
0.0
0.2
0.4
0.6
0.8
1.0
p
Dalla analisi del grafico di L(p), si conclude che per valori di p in
(0.3, 1), viene viene assegnata probabilit`a trascurabile all’evento
X = x, mentre per valori di p vicini a 3/40 la probabilit`a `e elevata.
L(p) segnala che, alla luce del modello statistico parametrico e del
campione osservato x, i valori pi`
u credibili (verosimili) per p sono
quelli in prossimit`a del punto di massimo pˆ = 3/40.
♦
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
31/ 130
Le medesime considerazioni si possono fare con modelli statistici
parametrici continui, coinvolgendo le funzioni di densit`a.
In questo caso la funzione di verosimiglianza `e direttamente
proporzionale alla probabilit`a di ottenere una realizzazione per X
in un intorno dell’osservazione campionaria x, al variare del valore
assunto per il parametro.
Si consideri un modello statistico parametrico per i dati campionari
x = (x1 , . . . , xn ), determinazione osservata del campione casuale
X = (X1 , . . . , Xn ), con funzione (di densit`a) di probabilit`a
congiunta fX (x1 , . . . , xn ; θ), con θ ∈ Θ parametro non noto.
Formalmente, la funzione nella variabile θ, definita da
L(θ) = L(θ; x) = fX (x1 , . . . , xn ; θ),
`e detta funzione di verosimiglianza (likelihood) di θ basata sui dati
x.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
32/ 130
Nel caso di campioni cauali semplici, essendo f (·; θ) la funzione (di
densit`a) di probabilit`a comune delle variabili casuali indipendenti
Xi , i = 1, . . . , n, si ha che
L(θ) =
n
Y
f (xi ; θ).
i=1
L(θ) non `e una funzione (di densit`a) di probabilit`a. Dalla sua
analisi si conclude che, alla luce delle osservazioni x e del modello
considerato, θ1 `e pi`
u credibile di θ2 , come valore per il parametro
ignoto, se
L(θ1 )
> 1.
L(θ1 ) > L(θ2 ), cio`e
L(θ2 )
Si operano confronti tra coppie di valori per θ e si valuta la loro
adeguatezza relativa. Quindi, nella definizione di L(θ), si possono
trascurare i fattori moltiplicativi che non dipendono da θ.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
33/ 130
Spesso conviene considerare la trasformata logaritmica di L(θ)
`(θ) = `(θ; x) = log L(θ) = log fX (x1 , . . . , xn ; θ),
chiamata funzione di log-verosimiglianza.
Nel caso di campioni casuali semplici si ha che
`(θ) =
n
X
log f (xi ; θ).
i=1
L’interpretazione `e analoga, con l’unica differenza che i confronti di
credibilit`a tra coppie di valori θ1 e θ2 si basano sulle differenze
`(θ1 ) − `(θ2 ): si preferisce θ1 a θ2 se la differenza `e positiva.
Quindi, nella definizione di `(θ) si possono trascurare le costanti
additive che non dipendono da θ.
Nell’esempio precedente, si giunge alla medesime conclusioni su p,
anche se si considera x come determinazione osservata di una
X ∼ Bi(40, p), che descrive il numero di difettosi nel campione.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
34/ 130
Stime e stimatori
Le procedure di stima puntuale assegnano, sulla base delle
informazioni contenute nel campione osservato e tenendo conto
delle assunzioni sul modello generatore dei dati, un valore plausibile
al parametro ignoto θ.
Esempio. Controllo di qualit`a (continua). Con riferimento al
problema di controllo della qualit`a considerato in precedenza, si
sono individuati 3 oggetti non conformi agli standard in un
campione casuale semplice di n = 40 oggetti.
Poich´e l’obiettivo `e stimare la proporzione p di oggetti difettosi
prodotti dal macchinario, `e intuitivo considerare la proporzione
campionaria osservata, che corrisponde a pˆ = 3/40 = 0.075.
Inoltre, 0.075 `e il valore
¯n della variabile casuale media
P40 osservato x
¯
campionaria Xn = i=1 Xi /n, nel particolare campione
selezionato.
Si noti che, per lo meno in questo caso, pˆ = 3/40 corrisponde
anche al punto di massimo della funzione di verosimiglianza.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
♦
35/ 130
Dato un modello statistico parametrico per i dati campionari
x1 , . . . , xn , riferiti al campione casuale (semplice) X1 , . . . , Xn , con
θ parametro ignoto, si definisce stima per θ un valore
ˆ 1 , . . . , xn ), plausibile per il parametro θ, ottenuto a partire
θˆ = θ(x
dai dati osservati nel campione.
Si definisce stimatore per θ la associata variabile casuale
ˆ 1 , . . . , Xn ), ottenuta come funzione delle variabili casuali
θˆ = θ(X
che generano i dati campionati osservati.
Dunque, uno stimatore di θ `e una opportuna statistica campionaria
utilizzata per stimare θ, mentre la stima di θ `e il suo valore
osservato in corrispondenza ai dati campionari x1 , . . . , xn .
Si utilizzer`a la notazione sintetica θˆ sia per lo stimatore che per la
stima di θ, poich´e il significato appropriato `e chiaro dal contesto.
Spesso si scriver`a θˆn per evidenziare la numerosit`a n del campione.
Di solito θ `e un parametro unidimensionale, e quindi θˆ `e una
variabile casuale univariata.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
36/ 130
Se si ripete l’esperimento, nelle medesime condizioni, si osserva un
campione x01 , . . . , x0n , usualmente diverso dal precedente. La stima
che si ottiene sar`a in genere diversa da quella basata sul primo
campione, per effetto della variabilit`a campionaria.
Tutto ci`o in accordo con il fatto che uno stimatore `e una variabile
casuale, una statistica campionaria, e la sua distribuzione
campionaria sotto θ `e informativa dell’incertezza insita nel
procedimento di stima.
Esempio. In un esperimento casuale, si osserva il numero
complessivo di successi x, in n prove indipendenti con uguale
probabilit`a di successo p ∈ (0, 1), ignota.
In questo caso, X ∼ Bi(n, p), θ = p e una stima naturale per p `e
data dalla frequenza relativa di successo osservata pˆ = x/n.
Lo stimatore pˆ = X/n `e una variabile casuale discreta tale che,
qualunque sia p ∈ (0, 1), E(ˆ
p) = p, V (ˆ
p) = p(1 − p)/n e, per
p
n → +∞, pˆ → p.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
37/ 130
Oltre a questi aspetti parziali sulla distribuzione di probabilit`a dello
stimatore, `e nota la sua distribuzione campionaria sotto p: per ogni
x ∈ {0, . . . , n}
n x
P (ˆ
p = x/n) = P (X = x) =
p (1 − p)n−x .
x
0.00
0.00
0.10
0.04
0.20
0.08
Inoltre, per n sufficientemente elevato, vale l’approssimazione
·
normale: pˆ ∼ N (p, p(1 − p)/n).
0.0
0.2
0.4
0.6
0.8
n=10
1.0
0.0
0.2
0.4
0.6
0.8
1.0
n=75
Si sono disegnati i grafici della funzione di probabilit`a di pˆ, per
n = 10 e n = 75, sotto l’ipotesi che p = 2/3.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
♦
38/ 130
Esempio. Bottiglie (continua). Si considera il problema del
controllo del contenuto effettivo delle bottiglie di soluzione
glucosata da 500 ml.
Si estrae un campione casuale semplice di n = 25 bottiglie e si
ipotizza che il contenuto di una generica bottiglia sia descritto da
una variabile casuale con distribuzione N (µ, σ 2 ), con µ e σ 2 ignoti.
Per stimare il contenuto medio effettivo µ e la variabilit`a del
processo produttivo σ 2 sulla base dei dati campionari si
considerano, rispettivamente,
25
x
¯25
1 X
xi ,
=
25
i=1
25
1 X
s =
(xi − x
¯25 )2 .
25
2
i=1
Dopo l’estrazione del campione, si ottengono le stime x
¯25 = 498 e
2
s = 324, che corrispondono alle determinazioni osservate delle
¯ 25 e varianza campionaria S 2 ,
variabili casuali media campionaria X
interpretabili come stimatori per µ e σ 2 .
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
39/ 130
Al posto di S 2 si pu`o anche considerare la varianza campionaria
corretta Sc2 .
Le distribuzioni di probabilit`a di tali statistiche campionarie, gi`a
analizzate in precedenza, sono informative sulla bont`a della
procedura inferenziale.
♦
Per quanto riguarda la definizione di procedure inferenziali per la
stima puntuale, si possono individuare due punti di fondamentale
importanza, che verranno di seguito analizzati:
• la definizione di opportuni metodi per definire stimatori, con
riferimento ad un certo parametro di interesse;
• l’analisi delle propiet`a di uno stimatore, e la conseguente
valutazione della sua efficacia nel definire valori di stima
plausibili per il parametro ignoto.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
40/ 130
Metodi di stima
Negli esempi considerati in precedenza `e adombrato un metodo
semplice per ottenere stimatori: il metodo dell’analogia.
In base a tale metodo, per stimare un certo parametro del modello
(della popolazione) si utilizza la corrispondente quantit`a
campionaria (statistica campionaria).
Ad esempio, un valor medio si stima con una media campionaria,
una varianza con una varianza campionaria (corretta), una
mediana con una mediana campionaria, ecc.
Se le quantit`a a cui si applica il metodo dell’analogia sono
momenti (ad esempio il valor medio, la varianza, ecc.), si parla di
metodo dei momenti.
Accanto al metodo dell’analogia `e utile considerare il metodo di
sostituzione (plug-in), cos`ı specificato.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
41/ 130
Se si `e interessati alla stima di τ = g(θ), funzione del parametro θ,
ˆ allora uno stimatore per τ si
e per θ `e disponibile uno stimatore θ,
ˆ
ottiene sostituendo θ con θ nella funzione g(·).
ˆ `e lo stimatore plug-in per τ .
Quindi, τˆ = g(θ)
Esempio. Si consideri un campione casuale semplice costituito da
variabili casuale X1 , . . . , Xn con legge Esp(λ), con λ ignoto.
Dal momento che µ = 1/λ e quindi λ = 1/µ, si pu`o pensare di
ˆ = 1/X
¯ n . Si noti che, in generale,
stimare λ con λ
1
1
1
ˆ
6=
E(λ) = E ¯
= = λ,
¯
µ
Xn
E(Xn )
mentre, per n → +∞,
p 1
ˆ= 1 →
λ
= λ.
¯n
µ
X
♦
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
42/ 130
Ricordando quanto affermato sulla funzione di verosimiglianza,
risulta naturale e intuitivo specificare il seguente metodo, chiamato
metodo della massima verosimiglianza.
Sia x1 , . . . , xn il campione osservato e, per tali dati campionari, si
consideri un opportuno modello statistico parametrico, specificato
a meno del parametro ignoto θ ∈ Θ.
Indicata con L(θ; x) la funzione di verosimiglianza, un valore
ˆ
θˆ = θ(x)
∈ Θ tale che
ˆ x) ≥ L(θ; x),
L(θ;
per ogni θ ∈ Θ,
`e detto stima di massima verosimiglianza di θ.
ˆ
Quindi θˆ `e punto di massimo della funzione di verosimiglianza L(θ)
ed `e il valore per θ che, alla luce dei dati e del modello statistico,
risulta pi`
u verosimile.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
43/ 130
La stima di massima verosimiglianza pu`
o anche essere determinata
(spesso in modo pi`
u agevole) considerando la funzione di
log-verosimiglianza `(θ) = log L(θ), di cui pure costituisce un
punto di massimo.
Non `e detto che θˆ esista e che sia unico. Se ci`
o accade, la
ˆ
corrispondente variabile casuale θˆ = θ(X)
`e detta stimatore di
massima verosimiglianza di θ.
Se il modello statistico ha verosimiglianza regolare, la stima
ˆ
θˆ = θ(x)
si pu`o in genere individuare come unica soluzione in θ
dell’equazione di verosimiglianza
d
`(θ; x) = 0.
dθ
La funzione d`(θ; x)/d θ `e detta funzione di punteggio (score).
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
44/ 130
Esempio. Sia x un’osservazione campionaria associata ad una
variabile casuale X ∼ Bi(n, p), con p ∈ (0, 1) non noto. A meno
della costante additiva, si ha che
`(p; x) = x log(p) + (n − x) log(1 − p)
e l’equazione di verosimiglianza corrisponde a
x n−x
−
= 0.
p
1−p
Si ricava facilmente che la stima di massima verosimiglianza `e
pˆ = x/n, in accordo con quanto ottenuto con il metodo
dell’analogia. Lo stimatore associato `e pˆ = X/n.
Si giunge alle medesime conclusioni considerando un campione
casuale semplice X1 , . . . , Xn da unaP
popolazione Ber(p). In
n
−1
¯
questo
caso, si ottiene che pˆ = n
i=1 Xi = Xn . Si ricordi che
Pn
♦
i=1 Xi = X ∼ Bi(n, p).
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
45/ 130
Esempio. Sia X1 , . . . , Xn un campione casuale semplice da una
popolazione Ge(p). Si ha che
!
n
X
`(p; x) = n log(p) +
xi − n log(1 − p)
i=1
e l’equazione di verosimiglianza corrisponde a
Pn
xi − n
n
− i=1
= 0.
p
1−p
¯ −1 . ♦
In accordo con il metodo di sostituzione, si ricava che pˆ = X
n
Esempio. Sia X1 , . . . , Xn un campione casuale semplice da una
popolazione N (µ, σ 2 ). Se σ 2 `e nota, a meno della costante
additiva, si ha che
n
1 X
(xi − µ)2 .
`(µ; x) = − 2
2σ
i=1
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
46/ 130
Poich´e l’equazione di verosimiglianza `e
n
1 X
(xi − µ) = 0,
σ2
i=1
¯ n , in
si ricava che lo stimatore di massima verosimiglianza `e µ
ˆ=X
accordo con quanto ottenuto con il metodo dell’analogia.
Se invece µ `e noto, a meno della costante additiva, si ha che
Pn
(xi − µ)2
n
2
2
`(σ ) = − log(σ ) − i=1 2
,
2
2σ
P
da cui si ricava che σ
ˆ 2 = n−1 ni=1 (Xi − µ)2 .
Se sia µ che σ 2 sono ignoti, allora gli stimatori di massima
¯n e
verosimiglianza sono, rispettivamente, la media campionaria X
2
la varianza campionaria S .
♦
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
47/ 130
Propriet`a degli stimatori
Dal momento che uno stimatore `e una statistica campionaria, cio`e
una variabile casuale, la sua distribuzione di probabilit`a sotto θ
sar`a informativa sulla bont`a del procedimento di stima.
In particolare, si vuole indagare se la distribuzione di probabilit`a
campionaria dello stimatore `e, in un certo senso, vicina al
parametro che si vuole stimare.
In alcuni casi, come per la media campionaria e altre statistiche
campionarie di uso comune, la distribuzione di probabilit`a `e nota in
modo esatto o approssimato.
L’obiettivo della stima non `e l’esattezza, ma l’accuratezza, ossia
che l’errore di stima sia usualmente piccolo, al variare del campione
osservato.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
48/ 130
Come misura della precisione di uno stimatore θˆ si pu`o considerare,
se θ `e unidimensionale, l’errore quadratico medio di stima sotto θ,
ˆ = E[(θˆ − θ)2 ].
EQM (θ)
q
ˆ = EQM (θ)
ˆ `e chiamata
La sua radice quadrata positiva se(θ)
errore standard (standard error). Tali quantit`a dipendono dal
parametro θ ignoto e dalla dimensione n del campione.
ˆ = 0 per ogni
Non `e sensato ricercare lo stimatore tale che se(θ)
θ ∈ Θ, che esiste solo in casi banali e non interessanti.
Dati due stimatori θˆ1 e θˆ2 per θ, si preferisce θˆ1 se ha errore
standard uniformemente pi`
u piccolo, cio`e se se(θˆ1 ) ≤ se(θˆ2 ) per
ogni θ ∈ Θ.
` raro che esista uno stimatore con errore standard uniformemente
E
` possibile individuarlo in alcune classi particolari di
minimo. E
stimatori.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
49/ 130
ˆ dipende in genere da θ, che `e ignoto, viene
Poich´e seθ (θ)
ˆ Si ottiene
usualmente stimato sostituendo θ con la sua stima θ.
l’errore standard stimato (estimated standard error)
q
ˆ
se(
ˆ θ) = E(θˆ − θ)2 |θ=θˆ,
ˆ con i dati del campione.
che corrisponde alla valutazione di se(θ)
ˆ
Nelle procedure di stima puntuale si riporta usualmente θˆ e se(
ˆ θ).
Si verifica facilmente che
ˆ = V (θ)
ˆ + [E(θ)
ˆ − θ]2 ,
EQM (θ)
ˆ − θ] corrisponde alla distorsione dello
dove la differenza [E(θ)
stimatore.
Quindi l’errore quadratico medio di stima, ed anche l’errore
standard, tengono conto di due aspetti importanti per valutare la
bont`a di uno stimatore: la sua variabilit`a e la sua distorsione.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
50/ 130
Un stimatore θˆ `e non distorto se
ˆ = θ,
E(θ)
per ogni θ ∈ Θ,
cio`e se il suo valor medio coincide con il vero valore del parametro.
ˆ corrisponde allo scarto quadratico medio di θ.
ˆ
In questo caso, se(θ)
In alcuni contesti si riesce a individuare uno stimatore efficiente fra
i non distorti, cio`e uno stimatore non distorto che presenta errore
standard (e quindi varianza) uniformemente minimo fra tutti gli
stimatori non distorti per θ.
Se uno stimatore con forte distorsione `e di fatto inutile, perch´e
presenta nella generalit`a dei campioni un forte errore sistematico,
pu`o bastare, in pratica, la seguente richiesta pi`
u tenue.
Uno stimatore θˆ `e detto asintoticamente non distorto se al crescere
della dimensione n del campione tende alla non distorsione, cio`e se
lim E(θˆn ) = θ,
n→∞
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
per ogni θ ∈ Θ.
51/ 130
Mentre la distorsione `e una propriet`a desiderabile per uno
stimatore, la propriet`a specificata di seguito costituisce un requisito
necessario, poich´e `e ragionevole supporre che, all’aumentare
dell’informazione campionaria, la conoscenza su θ diventi sempre
pi`
u precisa.
Uno stimatore `e detto consistente per θ se al crescere della
dimensione n del campione produce realizzazioni vicine al vero
valore del parametro con elevata probabilit`a, cio`e se
p
θˆn → θ,
per n → ∞.
Per quanto detto sulla convergenza in probabilit`a, la consistenza
sussiste se lo stimatore `e (almeno) asintoticamente non distorto e
tale che limn→∞ V (θˆn ) = 0.
ˆ tende a
In questo caso, anche l’errore quadratico medio EQM (θ)
zero al crescere della dimensione campionaria.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
52/ 130
Il metodo della massima verosimiglianza fornisce stimatori con
diverse propriet`a desiderabili. Infatti sono usualmente consistenti,
asintoticamente non distorti ed efficienti e con distribuzione
approssimativamente normale. Inoltre, `e semplice ottenere la loro
varianza.
Esempio. Sia X1 , . . . , Xn , n > 2, un campione casuale semplice
da una popolazione N (µ, σ 2 ). Si confrontano i seguenti stimatori
per µ
X1 + X2
¯n, µ
µ
ˆ1 = X
ˆ2 =
.
2
Sono entrambi non distorti, ma µ
ˆ1 `e pi`
u efficiente di µ
ˆ2 essendo
V (ˆ
µ1 ) =
σ2
σ2
≤
= V (ˆ
µ2 ).
n
2
¯ n `e consistente ed ha errore standard se(X
¯ n ) = σ/√n,
Inoltre, X
√
¯n) = σ
mentre l’errore standard stimato `e se(
ˆ X
ˆ / n, con σ
ˆ
un’opportuna stima per σ.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
53/ 130
In presenza di valori anomali, la media campionaria pu`o presentare
problemi di robustezza. Si preferisce allora utilizzare la media
troncata, ottenuta eliminando una opportuna percentuale (piccola)
di dati estremi.
Come stimatori per σ 2 si possono considerare la varianza
campionaria S 2 e la varianza campionaria corretta Sc2 .
Ricordando quanto detto in precedenza, S 2 `e distorto, ma
asintoticamente non distorto, mentre Sc2 `e non distorto. Entrambi
soddisfano la propriet`a della consistenza.
♦
Esempio. Sia X1 , . . . , Xn , un campione casuale semplice da una
popolazione U (0, θ), con θ > 0 ignoto.
Poich´e Xi ∼ U (0, θ), i = 1, . . . , n, si ha che E(Xi ) = µ = θ/2 e
V (Xi ) = σ 2 = θ2 /12.
Applicando il metodo di sostituzione, si ottiene lo stimatore
¯n.
θˆ = 2X
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
54/ 130
Tale stimatore `e non distorto e consistente, infatti
ˆ = 2E(X
¯ n ) = 2 µ = 2 θ = θ,
E(θ)
2
2
2
2
ˆ = 4V (X
¯n) = 4 σ = 4 θ = θ .
V (θ)
n
12 n
3n
Inoltre, per
l’errore standard corrisponde a
q la non distorsione,
√
ˆ = θ/ 3n.
ˆ = V (θ)
se(θ)
♦
Esempio. Controllo di qualit`a (continua). Con riferimento al
problema di controllo della qualit`a presentato in precedenza, sia il
metodo dei momenti che il metodo della massima verosimiglianza
¯n.
individuano come stimatore per p la media campionaria pˆ = X
Tale stimatore `e non distorto, consistente,
p asintoticamente
normale, con errore standard se(ˆ
p) = p(1 − p)/n. Poich´e su
n = 40 oggetti
si rilevano 3 difettosi, si ha che pˆ = 3/40 = 0.075 e
p
se(ˆ
ˆ p) = 0.075(1 − 0.075)/40 = 0.042.
♦
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
55/ 130
Esempio. Web. Si considerano i dati (0, 0, 3, 0, 1, 0, 0, 2, 1, 0, 0, 2),
relativi ad osservazioni ripetute del numero di visite ad un sito web
in un’ora.
I dati campionari sono analizzati come realizzazione di un
campione casuale semplice X1 , . . . , X12 , costituito da variabili
casuali con distribuzione P (λ), con λ > 0 ignoto.
Sia il metodo dei momenti che il metodo della massima
verosimiglianza determinano come stimatore per λ la media
ˆ=X
¯n.
campionaria λ
Tale stimatore `e non distorto, consistente,
p asintoticamente
ˆ = λ/n.
normale, con errore standard se(λ)
P
ˆ
Poich´e np
= 12 e 12
i=1 xi = 9, si ha che λ = 9/12 = 0.75 e
ˆ
se(
ˆ λ) = 0.75/12 = 0.25.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
♦
56/ 130
Intervalli di confidenza
Con le procedure di stima puntuale si ottiene un valore di stima
che quasi certamente non coincide con il vero e ignoto valore del
parametro θ.
Con la stima intevallare (intervalli di confidenza) si cerca di
incorporare nel procedimento di stima una misura di accuratezza.
Il parametro ignoto non viene stimato con un punto, ma con un
sottoinsieme pi`
u ampio dello spazio parametrico Θ, in genere un
intervallo. Il parametro θ si considera unidimensionale.
Esempio. Sia X1 , . . . , X5 un campione casuale semplice da una
popolazione N (µ, 16), con µ ignoto. Poich´e si vuole fare inferenza
su µ, si considera, come statistica campionaria, la media
¯ 5 ∼ N (µ, 16/5).
campionaria X
La media campionaria standardizzata `e una quantit`a pivotale, dal
momento che ha distribuzione N (0, 1), che non dipende dal
parametro ignoto µ.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
57/ 130
Ricordando quanto detto sui quantili di N (0, 1), si ha che, per ogni
µ ∈ R,
¯5 − µ
X
√ ≤ 1.96 = 0.95,
P −1.96 ≤
4/ 5
ovvero, esplicitando il parametro µ,
¯ 5 + 1.96 √4
¯ 5 − 1.96 √4 ≤ µ ≤ X
P X
= 0.95.
5
5
Quindi risultano individuate due statistiche campionarie che
definiscono l’intervallo casuale (aleatorio)
4 ¯
4
¯
X5 − 1.96 √ , X5 + 1.96 √ ,
5
5
che contiene il vero valore del parametro µ, qualunque esso sia,
con probabilit`a 0.95. Tale intervallo `e detto intervallo di confidenza
per µ, con livello di confidenza 0.95.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
58/ 130
Se si osserva il campione (169, 171, 174, 177, 179), si ottiene che
x
¯5 = 174 e l’intervallo di confidenza osservato `e [170.49, 177.51].
` sbagliato affermare che [170.49, 177.51] contiene µ con
E
probabilit`a 0.95. Infatti `e l’intervallo casuale che contiene µ con
probabilit`a 0.95 e quindi si pu`
o solo avere fiducia di aver osservato
un campione che fornisce un intervallo numerico che contiene µ. ♦
Dato il campione casuale X1 , . . . , Xn , un intervallo di confidenza
per θ, con livello di confidenza 1 − α ∈ (0, 1), `e un intervallo
(casuale) [L, U ], con L = L(X1 , . . . , Xn ) e U = U (X1 , . . . , Xn )
statistiche campionarie, tale che, per ogni θ ∈ Θ,
P (L ≤ θ ≤ U ) = 1 − α .
Le statistiche L e U si chiamano limite inferiore e limite superiore
di confidenza, mentre U − L specifica la lunghezza dell’intervallo;
(U − L)/2 si chiama accuratezza dell’intervallo di confidenza.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
59/ 130
In corrispondenza ai dati campionari osservati x1 , . . . , xn , si
determina l’intervallo di confidenza (osservato) [l, u] per θ, con l e
u valori osservati per L e U .
campione
L’interpretazione di [l, u] `e analoga a quella fornita nell’esempio
precedente: se 1 − α = 0.95 e potessimo ripetere l’esperimento
casuale un numero elevato di volte, gli intervalli ottenuti
conterrebbero il vero valore di θ nel 95% dei casi.
!
intervalli di confidenza
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
60/ 130
Nel seguito, non si svilupper`a la teoria degli intervalli (regioni) di
confidenza. Si forniranno delle indicazioni pratiche, utili per la
costruzione di intervalli di confidenza per particolari problemi.
La procedura che verr`a usualmente adottata per definire intervalli
di confidenza per θ richiede
• la definizione di una opportuna statistica campionaria per fare
inferenza su θ (in genere uno stimatore);
• la costruzione, a partire da tale statistica, di una quantit`a
pivotale, la cui distribuzione di probabilit`a non dipende dal
parametro ignoto θ.
In alcuni situazioni, si definiranno quantit`a pivotali approssimate, e
quindi intervalli di confidenza con livello di confidenza
approssimato 1 − α.
In genere, si considerano valori 1 − α pari a 0.9, 0.95, 0.99.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
61/ 130
Intervallo di confidenza per la media di una
popolazione normale
Sia X1 , . . . , Xn un campione casuale semplice da una popolazione
N (µ, σ 2 ), con varianza σ 2 nota; si vuole determinare un intervallo
di confidenza per µ con livello 1 − α.
¯ e, come quantit`a pivotale, la
Si considera la media campionaria X
√n ¯
media campionaria standardizzata n(Xn − µ)/σ ∼ N (0, 1).
Si cercano due costanti reali a e b tali che, per ogni µ ∈ R,
!
¯n − µ
X
P a< p
< b = 1 − α,
σ 2 /n
ovvero, tali che
σ
σ
¯
¯
P Xn − b √ < µ < Xn − a √
= 1 − α.
n
n
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
62/ 130
Per le constanti a e b si scelgono usualmente i valori simmetrici
a = −zα/2 e b = zα/2 , con zα/2 valore critico tale che
P (Z ≥ zα/2 ) = α/2, dove Z ∼ N (0, 1).
Quindi, un intervallo di confidenza per µ con livello 1 − α `e
σ ¯
σ
¯
Xn − zα/2 √ , Xn + zα/2 √ .
n
n
Se la varianza σ 2 `e ignota, si utilizza al suo posto la varianza
campionaria corretta Sc2 e, come quantit`a pivotale, la media
√ ¯
campionaria studentizzata n(X
n − µ)/Sc ∼ t(n − 1).
Quindi, un intervallo di confidenza per µ con livello 1 − α `e
Sc ¯
Sc
¯
Xn − tα/2 √ , Xn + tα/2 √ .
n
n
Al posto di σ si considera Sc e al posto di zα/2 il valore critico tα/2
tale che P (T ≥ tα/2 ) = α/2, dove T ∼ t(n − 1).
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
63/ 130
La densit`a t di Student ha code pi`
u pesanti di quelle della N (0, 1);
l’intervallo di confidenza tende ad essere pi`
u ampio (meno preciso)
del precedente (c’`e maggiore incertezza poich´e si stima σ con Sc ).
Se la dimensione n del campione `e sufficientemente elevata, si pu`o
approssimare tα/2 con zα/2 .
Nel caso in cui σ 2 `e nota, l’intervallo si pu`
o riscrivere come
µ
ˆ − z1−α/2 se(ˆ
µ), µ
ˆ + z1−α/2 se(ˆ
µ) .
Se σ 2 `e ignota, si considera l’errore standard stimato se(ˆ
ˆ µ) e si
sostituisce zα/2 con tα/2 .
In entrambi i casi l’accuratezza dell’intervallo di confidenza, che
√
√
corrisponde a zα/2 σ/ n, se σ 2 `e nota, o a tα/2 Sc / n, se σ 2 `e
ignota, `e tanto migliore quanto pi`
u n `e elevata e σ (o Sc ) `e piccola.
Un aumento del livello di confidenza 1 − α si ottiene solo
aumentando l’ampiezza dell’intervallo di confidenza.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
64/ 130
Esempio. Sia X1 , . . . , X50 un campione casuale semplice di
dimensione n = 50 da una popolazione normale con µ ignoto e
σ 2 = 2.
Nell’ipotesi
che i risultati dell’indagine campionaria siano tali che
P50
i=1 xi = 94.15, si vuole determinare un intervallo di confidenza
per µ con livello 1 − α = 0.9.
P
Poich´e x
¯50 = 50
i=1 xi /50 = 1.883, α/2 = 0.05 e z0.05 = 1.645, si
conclude che
"
√ #
√
2
2
= [1.554, 2.212]
1.883−1.645 √ , 1.883+1.645 √
50
50
`e l’intervallo di confidenza cercato.
♦
Esempio. Sia X1 , . . . , X30 un campione casuale semplice di
dimensione n = 30 da una popolazione normale con µ e σ 2 ignoti.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
65/ 130
Nell’ipotesi
che i risultati
campionaria siano tali che
P30
P30 dell’indagine
2 = 102.27, si cerca un intervallo di
x
=
36.76
e
x
i
i=1
i=1 i
confidenza per µ con livello 1 − α = 0.95.
P
In questo caso, x
¯30 = 30
i=1 xi /30 = 1.225,
30
s2 =
1 X 2
xi − x
¯230 = 1.908,
30
s2c =
i=1
30 2
s = 1.973.
29
Inoltre, α/2 = 0.025 e, considerando un distribuzione t di Student
con 29 gradi di libert`a, t0.025 = 2.045. Quindi, si conclude che
"
#
√
√
1.973
1.973
1.225 − 2.045 √
, 1.225 + 2.045 √
30
30
= [0.701, 1.749]
`e l’intervallo di confidenza cercato.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
♦
66/ 130
Intervallo di confidenza per la media di una
popolazione qualsiasi
Sia X1 , . . . , Xn un campione casuale semplice da una popolazione
non normale con media µ e varianza σ 2 ignote. Si vuole
determinare un intervallo di confidenza per µ con livello 1 − α
Per il Teorema limite centrale, se la numerosit`a campionaria n `e
sufficientemente elevata, si determina, con relativa facilit`a, un
intervallo di confidenza per µ con livello 1 − α approssimato.
¯ n e, come quantit`a pivotale
Si considera la media campionaria X
approssimata, la media campionaria standardizzata
√ ¯
·
n(Xn − µ)/σ ∼ N (0, 1).
Dal momento che σ non `e noto, lo si pu`
o sostituire con
un’opportuno stimatore consistente σ
ˆ e si ottiene l’intervallo di
confidenza
σ
ˆ
σ
ˆ
¯ n − zα/2 √ , X
¯ n + zα/2 √ .
X
n
n
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
67/ 130
Si considerano i seguenti casi interessanti:
• se Xi ∼ Ber(p), i = 1, . . . , n, allora l’intervallo
di confidenza
p
¯n e σ
per µ = p si specifica con pˆ = X
ˆ = pˆ(1 − pˆ);
• se Xi ∼ P (λ), i = 1, . . . , n, allora l’intervallo
p di confidenza
ˆ
ˆ
¯
per µ = λ si specifica con λ = Xn e σ
ˆ = λ.
Per distribuzioni non normali esistono anche metodi pi`
u accurati,
generalmente implementati nei software statistici, che risultano
utili per il calcolo di intervalli di confidenza per la media nel caso
di piccoli campioni.
Esempio. Si vuole studiare l’efficacia di un farmaco per curare una
determinata patologia. Si effettua una sperimentazione su 550
pazienti e si riscontra che in farmaco `e efficace in 393 casi.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
68/ 130
Si vuole determinare un intervallo di confidenza, con livello
1 − α = 0.95 (approssimato), per la frequenza relativa p dei casi in
cui il farmaco `e efficace, con riferimento all’intera popolazione.
Si pu`o ragionevolmente pensare che il campione osservato, di
dimensione n = 550, provenga da una popolazione Ber(p), con p
ignoto.
Quindi, poich´e pˆ = 393/550 = 0.715, α/2 = 0.025 e z0.025 = 1.96,
#
"
√
√
0.715 · 0.285
0.715 · 0.285
√
√
0.715−1.96
, 0.715+1.96
550
550
= [0.677, 0.753]
`e un intervallo di confidenza per p con livello di confidenza
approssimato 0.95.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
♦
69/ 130
Esempio. Si vuole studiare il numero di accessi all’ora ad un sito
web per il commercio elettronico. Si hanno i dati sugli accessi nelle
ultime n = 96 ore, che risultano essere complessivamente 383.
Si vuole determinare un intervallo di confidenza, con livello
1 − α = 0.90 (approssimato), per il numero medio di accessi all’ora.
Si ipotizza che il campione osservato, di dimensione n = 96,
provenga da una popolazione P (λ), con media λ ignota.
ˆ = 383/96 = 3.989, α/2 = 0.05 e z0.05 = 1.645,
Quindi, poich´e λ
"
r
3.989−1.645
3.989
, 3.989+1.645
96
r
3.989
96
#
= [3.65, 4.32]
`e un intervallo di confidenza per λ con livello di confidenza
approssimato 0.90.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
♦
70/ 130
Intervallo di confidenza per la varianza di una
popolazione normale
Sia X1 , . . . , Xn un campione casuale semplice da una popolazione
N (µ, σ 2 ). Si vuole determinare un intervallo di confidenza per σ 2
con livello 1 − α.
Si considera la varianza campionaria S 2 e, come quantit`a pivotale,
la trasformata nS 2 /σ 2 ∼ χ2 (n − 1).
Per ogni σ 2 ∈ R+ , si ha che
P
χ21−α/2
nS 2
≤ 2 ≤ χ2α/2
σ
=P
nS 2
nS 2
≤ σ2 ≤ 2
2
χα/2
χ1−α/2
!
= 1−α,
dove χ21−α/2 e χ2α/2 sono i valori critici tali che, rispettivamente,
P (Y ≥ χ21−α/2 ) = 1 − α/2 e P (Y ≥ χ2α/2 ) = α/2, essendo
Y ∼ χ2 (n − 1).
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
71/ 130
Quindi, un intervallo di confidenza per σ 2 con livello 1 − α `e
"
#
nS 2 nS 2
,
.
χ2α/2 χ21−α/2
Il medesimo intervallo si pu`
o ottenere considerando la varianza
campionaria corretta Sc2 e, come quantit`a pivotale, la trasformata
(n − 1)Sc2 /σ 2 ∼ χ2 (n − 1). Pi`
u precisamente, si ottiene l’intervallo
#
"
(n − 1)Sc2 (n − 1)Sc2
,
,
χ2α/2
χ21−α/2
che coincide con il precedente.
I molti contesti applicativi, la varianza σ 2 `e una quantit`a
importante da studiare. Ad esempio, nel controllo di qualit`a, la
conformit`a del processo produttivo `e direttamente legata alla sua
variabilit`a.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
72/ 130
Esempio. Sia X1 , . . . , X30 un campione casuale semplice di
dimensione n = 30 da una popolazione normale con µ e σ 2 ignoti.
L’indagine
campionaria
i seguenti risultati
P30
P30fornisce
2 = 102.27. Si vuole determinare un
x
=
36.76
e
x
i=1 i
i=1 i
intervallo di confidenza per σ 2 con livello 1 − α = 0.95.
P
In questo caso, x
¯30 = 30
i=1 xi /30 = 1.225 e
30
s2 =
1 X 2
xi − x
¯230 = 1.908.
30
i=1
Inoltre, α/2 = 0.025 e, considerando un distribuzione χ2 (29), si ha
che χ21−0.025 = χ20.975 = 16.047 e χ20.025 = 45.722. Quindi, si
conclude che
30 · 1.908 30 · 1.908
,
= [1.252, 3.567]
45.722
16.047
`e l’intervallo di confidenza cercato.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
♦
73/ 130
Test statistici per la verifica di ipotesi
Con le procedure di verifica di ipotesi si vuole verificare, sulla base
dell’osservazione campionaria e del modello statistico, se una certa
congettura o ipotesi sulla popolazione (fenomeno) oggetto di
indagine sia accettabile o meno.
Si `e propensi ad accettare l’ipotesi se essa `e in accordo con i dati
campionari osservati x.
Nell’ambito dell’inferenza statistica parametrica, l’ipotesi
(statistica) `e una affermazione o una congettura sul parametro
ignoto θ.
L’ipotesi `e semplice se specifica in modo completo la popolazione
(il processo generatore dei dati); ad esempio, θ = 3.
L’ipotesi `e composta se non specifica in modo completo la
popolazione (il processo generatore dei dati); ad esempio, θ > 3,
θ < 3, θ 6= 3.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
74/ 130
Il test statistico `e un procedimento che consente di rifuitare o non
rifiutare (e quindi accettare) un’ipotesi statistica.
La decisione dipende dalla discrepanza, pi`
u o meno accentuata,
che si rileva tra quanto ci si attende sulla base dell’ipotesi
formulata e quanto si osserva nel campione.
L’ipotesi sottoposta a verifica viene chiamata ipotesi nulla; nel
seguito si considereranno ipotesi nulle semplici del tipo
H0 : θ = θ0
dove θ0 un valore fissato dello spazio parametrico.
L’ipotesi nulla `e, in genere, un’assunzione semplificatrice sul
modello statistico o che descrive le conoscenze attuali sulla
popolazione (fenomeno) oggetto di indagine.
In alcuni contesti, l’ipotesi nulla viene formulata sulla base di
specifiche richieste, come ad esempio, definizioni contrattuali,
obiettivi di qualit`a, ecc.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
75/ 130
Congetture non contemplate da H0 costituiscono l’ipotesi
alternativa H1 . Nel seguito si considerano i seguenti casi:
• H1 : θ > θ0 , detta alternativa unilaterale destra;
• H1 : θ < θ0 , detta alternativa unilaterale sinistra;
• H1 : θ 6= θ0 , detta alternativa bilaterale.
Tipicamente interessa provare l’inaccettabilit`a di H0 a favore di
H1 , ammettendo una certa quota di errore; in questo caso si dice
che il test `e significativo (contro H0 ).
La conclusione di un test statistico, che porta ad non rifiutare
l’ipotesi nulla o a rifiutarla a favore dell’alternativa, contempla la
possibilit`a di errore.
Non si dice nulla circa la verit`a o falsit`a di H0 , si afferma
unicamente che l’ipotesi risulta pi`
u o meno ragionevole, alla luce
dei dati e del modello statistico.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
76/ 130
Esempio. Dalle pubblicazioni dell’ISTAT si ricava che nella
regione Friuli Venezia-Giulia nel 1991 si sono registrati 9127 nati
vivi, di cui 4608 maschi e 4519 femmine.
Si assume che il numero di maschi osservati nelle 9127 nascite sia
descritto una variabile casuale Bi(9127, p), con p la probabilit`a che
il nascituro sia maschio.
Sulla base dei dati e del modello, si vuole verificare l’ipotesi che ci
sia equiprobabilit`a tra i sessi alla nascita: H0 : p = 1/2.
♦
Esempio. Si vuole indagare se un nuovo antipiretico sia pi`
u
efficace del migliore attualmente in commercio: H0 traduce
l’ipotesi che l’efficacia dei due prodotti sia equivalente, mentre H1
attribuisce maggiore efficacia al nuovo prodotto.
Si `e interessati a verificare se, alla luce del campione osservato,
pu`o essere ragionevole abbandonare l’ipotesi H0 a favore di H1 . ♦
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
77/ 130
Esempio. Batterie. Una industria produce batterie elettriche con
durata media dichiarata di µ = 36 mesi. L’acquirente vuole
accertarsi che la durata media non sia pi`
u bassa di quella
dichiarata. Si osserva la durata di n = 40 batterie.
Si considera, di fatto, un campione casuale semplice X1 , . . . , X40
da una popolazione N (µ, σ 2 ), con media µ ignota e varianza
σ 2 = 9 supposta nota.
L’acquirente vuole verificare l’ipotesi H0 : µ = 36 contro
l’alternativa, per lui sfavorevole, H1 : µ < 36.
Dal momento che si vuole fare inferenza su µ, si considera, come
¯ 40 : se si osservano
statistica campionaria, la media campionaria X
¯
valori piccoli per X40 si `e portati a rifiutare H0 .
Anche se questa procedura di decisione sembra condivisibile, non `e
chiaro il significato concreto dell’espressione valori piccoli.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
78/ 130
Si pu`o pensare di definire una soglia critica c ≤ 0,√in modo tale da
¯ 40 − 36)/(3/ 40) ≤ c, cio`e se
rifiutare H0 se si verifica l’evento (X
¯ 40 `e significativamente pi`
il valore osservato di X
u piccolo di 36.
Si determina c di modo che risulti fissata ad un valore
sufficientemente piccolo, ad esempio α = 0.05, la probabilit`a di
rifiutare H0 , se `e vera, cio`e
¯
X40 − 36
√
≤ c = 0.05,
P0
3/ 40
dove P0 indica la probabilit`a sotto H0 , cio`e nell’ipotesi che µ = 36.
√
¯ 40 − 36)/(3 40) ∼ N (0, 1), si conclude che
Poich´e, sotto H0 , (X
c = −z0.05 = −1.645, con z0.05 il valore critico di livello 0.05.
√
Quindi, se si osserva x
¯40 = 35, si ha (¯
x40 − 36)/(3/ 40) = −2.11
e si rifiuta H0 a favore di H1 . Si tollera una probabilit`a di rifiutare
erroneamente H0 pari a 0.05.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
79/ 130
In alternativa, avendo osservato x
¯40 = 35, si pu`
o essere interessati
a valutare se questo risultato campionario risulta in accordo con
l’ipotesi nulla.
A tal fine si potrebbe calcolare la probabilit`a che si verifichi un
evento uguale a quello osservato, o anche pi`
u a favore di H1 ,
quando l’ipotesi H0 `e vera; pi`
u precisamente,
¯
X40 − 36
35 − 36
¯
√
√
P0 (X40 ≤ 35) = P0
≤
3/ 40
3/ 40
= P0 (Z ≤ −2.11) = 0.017,
essendo Z ∼ N (0, 1).
Quindi, nonostante l’apparenza, il valore x
¯40 = 35 `e un valore
¯ 40 , se fosse vera H0 .
anomalmente piccolo per X
C’`e una bassa conformit`a tra il campione osservato e l’ipotesi
nulla, nella direzione dell’ipotesi alternativa.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
♦
80/ 130
Nel seguito, non si svilupper`a la teoria della verifica di ipotesi. Si
forniranno delle indicazioni pratiche, utili per la costruzione di test
di ipotesi per particolari problemi statistici.
Dato un campione casuale (semplice) X1 , . . . , Xn e le ipotesi H0 e
H1 , riferite al parametro ignoto θ, si chiama statistica test una
statistica campionaria T = t(X1 , . . . , Xn ) che permette di
evidenziare se sia pi`
u ragionevole non rifiutare H0 o rifiutare H0 in
favore di H1 .
In genere, si sceglie come statistica test uno stimatore per θ (o una
sua trasformata) per il quale risulta nota, in forma esatta o
approssimata, la distribuzione di probabilit`a (per lo meno sotto
H0 ).
Come detto in precedenza, un test statistico non una procedura
libera da errori. Si possono individuare due tipi di errore.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
81/ 130
• rifiutare H0 quando `e vera: errore di I tipo;
• non rifiutare H0 quando `e falsa: errore di II tipo.
Rifiuto H0
Accetto H0
H0 vera
Errore I tipo
OK
H1 vera
OK
Errore II tipo
Le probabilit`a di commettere i due tipi di errore sono indicate,
rispettivamente, con α e β:
α = P (errore di I tipo) = P (rifiutare H0 quando `e vera)
β = P (errore di II tipo) = P (non rifiutare H0 quando `e falsa).
La probabilit`a 1 − α di non rifiutare H0 quando `e vera `e detta
livello di protezione del test, mentre la probabilit`a 1 − β di rifiutare
H0 quando `e falsa `e detta potenza del test.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
82/ 130
Le probabilit`a α e β sono interdipendenti e non `e possibile
minimizzarle contemporaneamente.
In genere, si fissa la probabilit`a d’errore di I tipo α, detta livello di
significativit`a (ad esempio, α = 0.1, 0.05, 0.01, 0.001), e si cerca il
test che, a parit`a di α, presenta potenza 1 − β pi`
u elevata. A
parit`a di altre condizioni, la potenza cresce con n.
La procedura che verr`a usualmente adottata per definire un test
statistico per l’ipotesi nulla H0 : θ = θ0 `e la seguente:
• si individua una opportuna statistica test T , per la quale
risulta nota, in forma esatta o approssimata, la distribuzione
di probabilit`a sotto H0 ;
• si fissa il livello di significativit`a α;
• tenendo conto di tale vincolo su α, si individuano le regioni di
rifiuto (regione critica) Rα e di accettazione Aα per H0 ;
• se il valore osservato toss di T `e in Rα (Aα ) si rifiuta (non si
rifiuta) H0 . In caso di rifiuto il test `e detto significativo al
100α%.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
83/ 130
Si considerano i seguenti casi:
1) H1 : θ > θ0 (alternativa unilaterale destra)
Se valori grandi per T non sono conformi all’ipotesi nulla H0 , nella
direzione di H1 , la regione di rifiuto sar`a
Rα = {t ∈ ST : t ≥ cα },
con cα tale che P0 (T ≥ cα ) = α.
2) H1 : θ < θ0 (alternativa unilaterale sinistra)
Se valori piccoli per T non sono conformi all’ipotesi nulla H0 , nella
direzione di H1 , la regione di rifiuto sar`a
Rα = {t ∈ ST : t ≤ dα },
con dα tale che P0 (T ≤ dα ) = α.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
84/ 130
3) H1 : θ 6= θ0 (alternativa bilaterale)
Se sia valori piccoli che valori grandi per T non sono conformi
all’ipotesi nulla H0 , nella direzione di H1 , la regione di rifiuto sar`a
Rα = {t ∈ ST : t ≤ dα/2 oppure t ≥ cα/2 },
con dα/2 tale che P0 (T ≤ dα/2 ) = α/2 e cα/2 tale che
P0 (T ≥ cα/2 ) = α/2.
Le regioni di accettazione Aα si individuano in modo speculare.
Rα e Aα determinano una partizione del supporto ST della
statistica test T e individuano la soglia o le soglie critiche, per i
valori osservati di T , oltre le quali si rifiuta H0 .
Nel caso 1) e nel caso 2) il test `e detto, rispettivamente, test
unilaterale destro e sinistro di livello α, mentre nel caso 3) si parla
di test bilaterale di livello α.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
85/ 130
Non `e sempre soddisfacente concludere la procedura di verifica di
ipotesi con un semplice rifiuto o non rifiuto dell’ipotesi nulla. Per
motivare tale decisione pu`
o essere utile specificare la forza del
risultato ottenuto.
Si pu`o quindi cercare di quantificare il grado di conformit`a tra i
dati campionari e l’ipotesi nulla.
Si definisce livello di significativit`a osservato (P-value) il pi`
u
oss
piccolo livello di significativit`a, indicato con α , che conduce al
rifiuto di H0 .
Considerando i tre casi analizzati precedenza, indicato con toss il
valore osservato di T , si ha che:
se 1) H1 : θ > θ0 allora αoss = P0 (T ≥ toss );
se 2) H1 : θ < θ0 allora αoss = P0 (T ≤ toss );
se 3) H1 : θ 6= θ0 allora αoss = 2 min{P0 (T ≤ toss ), P0 (T ≥ toss )}.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
86/ 130
Quindi, αoss corrisponde alla probabilit`a che si verifichi un evento
uguale a quello osservato, o anche pi`
u a favore di H1 , quando
l’ipotesi H0 `e vera.
Ovviamente, αoss ∈ [0, 1] e, se si osserva un valore per αoss vicino
a zero, allora l’osservazione toss risulta anomala per T se fosse vera
H0 (ci`o indica una scarsa conformit`a tra dati e H0 ).
Usualmente, avendo a disposizione il livello di significativit`a
osservato, si fanno le seguenti considerazioni:
• se αoss ≤ 0.01, si rifiuta H0 con sicurezza;
• se 0.01 < αoss ≤ 0.05, si rifiuta H0 con riserva;
• se 0.05 < αoss ≤ 0.10, c’`e incertezza sulla decisione;
• se αoss > 0.10, non si rifiuta H0 .
In ogni caso, la decisione finale sar`a sempre basata anche su
considerazioni legate al contesto applicativo.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
87/ 130
Per campioni di dimensione elevata la decisione di rifiutare H0 si
considera solo se αoss `e decisamente piccolo, ad esempio se
αoss ≤ 0.01.
Il calcolo del livello di significativit`a osservato, in molti casi, non `e
agevole, ma viene fornito automaticamente dalle procedure di
verifica di ipotesi implementate nei pacchetti statistici.
Considerando il livello di significativit`a osservato, `e possibile
specificare la seguente regola di decisione tra H0 e H1 , che risulta
equivalente alla precedente, basata sulla regione di rifiuto.
Avendo fissato il livello di significativit`a α e calcolato il livello di
significativit`a osservato αoss ,
• se αoss ≤ α, allora toss ∈ Rα e si rifiuta H0 ;
• se αoss > α, allora toss ∈ Aα e non si rifiuta H0 .
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
88/ 130
Esempio. Batterie (continua). Avendo osservato una media
campionaria x
¯n = 35 ci si chiede se la differenza con µ = 36
(ipotesi nulla) `e abbastanza elevata da portare al rifiuto di H0 .
Poich´e l’alternativa H1 `e sinistra, il P-value corrisponde a
¯ n ≤ 35|H0 ) = 0.017 ed `e l’area tratteggiata nel grafico
αoss = P (X
di sinistra.
Se α = 0.05, che `e l’area tratteggiata nel grafico di destra, si
individua come soglia di rifiuto (inferiore) il valore 35.22.
0.8
0.4
0.0
0.0
0.4
0.8
Entrambe le regole di decisione portano al rifiuto di H0 .
34.5
35.5
36.5
37.5
●
34.5
35.5
36.5
37.5
♦
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
89/ 130
Verifica di ipotesi per la media di una popolazione
normale
Sia X1 , . . . , Xn un campione casuale semplice da una popolazione
N (µ, σ 2 ), con varianza σ 2 nota. Dato un valore µ0 per la media, si
vuole verificare l’ipotesi nulla
H0 : µ = µ0
ad un livello di significativit`a α fissato. La statistica test `e la media
campionaria standardizzata
Z=
¯ n − µ0
X
√
σ/ n
che, sotto H0 , ha distribuzione N (0, 1). Il test si chiama test z.
La regione di rifiuto Rα si determina considerando il vincolo α sulla
probabilit`a dell’errore di I tipo e corrisponde a valori per Z che
sono sintomo di allontanamento da H0 nella direzione di H1 .
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
90/ 130
Si considerano i seguenti casi:
1) H1 : µ > µ0 (alternativa unilaterale destra)
Poich´e valori grandi per Z non sono conformi all’ipotesi nulla H0 ,
nella direzione di H1 , si ha che
Rα = {z ∈ R : z ≥ zα },
con zα valore critico tale che P0 (Z ≥ zα ) = α.
2) H1 : µ < µ0 (alternativa unilaterale sinistra)
Poich´e valori piccoli per Z non sono conformi all’ipotesi nulla H0 ,
nella direzione di H1 , si ha che
Rα = {z ∈ R : z ≤ −zα },
con zα valore critico tale che P0 (Z ≥ zα ) = α, per la simmetria
della funzione di densit`a normale.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
91/ 130
3) H1 : µ 6= µ0 (alternativa bilaterale)
Poich´e sia valori grandi che valori piccoli per Z non sono conformi
all’ipotesi nulla H0 , nella direzione di H1 , si ha che
Rα = {z ∈ R : z ≤ −zα/2 o z ≥ zα/2 } = {z ∈ R : | z |≥ zα/2 },
con zα/2 valore critico tale che P0 (Z ≥ zα/2 ) = α/2.
In tutti e tre i casi si ha che P (rifiutare H0 `e vera) = α e Rα `e
data da valori riferiti alla/e coda/e della distribuzione di probabilit`a
di Z sotto H0 (poco probabili se H0 `e vera). Per il caso 3) si ha
! z1!"
2
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
0
z1!"
2
92/ 130
` possibile determinare il livello di significativit`a osservato
E
(P-value), con riferimento alle tre tipologie di ipotesi alternativa.
Essendo z oss il valore osservato della statistica test Z, si ha che:
se 1) H1 : µ > µ0 , αoss = P0 (Z ≥ z oss ) = 1 − Φ(z oss );
se 2) H1 : µ < µ0 , αoss = P0 (Z ≤ z oss ) = Φ(z oss );
se 3) H1 : µ 6= µ0 , αoss = P0 (| Z |≥ z oss ) = 2[1 − Φ(| z oss |)].
Esempio. Contenitori. Si desidera valutare la resistenza alla
pressione interna di una certa tipologia di contenitori di vetro. In
particolare si vuole verificare se la resistenza media supera 175 psi.
Per tale fenomeno `e ragionevole assumere il modello N (µ, σ 2 ),
dove, sulla base di esperienze precedenti, si pone σ 2 = 100. Il
sistema di ipotesi che si considera `e
H0 : µ = 175 vs
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
H1 : µ > 175
93/ 130
Viene selezionato un campione casuale semplice di n = 25
contenitori che vengono sottoposti a pressione idrostatica fino alla
rottura, al fine di misurarne la resistenza.
Si ottiene una pressione media di x
¯25 = 182, e pertanto
z=
x
¯25 − 175
√
= 3.50 .
10/ 25
Avendo fissato α = 0.05, si ottiene z0.05 = 1.645, quindi si rifiuta
H0 essendo 3.50 > 1.645. Si dice quindi che il test `e risultato
significativo contro H0 ad un livello di significativit`a α = 0.05.
Il P-value corrisponde a
αoss = 1 − Φ(3.50) = 0.00023;
quindi si rifiuta H0 con sicurezza, poich´e i dati evidenziano un
accordo molto scarso con l’ipotesi nulla.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
♦
94/ 130
Esempio. Bilancia. Si vuole verificare se una bilancia `e stata
calibrata di modo tale che, in media, fornisca il vero valore del
peso dell’oggetto che si considera.
Si considera un peso di 25 gr e si assume che una generica pesata
sia descritta da una variabile casuale N (µ, σ 2 ); `e nota la precisione
della bilancia, che corrisponde ad una varianza σ 2 = 45
Si effettuano n = 10 pesate e si ottiene x
¯10 = 22. Il sistema di
ipotesi che si considera `e
H0 : µ = 25 vs
H1 : µ 6= 25
e si assume un livello di significativit`a α = 0.05. In questo caso,
α/2 = 0.025, z0.025 = 1.96 e R0.05 = {z ∈ R : | z√|≥ 1.96}, e il
valore della statistica test `e z = (22 − 25)/(6.71/ 10) = −1.41.
Quindi l’ipotesi H0 non viene rifiutata. Tuttavia il grado di
conformit`a tra H0 e i dati non `e molto alto dal momento che
αoss = 2[1 − Φ(| −1.41 |)] = 0.157.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
♦
95/ 130
Se la varianza σ 2 `e ignota, si utilizza al suo posto la varianza
campionaria corretta Sc2 e si considera, come statistica test, la
media campionaria studentizzata
T =
¯ n − µ0
X
√ ,
Sc / n
che, sotto H0 , ha distribuzione t(n − 1). Il test `e detto test t.
Fissato il livello di significativit`a α e indicato con t un generico
valore per T , per la regione di rifiuto si evidenziano i seguenti casi:
se 1) H1 : µ > µ0 , Rα = {t ∈ R : t ≥ tα };
se 2) H1 : µ < µ0 , Rα = {t ∈ R : t ≤ −tα };
se 3) H1 : µ 6= µ0 , Rα = {t ∈ R : | t |≥ tα/2 },
con tα e tα/2 valori critici associati alla distribuzione t(n − 1).
I P-value si ottengono come nel caso di varianza nota, sostituendo
Φ(·) con la funzione di ripartizione di una t(n − 1).
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
96/ 130
Esempio. Spese mediche. Sulla base dell’esperienza passata si
assume che l’importo in euro delle spese mediche per famiglia in
un mese segue una distribuzione N (66, σ 2 ), con σ 2 ignota.
Si considerano le spese mensili di un campione casuale semplice di
n = 56 famiglie e si osserva una spesa media di x
¯56 = 60 euro, con
2
sc = 19.36.
Per valutare se la spesa media sia effettivamente diminuita si
definisce il sistema di ipotesi `e
H0 : µ = 66 vs
H1 : µ < 66.
Essendo ignota la varianza, si considera un test t con un livello di
significativit`a α = 0.05. In questo caso, considerando la
distribuzione t(55), t0.05 = 1.67 e R0.05 = {t ∈ R
√ : t ≤ −1.67}; il
valore della statistica test `e t = (60 − 66)/(4.4/ 56) = −10.20.
Quindi l’ipotesi H0 viene rifiutata. Il grado di conformit`a tra H0 e i
dati `e molto scarso, infatti αoss = FT (−10.2) = 1.37 · 10−14 .
♦
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
97/ 130
Esempio. Bilancia (continua). Si considera un problema analogo
al precedente, con l’unica differenza che la varianza σ 2 `e ignota.
Si
effettuano le n = 10 misurazioni e si osserva x
¯10 = 22 e
P10
2 /10 = 526.4. Si ha
x
i=1 i
H0 : µ = 25 vs
H1 : µ 6= 25
e si assume un livello di significativit`a α = 0.05. Poich´e
10
1 X
s =
xi − x
¯210 = 42.4,
10
2
i=1
s2c =
10 2
s = 47.11,
9
√
il valore della statistica test `e t = (22 − 25)/(6.86/ 10) = −1.38.
In questo caso, considerando una distribuzione t(9), t0.025 = 2.262
e R0.05 = {t ∈ R : | t |≥ 2.262}; l’ipotesi H0 non viene rifiutata.
Tuttavia il grado di conformit`a tra H0 e i dati non `e molto alto dal
momento che αoss = 2[1 − FT (| −1.38 |)] = 0.20.
♦
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
98/ 130
Verifica di ipotesi per la media di una popolazione
qualsiasi
Sia X1 , . . . , Xn un campione casuale semplice da una popolazione
non normale con media µ. Si vuole verificare l’ipotesi nulla
H0 : µ = µ0 ,
ad un livello di significativit`a α fissato.
Per il Teorema limite centrale, se la numerosit`a campionaria n `e
sufficientemente elevata, si determina, con relativa facilit`a, un test
per µ con livello di significativit`a α approssimato.
Come statistica test si considera la media campionaria
standardizzata
¯ n − µ0
X
√
Z=
σ/ n
che, sotto H0 , ha distribuzione approssimata N (0, 1). Se il valore
di σ non `e noto sotto H0 , lo si pu`
o stimare con σ
ˆ.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
99/ 130
La regione di rifiuto e il livello di significativit`a osservato
(approssimato) si definiscono come nel caso del test sulla media di
una popolazione normale con varianza nota.
Si considerano i seguenti casi interessanti:
• se Xi ∼ Ber(p), i = 1, . . . , n, allora H0 : p = p0 e la
statistica test perp
la media p si specifica con p0 = µ0 ,
¯ n = e σ = p0 (1 − p0 ) (test su una proporzione);
pˆ = X
• se Xi ∼ P (λ), i = 1, . . . , n, allora H0 : λ = λ0 e la statistica
ˆ
¯
test per
√ la media λ si specifica con λ0 = µ0 , λ = Xn e
σ = λ0 .
Per distribuzioni non normali esistono anche metodi pi`
u accurati,
generalmente implementati nei software statistici, che risultano
utili per il calcolo di test sulla media nel caso di piccoli campioni.
` noto che il 20% dei possessori di
Esempio. Carta di credito. E
carta di credito la utilizza abitualmente per gli acquisti.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
100/ 130
Dopo una campagna mirata a pubblicizzare l’uso della carta di
credito, in un campione di 120 individui, 36 dichiarano di utilizzarla
per gli acquisti. Ci si chiede se la campagna pubblicitaria ha
modificato la proporzione iniziale di utilizzatori.
Il campione osservato, di dimensione n = 120, proviene da una
popolazione Ber(p), con p ignoto. Si considerano le ipotesi
H0 : p = 0.2
vs
H1 : p 6= 0.2
con un livello di significativit`
p a (approssimato) α = 0.05. In questo
caso, pˆ = 37/120 = 0.3, p0 (1 − p0 ) = 0.4, z0.025 = 1.96 e
R0.05 = {z ∈ R : | z |≥√1.96}, mentre il valore della statistica test
`e z = (0.3 − 0.2)/(0.4/ 120) = 2.74.
Quindi l’ipotesi H0 viene rifiutata e il test risulta significativo al
livello (approssimato) α = 0.05. Il livello di significativit`a osservato
.
(approssimato) `e αoss = 2[1 − Φ(| 2.74 |)] = 0.006.
♦
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
101/ 130
Esempio. Chip. La direzione di un reparto produttivo afferma che
il numero medio di circuiti integrati difettosi prodotti ogni giorno `e
pari a 25, ma l’osservazione di un campione casuale semplice,
relativo a n = 75 giorni, ha registrato un totale di 2204 chip
difettosi.
Si utilizza il modello P (λ) per descrivere il numero giornaliero di
chip difettosi e si considerano le ipotesi
H0 : λ = 25 vs
H1 : λ > 25
con un livello di significativit`a√(approssimato) α = 0.01. In questo
ˆ = 2204/75 = 29.39, λ0 = 5, z0.01 = 2.33 e la regione di
caso, λ
rifiuto `e R0.01 = {z ∈ R : z ≥ 2.33},√mentre il valore della
statistica test `e z = (29.39 − 25)/(5/ 75) = 7.60.
Quindi l’ipotesi H0 viene rifiutata e il test risulta significativo al
livello (approssimato) α = 0.01. Il livello di significativit`a osservato
.
(approssimato) `e αoss = 1 − Φ(7.60) = 1.48 · 10−14 .
♦
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
102/ 130
Esempio. Lampadina. La durata in ore di un certo tipo di
lampadine pu`o essere descritta dal modello Esp(λ). L’esperienza
passata indica che λ = 0.005, cio`e che la durata media `e µ = 200.
Considerando un campione casuale semplice di dimensione n = 70,
si ottiene una durata media osservata di x
¯70 = 249.5. Si desidera
verificare le ipotesi
H0 : µ = 200 vs
H1 : µ > 200
con un livello di significativit`a (approssimato) α = 0.01. In questo
caso, sotto H0 , σ = µ0 = 200, z0.01 = 2.33 e la regione di rifiuto `e
R0.01 = {z ∈ R : z ≥ 2.33}
√ , mentre il valore della statistica test
`e z = (249.5 − 200)/(200/ 70) = 2.07.
Quindi l’ipotesi H0 non viene rifiutata. Tuttavia il grado di
conformit`a tra H0 e i dati `e basso, infatti il livello di significativit`a
.
osservato (approssimato) `e αoss = 1 − Φ(2.07) = 0.02, valore
leggermente superiore a α = 0.01.
♦
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
103/ 130
Verifica di ipotesi per la varianza di una popolazione
normale
Sia X1 , . . . , Xn un campione casuale semplice da una popolazione
N (µ, σ 2 ). Dato un valore σ02 per la varianza, si vuole verificare
l’ipotesi nulla
H0 : σ 2 = σ02
ad un livello di significativit`a α fissato. La statistica test `e la
varianza campionaria S 2 , opportunamente modificata,
K=
nS 2
σ02
che, sotto H0 , ha distribuzione χ2 (n − 1).
La regione di rifiuto Rα si determina considerando il vincolo α sulla
probabilit`a dell’errore di I tipo e corrisponde a valori per K che
sono sintomo di allontanamento da H0 nella direzione di H1 .
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
104/ 130
Si considerano i seguenti casi:
1) H1 : σ 2 > σ02 (alternativa unilaterale destra)
Poich´e valori grandi per K non sono conformi all’ipotesi nulla H0 ,
nella direzione di H1 , si ha che
Rα = {k ∈ R+ : k ≥ χ2α },
con χ2α valore critico tale che P0 (K ≥ χ2α ) = α.
2) H1 : σ 2 < σ02 (alternativa unilaterale sinistra)
Poich´e valori piccoli per K non sono conformi all’ipotesi nulla H0 ,
nella direzione di H1 , si ha che
Rα = {k ∈ R+ : k ≤ χ21−α },
con χ21−α valore critico tale che P0 (K ≥ χ21−α ) = 1 − α.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
105/ 130
3) H1 : σ 2 6= σ02 (alternativa bilaterale)
Poich´e sia valori grandi che valori piccoli per K non sono conformi
all’ipotesi nulla H0 , nella direzione di H1 , si ha che
Rα = {k ∈ R+ : k ≤ χ21−α/2 o k ≥ χ2α/2 },
con χ2α/2 e χ21−α/2 valori critici tali che P0 (K ≥ χ2α/2 ) = α/2 e
P0 (K ≥ χ21−α/2 ) = 1 − α/2.
Si noti che, a differenza dei test sulla media, nel caso di alternativa
bilaterale non `e possibile determinare i valori critici invocando la
simmetria della distribuzione di probabilit`a della statistica test.
La statistica test si pu`
o ottenere partendo anche dalla varianza
campionaria corretta Sc2 , infatti
K=
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
(n − 1)Sc2
.
σ02
106/ 130
` possibile determinare il livello di significativit`a osservato
E
(P-value), con riferimento alle tre tipologie di ipotesi alternativa.
Essendo k oss il valore osservato della statistica test K, si ha che:
se 1) H1 : σ 2 > σ02 , αoss = P0 (K ≥ k oss ) = 1 − FK (k oss );
se 2) H1 : σ 2 < σ02 , αoss = P0 (K ≤ k oss ) = FK (k oss );
se 3) H1 : σ 2 6= σ02 , poich´e K non ha densit`a simmetrica,
αoss = 2 min {FK (k oss ), 1 − FK (k oss )} ,
con FK (·) la funzione di ripartizione di una χ2 (n − 1).
Esempio. Nell’ambito di un processo produttivo, si vuole studiare
la quantit`a, in Kg, di sottoprodotti di una certa reazione chimica in
presenza di un catalizzatore. Se il catalizzatore `e attivo, la quantit`a
di sottoprodotti `e descritta da una N (µ, 3.83), con µ ignoto.
Si osservano le quantit`a prodotte in n = 13 reazioni chimiche,
considerando un catalizzatore esaurito. Si vuole verificare
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
107/ 130
H0 : σ 2 = 3.83 vs
H1 : σ 2 6= 3.83
con un livello di significativit`a α = 0.05.
P
2
Dai dati si ricava che x
¯13 = 12.4 e 13
i=1 xi /13 = 161.02, quindi
13
1 X
s =
xi − x
¯213 = 7.26.
13
2
i=1
Poich´e α/2 = 0.025 e, con riferimento a una distribuzione χ2 (12),
χ21−0.025 = 4.404 e χ20.025 = 23.337, si ottiene la regione di rifiuto
Rα = {k ∈ R+ : k ≤ 4.404 o k ≥ 23.337}.
Il valore della statistica test `e k = 13 · 7.26/3.83 = 24.64 e l’ipotesi
H0 viene rifiutata. Il P-value `e
αoss = 2 min {FK (24.64), 1 − FK (24.64)} = 0.033,
essendo K ∼ χ2 (12). Un catalizzatore esaurito modifica σ 2 .
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
♦
108/ 130
Test per il confronto tra medie di popolazioni
normali
Quando si hanno due o pi`
u campioni, ci si pu`
o chiedere se
provengono dalla stessa popolazione o, in particolare, se
provengono da popolazioni che hanno qualche caratteristica simile.
Si presenteranno alcuni test di ipotesi che permettono di
confrontare valori di sintesi calcolati su due o pi`
u campioni.
L’obiettivo `e fare inferenza sulla differenza tra parametri delle
corrispondenti popolazioni, quali ad esempio, medie, varianze e
proporzioni.
Esempio. Inquinamento. Per confrontare, in media, l’efficacia di
due diverse metodiche, A e B, per contenere l’inquinamento
atmosferico si sono analizzati i fumi prodotti da una certa industria.
Si `e misurata la quantit`a di pulviscolo inquinante in g/min, con
riferimento a due campioni indipendenti di fumi, ottenuti
utilizzando, rispettivamente, il dispositivo anti-inquinante A e B. ♦
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
109/ 130
Siano date due popolazioni normali indipendenti con distribuzione
di probabilit`a N (µ1 , σ12 ) e N (µ2 , σ22 ), con varianze note.
Si estraggono due campioni casuali semplici di dimensione n1 e n2
dalla prima e dalla seconda popolazione, rispettivamente.
Si vuole verificare l’ipotesi che le due popolazioni abbiano la stessa
media e quindi si considera l’ipotesi nulla
H0 : µ1 = µ2
(µ1 − µ2 = 0)
ad un livello di significativit`a α fissato. La statistica test `e la
¯1 e X
¯ 2 , calcolate sui due
differenza tra le medie campionarie X
campioni, opportunamente standardizzata,
¯1 − X
¯2
X
Z=p 2
σ1 /n1 + σ22 /n2
che, sotto H0 , ha distribuzione N (0, 1).
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
110/ 130
La regione di rifiuto Rα e il P-value, in corrispondenza alle varie
tipologie di ipotesi alternativa, coincidono con quelli individuati per
la verifica di ipotesi sulla media di una popolazione normale.
Se le varianze sono ignote e uguali (omoschedasticit`a), la statistica
test `e la differenza tra le medie campionarie studentizzata,
¯1 − X
¯2
X
T =q
Sp2 (1/n1 + 1/n2 )
che, sotto H0 , ha distribuzione t(n1 + n2 − 1). Per la varianza
comune σ 2 = σ12 = σ22 si `e utilizzato lo stimatore combinato
Sp2 =
2 + (n − 1)S 2
(n1 − 1)Sc1
2
c2
,
n1 + n2 − 2
2 e S 2 le varianze campionarie corrette basate sui due
con Sc1
c2
campioni.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
111/ 130
Il test `e detto test t a due campioni; la regione di rifiuto Rα e il
P-value, in corrispondenza alle varie tipologie di ipotesi alternativa,
si ottengono in modo analogo a quanto visto per il test t.
Se le varianze sono ignote e diverse (eteroschedasticit`a), si utilizza
il test di Welch, con statistica test,
¯1 − X
¯2
X
T =p 2
2 /n
Sc1 /n1 + Sc2
2
con distribuzione, sotto H0 , complicata ma disponibile in molti
software statistici, che forniscono automaticamente il P-value.
Pu`o essere utile premettere al test di ipotesi una analisi grafica
comparata dei due insiemi di dati campionari.
Esempio. Inquinamento (continua). Si considerano i due
campioni casuali semplici, di dimensione n1 = n2 = 180,
indipendenti, riferiti ai due dispositivi anti-inquinanti A e B. Si
ottiene x
¯1 = 15.00, x
¯2 = 15.02, s2c1 = 0.046, s2c2 = 0.099.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
112/ 130
Per verificare le ipotesi
H0 : µ1 = µ2
vs
H1 : µ1 6= µ2 ,
con un livello di significativit`a α = 0.05, si considera il test t a due
campioni.
Visto che α/2 = 0.025 e, per una distribuzione t(358), il
corrispondente valore critico `e t0.025 = 1.96, si ottiene la regione di
rifiuto Rα = {t ∈ R : | t |≥ 1.96}.
Poich´e s2p = (0.046 · 179 + 0.099 · 179)/358 = 0.0725 e la statistica
p
test `e t = (15 − 15.02)/ 0.0725 · (1/180 + 1/180) = −0.705, si
conclude che l’ipotesi H0 non va rifiutata.
Inoltre, il P-value `e αoss = 2[1 − FT (| −0.705 |)] = 0.48.
Si noti che le due varianze campionarie sembrano sensibilmente
diverse. Se tale differenza risulta statisticamente significativa, si
deve utilizzare il test di Welch.
♦
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
113/ 130
Esempio. Vernici. Si desidera confrontare il tempo di asciugatura
in ore di due diverse vernici. Si considerano due campioni casuali
semplici di n1 = 17 e n2 = 18 verniciature, rispettivamente.
Si ottengono i seguenti risultati, in ore: x
¯1 = 9.85, x
¯2 = 9.31,
2
2
sc1 = 4.09, sc2 = 4.15. Per verificare le ipotesi
H0 : µ1 = µ2
vs
H1 : µ1 6= µ2 ,
con un livello di significativit`a α = 0.01, sotto ipotesi di normalit`a
e omeschedasticit`a, si considera il test t a due campioni.
Visto che per una distribuzione t(33), il corrispondente valore
critico `e t0.005 = 2.73, si ottiene Rα = {t ∈ R : | t |≥ 2.73}.
Poich´e s2p = (4.09 · 16 + 4.15 · 17)/33 = 4.12 e la statistica test `e
p
t = (9.85 − 9.31)/ 4.12 · (1/17 + 1/18) = 0.786, l’ipotesi H0 non
va rifiutata. I tempi medi di asciugatura sono uguali.
Inoltre, il P-value `e αoss = 2[1 − FT (| 0.786 |)] = 0.44.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
♦
114/ 130
L’utilizzazione dei test ora presentati richiede la verifica preliminare
dell’ipotesi di normalit`a ed inoltre una valutazione in merito alla
eventuale omoschedasticit`a.
Con tale obiettivo si possono utilizzare metodi grafici, come ad
esempio, istogrammi, boxplot, q-q plot, p-p plot. Per la verifica
dell’omoschedasticit`a si presenter`a un opportuno test statistico.
Nel caso del confronto tra medie di popolazioni non normali, se la
numerosit`a dei due campioni `e molto grande, si possono utilizzare
le statistiche test viste in precedenza che, sotto H0 , hanno
distribuzione approssimata N (0, 1).
` possibile operare un confronto tra medie di due popolazioni
E
anche quando non sono indipendenti. Ad esempio, quando si
effettuano osservazioni ripetute sulle medesime unit`a statistiche
(dati appaiati).
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
115/ 130
Esempio. Pressione. Si desidera valutare l’efficacia di un farmaco
per abbassare la pressione sistolica.
A tale scopo, si misura le pressione ad un campione casuale
semplice di n = 15 pazienti, prima e dopo il trattamento con il
farmaco in esame.
♦
La verifica di ipotesi sulle medie di popolazioni, in ipotesi di dati
appaiati, si effettua con metodi simili a quelli gi`a studiati, senza
trascurare la relazione tra le due popolazioni in esame.
Siano date due popolazioni normali dipendenti, con distribuzione di
probabilit`a N (µ1 , σ12 ) e N (µ2 , σ22 ). Si estraggono due campioni
casuali semplici (appaiati) di dimensione n dalla prima e dalla
seconda popolazione, rispettivamente.
Si calcolano le differenze tra osservazioni corrispondenti; si ha un
campione casuale semplice di variabili casuali differenza
Di = X1i − X2i , i = 1, . . . , n, con media E(Di ) = µ1 − µ2 = µd .
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
116/ 130
Si vuole verificare l’ipotesi che le due popolazioni abbiano la stessa
media, cio`e che le variabili casuali differenza abbiano media nulla,
H0 : µd = 0
(µ1 = µ2 )
ad un livello di significativit`a α fissato.
Limitando l’analisi alle differenze, ci si riconduce di fatto ad un
problema di verifica di ipotesi sulla media di una popolazione
normale.
Quindi si utilizzano le formule del test t applicate al campione
formato dalle n differenze di = x1i − x2i , i = 1, . . . , n.
Esempio. Pressione (continua). La misurazione della pressione
sistolica ad un campione casuale semplice di n = 15 pazienti,
prima e dopo il trattamento con il farmaco in esame, fornisce i
seguenti risultati.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
117/ 130
La media delle osservazioni prima del trattamento `e x
¯1 = 145, la
media dopo il trattamento `e x
¯2 = 123, mentre la varianza
campionaria corretta calcolata sulle differenze `e s2cd = 2.586.
Per verificare le ipotesi
H0 : µd = 0 vs
H1 : µd > 0,
con un livello di significativit`a α = 0.01, sotto ipotesi di normalit`a,
si considera il test t a un campione applicato alle differenze.
Visto che per una distribuzione t(14), il valore critico `e
t0.01 = 2.62, si ha Rα = {t ∈ R : t > 2.62}.
p
Poich´e t = (140 − 123)/ 2.586/15 = 40.96 `e il valore della
statistica test, si rifiuta l’ipotesi H0 ; il farmaco `e efficace per
abbassare la pressione.
Inoltre, il P-value `e αoss = 1 − FT (40.96) = 3.33 · 10−16 .
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
♦
118/ 130
Test per il confronto tra varianze di popolazioni
normali
Quando si hanno due o pi`
u campioni, ci si pu`
o chiedere se
provengono da popolazioni con la stessa varianza (ignota), cio`e se
vale l’ipotesi di omoschedasticit`a.
Lo studio di tale ipotesi pu`
o anche essere utile come verifica
preliminare all’applicazione di test per il confronto tra medie.
Siano date due popolazioni normali indipendenti con distribuzione
di probabilit`a N (µ1 , σ12 ) e N (µ2 , σ22 ), con parametri ignoti. Si
estraggono due campioni casuali semplici di dimensione n1 e n2
dalla prima e dalla seconda popolazione, rispettivamente.
Si vuole verificare l’ipotesi che le due popolazioni abbiano la stessa
varianza e quindi si considera l’ipotesi nulla
H0 : σ12 = σ22
(σ12 /σ22 = 1)
ad un livello di significativit`a α fissato.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
119/ 130
La statistica test `e il rapporto tra le varianze campionarie corrette
2 e S 2 calcolate nei due campioni,
Sc1
c2
F =
2
Sc1
2
Sc2
che, sotto H0 , ha distribuzione F di Fisher F (n1 − 1, n2 − 1). Il
test ottenuto `e chiamato test F.
La regione di rifiuto Rα si determina considerando il vincolo α e
corrisponde a valori per F che sono sintomo di allontanamento da
H0 nella direzione di H1 . Si considerano i seguenti casi:
1) H1 : σ12 > σ22
(σ12 /σ22 > 1) (alternativa unilaterale destra)
Poich´e valori per F molto maggiori di 1 non sono conformi ad H0 ,
nella direzione di H1 , si ha che
Rα = {f ∈ R+ : f ≥ Fα },
con Fα valore critico tale che P0 (F ≥ Fα ) = α.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
120/ 130
2) H1 : σ12 < σ22
(σ12 /σ22 < 1) (alternativa unilaterale sinistra)
Poich´e valori per F molto minori di 1 non sono conformi ad H0 ,
nella direzione di H1 , si ha che
Rα = {f ∈ R+ : f ≤ F1−α },
con F1−α valore critico tale che P0 (F ≥ F1−α ) = 1 − α.
3) H1 : σ 2 < σ02
(σ12 /σ22 6= 1) (alternativa bilaterale)
Poich´e valori per F molto minori o molto maggiori di 1 non sono
conformi ad H0 , nella direzione di H1 , si ha che
Rα = {f ∈ R+ : f ≤ F1−α/2 o f ≥ Fα/2 },
con Fα/2 e F1−α/2 valori critici tali che P0 (F ≥ Fα/2 ) = α/2 e
P0 (F ≥ F1−α/2 ) = 1 − α/2.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
121/ 130
Si noti che, a differenza dei test sulla media, nel caso di alternativa
bilaterale non `e possibile determinare i valori critici invocando la
simmetria della distribuzione di probabilit`a della statistica test.
` possibile determinare il livello di significativit`a osservato
E
(P-value), con riferimento alle tre tipologie di ipotesi alternativa.
Essendo f oss il valore osservato della statistica test F , si ha che:
se 1) H1 : σ12 > σ22 , αoss = P0 (F ≥ f oss ) = 1 − FF (f oss );
se 2) H1 : σ12 < σ22 , αoss = P0 (F ≤ f oss ) = FF (f oss );
se 3) H1 : σ12 6= σ22 , poich´e F non ha densit`a simmetrica,
αoss = 2 min {FF (f oss ), 1 − FF (f oss )} ,
con FF (·) la funzione di ripartizione di una F (n1 − 1, n2 − 1).
A differenza dei test sulle medie, i test sulle varianza sono molto
sensibili all’assunzione di normalit`a.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
122/ 130
Esempio. Inquinamento (continua). Si considerano i dati riferiti
alle due metodiche anti-inquinamento. Dai dati campionari si
ottiene s2c1 = 0.046, s2c2 = 0.099, con n1 = n2 = 180.
Per verificare le ipotesi
H0 : σ12 = σ22
vs
H1 : σ12 6= σ22 ,
con un livello di significativit`a α = 0.01, si considera il test F.
Visto che α/2 = 0.005 e, per una distribuzione F (179, 179), i
valori critici sono F0.005 = 1.47 e F0.995 = 0.68, si definisce la
regione di rifiuto Rα = {f ∈ R+ : f ≤ 0.68 o f ≥ 1.47}.
Poich´e il valore della statistica test `e f = 0.046/0.099 = 0.46, si
conclude che l’ipotesi H0 va rifiutata.
Inoltre, αoss = 2 min {FF (0.46), 1 − FF (0.46)} = 2.98 · 10−7 .
Quindi, essendo le varianze sensibilmente diverse, per confrontare
le medie si sarebbe dovuto considerare il test di Welch.
♦
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
123/ 130
Test per il confronto tra proporzioni
Un caso che si presenta con molta frequenza nella pratica
sperimentale riguarda il confronto tra due o pi`
u proporzioni
campionarie.
In questo contesto non `e disponibile un valore di riferimento
teorico o ideale e il confronto coinvolge esclusivamente le
proporzioni osservate riferite ai campioni in esame.
Le popolazioni da cui i campioni sono estratti vengono usualmente
descritte dal modello bernoulliano.
Oltre a ci`o, si evidenzieranno le analogie con le procedure per la
verifica dell’ipotesi di dipendenza tra due variabili categoriali.
Il test ottenuto pu`o anche venir utilizzato per verificare se una
variabile categoriale segue una specifica distribuzione di probabilit`a.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
124/ 130
Siano date due popolazioni bernoulliane indipendenti con
distribuzione di probabilit`a Ber(p1 ) e Ber(p2 ), con p1 e p2
proporzioni ignote.
Si estraggono due campioni casuali semplici di dimensione n1 e n2
dalla prima e dalla seconda popolazione, rispettivamente.
Si vuole verificare l’ipotesi che i due campioni provengano dalla
stessa popolazione e quindi si considera l’ipotesi nulla
H0 : p 1 = p 2
(p1 − p2 = 0)
ad un livello di significativit`a α fissato. La statistica test `e la
¯ 1 e pˆ2 = X
¯2,
differenza tra le proporzioni campionarie pˆ1 = X
calcolate sui due campioni, opportunamente standardizzata,
Z=p
pˆ1 − pˆ2
pˆ(1 − pˆ)(1/n1 + 1/n2 )
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
.
125/ 130
Si definisce pˆ lo stimatore combinato di p1 = p2 = p sotto H0
pˆ =
n1 pˆ1 + n2 pˆ2
.
n1 + n2
Nel caso in cui n1 e n2 sono sufficientemente elevati, la statistica
test Z ha distribuzione approssimata N (0, 1).
La regione di rifiuto e il livello di significativit`a osservato
(approssimato) si definiscono come nel caso del test sulla media di
una popolazione non normale.
Se i campioni in esame non sono sufficientemente elevati, esistono
soluzioni approssimate pi`
u accurate o soluzioni esatte, che sono di
solito implementate nei software statistici.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
126/ 130
Esempio. Cerotti. Ad un gruppo di n1 = 224 fumatori che
desiderano smettere di fumare viene prescritto il cerotto alla
nicotina, mentre ad altri n2 = 245 fumatori oltre al cerotto si
prescrive anche un leggero antidepressivo.
Dopo sei mesi, 40 soggetti del primo gruppo e 87 del secondo
avevano smesso di fumare. Ci si chiede se `e utile associare cerotto
ad antidepressivo.
Si considera il test per il confronto tra proporzioni ad un livello
α = 0.05, per verificare l’ipotesi H0 : p1 = p2 vs H1 : p1 6= p2 . La
regione di rifiuto `e Rα = {z ∈ R :| z |≥ 1.96}.
Poich´e pˆ1 = 40/224 = 0.18, pˆ2 = 87/245 = 0.36 e pˆ = 0.27, il
valore della statistica test `e z = −4.39.
Quindi si rifiuta H0 e αoss = 2[1 − Φ(| −4.39 |)] = 1.13 · 10−5 . La
proporzione di successo nei due casi `e significativamente diversa.
La maggiore efficacia della terapia dipende dall’utilizzazione o
meno dell’antidepressivo.
♦
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
127/ 130
Esempio. Aspirina. Alcuni anno or sono venne condotto uno
studio per valutare l’effetto dell’aspirina per prevenire l’infarto.
Si costitu`ı un gruppo di trattamento (somministrazione giornaliera
di aspirina) con n1 = 11037 individui e un gruppo di controllo
(somministrazione giornaliera di placebo) con n2 = 11034 individui.
Dopo un certo periodo si osservarono 139 infartuati nel primo
gruppo e 239 nel secondo. Sulla base di questi dati preliminari si
interruppe lo studio che doveva durare cinque anni.
Infatti, pˆ1 = 139/11037 = 0.0126, pˆ2 = 239/11034 = 0.0217 e
pˆ = 0.0171, da cui si ottiene che il valore della statistica test `e
z = −5.19. Si vuole verificare H0 : p1 = p2 vs H1 : p1 < p2 .
Poich´e αoss = Φ(−5.19) = 1.05 · 10−7 , si rifiuta l’ipotesi che la
proporzione di infartuati sia la stessa nel due casi. La terapia con
l’aspirina porta ad una riduzione significativa della proporzione di
infartuati.
♦
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
128/ 130
Esempio. Fisioterapia. Si vuole valutare il livello di soddisfazione
dei clienti di un centro di fisioterapia, considerando separatamente
coloro che svolgono attivit`a ginnica e terapie.
I dati sono riassunti nella seguente tabella a doppia entrata,
chiamata tabella di contingenza,
soddisfatto
non soddisfatto
Totale
ginnastica
163
64
227
fisioterapia
154
108
262
Totale
317
172
489
Ci si chiede se la proporzione di soddisfatti p1 tra coloro che
svolgono attivit`a ginnica e la proporzione di soddisfatti p2 tra
coloro che seguono terapie `e la stessa.
Si considerano le ipotesi H0 : p1 = p2 vs H1 : p1 6= p2 e, per la
verifica, si pu`o seguire la procedura illustrata in precedenza.
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
129/ 130
Il problema pu`o anche essere affrontato considerando le due
variabili: “Livello di soddisfazione”, con modalit`a soddisfatto, non
soddisfatto, e “Attivit`a”, con modalit`a ginnastica, fisioterapia.
Le due variabili in esame sono categoriali e il sistema di ipotesi
considerato in precedenza `e equivalente a
H0 : variabili indipendenti
vs
H1 : variabili dipendenti.
Se le due variabili sono indipendenti, la proporzione di soddisfatti
sar`a la stessa qualunque sia il tipo di attivit`a svolta, cio`e
qualunque sia la popolazione considerata (clienti che svolgono
attivit`a ginnica o clienti che che seguono terapie).
Se invece c’`e dipendenza, la proporzione di soddisfatti sar`a diversa
al variare del tipo di attivit`a svolta.
♦
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
130/ 130
Appendice: tavole statistiche
Tavola 1: Funzione di ripartizione della Variabile Casuale Normale Standardizzata
(z ) = P (Z z ) =
Z z
p1 e
1 2
(z )
z2 =2 dz
0
z
-3.4
-3.3
-3.2
-3.1
-3.0
-2.9
-2.8
-2.7
-2.6
-2.5
-2.4
-2.3
-2.2
-2.1
-2.0
-1.9
-1.8
-1.7
-1.6
-1.5
-1.4
-1.3
-1.2
-1.1
-1.0
-0.9
-0.8
-0.7
-0.6
-0.5
-0.4
-0.3
-0.2
-0.1
-0.0
0.00
0.0003
0.0005
0.0007
0.0010
0.0013
0.0019
0.0026
0.0035
0.0047
0.0062
0.0082
0.0107
0.0139
0.0179
0.0228
0.0287
0.0359
0.0446
0.0548
0.0668
0.0808
0.0968
0.1151
0.1357
0.1587
0.1841
0.2119
0.2420
0.2743
0.3085
0.3446
0.3821
0.4207
0.4602
0.5000
0.01
0.0003
0.0005
0.0007
0.0009
0.0013
0.0018
0.0025
0.0034
0.0045
0.0060
0.0080
0.0104
0.0136
0.0174
0.0222
0.0281
0.0351
0.0436
0.0537
0.0655
0.0793
0.0951
0.1131
0.1335
0.1562
0.1814
0.2090
0.2389
0.2709
0.3050
0.3409
0.3783
0.4168
0.4562
0.4960
0.02
0.0003
0.0005
0.0006
0.0009
0.0013
0.0018
0.0024
0.0033
0.0044
0.0059
0.0078
0.0102
0.0132
0.0170
0.0217
0.0274
0.0344
0.0427
0.0526
0.0643
0.0778
0.0934
0.1112
0.1314
0.1539
0.1788
0.2061
0.2358
0.2676
0.3015
0.3372
0.3745
0.4129
0.4522
0.4920
0.03
0.0003
0.0004
0.0006
0.0009
0.0012
0.0017
0.0023
0.0032
0.0043
0.0057
0.0075
0.0099
0.0129
0.0166
0.0212
0.0268
0.0336
0.0418
0.0516
0.0630
0.0764
0.0918
0.1093
0.1292
0.1515
0.1762
0.2033
0.2327
0.2643
0.2981
0.3336
0.3707
0.4090
0.4483
0.4880
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
0.04
0.0003
0.0004
0.0006
0.0008
0.0012
0.0016
0.0023
0.0031
0.0041
0.0055
0.0073
0.0096
0.0125
0.0162
0.0207
0.0262
0.0329
0.0409
0.0505
0.0618
0.0749
0.0901
0.1075
0.1271
0.1492
0.1736
0.2005
0.2296
0.2611
0.2946
0.3300
0.3669
0.4052
0.4443
0.4840
0.05
0.0003
0.0004
0.0006
0.0008
0.0011
0.0016
0.0022
0.0030
0.0040
0.0054
0.0071
0.0094
0.0122
0.0158
0.0202
0.0256
0.0322
0.0401
0.0495
0.0606
0.0735
0.0885
0.1056
0.1251
0.1469
0.1711
0.1977
0.2266
0.2578
0.2912
0.3264
0.3632
0.4013
0.4404
0.4801
0.06
0.0003
0.0004
0.0006
0.0008
0.0011
0.0015
0.0021
0.0029
0.0039
0.0052
0.0069
0.0091
0.0119
0.0154
0.0197
0.0250
0.0314
0.0392
0.0485
0.0594
0.0721
0.0869
0.1038
0.1230
0.1446
0.1685
0.1949
0.2236
0.2546
0.2877
0.3228
0.3594
0.3974
0.4364
0.4761
z
0.07
0.0003
0.0004
0.0005
0.0008
0.0011
0.0015
0.0021
0.0028
0.0038
0.0051
0.0068
0.0089
0.0116
0.0150
0.0192
0.0244
0.0307
0.0384
0.0475
0.0582
0.0708
0.0853
0.1020
0.1210
0.1423
0.1660
0.1922
0.2206
0.2514
0.2843
0.3192
0.3557
0.3936
0.4325
0.4721
0.08
0.0003
0.0004
0.0005
0.0007
0.0010
0.0014
0.0020
0.0027
0.0037
0.0049
0.0066
0.0087
0.0113
0.0146
0.0188
0.0239
0.0301
0.0375
0.0465
0.0571
0.0694
0.0838
0.1003
0.1190
0.1401
0.1635
0.1894
0.2177
0.2483
0.2810
0.3156
0.3520
0.3897
0.4286
0.4681
0.09
0.0002
0.0003
0.0005
0.0007
0.0010
0.0014
0.0019
0.0026
0.0036
0.0048
0.0064
0.0084
0.0110
0.0143
0.0183
0.0233
0.0294
0.0367
0.0455
0.0559
0.0681
0.0823
0.0985
0.1170
0.1379
0.1611
0.1867
0.2148
0.2451
0.2776
0.3121
0.3483
0.3859
0.4247
0.4641
131/ 130
Tavola 1 (segue): Funzione di ripartizione della Variabile Casuale Normale Standardizzata
z
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
3.2
3.3
3.4
0.00
0.5000
0.5398
0.5793
0.6179
0.6554
0.6915
0.7257
0.7580
0.7881
0.8159
0.8413
0.8643
0.8849
0.9032
0.9192
0.9332
0.9452
0.9554
0.9641
0.9713
0.9772
0.9821
0.9861
0.9893
0.9918
0.9938
0.9953
0.9965
0.9974
0.9981
0.9987
0.9990
0.9993
0.9995
0.9997
0.01
0.5040
0.5438
0.5832
0.6217
0.6591
0.6950
0.7291
0.7611
0.7910
0.8186
0.8438
0.8665
0.8869
0.9049
0.9207
0.9345
0.9463
0.9564
0.9649
0.9719
0.9778
0.9826
0.9864
0.9896
0.9920
0.9940
0.9955
0.9966
0.9975
0.9982
0.9987
0.9991
0.9993
0.9995
0.9997
0.02
0.5080
0.5478
0.5871
0.6255
0.6628
0.6985
0.7324
0.7642
0.7939
0.8212
0.8461
0.8686
0.8888
0.9066
0.9222
0.9357
0.9474
0.9573
0.9656
0.9726
0.9783
0.9830
0.9868
0.9898
0.9922
0.9941
0.9956
0.9967
0.9976
0.9982
0.9987
0.9991
0.9994
0.9995
0.9997
0.03
0.5120
0.5517
0.5910
0.6293
0.6664
0.7019
0.7357
0.7673
0.7967
0.8238
0.8485
0.8708
0.8907
0.9082
0.9236
0.9370
0.9484
0.9582
0.9664
0.9732
0.9788
0.9834
0.9871
0.9901
0.9925
0.9943
0.9957
0.9968
0.9977
0.9983
0.9988
0.9991
0.9994
0.9996
0.9997
0.04
0.5160
0.5557
0.5948
0.6331
0.6700
0.7054
0.7389
0.7704
0.7995
0.8264
0.8508
0.8729
0.8925
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738
0.9793
0.9838
0.9875
0.9904
0.9927
0.9945
0.9959
0.9969
0.9977
0.9984
0.9988
0.9992
0.9994
0.9996
0.9997
0.05
0.5199
0.5596
0.5987
0.6368
0.6736
0.7088
0.7422
0.7734
0.8023
0.8289
0.8531
0.8749
0.8944
0.9115
0.9265
0.9394
0.9505
0.9599
0.9678
0.9744
0.9798
0.9842
0.9878
0.9906
0.9929
0.9946
0.9960
0.9970
0.9978
0.9984
0.9989
0.9992
0.9994
0.9996
0.9997
0.06
0.5239
0.5636
0.6026
0.6406
0.6772
0.7123
0.7454
0.7764
0.8051
0.8315
0.8554
0.8770
0.8962
0.9131
0.9279
0.9406
0.9515
0.9608
0.9686
0.9750
0.9803
0.9846
0.9881
0.9909
0.9931
0.9948
0.9961
0.9971
0.9979
0.9985
0.9989
0.9992
0.9994
0.9996
0.9997
0.07
0.5279
0.5675
0.6064
0.6443
0.6808
0.7157
0.7486
0.7794
0.8078
0.8340
0.8577
0.8790
0.8980
0.9147
0.9292
0.9418
0.9525
0.9616
0.9693
0.9756
0.9808
0.9850
0.9884
0.9911
0.9932
0.9949
0.9962
0.9972
0.9979
0.9985
0.9989
0.9992
0.9995
0.9996
0.9997
0.08
0.5319
0.5714
0.6103
0.6480
0.6844
0.7190
0.7517
0.7823
0.8106
0.8365
0.8599
0.8810
0.8997
0.9162
0.9306
0.9429
0.9535
0.9625
0.9699
0.9761
0.9812
0.9854
0.9887
0.9913
0.9934
0.9951
0.9963
0.9973
0.9980
0.9986
0.9990
0.9993
0.9995
0.9996
0.9997
Tavola 1a: Valori critici della Variabile Casuale Normale Standardizzata. P (Z
z
z
0.10
1.2816
0.00009
3.7455
0.05
1.6449
0.00008
3.7750
0.025
1.9600
0.00007
3.8082
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
0.01
2.3263
0.00006
3.8461
0.005
2.5758
0.00005
3.8906
0.001
3.0902
0.00004
3.9444
0.0005
3.2905
0.00003
4.0128
0.0001
3.7190
0.00002
4.1075
0.09
0.5359
0.5753
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8389
0.8621
0.8830
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767
0.9817
0.9857
0.9890
0.9916
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986
0.9990
0.9993
0.9995
0.9997
0.9998
z ) = .
0.00001
4.2649
132/ 130
Tavola 2: Valori critici della Distribuzione t
P (T
t; ) = 0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
35
40
45
50
55
60
70
80
90
100
120
1
t;
0.20
1.3764
1.0607
0.9785
0.9410
0.9195
0.9057
0.8960
0.8889
0.8834
0.8791
0.8755
0.8726
0.8702
0.8681
0.8662
0.8647
0.8633
0.8620
0.8610
0.8600
0.8591
0.8583
0.8575
0.8569
0.8562
0.8557
0.8551
0.8546
0.8542
0.8538
0.8520
0.8507
0.8497
0.8489
0.8482
0.8477
0.8468
0.8461
0.8456
0.8452
0.8446
0.8416
0.10
3.0777
1.8856
1.6377
1.5332
1.4759
1.4398
1.4149
1.3968
1.3830
1.3722
1.3634
1.3562
1.3502
1.3450
1.3406
1.3368
1.3334
1.3304
1.3277
1.3253
1.3232
1.3212
1.3195
1.3178
1.3163
1.3150
1.3137
1.3125
1.3114
1.3104
1.3062
1.3031
1.3007
1.2987
1.2971
1.2958
1.2938
1.2922
1.2910
1.2901
1.2886
1.2816
0.05
6.3137
2.9200
2.3534
2.1318
2.0150
1.9432
1.8946
1.8595
1.8331
1.8125
1.7959
1.7823
1.7709
1.7613
1.7531
1.7459
1.7396
1.7341
1.7291
1.7247
1.7207
1.7171
1.7139
1.7109
1.7081
1.7056
1.7033
1.7011
1.6991
1.6973
1.6896
1.6839
1.6794
1.6759
1.6730
1.6706
1.6669
1.6641
1.6620
1.6602
1.6576
1.6449
0.025
12.7062
4.3027
3.1824
2.7765
2.5706
2.4469
2.3646
2.3060
2.2622
2.2281
2.2010
2.1788
2.1604
2.1448
2.1315
2.1199
2.1098
2.1009
2.0930
2.0860
2.0796
2.0739
2.0687
2.0639
2.0595
2.0555
2.0518
2.0484
2.0452
2.0423
2.0301
2.0211
2.0141
2.0086
2.0040
2.0003
1.9944
1.9901
1.9867
1.9840
1.9799
1.9600
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
0.01
31.8210
6.9645
4.5407
3.7469
3.3649
3.1427
2.9979
2.8965
2.8214
2.7638
2.7181
2.6810
2.6503
2.6245
2.6025
2.5835
2.5669
2.5524
2.5395
2.5280
2.5176
2.5083
2.4999
2.4922
2.4851
2.4786
2.4727
2.4671
2.4620
2.4573
2.4377
2.4233
2.4121
2.4033
2.3961
2.3901
2.3808
2.3739
2.3685
2.3642
2.3578
2.3264
0.005
63.6559
9.9250
5.8408
4.6041
4.0321
3.7074
3.4995
3.3554
3.2498
3.1693
3.1058
3.0545
3.0123
2.9768
2.9467
2.9208
2.8982
2.8784
2.8609
2.8453
2.8314
2.8188
2.8073
2.7970
2.7874
2.7787
2.7707
2.7633
2.7564
2.7500
2.7238
2.7045
2.6896
2.6778
2.6682
2.6603
2.6479
2.6387
2.6316
2.6259
2.6174
2.5758
0.001
318.2888
22.3285
10.2143
7.1729
5.8935
5.2075
4.7853
4.5008
4.2969
4.1437
4.0248
3.9296
3.8520
3.7874
3.7329
3.6861
3.6458
3.6105
3.5793
3.5518
3.5271
3.5050
3.4850
3.4668
3.4502
3.4350
3.4210
3.4082
3.3963
3.3852
3.3400
3.3069
3.2815
3.2614
3.2451
3.2317
3.2108
3.1952
3.1832
3.1738
3.1595
3.0902
0.0005
636.5776
31.5998
12.9244
8.6101
6.8685
5.9587
5.4081
5.0414
4.7809
4.5868
4.4369
4.3178
4.2209
4.1403
4.0728
4.0149
3.9651
3.9217
3.8833
3.8496
3.8193
3.7922
3.7676
3.7454
3.7251
3.7067
3.6895
3.6739
3.6595
3.6460
3.5911
3.5510
3.5203
3.4960
3.4765
3.4602
3.4350
3.4164
3.4019
3.3905
3.3734
3.2905
0.0001
3185.2722
70.7060
22.2027
13.0385
9.6764
8.0233
7.0641
6.4424
6.0094
5.6939
5.4529
5.2631
5.1106
4.9849
4.8801
4.7905
4.7148
4.6485
4.5903
4.5390
4.4925
4.4517
4.4156
4.3819
4.3516
4.3237
4.2992
4.2759
4.2538
4.2340
4.1531
4.0943
4.0489
4.0140
3.9855
3.9622
3.9255
3.8987
3.8778
3.8615
3.8370
3.7189
133/ 130
Tavola 3: Valori critici della Distribuzione Chi-Quadrato
P (2 2; ) = 2;
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
35
40
45
50
55
60
70
80
90
100
150
200
0.9999
1.57E-8
0.0002
0.0052
0.0284
0.0821
0.1723
0.2998
0.4634
0.6611
0.8890
1.1449
1.4281
1.7341
2.0601
2.4084
2.7736
3.1561
3.5559
3.9687
4.3950
4.8342
5.2862
5.7482
6.2231
6.7087
7.1980
7.6997
8.2115
8.7303
9.2559
11.9929
14.8820
17.8922
21.0077
24.2133
27.5006
34.2581
41.2407
48.4095
55.7202
93.9492
134.0154
0.9995
3.93E-7
0.0010
0.0153
0.0639
0.1581
0.2994
0.4849
0.7104
0.9718
1.2651
1.5870
1.9345
2.3049
2.6966
3.1073
3.5357
3.9800
4.4391
4.9125
5.3978
5.8954
6.4041
6.9240
7.4528
7.9905
8.5374
9.0929
9.6558
10.2266
10.8040
13.7879
16.9058
20.1361
23.4611
26.8650
30.3393
37.4671
44.7917
52.2768
59.8946
99.4617
140.6591
0.999
1.57E-6
0.0020
0.0243
0.0908
0.2102
0.3810
0.5985
0.8571
1.1519
1.4787
1.8338
2.2141
2.6172
3.0407
3.4825
3.9417
4.4162
4.9048
5.4067
5.9210
6.4467
6.9829
7.5291
8.0847
8.6494
9.2222
9.8029
10.3907
10.9861
11.5876
14.6881
17.9166
21.2509
24.6736
28.1731
31.7381
39.0358
46.5197
54.1559
61.9182
102.1127
143.8420
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
0.995
3.93E-5
0.0100
0.0717
0.2070
0.4118
0.6757
0.9893
1.3444
1.7349
2.1558
2.6032
3.0738
3.5650
4.0747
4.6009
5.1422
5.6973
6.2648
6.8439
7.4338
8.0336
8.6427
9.2604
9.8862
10.5196
11.1602
11.8077
12.4613
13.1211
13.7867
17.1917
20.7066
24.3110
27.9908
31.7349
35.5344
43.2753
51.1719
59.1963
67.3275
109.1423
152.2408
0.99
0.0002
0.0201
0.1148
0.2971
0.5543
0.8721
1.2390
1.6465
2.0879
2.5582
3.0535
3.5706
4.1069
4.6604
5.2294
5.8122
6.4077
7.0149
7.6327
8.2604
8.8972
9.5425
10.1957
10.8563
11.5240
12.1982
12.8785
13.5647
14.2564
14.9535
18.5089
22.1642
25.9012
29.7067
33.5705
37.4848
45.4417
53.5400
61.7540
70.0650
112.6676
156.4321
0.975
0.0010
0.0506
0.2158
0.4844
0.8312
1.2373
1.6899
2.1797
2.7004
3.2470
3.8157
4.4038
5.0087
5.6287
6.2621
6.9077
7.5642
8.2307
8.9065
9.5908
10.2829
10.9823
11.6885
12.4011
13.1197
13.8439
14.5734
15.3079
16.0471
16.7908
20.5694
24.4331
28.3662
32.3574
36.3981
40.4817
48.7575
57.1532
65.6466
74.2219
117.9846
162.7280
0.95
0.0039
0.1026
0.3518
0.7107
1.1455
1.6354
2.1673
2.7326
3.3251
3.9403
4.5748
5.2260
5.8919
6.5706
7.2609
7.9616
8.6718
9.3904
10.1170
10.8508
11.5913
12.3380
13.0905
13.8484
14.6114
15.3792
16.1514
16.9279
17.7084
18.4927
22.4650
26.5093
30.6123
34.7642
38.9581
43.1880
51.7393
60.3915
69.1260
77.9294
122.6918
168.2785
0.90
0.0158
0.2107
0.5844
1.0636
1.6103
2.2041
2.8331
3.4895
4.1682
4.8652
5.5778
6.3038
7.0415
7.7895
8.5468
9.3122
10.0852
10.8649
11.6509
12.4426
13.2396
14.0415
14.8480
15.6587
16.4734
17.2919
18.1139
18.9392
19.7677
20.5992
24.7966
29.0505
33.3504
37.6886
42.0596
46.4589
55.3289
64.2778
73.2911
82.3581
128.2750
174.8353
0.80
0.0642
0.4463
1.0052
1.6488
2.3425
3.0701
3.8223
4.5936
5.3801
6.1791
6.9887
7.8073
8.6339
9.4673
10.3070
11.1521
12.0023
12.8570
13.7158
14.5784
15.4446
16.3140
17.1865
18.0618
18.9397
19.8202
20.7030
21.5880
22.4751
23.3641
27.8359
32.3449
36.8844
41.4492
46.0356
50.6406
59.8978
69.2070
78.5584
87.9453
135.2625
183.0028
134/ 130
Tavola 3 (segue): Valori critici della Distribuzione Chi-Quadrato
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
35
40
45
50
55
60
70
80
90
100
150
200
0.20
1.6424
3.2189
4.6416
5.9886
7.2893
8.5581
9.8032
11.0301
12.2421
13.4420
14.6314
15.8120
16.9848
18.1508
19.3107
20.4651
21.6146
22.7595
23.9004
25.0375
26.1711
27.3015
28.4288
29.5533
30.6752
31.7946
32.9117
34.0266
35.1394
36.2502
41.7780
47.2685
52.7288
58.1638
63.5772
68.9721
79.7147
90.4053
101.0537
111.6667
164.3492
216.6088
0.10
2.7055
4.6052
6.2514
7.7794
9.2363
10.6446
12.0170
13.3616
14.6837
15.9872
17.2750
18.5493
19.8119
21.0641
22.3071
23.5418
24.7690
25.9894
27.2036
28.4120
29.6151
30.8133
32.0069
33.1962
34.3816
35.5632
36.7412
37.9159
39.0875
40.2560
46.0588
51.8050
57.5053
63.1671
68.7962
74.3970
85.5270
96.5782
107.5650
118.4980
172.5812
226.0210
0.05
3.8415
5.9915
7.8147
9.4877
11.0705
12.5916
14.0671
15.5073
16.9190
18.3070
19.6752
21.0261
22.3620
23.6848
24.9958
26.2962
27.5871
28.8693
30.1435
31.4104
32.6706
33.9245
35.1725
36.4150
37.6525
38.8851
40.1133
41.3372
42.5569
43.7730
49.8018
55.7585
61.6562
67.5048
73.3115
79.0820
90.5313
101.8795
113.1452
124.3421
179.5806
233.9942
0.025
5.0239
7.3778
9.3484
11.1433
12.8325
14.4494
16.0128
17.5345
19.0228
20.4832
21.9200
23.3367
24.7356
26.1189
27.4884
28.8453
30.1910
31.5264
32.8523
34.1696
35.4789
36.7807
38.0756
39.3641
40.6465
41.9231
43.1945
44.4608
45.7223
46.9792
53.2033
59.3417
65.4101
71.4202
77.3804
83.2977
95.0231
106.6285
118.1359
129.5613
185.8004
241.0578
Statistica Applicata - Parte 3, a.a. 2013-2014 – P. Vidoni
0.01
6.6349
9.2104
11.3449
13.2767
15.0863
16.8119
18.4753
20.0902
21.6660
23.2093
24.7250
26.2170
27.6882
29.1412
30.5780
31.9999
33.4087
34.8052
36.1908
37.5663
38.9322
40.2894
41.6383
42.9798
44.3140
45.6416
46.9628
48.2782
49.5878
50.8922
57.3420
63.6908
69.9569
76.1538
82.2920
88.3794
100.4251
112.3288
124.1162
135.8069
193.2075
249.4452
0.005
7.8794
10.5965
12.8381
14.8602
16.7496
18.5475
20.2777
21.9549
23.5893
25.1881
26.7569
28.2997
29.8193
31.3194
32.8015
34.2671
35.7184
37.1564
38.5821
39.9969
41.4009
42.7957
44.1814
45.5584
46.9280
48.2898
49.6450
50.9936
52.3355
53.6719
60.2746
66.7660
73.1660
79.4898
85.7491
91.9518
104.2148
116.3209
128.2987
140.1697
198.3599
255.2638
0.001
10.8274
13.8150
16.2660
18.4662
20.5147
22.4575
24.3213
26.1239
27.8767
29.5879
31.2635
32.9092
34.5274
36.1239
37.6978
39.2518
40.7911
42.3119
43.8194
45.3142
46.7963
48.2676
49.7276
51.1790
52.6187
54.0511
55.4751
56.8918
58.3006
59.7022
66.6192
73.4029
80.0776
86.6603
93.1671
99.6078
112.3167
124.8389
137.2082
149.4488
209.2652
267.5388
0.0005
12.1153
15.2014
17.7311
19.9977
22.1057
24.1016
26.0179
27.8674
29.6669
31.4195
33.1382
34.8211
36.4768
38.1085
39.7173
41.3077
42.8808
44.4337
45.9738
47.4977
49.0096
50.5105
51.9995
53.4776
54.9475
56.4068
57.8556
59.2990
60.7342
62.1600
69.1975
76.0963
82.8734
89.5597
96.1607
102.6971
115.5766
128.2636
140.7804
153.1638
213.6135
272.4220
0.0001
15.1343
18.4247
21.1040
23.5064
25.7507
27.8527
29.8814
31.8268
33.7247
35.5572
37.3647
39.1306
40.8735
42.5752
44.2596
45.9255
47.5591
49.1853
50.7873
52.3832
53.9599
55.5244
57.0668
58.6071
60.1360
61.6666
63.1660
64.6561
66.1524
67.6230
74.9253
82.0551
89.0704
95.9713
102.7735
109.4967
122.7443
135.7728
148.6198
161.3297
223.1209
283.0448
135/ 130