Lucidi di Calcolo delle Probabilità

Statistica Applicata
Parte 2 - Calcolo delle Probabilit`
a
Paolo Vidoni
Dipartimento di Scienze Economiche e Statistiche
Università di Udine
via Tomadini 30/a - Udine
[email protected]
www.dies.uniud.it/vidoni.it.html
Per alcuni argomenti si `
e preso spunto da materiale didattico di
R. Bellio, G. Masarotto, C. Romualdi, N. Sartori e L. Ventura.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
1/ 154
Calcolo delle probabilità
• Strumenti matematici per lo studio degli esperimenti
(fenomeni) casuali (aleatori), tra cui l’esperimento di
campionamento.
• Costituisce il fondamento teorico e il presupposto formale
della Statistica inferenziale.
• Tecniche per utilizzare le informazioni contenute in un
campione allo scopo di studiare le caratteristiche di interesse
nella popolazione di riferimento.
• Definizione classica: la probabilità di un evento è data dal
rapporto tra il numero di casi ad esso favorevoli e il numero di
casi possibili, supposti tutti egualmente probabili.
• Non si analizzano le varie definizioni di probabilità, si segue
l’approccio assiomatico proposto da Kolmogorov nel 1933.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
2/ 154
Probabilità elementare: eventi
Un esperimento o fenomeno casuale (aleatorio) è un fenomeno
(esperimento) in riferimento al quale le conoscenze inducono a
ritenere possibile una pluralità di esiti.
Prima di eseguire l’esperimento, o di osservare il fenomeno, non è
possibile individuare quale dei risultati ammissibili si realizzerà.
Sono esperimenti (fenomeni) aleatori:
a) il lancio di un dado;
b) il numero di giocate al lotto prima di vincere per la prima
volta;
c) la misurazione della lunghezza di una barra d’acciaio di
lunghezza nominale 20 cm con uno strumento affetto da
errore;
d) il rendimento di un titolo azionario;
e) l’estrazione di un campione casuale.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
3/ 154
L’insieme di tutti i possibili risultati di un esperimento aleatorio,
indicato con Ω, è chiamato spazio fondamentale (spazio degli
eventi elementari o spazio campionario) è l’insieme di tutti i
possibili risultati di un esperimento aleatorio.
I singoli risultati vengono chiamati eventi elementari e sono
supposti disgiunti in senso insiemistico.
Nonostante lo spazio fondamentale sia noto, non si può individuare
con certezza quale evento elementare si realizzerà. Una volta
osservato il fenomeno, o effettuato l’esperimento, uno e un solo
evento elementare si sarà realizzato.
Ω è discreto se costituito da un numero finito o da un’infinità
` invece detto continuo se è costituito da un
numerabile di punti. E
insieme continuo di punti.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
4/ 154
Esempio. Sono discreti gli spazi fondamentali generati dagli
esperimenti a) e b), che corrispondono rispettivamente a
Ω = {1, 2, 3, 4, 5, 6} e Ω = {1, 2, 3, . . .} = N+ .
Sono continui gli spazi fondamentali generati dagli esperimenti c)
ed d), che corrispondono rispettivamente a Ω = R+ e Ω = R. ♦
Un evento è un sottoinsieme dello spazio fondamentale Ω, cioè
ogni elemento dell’insieme delle parti (insieme di tutti i
sottoinsiemi) di Ω, ovvero di P(Ω).
Un evento si realizza se e solo se si realizza uno degli eventi
elementari che lo definiscono.
Esempio. Nel caso del lancio del dado Ω = {1, 2, 3, 4, 5, 6} e sono
eventi, ad esempio, A = “Esce un numero dispari” = {1, 3, 5},
B = {1, 3, 6}, C = “Esce il numero 5” = {5}, se interpretato
come sottoinsieme di Ω e non come elemento di Ω.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
5/ 154
C’è una evidente analogia tra eventi di uno spazio fondamentale e
` quindi possibile, come per
sottoinsiemi di un dato insieme. E
questi ultimi, definire alcune operazioni logiche sugli eventi.
Dati due eventi A, B ⊆ Ω
• Ac indica l’evento complementare ad A e contiene tutti gli
eventi elementari che non appartengono ad A;
• A ∪ B indica l’evento unione tra A e B e contiene tutti gli
eventi elementari che appartengono o ad A o a B;
• A ∩ B indica l’evento intersezione tra A e B e contiene tutti
gli eventi elementari che appartengono sia ad A che a B;
• A \ B indica l’evento differenza tra A e B e contiene tutti gli
eventi elementari che appartengono ad A ma non a B.
Ω è detto anche evento certo, mentre con il simbolo ∅ si indica
l’evento impossibile.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
6/ 154
Se A ∩ B = ∅, gli eventi A e B si dicono incompatibili (disgiunti),
poiché non hanno eventi elementari in comune e quindi non si
realizzano contemporaneamente.
Se A ⊆ B, allora A implica B, poiché tutti gli eventi elementari di
A cadono anche in B (il viceversa non è necessariamente vero),
quindi la realizzazione di A implica la realizzazione di B.
Se A ⊆ B e B ⊆ A, gli eventi A e B vengono detti equivalenti.
Esempio. Nel caso del lancio del dado, se A = {1, 3, 5},
B = {1, 3, 6} e C = {5}, allora
Ac = {2, 4, 6},
A ∩ B = {1, 3},
A ∪ B = {1, 3, 5, 6},
A \ C = {1, 3},
C ⊆ A,
B ∩ C = ∅.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
7/ 154
Probabilità elementare: assiomi
Dato uno spazio fondamentale Ω, si considerano tutti gli eventi di
interesse: Ω, ∅, A, B, C, ecc. In alcuni casi si considerano tutti i
possibili eventi.
La probabilità è una misura che associa ad ogni evento A ⊆ Ω un
numero reale, che indica la sua possibilità di realizzazione.
Seguendo l’impostazione assiomatica di Kolmogorov, una misura di
probabilità P deve essere tale che:
A1. per ogni evento A, P (A) ≥ 0 (assioma di non negatività);
A2. P (Ω) = 1 (assioma di normalizzazione);
A3. per ogni collezione finita o al pi`
u numerabile di eventi Ai ,
i ∈SI ⊆ N, taliP
che Ai ∩ Aj = ∅, i 6= j, si ha che
P ( i∈I Ai ) = i∈I P (Ai ) (assioma di σ-additività).
Dall’assioma A3. discende che, se A ∩ B = ∅, allora
P (A ∪ B) = P (A) + P (B).
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
8/ 154
Un evento A tale che P (A) = 0 è detto trascurabile. Un evento A
tale che P (A) = 1 è detto quasi certo.
Esempio. Nel caso del lancio di un dado regolare, lo spazio
fondamentale è Ω = {i : i = 1, . . . , 6} e ogni faccia ha la stessa
probabilità di uscire.
In accordo con tale congettura, si associa ad ogni evento
elementare i un peso
Ppi = 1/6, i = 1, . . . , 6, e, dato un generico
evento A, P (A) = i∈A pi .
Se A = {1, 3, 5}, allora P (A) = 1/6 + 1/6 + 1/6 = 1/2, che
corrisponde alla somma dei pesi degli eventi elementari che
compongono A.
♦
Esempio. Si consideri l’esperimento che consiste nel lanciare un
dato regolare. Si è interessati al numero di lanci necessari per
ottenere l’esito 6 per la prima volta. In questo caso Ω = N+ .
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
9/ 154
Si può pensare di associare ad ogni evento elementare i ∈ N+ ,
“l’esito 6 si verifica per la prima volta al lancio i-esimo”, il peso
pi = (5/6)i−1 (1/6), che traduce il fatto che ci sono i − 1
insuccessi prima di osservare l’esito 6 per la prima volta.
P
Anche in questo caso, dato un evento A, P (A) = i∈A pi .
Se si ha l’evento A = {2, 4, 6, . . .}, “l’esito 6 si verifica
P+∞ per la prima
volta in un numero pari di lanci”, allora P (A) = i=1 p2i .
♦
Questi due esempi suggeriscono il seguente criterio costruttivo per
definire misure di probabilità che soddisfano ai tre assiomi di
Kolmogorov, nel caso di esperimenti con Ω finito o numerabile.
Ad ogni evento
elementare ωi ∈ Ω si associa un peso pi tale che
P
pi > 0 e i pi = 1 e si definisce P
la misura di probabilità P tale
che, per ogni evento A, P (A) = i∈A pi .
In entrambi gli esempi vengono soddisfatte le condizioni sui pesi pi .
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
10/ 154
Se Ω è finito e gli eventi elementari sono equiprobabili, come ad
esempio nel caso del singolo lancio di un dado regolare, il criterio
evidenziato in precedenza corrisponde alla definizione classica di
probabilità.
Infatti, se Ω è costituito da n eventi elementari equiprobabili e
A = {ωi , i ∈ I}, con I ⊆ {1, . . . , n}, allora pi = 1/n, i = 1, . . . , n,
e
X1
no. casi favorevoli ad A
P (A) =
=
.
n
no. casi possibili
i∈I
Quando si parla di “scelta a caso di un elemento da un insieme” Ω
finito, si intende implicitamente che tutti gli eventi elementari sono
ugualmente probabili.
In molti casi bisogna fare attenzione a definire in modo corretto gli
eventi elementari.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
11/ 154
Si presentano alcuni risultati che sono conseguenze immediate
degli assiomi di Kolmogorov.
1) P (∅) = 0.
Infatti, per il secondo e il terzo assioma,
1 = P (Ω) = P (Ω ∪ ∅) = P (Ω) + P (∅) = 1 + P (∅),
da cui P (∅) = 0.
2) Per ogni evento A, P (Ac ) = 1 − P (A).
Infatti, per il secondo e il terzo assioma,
1 = P (Ω) = P (A ∪ Ac ) = P (A) + P (Ac ),
da cui P (Ac ) = 1 − P (A).
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
12/ 154
3) Se A ⊆ B, allora P (A) ≤ P (B) e P (B \ A) = P (B) − P (A).
Infatti, per il terzo assioma
P (B) = P ((B \ A) ∪ A) = P (B \ A) + P (A),
da cui si ottengono entrambi i risultati.
4) Dati gli eventi A e B, P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Poiché
A ∪ B = (A ∩ B) ∪ [B \ (A ∩ B)] ∪ [A \ (A ∩ B)],
il risultato si ottiene dalla seguente relazione
P (A ∪ B) = P (A ∩ B) + P (B) − P (A ∩ B) + P (A) − P (A ∩ B).
B
A
B
A
B/A
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
13/ 154
5) Dato un
P evento B e una partizione Ai , i ∈ I ⊆ N, di Ω, allora
P (B) = i∈I P (B ∩ Ai ) (formula di addizione).
Poiché gli eventi Ai , i ∈ I, sono incompatibili e la loro unione dà
Ω, anche gli eventi B ∩ Ai , i ∈ I, sono incompatibili e, per il terzo
assioma, si ha che
!
[
Ai
P (B) = P (B ∩ Ω) = P B ∩
i∈I
!
[
= P
B ∩ Ai
=
i∈I
A2
A7
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
P (B ∩ Ai ) .
i∈I
A4
A1
B
X
A3
A6
A5
14/ 154
Esempio. Una lotteria è costituita 1000 biglietti, di cui 5 vincenti.
Si scelgono a caso 10 biglietti. Si vuole determinare la probabilità
di A = “un biglietto è vincente”.
Tutti i gruppi di dieci biglietti hanno la stessa probabilità di venire
estratti. Quindi, utilizzando la definizione classica di probabilità,
5
995
1
9
.
P (A) =
= 0.048.
1000
10
Per B = “almeno un biglietto è vincente”, conviene determinare la
probabilità dell’evento complementare “nessun biglietto vincente”
5
995
0
10
.
= 0.951,
P (B c ) =
1000
10
da cui si ricava che P (B) = 1 − 0.951 = 0.049.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
15/ 154
Esempio. Una rete aziendale è costituita da un server e da dieci
PC. Quando un PC accede alla rete, riceve un indirizzo IP scelto in
modo casuale tra 200 disponibili.
Nell’ipotesi che tutti e dieci i PC accedano insieme alla rete, quale
è la probabilità che il server abbia assegnato almeno due indirizzi
IP identici?
I casi elementari equiprobabili sono le sequenze ordinate di 10
indirizzi scelti tra i 200 disponibili e corrispondono alle disposizioni
con ripetizione di 200 elementi in gruppi di 10, cioè 20010 .
Poiché le configurazioni favorevoli all’evento complementare “tutti
i PC hanno indirizzo diverso” sono date dalle disposizioni semplici
di 200 elementi in gruppi di 10, si conclude che
.
1 − (200!/190!)/(20010 ) = 0.204
è la probabilità dell’evento cercato.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
16/ 154
Probabilità elementare: probabilità condizionata
Dati due eventi A e B, con P (A) > 0, pu`
o essere interessante
specificare la probabilità di B nel caso sia noto il realizzarsi di A,
ossia la probabilità dell’evento condizionato B | A.
La probabilità di B|A, chiamata probabilità condizionata di B dato
A, è definita ponendo
P (B|A) =
P (B ∩ A)
.
P (A)
Intuitivamente, se A si realizzato, l’unica parte di B che può
ancora verificarsi è quella comune anche ad A.
La quantità P (A) al denominatore permette di ristabilire le
proporzioni, assicurando la normalizzazione.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
17/ 154
Esempio. Si giocano alla roulette i numeri 7, 23 e 32. Poiché la
roulette è suddivisa in 37 settori, numerati da 0 a 36, la probabilità
.
di vincere è P (B) = 3/37 = 0.081, con B = {7, 23, 32}.
Se la roulette fosse truccata di modo che possano uscire soltanto i
numeri compresi tra 0 e 15, posto A = {0, . . . , 15}, la probabilità
di vincita corrisponderebbe a
P (B|A) =
1/37
1 .
P (B ∩ A)
=
=
= 0.062.
P (A)
16/37
16
♦
Dalla definizione di probabilità condizionata si ottiene la formula
della probabilità composta (formula di moltiplicazione)
P (B ∩ A) = P (A)P (B|A),
con A, B eventi tali che P (A) > 0.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
18/ 154
La formula di moltiplicazione si pu`
o estendere anche al caso di tre o
pi`
u eventi. Ad esempio, dati A1 , A2 , A3 , tali che P (A1 ∩ A2 ) > 0,
P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ).
Esempio. Si consideri l’estrazione, senza reinserimento, di due
palline da un’urna contenente dieci palline nere e cinque bianche.
Si vuole calcolare la probabilità che esca pallina nera in entrambe
le estrazioni.
Indicati con A1 e A2 gli eventi “esce una pallina nera”,
rispettivamente, alla prima e alla seconda estrazione, si ha che
P (A1 ) = 10/15 e P (A2 |A1 ) = 9/14.
Utilizzando la formula di moltiplicazione, la probabilità cercata è
P (A1 ∩ A2 ) = P (A1 )P (A2 |A1 ) = 6/14.
Se le singole estrazioni avvengono con reinserimento, si ha che
P (A2 |A1 ) = 10/15 = P (A1 ) e quindi P (A1 ∩ A2 ) = 4/9.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
19/ 154
Utilizzando alcune relazioni considerante in precedenza, si ottiene il
seguente risultato, che risulta molto utile nelle applicazioni.
Dato un evento B e una partizione Ai , i ∈ I ⊆ N, di Ω, con
P (Ai ) > 0, vale la formula della probabilità totale
X
P (Ai )P (B | Ai ).
P (B) =
i∈I
Infatti, considerando la formula di addizione, dal momento che, per
la formula di moltiplicazione, P (B ∩ Ai ) = P (Ai )P (B|Ai ), i ∈ I,
si ottiene immediatamente il risultato.
Esempio. Spam. Si suppone di possedere tre caselle di posta
` noto che il 70% della posta proviene dalla prima
elettronica. E
casella, il 20% dalla seconda e il 10% dalla terza
Dalla prima casella si riceve abitualmente l’1% di messaggi spam,
mentre dalle altre due si riceve il 2% e il 5% di messaggi spam,
rispettivamente.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
20/ 154
Si vuole calcolare la probabilità di riceve un messaggio spam.
Si considerino gli eventi B = “ricevere un messaggio spam” e
Ai = “ricevere posta dalla casella i”, con i = 1, 2, 3.
Evidentemente {A1 , A2 , A3 } è una partizione di Ω costituita da
eventi di probabilità 0.7, 0.2 e 0.1, rispettivamente.
Poiché
P (B|A1 ) = 0.01,
P (B|A2 ) = 0.02,
P (B|A3 ) = 0.05,
utilizzando la formula della probabilità totale, si ottiene che
P (B) =
3
X
P (Ai )P (B|Ai )
i=1
.
= 0.7 · 0.01 + 0.2 · 0.02 + 0.1 · 0.05 = 0.016.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
21/ 154
Probabilità elementare: indipendenza stocastica
Intuitivamente, due eventi si dicono indipendenti se il realizzarsi o
meno di uno dei due non modifica la probabilità di realizzazione
dell’altro.
Formalmente, due eventi A e B si dicono (stocasticamente)
indipendenti, se
P (A ∩ B) = P (A)P (B).
Se, invece, P (A ∩ B) 6= P (A)P (B), A e B sono detti dipendenti.
Si verifica che:
• se A e B sono non trascurabili, la definizione di indipendenza
è equivalente a P (B|A) = P (B) oppure P (A|B) = P (A);
• se A e B sono indipendenti, allora lo sono anche A e B c , Ac e
B, Ac e B c ;
• Ω, ∅, ed anche ogni evento trascurabile, sono indipendenti da
qualsiasi evento.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
22/ 154
Esempio. Si suppone di lanciare un dado equilibrato e si vuole
verificare l’indipendenza tra A = {1, 2, 6} e B = {3, 6}.
Nonostante, A e B sembrino, a prima vista, dipendenti, si ha che
P (A ∩ B) = 1/6, P (A) = 3/6 e P (B) = 2/6, da cui segue invece
l’indipendenza stocastica.
♦
L’indipendenza è un concetto diverso dall’incompatibilità. Ad
esempio, se due eventi non trascurabili A e B sono incompatibili,
allora P (A ∩ B) = 0 e quindi necessariamente sono dipendenti,
poiché P (A ∩ B) 6= P (A)P (B) > 0.
La definizione di indipendenza pu`
o venire estesa al caso di pi`
u di
due eventi. In particolare, A1 , A2 , A3 sono indipendenti se
P (A1 ∩A2 ∩A3 ) = P (A1 )P (A2 )P (A3 ),
P (A2 ∩ A3 ) = P (A2 )P (A3 ),
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
P (A1 ∩A2 ) = P (A1 )P (A2 ),
P (A1 ∩ A3 ) = P (A1 )P (A3 ).
23/ 154
Esempio. Si consideri un circuito con sei componenti dal
funzionamento indipendente. La probabilità di rottura, in un certo
intervallo di tempo, è 0.5 per il primo componente, 0.2 per il
secondo e 0.1 per i rimanenti quattro.
Si determini la probabilità che il circuito si blocchi nell’intervallo di
tempo prefissato, nel caso in cui i componenti siano in serie e nel
caso siano in parallelo
Sia Ai = “il componente i-esimo si rompe”, i = 1, . . . , 6, e
B = “il circuito si interrompe”. Poiché gli eventi Ai sono
indipendenti, lo sono anche i corrispondenti complementari.
Se i componenti sono in serie, il circuito si interrompe se almeno
un componente si rompe, quindi
c
P (B) = 1−P (B ) =
1−P (Ac1 ∩. . .∩Ac6 )
= 1−
6
Y
.
P (Aci ) = 0.738.
i=1
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
24/ 154
Se i componenti sono in parallelo, il circuito si interrompe se tutti i
componenti si rompono, quindi
P (B) = P (A1 ∩ . . . ∩ A6 ) =
6
Y
P (Ai ) = 0.00001.
i=1
♦
Esempio. In una stanza ci sono 5 uomini e 5 donne. Si scelgono a
caso due persone (senza reinserimento). Quale è la probabilità che
siano entrambe donne?
Sia Ai = “l’i-esima persona scelta è donna”, i = 1, 2. Visto che
P (A1 ) = 5/10 e P (A2 | A1 ) = 4/9, la probabilità cercata è
.
P (A1 ∩ A2 ) = P (A1 )P (A2 | A1 ) = 0.22.
Gli eventi non trascurabili A1 e A2 sono dipendenti poiché
P (A2 ) = 1/2 e
P (A2 | A1 ) = 4/9.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
25/ 154
Esempio. Una filiale di un istituto bancario ha 1210 clienti titolari
di conto corrente.
L’ufficio crediti distingue tra buoni e cattivi clienti, tenendo conto
delle eventuali insolvenze. Inoltre, sono noti i dati sull’eventuale
possesso della carta di credito.
Le informazioni disponibili vengono sintetizzate nella seguente
tabella
con carta di credito
senza carta di credito
cattivo cliente
60
21
81
buon cliente
520
609
1129
580
630
1210
Si sceglie casualmente un cliente e si vuole valutare l’eventuale
indipendenza tra gli eventi A = “si sceglie un buon cliente” e
B = “si sceglie un possessore di carta di credito”.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
26/ 154
Dalla tabella si ricava che
P (A) =
1129 .
= 0.933,
1210
P (A ∩ B) =
P (B) =
580 .
= 0.479,
1210
520 .
= 0.430.
1210
Poiché
P (A ∩ B) = 0.43 6= P (A)P (B) = 0.45,
si conclude che i due eventi sono dipendenti. Inoltre, la probabilità
condizionata
P (A|B) =
520/1210
520 .
P (A ∩ B
=
=
= 0.897
P (B)
580/1210
580
risulta diversa da P (A) = 0.933.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
27/ 154
Probabilità elementare: teorema di Bayes
Si considera la situazione in cui, noto il risultato di un qualche
esperimento, si vuole determinare la probabilità che esso sia dovuto
ad una certa causa, o condizione sperimentale.
Ciò accade, ad esempio, quando l’esperimento avviene in due stadi
e, pur essendo noto il risultato finale, non si è a conoscenza del
risultato ottenuto al primo stadio.
Esempio. Si considerino due urne indistinguibili. La prima
contiene quattro palline bianche e sei nere, la seconda tre palline
bianche e cinque nere.
Si sceglie a caso un’urna, senza sapere quale delle due, e si estrae
da essa una pallina. Se la pallina è bianca, ci si chiede quale è la
probabilità che essa provenga dalla prima urna.
Sia B = “la pallina estratta bianca” e Ai = “si sceglie l’urna i”,
i = 1, 2, si cerca P (A1 | B).
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
28/ 154
Utilizzando la formula di moltiplicazione, si si ottiene
P (A1 ∩ B) = P (A1 )P (B | A1 ) = (1/2)(4/10) = 1/5.
Per la formula delle probabilità totali ha che
P (B) = P (A1 )P (B | A1 ) + P (A2 )P (B | A2 )
= (1/2)(4/10) + (1/2)(3/8) = 31/80.
Quindi, per la definizione di probabilità condizionata,
P (A1 | B) =
1/5 .
P (A1 ∩ B)
=
= 0.516.
P (B)
31/80
Si noti che P (A1 | B) > P (A1 ) e questo trova una giustificazione
nel fatto che la prima urna contiene una porzione maggiore di
palline bianche ed inoltre si suppone di avere estratto pallina
bianca.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
29/ 154
Il teorema di Bayes afferma che:
dato un evento B non trascurabile e una partizione Ai , i ∈ I ⊆ N,
di Ω costituita da eventi non trascurabili, si ha che, per ogni i ∈ I,
P (Ai |B) =
P (Ai )P (B|Ai )
.
P (B)
Se P (B) non èP
nota, si pu`
o utilizzare la formula delle probabilità
totali P (B) = j∈I P (Aj )P (B|Aj ).
Infatti, per la definizione di probabilità condizionata, applicando la
formula di moltiplicazione, si ha che, per ogni i ∈ I,
P (Ai |B) =
P (Ai )P (B|Ai )
P (B ∩ Ai )
=
,
P (B)
P (B)
che è il risultato cercato.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
30/ 154
Si possono fare le seguenti considerazioni:
• le probabilità P (Ai ), i ∈ I, vengono chiamate probabilità a
priori (iniziali) della condizione sperimentale i-esima e
riflettono quelle che sono le conoscenze disponibili prima della
realizzazione dell’esperimento;
• le probabilità P (Ai |B), i ∈ I, vengono chiamate probabilità a
posteriori (finali) e tengono conto del fatto che l’esperimento
si è concluso e l’evento B si è realizzato;
• il teorema di Bayes esprime formalmente una procedura
coerente di apprendimento dall’esperienza;
• P (Ai |B) risulta proporzionale a P (Ai )P (B|Ai ), mentre la
quantità P (B), presente al denominatore, è un fattore di
normalizzazione;
• P (B|Ai ) è chiamata la verosimiglianza di Ai ; si può
interpretare concettualmente come la verosimiglianza che il
verificarsi di B ha attribuito alla condizione sperimentale Ai .
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
31/ 154
Esempio. Un’azienda produce il 30% dei suoi articoli con una
prima linea di produzione, che fornisce 8 pezzi difettosi su 100,
mentre il restante 70% con una seconda linea, che fornisce 5 pezzi
difettosi su 100.
Si sceglie a caso un articolo, senza sapere da quale linea provenga,
e viene scartato perché difettoso. Si vuole calcolare la probabilità
che provenga dalla prima linea di produzione.
Indicato con B = “l’articolo selezionato è difettoso” e con
Ai = “l’articolo selezionato proviene dall’i-esima linea”, i = 1, 2, si
ha che P (B|A1 ) = 8/100, P (B|A2 ) = 5/100, P (A1 ) = 3/10,
P (A2 ) = 7/10.
Per il teorema di Bayes, la probabilità cercata è
P (A1 |B) =
24 .
P (A1 )P (B|A1 )
=
= 0.407.
P (A1 )P (B|A1 ) + P (A2 )P (B|A2 )
59
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
32/ 154
Esempio. La probabilità che nevichi in un generico giorno
invernale, in un dato comune, è 0.2. Inoltre, in caso di neve, la
probabilità che il giorno dopo le strade siano impraticabili è 0.6.
Tale probabilità scende a 0.1 se non ha nevicato il giorno prima.
Indicato con B = “le strade sono impraticabili” e con
A1 = “nevica in un giorno qualunque”, posto A2 = Ac1 , si ha che
P (B|A1 ) = 0.6, P (B|A2 ) = 0.1, P (A1 ) = 0.2 e P (A2 ) = 0.8.
Dalla formula della probabilità totale si ottiene la probabilità che,
in un generico giorno invernale, le strade siano impraticabili
P (B) = 0.2 · 0.6 + 0.8 · 0.1 = 0.2.
Utilizzando il teorema di Bayes, si determina la probabilità che,
essendo le strade impraticabili, ieri abbia nevicato
P (A1 |B) =
0.2 · 0.6
= 0.6.
0.2
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
33/ 154
Variabili casuali: funzione di ripartizione
Per descrivere fenomeni o esperimenti aleatori si considera la
nozione di variabile casuale, che fornisce un modello matematico
utile anche per le applicazioni statistiche.
Lo spazio fondamentale Ω potrebbe non essere un insieme
numerico oppure potrebbe non rappresentare in modo chiaro gli
aspetti dell’esperimento a cui si è interessati. In alcuni casi Ω
potrebbe essere astratto e molto complesso da specificare.
Le variabili casuali permettono di svincolarsi dallo spazio Ω e di
operare in insiemi numerici dove le probabilità si calcolano
mediante somme o integrali.
Esempio. L’esperimento del lancio di una moneta non da luogo ad
un risultato numerico, poiché Ω = {T, C}. Se si considera il
numero di esiti “Testa” in n = 1 lanci, si ottiene una descrizione
numerica del fenomeno in esame.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
34/ 154
In una procedura di controllo della qualità si pu`
o non essere
interessati all’esito completo dell’esperimento ma soltanto al
numero di oggetti che soddisfano ad opportuni standard di qualità,
tra quelli selezionati.
Nel lancio di due dadi, si pu`
o prestare attenzione non tanto alla
coppia di valori che appaiono sulle facce superiori dei singoli dadi,
ma alla somma di tali valori numerici.
♦
Dato un esperimento (fenomeno) aleatorio descritto da uno spazio
fondamentale Ω e una probabilità P , si definisce variabile casuale
(aleatoria) X una applicazione da Ω in R misurabile, cioè tale che
sia possibile “probabilizzare” gli eventi ad essa riferiti.
Quindi una variabile casuale è una funzione che, a seconda del
risultato dell’esperimento in esame, assume valori numerici a cui
possibile attribuire una certa probabilità di realizzazione coerente
con P .
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
35/ 154
Esempio. Moneta. Si consideri l’esperimento che consiste nel
lanciare tre volte una moneta regolare e si supponga di essere
interessati al numero totale degli esiti testa.
Quindi Ω = {CCC, CCT, CT C, T CC, CT T, T CT, T T C, T T T } e
la variabile casuale X : Ω → R associa ad ogni evento elementare
di Ω il numero di esiti T . Ad esempio, X(T T C) = 2.
X assume valori in {0, 1, 2, 3} e tali valori corrispondono a veri e
propri eventi elementari, indicati con la scrittura simbolica X = i,
i = 0, 1, 2, 3.
` immediato concludere che X = i ha probabilità 1/8, se i = 0, 3,
E
e 3/8, se i = 1, 2. Si noti che la somma delle probabilità riferite
agli esiti di X è pari a 1.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
36/ 154
La misura di probabilità riferita agli eventi X ∈ B, B ⊆ R,
associati alla variabile casuale X, soddisfa gli assiomi di
Kolmogorov ed è detta distribuzione (legge) di probabilità di X.
In genere, non si fa menzione dello spazio di partenza e si identifica
una variabile casuale X con la sua distribuzione di probabilità.
Due variabili casuali X e Y sono dette identicamente distribuite, in
simboli X ∼ Y , se P (X ∈ B) = P (Y ∈ B), per ogni B ⊆ R.
Per specificare la distribuzione di probabilità di una variabile
casuale X si considera la nozione di funzione di ripartizione, intesa
come un’applicazione FX : R → [0, 1], tale che
FX (x) = P (X ≤ x),
x ∈ R.
La conoscenza di FX permette di calcolare, eventualmente con
procedimenti di limite, tutte le probabilità P (X ∈ B), B ⊆ R.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
37/ 154
In particolare, per ogni a, b ∈ R, a < b,
P (a < X ≤ b) = FX (b) − FX (a),
P (X > a) = 1 − FX (a),
P (X = b) = FX (b) − lim FX (x).
x→b−
La funzione di ripartizione verifica le tre seguenti proprietà
caratterizzanti:
• FX è monotona non decrescente;
• FX è continua da destra;
• FX è tale che limx→−∞ FX (x) = 0 e limx→+∞ FX (x) = 1.
Perciò, FX non è necessariamente continua anche da sinistra e
quindi continua in ogni punto.
Si può dimostrare che FX è continua nei punti in cui
P (X = x) = 0 e discontinua nei punti in cui P (X = x) > 0, che
sono al pi`
u un’infinità numerabile.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
38/ 154
0.8
0.4
0.0
0.0
0.4
0.8
Vengono riportati due esempi di funzioni di ripartizione.
−1
1
2
3
4
5
6
−1
1
2
3
4
5
6
L’insieme di tutti i possibili valori della variabile casuale X
corrisponde usualmente alla nozione di supporto.
Il supporto di X, indicato con SX , è l’insieme dei punti x ∈ R i cui
intorni sono eventi di probabilità strettamente positiva, cioè
SX = {x ∈ R : ∀ε > 0, P (x − ε < X < x + ε) > 0}.
Esempio. Moneta (continua). Si considera il lancio della moneta
ripetuto per tre volte. In questo caso, SX = {0, 1, 2, 3} e
P (X = 0) = P (X = 3) = 1/8, P (X = 1) = P (X = 2) = 3/8. ♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
39/ 154
Variabili casuali discrete
Tra le varie tipologie di variabili casuali si considerano quelle
discrete, che possono assumere un numero finito o al pi`
u
numerabile di valori, e quelle continue, che assumono valori in un
insieme continuo.
Pi`
u precisamente, una variabile casuale X è discreta se esiste un
insieme di numeri reali P
{xi }i∈I , finito o al pi`
u numerabile, tale che
P (X = xi ) = pi > 0 e i∈I pi = 1; usualmente, SX = {xi , i ∈ I}.
La corrispondenza tra i possibili valori di X e le rispettive
probabilità individua la funzione di probabilità (massa)
P (X = xi ) = pi se x = xi , ∀i ∈ I,
fX (x) =
0
altrimenti.
Dalla conoscenza di fX si risale facilmente alla funzione di
ripartizione FX e viceversa, quindi fX caratterizza la variabile
casuale X.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
40/ 154
Infatti, per ogni x ∈ R,
FX (x) = P (X ≤ x) =
X
pi .
i: xi ≤x
Il grafico di FX (x) è una funzione a gradini, continua da destra,
con salti in corrispondenza degli elementi del supporto xi ∈ SX e
ampiezza del salto data da
pi = fX (xi ) = FX (xi ) − FX (xi−1 ).
La conoscenza di fX permette spesso una notevole semplificazione
nel calcolo di probabilità di eventi relativi a X, dal momento che,
per ogni B ⊆ R,
X
P (X ∈ B) =
fX (xi ).
i : xi ∈B
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
41/ 154
0.8
0.4
0.0
0.0
0.4
0.8
Esempio. Moneta (continua). Si considera la variabile casuale X
che conta il numero di esiti testa in tre lanci di una moneta
regolare. In questo caso, la funzione di probabilità e la funzione di
ripartizione corrispondono rispettivamente a
−1
0
1
2
Inoltre, P (X ≥ 1) =
P
3
4
i : xi ≥1 P (X
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
−1
0
1
= xi ) = 7/8.
2
3
4
♦
42/ 154
Esempio. Variabile casuale degenere. Una variabile casuale X è
degenere nel punto c ∈ R, in simboli X ∼ D(c), se P (X = c) = 1.
In questo caso SX = {c} e la funzione di ripartizione è
0 se x < c
FX (x) =
1 se x ≥ c,
0.0
0.2
0.4
0.6
0.8
1.0
con grafico, per il caso c = 1,
−1
0
1
2
3
4
Una variabile casuale degenere descrive un esperimento non
aleatorio.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
43/ 154
Esempio. Variabile casuale Bernoulliana. Una variabile casuale X
è Bernoulliana, in simboli X ∼ Ber(p), con p ∈ (0, 1), se
SX = {0, 1} e P (X = 1) = p, P (X = 0) = 1 − p. Si ha che


se x < 0
 0
 1 − p se x = 0
1 − p se 0 ≤ x < 1
p
se x = 1
FX (x) =
fX (x) =


1
se x ≥ 1,
0
altrimenti,
con grafico, per il caso p = 2/3, rispettivamente
0.8
0.8
●
0.4
0.4
●
●
0.0
0.0
●
−0.5
0.0
0.5
1.0
1.5
−1
0
1
2
3
4
Esperimento aleatorio dicotomico, cioè con due possibili esiti, ad
esempio, successo e insuccesso, quantificati in 1 e 0.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
44/ 154
0.0
0.1
0.2
0.3
0.4
0.5
0.6
Esempio. Tetano. Sia X una variabile casuale discreta che
descrive il numero di casi di tetano registrati nel comune di Padova
in una settimana. La sua funzione di densità è

0.4 se x = 0




0.2 se x = 1



0.1 se x = 2
fX (x) =
0.05 se x = 3





0.25 se x = 4


0
altrimenti.
0
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
1
2
3
4
45/ 154
Variabili casuali continue
Una variabile casuale X è continua se la sua funzione di
ripartizione FX è continua ed è tale che esiste una funzione fX ,
definita su R, tale che
Z x
FX (x) =
fX (t)dt, ∀x ∈ R.
−∞
La fX è chiamata funzione di densità probabilità ed è tale che
• fX (x) ≥ 0, per ogni x ∈ R;
R +∞
• −∞ fX (x)dx = 1;
• fX (x) =
d
dx FX (x),
per ogni x ∈ R in cui fX (x) continua.
Quindi dalla conoscenza di fX si ottiene FX e viceversa; fX
caratterizza la variabile casuale X.
Il supporto SX è un insieme continuo, ad esempio R o un
intervallo o una semiretta di R.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
46/ 154
Invece che assegnare probabilità a valori puntuali (si ricordi che,
essendo FX continua, P (X = x) = 0, per ogni x ∈ R), si assegna
probabilità agli intervalli, semirette, ecc. di R.
Gli eventi (X < a) e (x ≤ a), a ∈ R, hanno la stessa probabilità.
0.8
0.4
0.0
0.0
0.4
0.8
Il valore della funzione di ripartizione in x = 1, FX (1), (grafico di
sinistra) corrisponde all’area sottesa dalla funzione di densità con
riferimento a (−∞, 1] (grafico di destra).
−1
1
2
3
4
5
6
−1
1
2
3
4
5
6
Inoltre, come conseguenza dei risultati di probabilità elementare,
P (X > a) = 1 − P (X ≤ a) = 1 − FX (a), per ogni a ∈ R.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
47/ 154
Vale il seguente risultato: per ogni a, b ∈ R, a < b,
Z
P (a < X ≤ b) = FX (b) − FX (a) =
b
fX (x)dx,
a
0.8
0.4
0.0
0.0
0.4
0.8
che corrisponde all’area sottesa dalla funzione di densità con
riferimento all’intervallo [a, b]. Graficamente, se [a, b] = [1, 2],
−1
1
2
3
4
5
6
−1
1
2
3
4
5
6
In generale, la probabilità associata all’evento X ∈ B corrisponde a
Z
P (X ∈ B) =
fX (x)dx.
B
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
48/ 154
Si noti che fX non definisce la probabilità associata all’evento
X = x, che risulta essere nulla, ma è direttamente proporzionale
alla probabilità che X assuma valori in un intorno di x.
0.0
0.5
1.0
1.5
Esempio. Internet. Una compagnia telefonica ha riscontrato che
la durata, in un’ora, dei collegamenti internet dei propri utenti è
descritta da una variabile casuale continua X con funzione di
densità fX (x) = 6x(1 − x), se x ∈ [0, 1], e nulla altrove
−0.5
0.0
0.5
1.0
1.5
Si
verifica facilmente che fX è non negativa e tale che
R +∞
−∞ fX (x)dx = 1.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
49/ 154
Inoltre, la funzione di ripartizione è tale che per x ∈ [0, 1],
FX (x) = 3x2 − 2x3 , mentre, se x < 0, FX (x) = 0 e, se x > 1,
FX (x) = 1.
La probabilità che X assuma valori in [0.5, 0.7] è
Z
0.7
P (0.5 ≤ X ≤ 0.7) = FX (0.7)−FX (0.5) =
6x(1−x)dx = 0.284
0.5
0.0
0.5
1.0
1.5
e corrisponde all’area evidenziata nel grafico sottostante
−0.5
0.0
0.5
1.0
1.5
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
50/ 154
Esempio. Variabile casuale esponenziale. Una variabile casuale X
è esponenziale, in simboli X ∼ Esp(λ), con λ > 0, se
SX = [0, +∞) e
λe−λx se x ∈ SX
fX (x) =
0
altrimenti.
La funzione di ripartizione è
Z x
Z
−λt
λe dt =
FX (x) =
−∞
x
λe−λt dt = 1 − e−λx ,
0
se x ∈ SX , mentre FX (x) = 0, se x ∈
/ SX .
Si calcolano le probabilità
P (X > 1) = 1 − FX (1) = e−λ ,
P (1 ≤ X ≤ 3) = FX (3) − FX (1) = e−λ − e−3λ ,
che, se λ = 1, corrispondono rispettivamente a e−1 e e−1 − e−3 .
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
51/ 154
1.2
0.6
0.0
0.0
0.6
1.2
La variabile casuale esponenziale viene utilizzata soprattutto per
rappresentare durate e tempi di vita o di funzionamento, nel caso
in cui si ipotizza assenza di memoria o di usura.
−1
1 2 3 4 5
−1
1 2 3 4 5
Si presentano i grafici della funzione di ripartizione e della funzione
di densità nel caso λ = 1.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
52/ 154
Esempio. Variabile casuale uniforme. Una variabile casuale
continua X è uniforme in [0, 1], in simboli X ∼ U (0, 1), se
SX = [0, 1] e
1 se x ∈ SX
fX (x) =
0 altrimenti.
La funzione di ripartizione è

 0 se x < 0
x se 0 ≤ x < 1
FX (x) =

1 se x ≥ 1,
Si noti che, se gli intervalli [a, b] e [c, d] del supporto, con a < b e
c < d, hanno uguale ampiezza h, allora
P (a ≤ X ≤ b) = P (c ≤ X ≤ d) = h · 1 = h.
Dunque, tutti gli intervalli del supporto di uguale lunghezza hanno
la stessa probabilità di contenere un valore di X.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
53/ 154
La variabile casuale uniforme continua viene utilizzata per
esperimenti aleatori che possono essere rappresentati come
un’estrazione casuale di un numero da un certo intervallo di R.
1.0
0.0
0.0
1.0
` un modello che descrive l’equiprobabilità nel continuo.
E
−0.5
0.5
1.5
−0.5
0.5
1.5
Si presentano i grafici della funzione di ripartizione e della funzione
di densità.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
54/ 154
Variabili casuali: indici sintetici
La distribuzione di probabilità di una variabile casuale X viene
descritta in modo completo dalla associata funzione di ripartizione
o dalla corrispondente funzione (di densità) di probabilità.
Nonostante ciò, spesso si interessati a conoscere soltanto alcuni
aspetti parziali della distribuzione di probabilità di X, quali
• la posizione, cioè il centro della distribuzione di probabilità;
• la variabilit`
a, cioè la dispersione della distribuzione di
probabilità attorno ad un centro;
• la forma della distribuzione di probabilità, considerando la
simmetria e la curtosi (pesantezza delle code).
Si riprendono sostanzialmente gli stessi concetti presentati in
Statistica descrittiva, modificando il contesto di applicazione e gli
elementi interpretativi.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
55/ 154
Data una variabile casuale discreta o continua X, con supporto SX
e funzione (di densità) di probabilità fX , si chiama valore atteso
(medio) o media di X, in simboli E(X), la media dei suoi possibili
valori ponderati con le relative probabilità (la relativa funzione di
densità di probabilità), ovvero
X
X
E(X) =
xfX (x) =
xP (X = x), se X è discreta,
x∈SX
x∈SX
Z
+∞
E(X) =
xfX (x)dx,
se X è continua,
−∞
purché la serie o l’integrale siano convergenti.
` l’indice di posizione pi`
E
u noto. Usualmente si pone E(X) = µ e si
intende tacitamente che tale valore atteso esista finito.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
56/ 154
Esempio. La seguente tabella di frequenza sintetizza i voti
ottenuti da 30 alunni in un compito in classe.
voto
no. alunni
4
2
5
3
6
10
7
11
8
4
Si può calcolare la media aritmetica (Statistica descrittiva) che
corrisponde a 6.4.
Si supponga di avere un’urna con 30 palline, ciascuna contenente il
voto di un alunno, e si estragga a caso una pallina.
La variabile casuale X, che indica il voto ottenuto con l’estrazione,
ha distribuzione di probabilità
x
P (X = x)
4
2/30
5
3/30
6
10/30
7
11/30
8
4/30
e valore atteso E(X) = 6.4 (Calcolo delle probabilità). Il valore è
lo stesso, ma l’interpretazione è evidentemente diversa.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
57/ 154
Esempio. Si lancia una moneta che da testa con probabilità
p ∈ (0, 1); se esce testa Tizio paga a Caio un euro, se esce croce è
Caio a dover dare a Tizio la stessa somma.
Indicata con X la variabile casuale che descrive il guadagno di
Tizio, si ha che E(X) = (−1)p + 1(1 − p) = 1 − 2p.
Quindi, E(X) è positivo, nullo o negativo se, rispettivamente,
p < 1/2, p = 1/2 (moneta regolare) o p > 1/2.
♦
Esempio. Variabile casuale esponenziale (continua). Si consideri
la variabile casuale X ∼ Esp(λ). Poiché la funzione di densità è
nulla fuori dal supporto SX = [0, +∞),
Z +∞
Z +∞
Z
1 +∞ −t
1
E(X) =
xfX (x)dx =
xλe−λx dx =
te dt = ,
λ 0
λ
−∞
0
avendo operato il cambio di variabile t = λx e poi integrato per
parti.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
58/ 154
Esempio. Internet (continua). Si considera la variabile casuale X
che misura la durata, in un’ora, dei collegamenti internet degli
utenti di una certa compagnia telefonica. La funzione di densità di
X è pari a fX (x) = 6x(1 − x), se x ∈ [0, 1], e nulla altrove.
Poiché la funzione di densità è nulla fuori dal supporto SX = [0, 1],
Z
1
Z
x6x(1 − x)dx =
E(X) =
0
0
1
1
6x2 − 6x3 dx = .
2
♦
Esempio. Variabile casuale uniforme (continua). Si consideri la
variabile casuale X ∼ U (0, 1). Poiché la funzione di densità è nulla
fuori dal supporto SX = [0, 1],
Z
E(X) =
0
1
1
x · 1 dx = .
2
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
59/ 154
Sia X una variabile casuale e Y = g(X) una variabile casuale
ottenuta come trasformata della X, tramite l’applicazione g(·).
Nota la distribuzione di probabilità di X, si pu`
o calcolare il valore
atteso di Y , ovvero E(Y ) = E(g(X)), senza conoscere la legge di
Y ; infatti,
X
E(Y ) =
g(x)fX (x), se X e Y sono discrete,
x∈SX
Z
+∞
E(Y ) =
g(x)fX (x)dx,
se X e Y sono continue.
−∞
Sulla nozione di valore atteso si possono fare considerazioni
analoghe a quelle fatte in Statistica descrittiva con riferimento alla
media aritmetica.
Valgono inoltre le seguenti proprietà, per le quali si omettono le
dimostrazioni essendo sostanzialmente analoghe, per lo meno con
riferimento al caso discreto, a quelle viste per la media aritmetica:
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
60/ 154
1) Proprietà di Cauchy: inf{x ∈ SX } ≤ E(X) ≤ sup{x ∈ SX }.
2) Proprietà di baricentro: E(X − E(X)) = 0.
3) Proprietà di linearità: E(aX + b) = aE(X) + b, per ogni
a, b ∈ R.
Inoltre, si può dimostrare che vale la seguente estensione della
proprietà di linearità: date due variabili casuali X e Y , per ogni
a, b ∈ R
E(aX + bY ) = aE(X) + bE(Y );
tale proprietà si può estendere anche al caso di combinazioni lineari
di pi`
u di due variabili casuali.
Oltre al valore atteso esistono altri indici di posizione. Tra questi
verranno ricordati la mediana e la moda.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
61/ 154
La mediana della distribuzione di probabilità di X, o pi`
u
semplicemente la mediana di X, indicata con x0.5 , è quel valore
x0.5 ∈ R tale che
P (X ≤ x0.5 ) ≥ 1/2
e
P (X ≥ x0.5 ) ≥ 1/2.
Quindi, x0.5 ripartisce la massa unitaria di probabilità, di modo che
gli eventi X ≤ x0.5 e X ≥ x0.5 abbiano probabilità pari a 1/2, o
anche maggiore di 1/2 se P (X = x0.5 ) > 0.
Può non essere unica e, in alcuni casi, pu`
o corrispondere anche ad
un intervallo di valori reali.
Se X è una variabile casuale continua, la mediana x0.5 è tale che
FX (x0.5 ) = 1/2;
è il valore dove la funzione di ripartizione vale 1/2 e che ripartisce
a metà l’area unitaria sottesa dalla funzione di densità.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
62/ 154
Esempio. Moneta (continua). Si consideri la variabile casuale X
che conta gli esiti testa in tre lanci di una moneta regolare.
Le condizioni P (X ≤ x0.5 ) ≥ 1/2 e P (X ≥ x0.5 ) ≥ 1/2 risultano
verificate per x0.5 = 1, x0.5 = 2 e per ogni valore reale in (1, 2).
La variabile casuale X presenta come mediana tutti i valori
dell’intervallo [1, 2]. La mediana convenzionale è 1.5.
♦
Esempio. Sia X una variabile casuale tale che SX = {−2, 0, 1, 2},
P (X = −2) = P (X = 2) = 1/4, P (X = 0) = 1/6 e
P (X = 1) = 1/3. Si ha allora che
P (X ≤ 1) = P (X = −2) + P (X = 0) + P (X = 1) > 1/2,
P (X ≥ 1) = P (X = 1) + P (X = 2) > 1/2.
Soltanto il valore x0.5 = 1 soddisfa le due condizioni della
definizione ed è quindi la mediana di X.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
63/ 154
Esempio. Variabile casuale esponenziale (continua). Si considera
la variabile casuale X ∼ Esp(λ), che ha funzione di ripartizione
FX (x) = 1 − e−λx , per x ≥ 0, e nulla altrove, con λ > 0.
La mediana di X si ottiene risolvendo l’equazione
1 − e−λx0.5 = 1/2. In particolare, si ha che x0.5 = λ−1 log 2.
♦
0.0
0.5
1.0
1.5
Esempio. Internet (continua). Si considera la variabile casuale X
che misura la durata, in un’ora, dei collegamenti internet degli
utenti di una certa compagnia telefonica. La funzione di densità di
X è rappresentata nella figura sottostante.
−0.5
0.0
0.5
1.0
1.5
Poiché è simmetrica rispetto a x = 1/2, si ha che x0.5 = 1/2.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
64/ 154
La moda della distribuzione di probabilità di X, o pi`
u
semplicemente la moda di X, indicata con xmo , è quel valore
xmo ∈ R per cui è massima la funzione (di densità) di probabilità.
La moda non è necessariamente unica e pu`
o anche non esistere. Se
esiste, appartiene al supporto SX e individua i valori pi`
u probabili,
se X discreta, o i cui intorni sono gli eventi pi`
u probabili, se X
continua.
Nel caso in cui fX (x) ha un unico massimo, la distribuzione di
probabilità di X è detta unimodale; se ci sono due o pi`
u punti di
massimo, si parla di distribuzioni bimodali o multimodali.
Esempio. Internet (continua). Si considera la variabile casuale X
che misura la durata, in un’ora, dei collegamenti internet degli
utenti di una certa compagnia telefonica. Dalla analisi del grafico
della funzione di densità si conclude che xmo = 1/2.
♦
Esempio. Tetano (continua). Sia X una variabile casuale discreta
che descrive il numero di casi di tetano registrati nel comune di
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
65/ 154
0.0
0.1
0.2
0.3
0.4
0.5
0.6
Padova in una settimana. Dalla analisi della funzione di massa
0
si conclude che xmo = 0.
1
2
3
4
♦
Esempio. Variabile casuale esponenziale (continua). Si considera
la variabile casuale X ∼ Esp(λ). Dalla analisi del grafico della
funzione di densità si conclude che xmo = 0.
♦
Esempio. Variabile casuale uniforme (continua). Si consideri la
variabile casuale X ∼ U (0, 1). Dalla analisi del grafico della
funzione di densità si conclude che la moda xmo corrisponde ad
ogni punto dell’intervallo SX = [0, 1].
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
66/ 154
Sia α ∈ (0, 1), si chiama quantile di livello α della distribuzione di
probabilità di X, o pi`
u semplicemente quantile di livello α di X,
indicato con xα , quel valore xα ∈ R tale che
P (X ≤ xα ) ≥ α
e
P (X ≥ xα ) ≥ 1 − α.
Quindi, a meno di effetti legati alla discretezza, xα ripartisce la
massa unitaria di probabilità lasciando una porzione pari ad α alla
propria sinistra e pari a 1 − α alla propria destra.
Può non essere unico e, in alcuni casi, pu`
o corrispondere anche ad
un intervallo di valori reali.
Se X è una variabile casuale continua, xα è tale che
FX (xα ) = α;
è il valore dove la funzione di ripartizione vale α e che ripartisce in
due porzioni pari ad α e 1 − α l’area unitaria sottesa dalla funzione
di densità.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
67/ 154
Quindi la mediana corrisponde al quantile di livello α = 1/2. Se α
è espresso in termini decimali o percentuali e si parla allora di decili
o di percentili. Se α = 1/4, 1/2, 3/4, si hanno i quartili.
Esempio. Sia X una variabile casuale tale che SX = {−2, 0, 1, 2},
P (X = −2) = P (X = 2) = 1/4, P (X = 0) = 1/6 e
P (X = 1) = 1/3. Si cerca il quantile di livello α = 0.4. Si ha che
P (X ≤ 0) = P (X = −2) + P (X = 0) > 0.4,
P (X ≥ 1) = P (X = 0) + P (X = 1) + P (X = 2) > 0.6.
Poiché soltanto il valore 0 soddisfa le due condizioni della
definizione, si conclude che x0.4 = 0.
♦
Esempio. Variabile casuale esponenziale (continua). Si considera
la variabile casuale X ∼ Esp(λ), che ha funzione di ripartizione
FX (x) = 1 − e−λx , per x ≥ 0, e nulla altrove, con λ > 0.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
68/ 154
Il quantile xα si ottiene risolvendo l’equazione 1 − e−λxα = α. In
particolare, si ha che c = −λ−1 log(1 − α).
♦
0.0
0.5
1.0
1.5
Esempio. Internet (continua). Si considera la variabile casuale X
che misura la durata, in un’ora, dei collegamenti internet degli
utenti di una certa compagnia telefonica. La funzione di densità di
X è rappresentata nella figura sottostante.
−0.5
0.0
0.5
1.0
1.5
Poiché è simmetrica rispetto a x = 1/2, si si pu`
o concludere che,
per ogni α ∈ (0, 0.5), l’area della coda alla sinistra di xα coincide
con l’area della coda alla destra di x1−α .
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
69/ 154
Data una variabile casuale discreta o continua X, con supporto SX
e funzione (di densità) di probabilità fX , si chiama varianza di X,
in simboli V (X), la quantità
V (X) = E((X − E(X))2 ),
se esiste finita, ovvero
X
(x − E(X))2 fX (x),
V (X) =
se X è discreta,
x∈SX
Z
+∞
V (X) =
(x − E(X))2 fX (x)dx,
se X è continua,
−∞
purché la serie o l’integrale siano convergenti.
` l’indice di variabilità pi`
E
u noto. Usualmente si pone V (X) = σ 2 e
si intende tacitamente che il valore atteso della definizione esista
finito.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
70/ 154
La varianza è il valore atteso della variabile casuale scarto
X − E(X) elevata al quadrato e misura la dispersione
distribuzione di probabilità attorno alla media.
Lo scarto quadratico medio di X, indicato con σ, è la radice
p
quadrata aritmetica (l’unica positiva) della varianza, σ = V (X).
Valgono inoltre le seguenti proprietà, per le quali si omettono le
dimostrazioni essendo sostanzialmente analoghe a quelle viste per
la varianza in Statistica descrittiva:
1) Proprietà di non negatività: V (X) ≥ 0, con V (X) = 0 se e
solo se X è degenere.
2) Formula per il calcolo: V (X) = E(X 2 ) − (E(X))2 .
3) Proprietà di invarianza per traslazioni: V (X + b) = V (X),
b ∈ R.
4) Proprietà di omogeneità di secondo grado:
V (aX) = a2 V (X), a ∈ R.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
71/ 154
Dalle proprietà 3) e 4) discende che V (aX + b) = a2 V (X), con
a, b ∈ R.
Inoltre, data una variabile casuale X, con media µ = E(X) e
varianza σ 2 = V (X), la variabile casuale trasformata
Y =
X −µ
σ
è tale che E(Y ) = 0 e V (Y ) = 1 ed è detta variabile casuale
standardizzata.
Viceversa, a partire da una variabile casuale Y con E(Y ) = 0 e
V (Y ) = 1, si può ottenere una variabile casuale X, con valor
medio µ e varianza σ 2 prefissati, utilizzando la trasformata
X = σY + µ.
Oltre alla varianza esistono altri indici di variabilità.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
72/ 154
Se X è positiva, pi`
u precisamente se P (X > 0) = 1, si può
definire la quantità σ/µ, chiamata coefficiente di variazione.
Poiché non dipende dalla unità di misura con cui viene studiato il
fenomeno, può risultare utile per confrontare la dispersione di due
o pi`
u variabili casuali.
Lo scarto medio assoluto dalla mediana, definito come
E(|X − x0.5 |), se esiste finito, esprime la distanza attesa tra i
valori di X e la mediana x0.5 .
Lo scarto interquartilico SI = x3/4 − x1/4 , corrisponde alla
differenza tra il terzo e il primo quartile.
Il campo di variazione (range) R = sup{x ∈ SX } − inf{x ∈ SX },
corrisponde sostanzialmente alla differenza tra il valore pi`
u grande
e pi`
u piccolo del supporto.
Per quanto riguarda lo studio della simmetria e della curtosi
(pesantezza delle code) di una distribuzione di probabilità si
possono riprendere le considerazioni fatte in Statistica descrittiva.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
73/ 154
Esempio. Moneta (continua). Si considera la variabile casuale X
che conta il numero di esiti testa in tre lanci di una moneta
regolare. In questo caso, SX = {0, 1, 2, 3} e P (X = 0) =
P (X = 3) = 1/8, P (X = 1) = P (X = 2) = 3/8 ed è facile
verificare che
3
3
1
3
E(X) = 0 + 1 + 2 + 3 = ,
8
8
8
2
3
1
3
E(X 2 ) = 0 + 1 + 4 + 9 = 3.
8
8
8
Con la regola per il calcolo, si ha V (X) = 3 − (3/2)2 = 3/4.
♦
Esempio. Variabile casuale uniforme (continua). Si consideri la
variabile casuale X ∼ U (0, 1). Poiché E(X) = 1/2 e
E(X 2 ) =
Z
0
1
1
x2 · 1 dx = ,
3
si conclude che V (X) = 1/3 − (1/2)2 = 1/12.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
74/ 154
Esempio. Variabile casuale esponenziale (continua). Si consideri
la variabile casuale X ∼ Esp(λ). Poiché E(X) = 1/λ e,
integrando per parti,
Z
Z +∞
2
2 +∞
2
2 −λx
λxe−λx dx = 2 ,
E(X ) =
λx e
dx =
λ 0
λ
0
si conclude che V (X) = 2/λ2 − (1/λ)2 = 1/λ2 .
♦
Esempio. Internet (continua). Si considera la variabile casuale X
che misura la durata, in un’ora, dei collegamenti internet degli
utenti di una certa compagnia telefonica. Poiché E(X) = 1/2 e
2
Z
1
2
Z
x 6x(1 − x)dx =
E(X ) =
0
1
6x3 − 6x2 dx =
0
si conclude che V (X) = 3/10 − (1/2)2 = 1/20.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
3
,
10
♦
75/ 154
Modello uniforme discreto
Il modello uniforme discreto descrive esperimenti con un numero
finito di esiti equiprobabili.
Una variabile casuale X ha distribuzione uniforme discreta con
possibili valori x1 , . . . , xn ∈ R, n ∈ N+ fissato, in simboli
X ∼ U d(x1 , . . . , xn ), se SX = {x1 , . . . , xn } e
1/n se x = x1 , . . . , xn
fX (x; x1 , . . . , xn ) =
0
altrimenti
Inoltre, E(X) =
Pn
i=1 xi /n,
V (X) =
Pn
i=1 (xi
− E(X))2 /n.
Se xi = i, i = 1, . . . , n, si scrive X ∼ U d(n) e
E(X) =
n+1
,
2
V (X) =
n2 − 1
.
12
Se, in particolare, n = 1, si ottiene la distribuzione degenere in x1 ,
in simboli X ∼ D(x1 ). In questo caso, E(X) = x1 e V (X) = 0.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
76/ 154
0.8
0.4
0.0
0.0
0.4
0.8
Esempio. Si consideri il lancio di un dado regolare. La variabile
casuale X, che indica la faccia uscita dopo il lancio, ha
distribuzione di probabilità U d(6).
0
1
2
3
4
5
6
7
0
1
2
3
4
5
6
7
Le figure rappresentano le associate funzioni di probabilità e di
ripartizione di X.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
77/ 154
Modello binomiale
Si considerano esperimenti che possono essere rappresentati come
estrazioni con reinserimento da un’urna di composizione nota.
Ogni estrazione può essere classificata in due categorie
incompatibili ed esaustive chiamate, in modo convenzionale,
successo e insuccesso (osservazioni dicotomiche dove, in genere, 1
indica il successo e 0 l’insuccesso): esperimento bernoulliano.
Ogni estrazione è indipendente dalle altre e presenta la stessa
probabilità p ∈ (0, 1) di successo.
Il modello binomiale descrive il numero di successi in n ≥ 1
esperimenti bernoulliani indipendenti con la stessa probabilità di
successo p ∈ (0, 1).
Una applicazione possibile è al controllo di qualità: si è interessati
al numero di elementi difettosi in un campione casuale di
dimensione n ≥ 1, con p ∈ (0, 1) la porzione di elementi difettosi.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
78/ 154
Un’altra applicazione è al contesto delle indagini di mercato: si è
interessati al numero di consumatori che apprezzano un certo
prodotto in un campione casuale di dimensione n ≥ 1, con
p ∈ (0, 1) la porzione di individui che apprezzano il prodotto.
Una ulteriore applicazione è allo studio delle popolazioni: si è
interessati al numero di individui che presentano un certa
caratteristica in un campione casuale di dimensione n ≥ 1, con
p ∈ (0, 1) la porzione di individui portatori della caratteristica.
Se, come spesso accade nel campionamento da popolazione finita,
si effettuano estrazioni senza reinserimento (estrazione in blocco),
si può comunque utilizzare il modello binomiale se la popolazione è
cos`ı elevata da essere considerata quasi infinita.
In questo caso, ha poca importanza se l’estrazione è fatta con o
senza reinserimento.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
79/ 154
Una variabile casuale X ha distribuzione binomiale di parametri
n ≥ 1 e p ∈ (0, 1), in simboli X ∼ Bi(n, p), se SX = {0, . . . , n} e
 n

px (1 − p)n−x se x ∈ SX
x
fX (x; n, p) =

0
altrimenti
dove n indica il numero di prove (esperimenti bernoulliani)
indipendenti e p la comune probabilità di successo.
` chiaro che px (1 − p)n−x indica la probabilità di osservare x
E
successi e n − x insuccessi, in una specifica configurazione, e il
coefficiente binomiale individua il numero di possibili configurazioni
con x successi.
Se n = 1 si ha una variabile casuale bernoulliana, o binomiale
elementare, in simboli Ber(p) o Bi(1, p).
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
80/ 154
Si considerano i grafici delle funzioni di massa nel caso in cui
n = 10 e p = 0.2, 0.5, 0.8 e n = 20 e p = 0.5.
0.2
0.0
0.0
0.2
0.4
n=10, p=0.5
0.4
n=10, p=0.2
0
2
4
6
8
10
0
2
6
8
10
15
20
0.2
0.0
0.0
0.2
0.4
n=20, p=0.5
0.4
n=10, p=0.8
4
0
2
4
6
8
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
10
0
5
10
81/ 154
Se le variabili casuali Xi ∼ Ber(p), i = 1, . . . , n, descrivono n
esperimenti bernoulliani indipendenti,
si pu`
o concludere che la
Pn
variabile casuale somma X = i=1 Xi ∼ Bi(n, p).
Si verifica facilmente che, per ogni i = 1, . . . , n,
E(Xi ) = 1 · p + 0 · (1 − p) = p,
V (Xi ) = E(Xi2 ) − (E(Xi ))2 = p(1 − p).
Quindi,
n
n
X
X
Xi ) =
E(Xi ) = np,
E(X) = E(
i=1
n
X
V (X) = V (
Xi ) =
i=1
i=1
n
X
V (Xi ) = np(1 − p).
i=1
Infine, è facile verificare che la frequenza campionaria di successo
(media campionaria di bernoulliane) Y = X/n è tale che
E(Y ) = p e V (Y ) = p(1 − p)/n.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
82/ 154
Esempio. Tra i 100 iscritti ad una associazione sportiva ci sono 30
pi`
u alti di 180 cm. Si estrae casualmente un campione di n = 10
atleti con reinserimento.
La variabile casuale X che definisce il numero di atleti che, tra i 10
considerati, è pi`
u alto di 180 cm (successo) ha distribuzione
Bi(10, 0.3). Ci si attende di osservare E(X) = 3 atleti con altezza
superiore a 180 cm ed inoltre V (X) = 2.1
La probabilità di estrarre almeno un atleta pi`
u alto di 180 cm è
P (X ≥ 1) = 1−P (X = 0) = 1−[10!/(0!10!)]0.30 (1−0.3)10 = 0.97.
La probabilità di estrarre due atleti pi`
u alti di 180 cm è
P (X = 2) = [10!/(2!8!)]0.32 (1 − 0.3)8 = 0.23.
Infine, la probabilità di estrarne meno di 4 è
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
83/ 154
P (X < 4) =
3
X
P (X = xi ) = 0.27 + 0.23 + 0.12 + 0.03 = 0.65.
i=0
♦
Esempio. Per un inconveniente nella linea di produzione, su 100
monitor prodotti da una certa azienda 10 risultano difettosi. Un
rivenditore ha, recentemente, acquistato cinquanta monitor da
questa azienda.
La variabile casuale X che descrive il numero di monitor che, tra i
cinquanta venduti, verranno resi alla casa produttrice perché
difettosi è una Bi(50, 0.1).
Il numero atteso di monitor difettosi è E(X) = 5, mentre
V (X) = 4.5. Inoltre, la probabilità che nessun monitor sia
difettoso è
P (X = 0) = [50!/(0!50!)]0.10 (1 − 0.1)50 = 0.005
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
84/ 154
Modello Poisson
Il modello Poisson descrive problemi di conteggio quando non c’è
una limitazione superiore per il supporto o problemi in cui tale
limitazione è praticamente irrilevante.
Sotto alcune ipotesi, descrive il numero di arrivi o accadimenti di
un evento di interesse (successo) in un intervallo di tempo (o
anche su una superficie) di dimensione fissata.
Una variabile casuale X ha distribuzione Poisson con parametro
λ > 0, in simboli X ∼ P (λ), se SX = N e
x −λ
λ e /x! se x ∈ SX
fX (x; λ) =
0
altrimenti
Si dimostra che E(X) = λ e E(X 2 ) = λ2 + λ, da cui si ottiene
che V (X) = E(X 2 ) − (E(X))2 = λ2 + λ − λ2 = λ. Quindi, media
e varianza coincidono e corrispondono al parametro λ.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
85/ 154
Se il numero medio di successi in una unità di tempo è ν, la
variabile casuale che rappresenta il numero di successi in un
intervallo di tempo t ha distribuzione P (λ), con λ = νt.
La distribuzione Poisson pu`
o venire interpretata come caso limite
della distribuzione binomiale. Se n è elevato e p è piccola, la
distribuzione Bi(n, p) viene approssimata da una P (λ), con
λ = np.
Per quanto riguarda le applicazioni, l’approssimazione è efficace se
n ≥ 50 e p ≤ 1/25.
L’approssimazione risulta pressoché esatta quando si considerano
fenomeni come, ad esempio, il numero di cittadini americani
coinvolti in incidenti stradali in un anno, dove n = 303824646
(luglio 2008, stima) e p = 0.00024.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
86/ 154
Si considerano i grafici delle funzioni di massa nel caso in cui
λ = 0.5, 2, 5, 15.
0.3
0.0
0.0
0.3
0.6
lambda=2
0.6
lambda=0.5
0 5
15
25
0 5
25
0.3
0.0
0.0
0.3
0.6
lambda=15
0.6
lambda=5
15
0 5
15
25
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
0 5
15
25
87/ 154
Esempio. Al Pronto Soccorso di un piccolo ospedale si presentano
in media 3 pazienti ogni ora.
Per predisporre il personale medico necessario, si vuole calcolare la
probabilità che in un’ora arrivino esattamente 2 pazienti e la
probabilità che in un’ora arrivino pi`
u di 2 pazienti.
Indicata con X ∼ P (3) la variabile casuale che descrive il numero
di arrivi in un’ora al Pronto Soccorso, la probabilità che arrivino 2
pazienti in un’ora è
P (X = 2) =
e−3 32
= 0.224,
2!
mentre la probabilità che arrivino pi`
u di 2 pazienti in un’ora è
2
X
P (X > 2) = 1−P (X ≤ 2) = 1−
P (X = i) = 1−0.423 = 0.577.
i=0
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
88/ 154
Modello geometrico
Il modello geometrico descrive il tempo di attesa, espresso come
numero di replicazioni indipendenti di un esperimento bernoulliano,
con probabilità di successo p, per osservare per la prima volta un
successo.
Una variabile casuale X ha distribuzione geometrica con parametro
p ∈ (0, 1), in simboli X ∼ Ge(p), se SX = N+ e
(1 − p)x−1 p se x ∈ SX
fX (x; λ) =
0
altrimenti
Si dimostra che E(X) = 1/p e V (X) = (1 − p)/p2 .
Il modello geometrico è caratterizzato dalla proprietà di assenza di
memoria, che viene specificata dalla seguente condizione
P (X > s + t|X > s) = P (X > t), per ogni s, t ∈ SX .
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
89/ 154
Quindi la probabilità che il successo avvenga dopo s + t prove
bernoulliane, sotto la condizione che non sia avvenuto nelle prime
s prove, pari alla probabilità non condizionata che il successo
avvenga dopo t prove.
Si considerano i grafici delle funzioni di massa nel caso in cui
p = 0.25, 0.5.
0.3
0.0
0.0
0.3
0.6
p=0.5
0.6
p=0.25
2
6
10
14
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
2
6
10
14
90/ 154
Esempio. Si consideri il gioco del lotto. La probabilità che esca il
tre in una singola estrazione su una ruota prefissata 1/18.
La variabile casuale X, che indica il numero di settimane
necessarie affinché esca il numero tre sulla ruota di Napoli, ha
distribuzione Ge(1/18).
Si calcola la probabilità che il tre esca alla trentesima settimana, se
si è a conoscenza che non è uscito nelle prime dieci settimane
(17/18)29 (1/18)
P (X = 30)
=
=
P (X = 30|X > 10) =
P (X > 10)
(17/18)10
17
18
19
1
.
18
La probabilità cercata corrisponde a P (X = 20), cioè alla
probabilità non condizionata che il tre esca alla ventesima
settimana.
Questo risultato conferma la totale infondatezza dell’uso dei ritardi
per congetturare una modificazione delle probabilità di successo nel
gioco del lotto.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
91/ 154
Modello uniforme continuo
Il modello uniforme continuo descrive esperimenti aleatori che
possono essere rappresentati come un’estrazione casuale di un
numero dall’intervallo [a, b].
Il concetto di equiprobabilità viene trasferito all’ambito continuo
richiedendo che tutti i sottointervalli del supporto di uguale
lunghezza abbiano la stessa probabilità di contenere il risultato
sperimentale.
Una variabile casuale X ha distribuzione uniforme continua
(rettangolare) con parametri a, b ∈ R, a < b, in simboli
X ∼ U (a, b), se SX = [a, b] e
1/(b − a) se a ≤ x ≤ b
fX (x; a, b) =
0
altrimenti

se x < a
 0
(x − a)/(b − a) se a ≤ x < b
FX (x; a, b) =

1
se x ≥ b.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
92/ 154
Si verifica facilmente che
Z b
b2 − a2 1
b+a
1
E(X) =
dx =
=
,
x
b
−
a
2
b
−
a
2
a
2
Z
2
b
V (X) = E(X ) − (E(X)) =
a
=
b3 − a3
−
3(b − a)
b+a
2
2
=
1
x
dx −
b−a
2
b+a
2
2
(b − a)2
.
12
Per il grafico delle funzioni di densità e di ripartizione si rimanda
all’esempio presentato in precedenza, dove si è considerata una
variabile casuale U (0, 1).
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
93/ 154
Esempio. Si predispone un esperimento per valutare il senso di
orientamento dei criceti. Gli animali vengono posti al centro un
contenitore circolare con un’unica via di uscita. Dopo averli bendati
e disorientati, si osserva la direzione scelta da ciascun criceto.
Sia X ∼ U (−π, π) la variabile casuale che esprime l’ampiezza in
radianti dell’angolo tra la direzione scelta dall’animale e la direzione
che porta all’uscita. Si ha che E(X) = 0 e V (X) = π 2 /3.
Si consideri la variabile casuale Y , che esprime l’ampiezza
dell’angolo in gradi. Poiché Y = 180X/π, si ha che
Y ∼ U (−180, 180).
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
94/ 154
Modello esponenziale
Il modello esponenziale viene utilizzato soprattutto per
rappresentare durate e tempi di vita o di funzionamento (ad
esempio negli studi di affidabilità), nel caso in cui sia plausibile
assumere la proprietà di assenza di memoria o di usura.
Una variabile casuale X ha distribuzione esponenziale con
parametro λ > 0, detto tasso di guasto, in simboli X ∼ Esp(λ), se
SX = [0, +∞) e
λe−λx se x ∈ SX
fX (x; λ) =
0
altrimenti
FX (x; λ) =
1 − e−λx se x > 0
0
se x ≤ 0.
In alcuni casi si utilizza la parametrizzazione alternativa con
θ = 1/λ, che corrisponde al valor medio di X.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
95/ 154
Nell’esempio presentato in precedenza si è considerato il grafico
delle funzioni di densità e di ripartizione per il caso λ = 1 e si è
dimostrato che
1
1
E(X) = , V (X) = 2 .
λ
λ
La proprietà di assenza di memoria (usura) caratterizza la
distribuzione esponenziale ed è specificata dalla relazione
P (X > s + t|X > t) = P (X > s),
per ogni s, t > 0, che l’analogo nel continuo della condizione
specificata, nel caso discreto, per la distribuzione geometrica.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
96/ 154
Esempio. Un circuito è costituito da due componenti dal
funzionamento indipendente la cui vita operativa, misurata in anni,
è descritta rispettivamente dalle variabili casuali X1 ∼ Esp(0.2) e
X2 ∼ Esp(0.3).
Si cerca la probabilità che funzionamento del circuito sia non
superiore a 10 anni. Se i componenti sono in parallelo, si ha
P (X1 ≤ 10 ∩ X2 ≤ 10) = P (X1 ≤ 10)P (X2 ≤ 10)
= (1 − e−0.2·10 )(1 − e−0.3·10 ) = 0.822.
Se i componenti sono in serie, si ha
1 − P (X1 > 10 ∩ X2 > 10) = 1 − P (X1 > 10)P (X2 > 10)
= 1 − e−0.2·10 e−0.3·10 = 0.993.
In entrambi i casi si è tenuto conto che gli eventi riferiti a X1 sono
indipendenti da quelli riferiti a X2 .
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
97/ 154
Modello normale
Il modello normale o gaussiano è il modello pi`
u importante ed è
anche il pi`
u utilizzato nelle applicazioni della Statistica inferenziale.
` stato studiato, in particolare, da K. F. Gauss, da cui il termine
E
gaussiano, che nel 1809 lo utilizz`
o per descrivere gli errori
accidentali (non sistematici), nel caso di misurazioni strumentali
ripetute di una grandezza incognita.
Viene utilizzato in vari contesti di applicazione. In particolare
risulta utile per descrivere, oltre agli errori accidentali, la presenza
di caratteri antropometrici, come la statura e il peso, in
popolazioni umane omogenee, oppure per studiare alcuni
particolari fenomeni sociali o naturali.
Infine, viene utilizzato in molte applicazione come modello per
approssimare, con buona accuratezza, diverse distribuzioni di
probabilità, discrete e continue, e permette quindi di agevolare i
calcoli.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
98/ 154
Una variabile casuale X ha distribuzione normale o gaussiana con
parametri µ ∈ R e σ 2 > 0, in simboli X ∼ N (µ, σ 2 ), se SX = R
e, per ogni x ∈ R,
(x − µ)2
1
exp −
fX (x; µ, σ) = √
.
2σ 2
2πσ
La corrispondente funzione di ripartizione non ha una forma
esplicita e viene definita implicitamente utilizzando la definizione di
funzione di ripartizione.
Come risulta chiaro dai grafici presentati nel seguito, la funzione
fX (x; µ, σ) ha un massimo assoluto nel punto µ e punti di flesso
nei punti µ − σ e µ + σ. Inoltre, risulta simmetrica rispetto alla
retta x = µ.
Quindi, il parametro µ è sia la moda che la mediana. Inoltre, si
verifica che E(X) = µ e V (X) = σ 2 .
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
99/ 154
Se µ = 0 e σ 2 = 1 si ottiene la distribuzione normale standard, in
simboli N (0, 1).
0.0
0.4
0.8
0.0 0.2 0.4 0.6
Si riporta il grafico della funzione di densità della variabile casuale
X ∼ N (µ, σ 2 ) per µ = 0, σ 2 = 1 (—), µ = 1, σ 2 = 1 (– –),
µ = 0, σ 2 = 2 (· · · ), µ = 0, σ 2 = 1/2 (- · -).
−4 −2
0
2
4
−4 −2
0
2
4
La distribuzione normale è chiusa rispetto alle trasformazioni
lineari.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
100/ 154
Infatti, si può verificare che, se X ∼ N (µ, σ 2 ) e Y = aX + b, con
a, b ∈ R, a 6= 0, allora Y ∼ N (aµ + b, a2 σ 2 ).
In particolare, se X ∼ N (µ, σ 2 ), si ottiene una Z ∼ N (0, 1) con
l’operazione di standardizzazione Z = (X − µ)/σ. Viceversa, se
Z ∼ N (0, 1), allora X = σX + µ ∼ N (µ, σ 2 ).
La funzione di ripartizione e la funzione di densità di una
Z ∼ N (0, 1) si indicano con Φ(z) e φ(z), rispettivamente. Poiché
φ(x) è simmetrica rispetto all’origine, si ha che
∀z ≥ 0.
0.0
0.1
0.2
0.3
0.4
0.5
Φ(−z) = 1 − Φ(z),
−4
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
−2
0
2
4
101/ 154
Inoltre, dalla analisi del grafico si conclude che
P (| Z |< z) = Φ(z) − Φ(−z),
P (| Z |> z) = 2(1 − Φ(z)).
Con la standardizzazione si elimina la dipendenza da particolari
valori di µ e σ 2 e ci si riconduce ad una normale standard. Quindi,
il calcolo di probabilità riferite ad una X ∼ N (µ, σ 2 ) si traduce nel
calcolo di probabilità di opportuni eventi associati a Z ∼ N (0, 1).
In particolare, per ogni a, b ∈ R, a < b,
a−µ
X −µ
b−µ
P (a ≤ X ≤ b) = P
≤
≤
σ
σ
σ
a−µ
b−µ
= Φ
−Φ
,
σ
σ
X −µ
b−µ
b−µ
≤
P (X ≤ b) = FX (b; µ, σ) = P
=Φ
.
σ
σ
σ
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
102/ 154
Con una semplice applicazione dei risultati esposti, si ha che
.
P (µ − σ < X < µ + σ) = 0.68,
.
P (µ − 2σ < X < µ + 2σ) = 0.95,
.
P (µ − 3σ < X < µ + 3σ) = 0.997.
La maggior parte della massa di probabilità si trova entro i limiti
definiti dalla media pi`
u o meno 3σ (regola dei 6 sigma).
Utilizzando le tavole statistiche si ottengono facilmente i valori
della funzione di ripartizione Φ(z) di una N (0, 1) al variare di z.
Per le applicazioni statistiche, è utile fornire i valori critici di una
N (0, 1), cioè i valori zα tali che P (Z > zα ) = α, con α ∈ (0, 0.5).
α
zα
0.10
1.28
0.05
1.65
0.025
1.96
0.01
2.33
0.005
2.58
0.001
3.09
0.0005
3.29
zα individua una coda destra della distribuzione di probabilità di
peso α, mentre −zα individua una coda sinistra di peso α.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
103/ 154
Esempio. La variabile casuale X rappresenta la pressione sistolica,
in mm di mercurio, di un generico individuo. Per la popolazione
maschile italiana adulta si assume che X ∼ N (129, 392.04)
Supponendo di scegliere a caso un individuo, si può calcolare
P (X < 135) = Φ((135 − 129)/19.8) = Φ(0.303) = 0.619.
P (120 < X < 130) = Φ(0.051) − Φ(−0.455) = 0.195.
La probabilità di selezionare un individuo con pressione compresa
tra 120 e 150 mm, tra quelli con pressione superiore alla media, è
P (120 < X < 150 ∩ X > 129)
P (X > 129)
P (129 < X < 150)
Φ(1.061) − Φ(0)
=
=
= 0.711
1 − P (X ≤ 129)
1 − Φ(0)
P (120 < X < 150 | X > 129) =
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
104/ 154
Esempio. Per tagliare delle barre d’acciaio alla lunghezza nominale
di 5 cm si utilizza un macchinario che fornisce barre con lunghezza
X ∼ N (5.05, 0.01).
Ad un successivo controllo di qualità, si scartano le barre che
differiscono dalla lunghezza nominale per pi`
u di un mm.
La probabilità che una generica barra soddisfi ai requisiti è
P (4.9 ≤ X ≤ 5.1) = Φ(0.5) − Φ(−1.5) = 0.625.
Se fosse possibile ricalibrare la procedura di taglio in modo da
avere µ = 5, si avrebbe
P (4.9 ≤ X ≤ 5.1) = Φ(1) − Φ(−1) = 0.683.
Infine, se si aumenta anche la precisione dello strumento di modo
che σ = 0.05, si ha
P (4.9 ≤ X ≤ 5.1) = Φ(2) − Φ(−2) = 0.954.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
105/ 154
Esempio. Un’industria alimentare confeziona pacchi di riso, con
peso dichiarato pari a 500 gr, utilizzando un macchinario che
fornisce pacchi con peso X ∼ N (500, 5).
Si scelgono a caso 5 confezioni di riso e si vuole calcolare la
probabilità che non ci siano pacchi con peso inferiore a quello
dichiarato.
La distribuzione di probabilità della variabile casuale Y , che conta
il numero di pacchi di riso con peso inferiore
√ a 500 gr, è Bi(5, p),
con p = P (X ≤ 500) = Φ((500 − 500)/ 5) = Φ(0) = 0.5.
Quindi la probabilità cercata è
5
.
P (Y = 0) =
0.55 (1 − 0.5)0 = 0.03.
0
Inoltre, E(Y ) = 2.5 e V (Y ) = 1.25.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
106/ 154
In molte applicazioni è utile un’analisi preliminare dei dati per
verificare se il fenomeno che si sta studiando pu`
o essere descritto
da un modello normale.
Si considerano i dati x1 , . . . , xn e si vuole valutare se possono
essere interpretati come osservazioni ripetute e indipendenti di una
variabile casuale X ∼ N (µ, σ 2 ).
Tra le varie procedure per la verifica di normalità si presentano due
metodi grafici:
• confronto tra l’istogramma basato sui dati e la funzione di
densit`
a di una variabile casuale gaussiana
con media
P
P
µ
ˆ = ni=1 xi /n e varianza σ
ˆ 2 = ni=1 (xi − µ
ˆ)2 /n (media e
varianza calcolate sui dati);
• rappresentazione dei quantili calcolati sui dati (in ordinata) e
di quelli della distribuzione normale (in ascissa), detta q-q
plot; se il modello normale è corretto i punti si trovano
allineati su una linea retta.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
107/ 154
Esempio. Si considerano n = 84 misurazioni sulla produzione
(grammi per pianta) di una specie di cipolle bianche coltivate in
Australia.
0.000
50 100
0.010
Dai dati si ricava che µ
ˆ = 73.33 e σ
ˆ 2 = 1704.28. Si rappresenta
l’istogramma delle frequenze relative e si disegna sovrapposta la
densità di una N (ˆ
µ, σ
ˆ 2 ). Inoltre, si confrontano quantili osservati e
teorici utilizzando il q-q plot.
0
50
150
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
−2 −1
0
1
2
108/ 154
L’adattamento al modello normale non è soddisfacente.
L’istogramma presenta una evidente asimmetria mentre il q-q plot
evidenzia una notevole differenza sulle code della distribuzione.
0.0
3.0
4.0
0.4
5.0
0.8
Se si considera la trasformata logaritmica dei dati, yi = log(xi ),
i = 1, . . . , n, si ottiene un adattamento pi`
u soddisfacente alla
distribuzione normale, come viene evidenziato nei grafici seguenti.
2
3
4
5
6
−2 −1
0
1
2
Soltanto sulle code la distribuzione normale non si adatta ancora
bene ai dati.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
109/ 154
Modello chi-quadrato
Date le variabili casuali Z1 , . . . , Zn , n ≥ 1, indipendenti (gli eventi
associati a una generica variabile sono indipendenti dagli eventi
associati alle altre) con distribuzione N (0, 1), allora la variabile
casuale
n
X
Y =
Zi2
i=1
ha distribuzione chi-quadrato con n gradi di libertà, in simboli
Y ∼ χ2 (n).
` una variabile casuale continua con supporto è SY = [0, +∞) e
E
E(Y ) = n, V (Y ) = 2n.
Se Y1 ∼ χ2 (n1 ) e Y2 ∼ χ2 (n2 ) sono indipendenti, la loro somma
Y1 + Y2 ∼ χ2 (n1 + n2 ).
Per n → +∞, la distribuzione di probabilità della variabile casuale
Y ∼ χ2 (n) tende alla distribuzione normale (l’approssimazione è
buona per n > 80).
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
110/ 154
0.0
0.1
0.2
0.3
0.4
Grafico della funzione di densità della variabile casuale Y ∼ χ2 (n)
per n = 1 (—), n = 3 (– –), n = 6 (· · · ), n = 10 (- · -).
0
5
10
15
20
25
Utilizzando le tavole statistiche si ottengono i valori critici di una
Y ∼ χ2 (n), cioè i valori χ2α,n tali che P (Y > χ2α,n ) = α, con
α ∈ (0, 1), n ≥ 1.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
111/ 154
Modello t di Student
Date le variabili casuali Z ∼ N (0, 1) e Y ∼ χ2 (n) indipendenti, la
variabile casuale
Z
T =p
Y /n
ha distribuzione t di Student con n gradi di libertà, in simboli
T ∼ t(n).
` una variabile casuale continua con supporto è ST = R e
E
E(T ) = 0, se n > 1, V (T ) = n/(n − 2), se n > 2.
La funzione di densità è simmetrica rispetto alla retta x = 0 ed ha
code pi`
u pesanti di quelle della normale standard.
Per n → +∞, la distribuzione di probabilità della variabile casuale
T ∼ t(n) tende alla distribuzione normale (l’approssimazione è
buona per n > 30).
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
112/ 154
0.0
0.1
0.2
0.3
0.4
0.5
Grafico della funzione di densità della variabile casuale T ∼ t(n)
per n = 1 (—), n = 3 (– –), n = 10 (- · -).
−6
−4
−2
0
2
4
6
Utilizzando le tavole statistiche si ottengono i valori critici di una
T ∼ t(n), cioè i valori tα,n tali che P (T > tα,n ) = α, con
α ∈ (0, 0.5), n ≥ 1. Per la simmetria, t1−α,n = −tα,n .
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
113/ 154
Modello F di Fisher
Date le variabili casuali X ∼ χ2 (n) e Y ∼ χ2 (m), n, m ≥ 1,
indipendenti, la variabile casuale
F =
X/n
Y /m
ha distribuzione F di Fisher con n e m gradi di libertà, in simboli
F ∼ F (n, m).
` una variabile casuale continua con supporto è SF = [0, +∞) e
E
E(F ) = m/(m − 2), se m > 2.
Se F ∼ F (n, m), allora F −1 ∼ F (m, n). Se T ∼ t(n), allora
T 2 ∼ F (1, n).
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
114/ 154
0.0
0.2
0.4
0.6
0.8
1.0
Grafico della funzione di densità della variabile casuale
F ∼ F (n, m) per n = 5, m = 5 (—), n = 5, m = 25 (– –),
n = 25, m = 25 (· · · ), n = 25, m = 25 (- · -).
0
1
2
3
4
5
6
Utilizzando le tavole statistiche si ottengono i valori critici di una
F ∼ F (n, m), cioè i valori Fα,n,m tali che P (F > Fα,n,m ) = α,
con α ∈ (0, 1), n, m ≥ 1.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
115/ 154
Variabili casuali bivariate
Nelle applicazioni, è assai frequente dover prendere in
considerazione pi`
u di una variabile casuale contemporaneamente.
Dal punto di vista concettuale la trattazione è molto simile al caso
univariato, tuttavia dal punto di vista matematico vi sono delle
difficoltà aggiuntive, basti pensare che sia la funzione di ripartizione
che quella di densità (di massa) sono funzioni di pi`
u variabili.
Esempio. Si lanciano contemporaneamente due dadi regolari e si è
interessati alla somma e alla differenza dei risultati ottenuti. In
questo caso l’esperimento è descritto da una opportuna variabile
casuale bivariata (X, Y ).
Si svolgono n esperimenti bernoulliani indipendenti con la stessa
probabilità di successo p. L’esperimento nel suo complesso è
descritto da una variabile casuale multivariata (X1 , . . . , Xn ), dove
Xi ∼ Ber(p), i = 1, . . . , n. Questa è la situazione che si presenta
tipicamente nella Statistica inferenziale.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
116/ 154
Si limita la trattazione alle variabili casuali bivariate, che tuttavia
risulta sufficiente per introdurre tutti i concetti che sono
importanti per il caso generale.
Una variabile casuale bivariata (X, Y ) risulta specificata dalla sua
funzione di ripartizione congiunta
FX,Y (x, y) = P (X ≤ x, Y ≤ y),
(x, y) ∈ R2 .
Inoltre, il supporto congiunto SX,Y è dato dall’insieme dei punti
(x, y) ∈ R2 nei cui intorni si possono osservare valori per (X, Y )
con probabilità strettamente positiva.
Dalla conoscenza della funzione di ripartizione congiunta si ottiene
la funzione di ripartizione marginale delle due componenti X e Y ;
ad esempio, per la componente marginale X
FX (x) = lim FX,Y (x, y),
y→+∞
x ∈ R.
Si considera il caso discreto; quanto presentato si può estendere
al caso continuo con opportune attenzioni.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
117/ 154
Una variabile casuale bivariata (X, Y ) è discreta se esiste un
insieme di coppie di numeri reali {(xi , yj )}(i,j)∈I×J , finito
u
P o al pi`
numerabile, tale che P (X = xi , Y = yj ) = pij > 0 e i,j pij = 1;
usualmente, SX,Y = {(xi , yj ), (i, j) ∈ I × J}.
La corrispondenza tra i possibili valori di (X, Y ) e le rispettive
probabilità individua la funzione di probabilità (massa) congiunta
pij se (x, y) = (xi , yj ), ∀(i, j) ∈ I × J,
fX,Y (x, y) =
0
altrimenti.
Dalla conoscenza di fX,Y si risale facilmente alla funzione di
ripartizione congiunta FX,Y e viceversa.
Quindi anche fX,Y caratterizza la variabile casuale bivariata (X, Y )
e permette il calcolo delle probabilità di eventi ad essa associati.
fX,Y può essere rappresentata mediante una tabella a doppia
entrata, analoga alle tabelle di contingenza, che fornisce le
probabilità pij riferite alle coppie (xi , yj ), (i, j) ∈ I × J.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
118/ 154
Esempio. Si consideri la variabile casuale bivariata discreta
(X, Y ), con distribuzione di probabilità congiunta specificata dalla
seguente tabella a doppia entrata
Y
X
1
2
3
1
2
3
4
1/10
0
2/10
0
1/10
0
0
1/10
1/10
3/10
0
1/10
Si ha che SX,Y = {(1, 1), (1, 4), (2, 2), (2, 3), (3, 1), (3, 3), (3, 4)},
poiché i punti di probabilità nulla non appartengono al supporto.
Si osservi che
3 X
4
X
i=1 j=1
pij =
1
3
1
1
2
1
1
+0+0+ +0+ + +0+ +0+ +
= 1.
10
10
10 10
10
10 10
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
119/ 154
Una variabile casuale bivariata (X, Y ) è un vettore che ha, come
componenti marginali, le variabili casuali univariate X e Y .
In precedenza si è visto come determinare la funzione di ripartizione
marginale di X e di Y a partire dalla funzione di ripartizione
congiunta. Il supporto marginale SX corrisponde, intuitivamente, a
tutti i possibili valori della componente X; analogamente per SY .
Data una variabile casuale bivariata discreta (X, Y ), con funzione
di probabilità congiunta fX,Y , si pu`
o ricavare facilmente la
funzione di probabilità marginale di X, poiché per ogni xi ∈ SX
X
X
P (X = xi ) =
P (X = xi , Y = yj ) =
pij = pi+ .
j∈J
j∈J
Analogamente, per la componente Y
X
P (Y = yj ) =
pij = p+j ,
yj ∈ SY .
i∈I
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
120/ 154
Se si considera la rappresentazione di fX,Y mediante una tabella a
doppia entrata, la funzione di probabilità marginale di X (di Y ) si
ottiene calcolando i totali di riga (di colonna).
A partire dalla distribuzione marginale delle due componenti si
possono calcolare valore atteso e varianza, che vengono chiamati
valore atteso marginale e varianza marginale di X e di Y .
Esempio. Se si considera la variabile casuale bivariata discreta
(X, Y ) definita in precedenza, si conclude che SX = {1, 2, 3} e
SY = {1, 2, 3, 4}. Inoltre, si riporta la tabella a doppia entrata
integrata con le probabilità marginali
Y
X
1
2
3
p+j
1
2
3
4
pi+
1/10
0
2/10
3/10
0
1/10
0
1/10
0
1/10
1/10
2/10
3/10
0
1/10
4/10
4/10
2/10
4/10
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
121/ 154
Condizionamento e indipendenza
Le componenti marginali X e Y sono indipendenti se ogni evento
associato a X è indipendente da ogni evento associato a Y .
Formalmente, X e Y sono (stocasticamente) indipendenti se
FX,Y (x, y) = FX (x)FY (y),
per ogni (x, y) ∈ R2 .
Se, invece, esiste almeno un punto (x, y) per cui questo non vale,
X e Y vengono dette dipendenti. Se X e Y sono indipendenti, il
supporto congiunto è il prodotto cartesiano dei supporti marginali,
cioè SX,Y = SX × SY .
Se (X, Y ) è discreta, la definizione di indipendenza è equivalente a
chiedere che, per ogni (xi , yj ) ∈ SX,Y ,
fX,Y (xi , yj ) = fX (xi )fY (yj ).
Utilizzando la notazione introdotta in precedenza, ciò corrisponde
a chiedere che, per ogni (xi , yj ) ∈ SX,Y , pij = pi+ p+j .
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
122/ 154
Se si considera la rappresentazione di fX,Y mediante una tabella a
doppia entrata, si evidenzia una forte analogia con la nozione di
indipendenza definita per tabelle di contingenza.
Pi`
u precisamente, X e Y sono indipendenti se tutte le probabilità
congiunte presenti all’interno della tabella coincidono con il
prodotto dei corrispondenti totali di riga e di colonna.
Esempio. Data la variabile casuale bivariata discreta (X, Y )
definita in precedenza, è immediato concludere che X e Y sono
dipendenti.
Infatti, si riesce ad individuare in modo agevole almeno una coppia
di possibili valori (xi , yj ) tali che pij 6= pi+ p+j . Ad esempio, se si
considera (xi , yj ) = (1, 1),
p11 =
4 3
1
6=
= p1+ p+1 .
10
10 10
Si noti che, in questo caso, SX,Y 6= SX × SY .
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
123/ 154
Data una variabile casuale bivariata (X, Y ), pu`
o essere
interessante determinare la distribuzione di probabilità di una
componente condizionatamente ai valori assunti dall’altra.
Se (X, Y ) è discreta, in accordo con la definizione di probabilità
condizionata, si ottiene la funzione di probabilità della variabile
casuale X condizionata a (dato) Y = yj , dove P (Y = yj ) > 0, in
simboli X | Y = yj .
In particolare, per ogni xi ∈ SX|Y =yj , si ha
fX|Y =yj (xi ) = P (X = xi |Y = yj ) =
pij
P (X = xi , Y = yj )
=
,
P (Y = yj )
p+j
mentre la funzione è nulla altrove. SX|Y =yj è il supporto della
variabile casuale condizionata, definito come l’insieme dei valori
che X può assumere se Y = yj .
Si ottengono definizioni analoghe per Y | X = xi .
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
124/ 154
Se X e Y sono indipendenti, tutte le distribuzioni condizionate di
X | Y = yj , al variare di yj sono uguali e coincidono con la
distribuzione marginale di X; analogamente per Y | X = xi .
A partire dalla distribuzione di probabilità della variabile casuale
condizionata X | Y = yj , è possibile determinare, con le formule
usuali, il valore atteso condizionato
X
E(X|Y = yj ) =
xi fX|Y =yj (xi )
xi
e la varianza condizionata
X
V (X|Y = yj ) =
(xi − E(X|Y = yj ))2 fX|Y =yj (xi ).
xi
Se X e Y sono indipendenti, valore atteso e varianza condizionati
sono costanti e coincidono con E(X) e V (X).
Si ottengono definizioni analoghe per Y | X = xi .
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
125/ 154
Esempio. Si consideri la variabile casuale bivariata discreta (X, Y )
con funzioni di probabilità congiunta e marginali specificate da
Y
X
1
2
3
p+j
1
2
pi+
1/10
2/10
3/10
6/10
0
4/10
0
4/10
1/10
6/10
3/10
Le componenti X e Y sono dipendenti, infatti, esiste un elemento
(xi , yj ), ad esempio (2, 1), tale che pij 6= pi+ p+j . Inoltre, le
distribuzioni di probabilità di Y |X = 1 e di Y |X = 2 sono diverse.
Con riferimento a Y |X = 2, si ha che
E(Y |X = 2) = 1
p21
p22
5
+2
=
p2+
p2+
3
e E(Y 2 |X = 2) = 3, da cui si ricava che V (Y |X = 2) = 2/9.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
126/ 154
Covarianza e correlazione
Sia (X, Y ) una variabile casuale bivariata discreta e g(·, ·) una
opportuna funzione di due variabili, vale che
XX
E[g(X, Y )] =
g(xi , yj )fX,Y (xi , yj ).
xi
yj
Da questo risultato si conclude che, sia per il caso discreto che per
il caso continuo, valgono le seguenti proprietà:
• E(aX + bY ) = aE(X) + bE(Y ), con a, b ∈ R;
• se X e Y sono indipendenti, allora E(XY ) = E(X)E(Y ); un
risultato analogo vale anche per u(X) e v(Y ), con u(·) e v(·)
due funzioni a valori reali.
Si vuole introdurre opportuni indicatori che misurino l’intensità del
legame di dipendenza lineare tra due variabili casuali e la direzione
della relazione.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
127/ 154
Una misura della dipendenza lineare fra due variabili casuali X e
Y , con media E(X) e E(Y ), è data dalla covarianza
Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))].
Nel caso di variabili casuali discrete
XX
Cov(X, Y ) =
(xi − E(X))(yj − E(Y ))fX,Y (xi , yj ).
xi
yj
In alternativa, si può calcolare utilizzando la formula per il calcolo
Cov(X, Y ) = E(XY ) − E(X)E(Y ),
P P
dove, nel caso discreto, E(XY ) = xi yj xi yj fX,Y (xi , yj ).
Spesso si indica con σXY , che ne richiama il legame con la
2 =σ
varianza che corrisponde a V (X) = σX
XX = Cov(X, X).
Inoltre, è banale concludere che Cov(X, Y ) = Cov(Y, X).
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
128/ 154
Vale la diseguaglianza di Cauchy-Schwarz:
−σX σY ≤ σXY ≤ σX σY .
Vale l’uguaglianza σXY = σX σY (σXY = −σX σY ) se esistono due
numeri reali a > 0 (a < 0) e b tali che P (Y = aX + b) = 1, cioè
se la relazione tra X e Y è lineare crescente (decrescente) con
probabilità 1.
Una misura normalizzata della dipendenza lineare è il coefficiente
di correlazione lineare definito da
ρXY = Cor(X, Y ) =
σXY
.
σX σY
Dalla diseguaglianza di Cauchy-Schwarz si ha che −1 ≤ ρXY ≤ 1.
Per quanto detto in precedenza, si conclude che se X e Y sono
indipendenti, allora Cov(X, Y ) = 0 e quindi ρXY = 0, mentre il
viceversa non è necessariamente vero.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
129/ 154
L’assenza di legame lineare non assicura l’indipendenza tra le
variabili. Tuttavia esisto alcune eccezioni a quanto ora affermato.
Nei casi elencati di seguito, se Cov(X, Y ) = 0 si ha che X e Y
sono anche indipendenti:
• (X, Y ) con componenti X ∼ Ber(p), Y ∼ Ber(p);
• (X, Y ) variabile casuale Gaussiana bivariata con componenti
2 ), Y ∼ N (µ , σ 2 ).
X ∼ N (µX , σX
Y
Y
Se Cov(X, Y ), e quindi ρXY , ha segno positivo (negativo), allora
c’è, in media, una concordanza (discordanza) di segno tra gli scarti
X − E(X) e Y − E(Y ).
Se ρXY = 0, c’è assenza di legame lineare tra X e Y , che sono
dette incorrelate (ma non necessariamente indipendenti).
Se ρXY > 0 c’è relazione lineare crescente fra X e Y ; nel caso in
cui ρXY = 1 la relazione è esattamente lineare crescente con
probabilità 1.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
130/ 154
Se ρXY < 0 c’è relazione lineare decrescente fra X e Y ; nel caso
in cui ρXY = −1 la relazione è esattamente lineare decrescente
con probabilità 1.
Il valore assoluto |ρXY | indica la forza del legame lineare.
La covarianza è coinvolta nell’espressione della varianza di una
combinazione lineare di X e Y . Infatti, per ogni a, b ∈ R,
V (aX + bY ) = a2 V (X) + b2 V (Y ) + 2ab Cov(X, Y ).
Casi particolari sono
V (X + Y ) = V (X) + V (Y ) + 2Cov(X, Y ),
V (X − Y ) = V (X) + V (Y ) − 2Cov(X, Y ).
Se X e Y sono incorrelate, o a maggior ragione indipendenti, le
relazioni presentate continuano a valere con Cov(X, Y ) = 0.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
131/ 154
Si rappresentano graficamente osservazioni da variabili casuali X e
Y correlate positivamente
●
●
−2
●
●
−2
3
1
y
−1
−3
0
1
●
2
−2
−1
0
1
x
x
r=0.51
r=0.21
●
●
●● ● ● ● ● ●● ●
●●
●● ● ●
● ●● ●
● ● ●●
● ●● ●●●● ●●● ● ●
●●
●
●
● ●●●●●●●
● ●●●●
●● ●●
●●
●●●●●● ● ●●●
●● ● ●●●● ●
●● ●
●●●●
● ● ●●●●●●
●
●
●
●
●
●
● ●●
●● ● ●
●●● ●
●
●
●●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
● ● ●●
●●●
● ●●
●
● ● ●● ● ● ● ●●● ● ●
●● ●● ●●
●●●
● ● ●●● ●
● ● ●●
●●● ●● ●
●
● ●
●●
●
●
●
−1
●
● ● ● ●
● ●●●● ●
●
●●●●
●●
●●
●●● ● ●●●
●●
●●● ●
●●
●●
●●●●●●●
●
●
●
●●
●
●
●
● ●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●●●●
●
●●
●
●● ●●
●●
●
●●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●●
● ●
●●● ●
●●
●●
●●
●●
●●
●
●●●●●
●
●
●●
●●● ●●
●
●
●●
●
●●
●● ●
● ● ●●
●● ●●
●●●● ●●
●●
●
0
1
2
x
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
2
3
●
●●
● ●●
●● ● ●● ● ● ●● ●●● ● ●
●
● ● ●
●
●●●
●
●
●
●
●●
●
●●●● ●
●
●
●
● ●●
● ●●●● ● ●● ●●
●
●●●●
●
●
●●
●●
●
●
●● ● ●
●
●●●●●● ● ●●●●●
●
●
●●
●●
●
●● ●
●
● ●● ●
●
● ●●●
●●● ●●
●
●
●
●●
●
●●
●●●● ● ●
●
●
● ●● ●●
●
●
●
●
●
●
● ●
●
●
●●●
●●
●
●
●
●
●● ●● ●
●●
●
●● ● ● ●●●
●
●
●●
●
●● ●●●
●
● ●
●
●
●
●● ● ●
●
●
2
−1
●
y
0
y
1
2
−2
●●
●●●
●●●
●●●
●
●●
●
●
●●
●●●
●
●●
●
●
●
●●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●●●
0
●
●●●
●
●●●
r=0.88
●●
●
−2
y
−2
0 1 2
r=1
−3
−2
−1
0
1
2
3
x
132/ 154
e correlate negativamente
r=−0.0024
r=−0.49
−1
0
1
−1
1
y
−1
−2
0
x
r=−0.84
r=−1
0
1
2
x
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
3
3
●
●
−1
x
●
●●●
●
●●●
●●●● ● ●●●●
●
●
●● ●
●
●
●
●●●●●
●●
●●● ●●
●●●● ●
●●
●
●●●●●● ●
●
●● ● ●
● ● ●●
●
●●●● ●
●
●●●
● ●●
●●
●
●●
●
●●●● ●
●
●
●
● ●●
●●
●
●
●●●
●●
●
●
●
●●●
●●●
●
●
●● ●
●●●●●●●
●
●
●
●
●
●●
● ●●
●
●●
●
●●
●●
●● ●● ●
●●
● ●●●●
●●
●●●●●●
●●
●
●
●
●
●
●● ●●●
●● ●
●●
●
−2
−3
●
●
● ●●●●
●● ●
● ●● ●●●● ●●●● ●
●
●
● ●●●
●
●
●● ●●
●
●
●
●
●
●
● ●
●
●
●● ●●
●●
●●●
●
●●
●●●●
●
●●●●
●●●●●
●●
●
●
●
●●
●● ●●●
●
●
●●● ●●
●
●
●
● ●● ●
●●
●●●●
●●●●
●
● ●●
●●●
●●
●
●●
●
●●
●● ● ●●
●●
●●
●●
●● ● ●
●●●
●
●
●
●
●
●
●
●
●
●
● ● ● ●
●● ●●●● ●●
●
● ●
●
●
● ●
●●
●
●
●
−3
2
●●●●
1
●
−2
●●
●●
●
y
0
−2
y
2
−3
●
●
−1
−2
●
●
●
● ●●
● ●
●
●
●●
● ●
●
●
● ●
● ●●● ●●
● ●●●● ●●
●
●
● ●●● ●
●● ●● ● ●●
● ●●●
●● ●
●
● ● ●
●●
● ●
●●
●
●
●●●●●
●●
● ● ●●● ●
●
●●
●
●
●
●
●
●
● ●
●
●
●
●●●
●●●
●
● ● ●● ●
●
●
●●●
● ●●●●
●
●
●
●
●
●
●
●
●
●
●
●
● ●● ●
● ●●
●●●●●●●●
●
●
●
●
●
●
●
●
●
●● ●●●
● ● ●● ● ● ●● ●
●
●
● ●● ●●●● ●
● ●● ●
●
●
−3
y
●
0
2
●●
−3
1
2
3
●
●
●●
●
●●
●
●
●
●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●●
●
●
●●
●●
●
●●
●
●
●●
●●
●
●
●●
●●
●●●
●●
−2
−1
0
1
2
3
x
133/ 154
Esempio. Si consideri la variabile casuale bivariata discreta (X, Y )
con funzioni di probabilità congiunta e marginali specificate da
Y
X
1
2
3
p+j
0
1
2
3
pi+
1/8
0
0
1/8
0
1/8
1/4
3/8
0
1/8
1/4
3/8
1/8
0
0
1/8
1/4
1/4
1/2
Dal momento che E(X) = 9/4, E(Y ) = 3/2 e
1
1
1 1
1
1
27
E(XY ) = 0 + 2 + 3
+
+4 +6 = ,
8
8
4 8
8
4
8
si ha che Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 0. Dunque, le
variabili casuali X e Y sono incorrelate, ma si verifica facilmente
che non sono indipendenti.
Inoltre, si ottiene che E(X + Y ) = 15/4 e E(X − Y ) = 3/4,
mentre V (X + Y ) = V (X − Y ) = 14/4.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
134/ 154
Somma e media campionaria
Nelle applicazioni, è assai frequente studiare fenomeni casuali che
forniscono come possibili osservazioni vettori numerici di
dimensione n ≥ 1.
In questo caso, conviene considerare la nozione di variabile casuale
multivariata (vettore casuale) X = (X1 , . . . , Xn ), che generalizza
quella di variabile casuale bivariata e univariata.
In particolare, nel contesto della Statistica inferenziale, si hanno a
disposizione dati che sono interpretabili come osservazioni ripetute
di un determinato fenomeno con riferimento a unità statistiche
selezionate mediante campionamento.
Oppure, come osservazioni di un certo fenomeno aleatorio ripetute
in una serie di istanti temporali o in varie localizzazioni spaziali.
Dato X = (X1 , . . . , Xn ), si è spesso interessati alla variabile
casuale univariata ottenuta sommando le componenti X1 , . . . , Xn ,
oppure facendo la loro la media o la loro varianza.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
135/ 154
Siano X1 , . . . , Xn , n ≥ 1, variabili casuali univariate, componenti
marginali del vettore casuale X, si definiscono somma campionaria
e media campionaria, rispettivamente, le variabili casuali
Sn =
n
X
n
Xi ,
i=1
X
Sn
¯n = 1
Xi =
.
X
n
n
i=1
Se le X1 , . . . , Xn sono indipendenti (basterebbe incorrelate) e
identicamente distribuite (basterebbe che avessero stessa media e
stessa varianza) con E(Xi ) = µ e V (X) = σ 2 , i = 1, . . . , n, allora
E(Sn ) =
n
X
E(Xi ) = nµ,
V (Sn ) =
i=1
¯n) =
E(X
n
X
V (Xi ) = nσ 2 ,
i=1
E(Sn )
= µ,
n
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
¯n) =
V (X
V (Sn )
σ2
=
.
n2
n
136/ 154
Se le variabili casuali indipendenti X1 , . . . , Xn sono tali che
Xi ∼ N (µ, σ 2 ), i = 1, . . . , n, allora anche somma e media
campionaria sono variabili casuali Gaussiane, pi`
u precisamente,
Sn ∼ N (nµ, nσ 2 ),
¯ n ∼ N (µ, σ 2 /n).
X
Valgono, inoltre, i seguenti risultati con riferimento a variabili
casuali X1 , . . . , Xn indipendenti:
P
• se Xi ∼ Bi(ki , p), i = 1, . . . , n, allora Sn ∼ Bi( ni=1 ki , p);
P
• se Xi ∼ P (λi ), i = 1, . . . , n, allora Sn ∼ P ( ni=1 λi );
P
• se Xi ∼ χ2 (ri ), i = 1, . . . , n, allora Sn ∼ χ2 ( ni=1 ri ).
In generale, non è detto che, date n ≥ 1 variabili casuali
indipendenti con distribuzione di probabilità definita nell’ambito di
un determinato modello, le associate variabili casuali somma e
media campionaria mantengano lo stesso modello.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
137/ 154
Se si considera una successione di variabili casuali Xi , i ≥ 1,
indipendenti e identicamente distribuite, con media µ finita e
varianza σ 2 6= 0 finita, si nota che la successione delle variabili
¯ n , n ≥ 1, è tale che
casuali media campionaria X
¯ n ) = µ,
lim E(X
n→+∞
¯ n ) = 0.
lim V (X
n→+∞
Al crescere di n, la variabile casuale media campionaria ha una
distribuzione di probabilità sempre pi`
u concentrata attorno al valor
medio comune µ delle variabili casuali Xi , i ≥ 1.
Formalmente, si afferma che vale la legge debole dei grandi numeri,
cioè che, nelle condizioni poste in precedenza, se n → +∞,
p
¯n →
X
− µ.
p
La scrittura →
− indica la convergenza in probabilità: la probabilità
¯ n e µ sia maggiore di un qualsiasi > 0 tende
che la distanza tra X
a zero per n → +∞.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
138/ 154
Formalmente, per ogni ε > 0, si ha che
¯ n − µ| ≥ ε) = 0.
lim P (|X
n→∞
4.0
4.5
5.0
5.5
6.0
Esempio. Si consideri la sequenza dei valori osservati delle medie
campionarie di n = 1, . . . , 100 variabili casuali indipendenti con
distribuzione P (5).
0
200
400
600
800
1000
Si noti che al crescere di n i valori osservati della media
campionaria tendono ad essere sempre pi`
u concentrati attorno a
µ = λ = 5.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
139/ 154
¯ n per n = 5, 10, 25, 50.
Si considerano la funzioni di massa di X
n=10
0.00
0.00
0.02
0.04
0.04
0.08
n=5
0
2
4
6
8
10
0
2
2
4
6
8
10
0.000 0.010 0.020
0.015
0.000
0
6
8
10
8
10
n=50
0.030
n=25
4
0
2
4
6
Al crescere di n le distribuzioni di probabilità sono sempre pi`
u
concentrate attorno a 5.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
140/ 154
Per la le variabili casuali somma e media campionaria vale un
importante risultato, che è anche molto utile nelle applicazioni: il
teorema limite centrale.
Data una successione di variabili casuali Xi , i ≥ 1, indipendenti e
identicamente distribuite, con media µ e varianza σ 2 6= 0 finite,
allora la somma standardizzata e la media campionaria
standardizzata coincidono e sono tali che, per n → +∞,
¯ −µ
Sn − nµ d
X
pn
= √
−
→ Z ∼ N (0, 1).
2
σ /n
nσ 2
d
La scrittura −
→ indica la convergenza in distribuzione: al crescere di
n la distribuzione di probabilità è sempre pi`
u simile a quella di Z.
Per n fissato sufficientemente elevato (almeno n > 30), valgono le
seguenti utili approssimazioni:
¯ n ∼N
X
˙ (µ, σ 2 /n),
Sn ∼N
˙ (nµ, nσ 2 ),
dove ∼
˙ indica la distribuzione approssimata.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
141/ 154
` noto che, se le variabili casuali X1 , . . . , Xn hanno distribuzione
E
N (µ, σ 2 ), allora la somma campionaria Sn e la media campionaria
¯ n sono Gaussiane.
X
Per il teorema limite centrale, se n è sufficientemente elevato, si
possono ancora utilizzare tali distribuzioni Gaussiane
¯ n , anche se le variabili casuali
(approssimate) per Sn e X
X1 , . . . , Xn non hanno distribuzione Gaussiana.
In particolare, per n fissato sufficientemente elevato, valgono le
seguenti relazioni approssimate: per ogni a, b ∈ R, a < b,
a
−
µ
b
−
µ
.
¯ n ≤ b) = Φ
√
√
−Φ
,
P (a < X
σ/ n
σ/ n
b − nµ
a − nµ
.
√
√
P (a < Sn ≤ b) = Φ
−Φ
.
σ n
σ n
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
142/ 154
Si possono evidenziare, a questo proposito, i seguenti casi di
interesse per le applicazioni:
·
• se Xi ∼ Ber(p), i = 1, . . . , n, allora Sn ∼ N (np, np(1 − p)) e
¯ n ∼· N (p, p(1 − p)/n) (si ottengono buone approssimazioni
X
per n tale che np ≥ 5 e n(1 − p) ≥ 5);
·
• se Xi ∼ P (λ), i = 1, . . . , n, allora Sn ∼ N (nλ, nλ) e
¯ n ∼· N (λ, λ/n) (si ottengono buone approssimazioni per n
X
tale che nλ > 10).
Esempio. Si consideri una successione {Xn }n≥1 di variabili casuali
Xn , n ≥ 1, indipendenti con distribuzione P (λ).
` noto che Sn ∼ P (nλ); inoltre, dal Teorema limite centrale, si
E
conclude che, se n è elevato, Sn ∼N
˙ (nλ, nλ).
Si confrontano le distribuzioni di probabilità esatte e Gaussiane
approssimate per Sn , con n = 1, 5, 30, 100 e λ = 0.5.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
143/ 154
n=5
0.0
0.00
0.2
0.10
0.4
0.20
0.6
n=1
−2
0
2
4
6
8
0
5
n=100
0.00
0.00
0.02
0.04
0.04
0.08
n=30
10
0
5 10
20
30
20
40
60
80
Al crescere di n le funzioni di probabilità esatte sono sempre pi`
u
simili a funzioni di densità di una opportuna legge Gaussiana (linea
continua). L’approssimazione è già accettabile per n = 30.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
144/ 154
Esempio. Si è verificato un inconveniente su una linea di
produzione che determina la presenza di 1/10 di pezzi difettosi.
La procedura di controllo della qualità prevede che, se si
individuano almeno 5 pezzi difettosi su n ≥ 1 scelti a caso, il
processo viene posto in revisione. Sia Sn la somma di n ≥ 1
variabili casuali Ber(1/10) indipendenti.
Si cerca il valore per n tale che ci sia una probabilità pari a 0.9 di
porre il processo in revisione. Quindi, n ≥ 1 deve essere tale che
!
!
Sn −(n/10)
5−(n/10) .
5−(n/10)
p
P (Sn ≥ 5) = P
≥ p
=P Z ≥ p
n9/100
n9/100
n9/100
sia 0.9, con Z ∼ N (0, 1). Poich´
pe il valore. critico z0.9 = −1.282, si
cerca n tale che [5 − (n/10)]/ n9/100 = −1.282, con n ≥ 50.
Si ottiene come soluzione il valore 85.58, quindi n = 86 può essere
una scelta ragionevole.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
145/ 154
Varianza campionaria
Siano X1 , . . . , Xn , n ≥ 1, variabili casuali univariate, componenti
marginali del vettore casuale X, si definisce varianza campionaria
la variabile casuale
n
1X
2
¯ n )2 .
(Xi − X
S =
n
i=1
La varianza campionaria pu`
o venire calcolata utilizzando la
seguente regola di calcolo
n
1X 2
¯ n2 ,
S2 =
Xi − X
n
i=1
che ricorda la regola per il calcolo definita per la varianza.
Se le Xi , i = 1, . . . , n, sono indipendenti e identicamente
distribuite, con media µ e varianza σ 2 finita, si ha che
1
n−1 2
E(S 2 ) =
σ = σ2 − σ2.
n
n
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
146/ 154
Quindi la variabile casuale S 2 presenta valore medio inferiore a σ 2 .
Si noti che al crescere di n tale differenza diventa trascurabile.
La variabile casuale
n
Sc2 =
n
1 X
¯ n )2 ,
S2 =
(Xi − X
n−1
n−1
i=1
ottenuta modificando opportunamente S 2 , è chiamata varianza
campionaria corretta, ed è tale che
E(Sc2 ) =
n n−1 2
n
E(S 2 ) =
σ = σ2.
n−1
n−1 n
Se valgono le ipotesi della legge debole dei grandi numeri, si
conclude che, per n → +∞,
p
S 2 → σ2,
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
p
Sc2 → σ 2 .
147/ 154
Quindi, al crescere di n, le distribuzioni di probabilità della varianza
campionaria e della varianza campionaria corretta sono sempre pi`
u
concentrate attorno alla varianza comune σ 2 delle variabili casuali
Xi , i = 1, . . . , n.
Se le variabili casuali indipendenti X1 , . . . , Xn sono tali che
Xi ∼ N (µ, σ 2 ), i = 1, . . . , n, allora la varianza campionaria e la
varianza campionaria corretta hanno legge di probabilità legata alla
χ2 , pi`
u precisamente,
Pn
¯ 2
n 2 n−1 2
i=1 (Xi − Xn )
S
=
S
=
∼ χ2 (n − 1).
σ2
σ2 c
σ2
Inoltre, le variabili casuali media campionaria e varianza
campionaria (corretta) sono indipendenti.
Sempre nel caso di variabili casuali indipendenti X1 , . . . , Xn con
distribuzione N (µ, σ 2 ), valgono i seguenti risultati che risultano
utili per la Statistica inferenziale.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
148/ 154
Se si standardizza la variabile casuale media campionaria si ha che
¯n − µ
X
√ ∼ N (0, 1),
σ/ n
che è chiamata media campionaria standardizzata.
p
Se al posto di σ si considera Sc = Sc2 , si ha la variabile casuale
¯ n e Sc2 sono
chiamata media campionaria studentizzata. Poiché X
2
2
2
indipendenti e (n − 1)Sc /σ ∼ χ (n − 1), si ha che
¯n − µ
X
√ ∼ t(n − 1),
Sc / n
dove t(n − 1) indica una variabile casuale t di Student con n − 1
gradi di libertà.
Il risultato è una conseguenza del fatto che la t di Student si
ottiene come rapporto tra una variabile casuale N (0, 1) e una
variabile casuale χ2 indipendente, diviso i suoi gradi di libertà.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
149/ 154
2 ) e
Siano X1 , . . . , Xn variabili casuali con distribuzione N (µX , σX
2
Y1 , . . . , Ym variabili casuali con distribuzione N (µY , σY ); tutte le
variabili casuali sono indipendenti.
Indicate con
2
SX
=n
−1
n
X
¯ n ),
(Xi − X
i=1
SY2
−1
=m
m
X
(Yi − Y¯m )
i=1
le associate varianze campionarie, che risultano indipendenti, si ha
2 /σ 2 ∼ χ2 (n − 1) e mS 2 /σ 2 ∼ χ2 (m − 1).
che nSX
Y
X
Y
Quindi, si può verificare che
2 /σ 2 ]/(n − 1)
[nSX
X
∼ F (n − 1, m − 1),
[mSY2 /σY2 ]/(m − 1)
dove F (n − 1, m − 1) indica una variabile casuale F di Fisher con
n − 1 e m − 1 gradi di libertà.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
150/ 154
Appendice: tavole statistiche
Tavola 1: Funzione di ripartizione della Variabile Casuale Normale Standardizzata
(z ) = P (Z z ) =
Z z
p1 e
1 2
(z )
z2 =2 dz
0
z
-3.4
-3.3
-3.2
-3.1
-3.0
-2.9
-2.8
-2.7
-2.6
-2.5
-2.4
-2.3
-2.2
-2.1
-2.0
-1.9
-1.8
-1.7
-1.6
-1.5
-1.4
-1.3
-1.2
-1.1
-1.0
-0.9
-0.8
-0.7
-0.6
-0.5
-0.4
-0.3
-0.2
-0.1
-0.0
0.00
0.0003
0.0005
0.0007
0.0010
0.0013
0.0019
0.0026
0.0035
0.0047
0.0062
0.0082
0.0107
0.0139
0.0179
0.0228
0.0287
0.0359
0.0446
0.0548
0.0668
0.0808
0.0968
0.1151
0.1357
0.1587
0.1841
0.2119
0.2420
0.2743
0.3085
0.3446
0.3821
0.4207
0.4602
0.5000
0.01
0.0003
0.0005
0.0007
0.0009
0.0013
0.0018
0.0025
0.0034
0.0045
0.0060
0.0080
0.0104
0.0136
0.0174
0.0222
0.0281
0.0351
0.0436
0.0537
0.0655
0.0793
0.0951
0.1131
0.1335
0.1562
0.1814
0.2090
0.2389
0.2709
0.3050
0.3409
0.3783
0.4168
0.4562
0.4960
0.02
0.0003
0.0005
0.0006
0.0009
0.0013
0.0018
0.0024
0.0033
0.0044
0.0059
0.0078
0.0102
0.0132
0.0170
0.0217
0.0274
0.0344
0.0427
0.0526
0.0643
0.0778
0.0934
0.1112
0.1314
0.1539
0.1788
0.2061
0.2358
0.2676
0.3015
0.3372
0.3745
0.4129
0.4522
0.4920
0.03
0.0003
0.0004
0.0006
0.0009
0.0012
0.0017
0.0023
0.0032
0.0043
0.0057
0.0075
0.0099
0.0129
0.0166
0.0212
0.0268
0.0336
0.0418
0.0516
0.0630
0.0764
0.0918
0.1093
0.1292
0.1515
0.1762
0.2033
0.2327
0.2643
0.2981
0.3336
0.3707
0.4090
0.4483
0.4880
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
0.04
0.0003
0.0004
0.0006
0.0008
0.0012
0.0016
0.0023
0.0031
0.0041
0.0055
0.0073
0.0096
0.0125
0.0162
0.0207
0.0262
0.0329
0.0409
0.0505
0.0618
0.0749
0.0901
0.1075
0.1271
0.1492
0.1736
0.2005
0.2296
0.2611
0.2946
0.3300
0.3669
0.4052
0.4443
0.4840
0.05
0.0003
0.0004
0.0006
0.0008
0.0011
0.0016
0.0022
0.0030
0.0040
0.0054
0.0071
0.0094
0.0122
0.0158
0.0202
0.0256
0.0322
0.0401
0.0495
0.0606
0.0735
0.0885
0.1056
0.1251
0.1469
0.1711
0.1977
0.2266
0.2578
0.2912
0.3264
0.3632
0.4013
0.4404
0.4801
0.06
0.0003
0.0004
0.0006
0.0008
0.0011
0.0015
0.0021
0.0029
0.0039
0.0052
0.0069
0.0091
0.0119
0.0154
0.0197
0.0250
0.0314
0.0392
0.0485
0.0594
0.0721
0.0869
0.1038
0.1230
0.1446
0.1685
0.1949
0.2236
0.2546
0.2877
0.3228
0.3594
0.3974
0.4364
0.4761
z
0.07
0.0003
0.0004
0.0005
0.0008
0.0011
0.0015
0.0021
0.0028
0.0038
0.0051
0.0068
0.0089
0.0116
0.0150
0.0192
0.0244
0.0307
0.0384
0.0475
0.0582
0.0708
0.0853
0.1020
0.1210
0.1423
0.1660
0.1922
0.2206
0.2514
0.2843
0.3192
0.3557
0.3936
0.4325
0.4721
0.08
0.0003
0.0004
0.0005
0.0007
0.0010
0.0014
0.0020
0.0027
0.0037
0.0049
0.0066
0.0087
0.0113
0.0146
0.0188
0.0239
0.0301
0.0375
0.0465
0.0571
0.0694
0.0838
0.1003
0.1190
0.1401
0.1635
0.1894
0.2177
0.2483
0.2810
0.3156
0.3520
0.3897
0.4286
0.4681
0.09
0.0002
0.0003
0.0005
0.0007
0.0010
0.0014
0.0019
0.0026
0.0036
0.0048
0.0064
0.0084
0.0110
0.0143
0.0183
0.0233
0.0294
0.0367
0.0455
0.0559
0.0681
0.0823
0.0985
0.1170
0.1379
0.1611
0.1867
0.2148
0.2451
0.2776
0.3121
0.3483
0.3859
0.4247
0.4641
151/ 154
Tavola 1 (segue): Funzione di ripartizione della Variabile Casuale Normale Standardizzata
z
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
3.2
3.3
3.4
0.00
0.5000
0.5398
0.5793
0.6179
0.6554
0.6915
0.7257
0.7580
0.7881
0.8159
0.8413
0.8643
0.8849
0.9032
0.9192
0.9332
0.9452
0.9554
0.9641
0.9713
0.9772
0.9821
0.9861
0.9893
0.9918
0.9938
0.9953
0.9965
0.9974
0.9981
0.9987
0.9990
0.9993
0.9995
0.9997
0.01
0.5040
0.5438
0.5832
0.6217
0.6591
0.6950
0.7291
0.7611
0.7910
0.8186
0.8438
0.8665
0.8869
0.9049
0.9207
0.9345
0.9463
0.9564
0.9649
0.9719
0.9778
0.9826
0.9864
0.9896
0.9920
0.9940
0.9955
0.9966
0.9975
0.9982
0.9987
0.9991
0.9993
0.9995
0.9997
0.02
0.5080
0.5478
0.5871
0.6255
0.6628
0.6985
0.7324
0.7642
0.7939
0.8212
0.8461
0.8686
0.8888
0.9066
0.9222
0.9357
0.9474
0.9573
0.9656
0.9726
0.9783
0.9830
0.9868
0.9898
0.9922
0.9941
0.9956
0.9967
0.9976
0.9982
0.9987
0.9991
0.9994
0.9995
0.9997
0.03
0.5120
0.5517
0.5910
0.6293
0.6664
0.7019
0.7357
0.7673
0.7967
0.8238
0.8485
0.8708
0.8907
0.9082
0.9236
0.9370
0.9484
0.9582
0.9664
0.9732
0.9788
0.9834
0.9871
0.9901
0.9925
0.9943
0.9957
0.9968
0.9977
0.9983
0.9988
0.9991
0.9994
0.9996
0.9997
0.04
0.5160
0.5557
0.5948
0.6331
0.6700
0.7054
0.7389
0.7704
0.7995
0.8264
0.8508
0.8729
0.8925
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738
0.9793
0.9838
0.9875
0.9904
0.9927
0.9945
0.9959
0.9969
0.9977
0.9984
0.9988
0.9992
0.9994
0.9996
0.9997
0.05
0.5199
0.5596
0.5987
0.6368
0.6736
0.7088
0.7422
0.7734
0.8023
0.8289
0.8531
0.8749
0.8944
0.9115
0.9265
0.9394
0.9505
0.9599
0.9678
0.9744
0.9798
0.9842
0.9878
0.9906
0.9929
0.9946
0.9960
0.9970
0.9978
0.9984
0.9989
0.9992
0.9994
0.9996
0.9997
0.06
0.5239
0.5636
0.6026
0.6406
0.6772
0.7123
0.7454
0.7764
0.8051
0.8315
0.8554
0.8770
0.8962
0.9131
0.9279
0.9406
0.9515
0.9608
0.9686
0.9750
0.9803
0.9846
0.9881
0.9909
0.9931
0.9948
0.9961
0.9971
0.9979
0.9985
0.9989
0.9992
0.9994
0.9996
0.9997
0.07
0.5279
0.5675
0.6064
0.6443
0.6808
0.7157
0.7486
0.7794
0.8078
0.8340
0.8577
0.8790
0.8980
0.9147
0.9292
0.9418
0.9525
0.9616
0.9693
0.9756
0.9808
0.9850
0.9884
0.9911
0.9932
0.9949
0.9962
0.9972
0.9979
0.9985
0.9989
0.9992
0.9995
0.9996
0.9997
0.08
0.5319
0.5714
0.6103
0.6480
0.6844
0.7190
0.7517
0.7823
0.8106
0.8365
0.8599
0.8810
0.8997
0.9162
0.9306
0.9429
0.9535
0.9625
0.9699
0.9761
0.9812
0.9854
0.9887
0.9913
0.9934
0.9951
0.9963
0.9973
0.9980
0.9986
0.9990
0.9993
0.9995
0.9996
0.9997
Tavola 1a: Valori critici della Variabile Casuale Normale Standardizzata. P (Z
z
z
0.10
1.2816
0.00009
3.7455
0.05
1.6449
0.00008
3.7750
0.025
1.9600
0.00007
3.8082
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
0.01
2.3263
0.00006
3.8461
0.005
2.5758
0.00005
3.8906
0.001
3.0902
0.00004
3.9444
0.0005
3.2905
0.00003
4.0128
0.0001
3.7190
0.00002
4.1075
0.09
0.5359
0.5753
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8389
0.8621
0.8830
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767
0.9817
0.9857
0.9890
0.9916
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986
0.9990
0.9993
0.9995
0.9997
0.9998
z ) = .
0.00001
4.2649
152/ 154

Download Report