Lucidi di Calcolo delle Probabilità

Statistica Applicata
Parte 2 - Calcolo delle Probabilit`
a
Paolo Vidoni
Dipartimento di Scienze Economiche e Statistiche
Universit`a di Udine
via Tomadini 30/a - Udine
[email protected]
www.dies.uniud.it/vidoni.it.html
Per alcuni argomenti si `
e preso spunto da materiale didattico di
R. Bellio, G. Masarotto, C. Romualdi, N. Sartori e L. Ventura.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
1/ 154
Calcolo delle probabilit`a
• Strumenti matematici per lo studio degli esperimenti
(fenomeni) casuali (aleatori), tra cui l’esperimento di
campionamento.
• Costituisce il fondamento teorico e il presupposto formale
della Statistica inferenziale.
• Tecniche per utilizzare le informazioni contenute in un
campione allo scopo di studiare le caratteristiche di interesse
nella popolazione di riferimento.
• Definizione classica: la probabilit`a di un evento `e data dal
rapporto tra il numero di casi ad esso favorevoli e il numero di
casi possibili, supposti tutti egualmente probabili.
• Non si analizzano le varie definizioni di probabilit`a, si segue
l’approccio assiomatico proposto da Kolmogorov nel 1933.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
2/ 154
Probabilit`a elementare: eventi
Un esperimento o fenomeno casuale (aleatorio) `e un fenomeno
(esperimento) in riferimento al quale le conoscenze inducono a
ritenere possibile una pluralit`a di esiti.
Prima di eseguire l’esperimento, o di osservare il fenomeno, non `e
possibile individuare quale dei risultati ammissibili si realizzer`a.
Sono esperimenti (fenomeni) aleatori:
a) il lancio di un dado;
b) il numero di giocate al lotto prima di vincere per la prima
volta;
c) la misurazione della lunghezza di una barra d’acciaio di
lunghezza nominale 20 cm con uno strumento affetto da
errore;
d) il rendimento di un titolo azionario;
e) l’estrazione di un campione casuale.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
3/ 154
L’insieme di tutti i possibili risultati di un esperimento aleatorio,
indicato con Ω, `e chiamato spazio fondamentale (spazio degli
eventi elementari o spazio campionario) `e l’insieme di tutti i
possibili risultati di un esperimento aleatorio.
I singoli risultati vengono chiamati eventi elementari e sono
supposti disgiunti in senso insiemistico.
Nonostante lo spazio fondamentale sia noto, non si pu`o individuare
con certezza quale evento elementare si realizzer`a. Una volta
osservato il fenomeno, o effettuato l’esperimento, uno e un solo
evento elementare si sar`a realizzato.
Ω `e discreto se costituito da un numero finito o da un’infinit`a
` invece detto continuo se `e costituito da un
numerabile di punti. E
insieme continuo di punti.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
4/ 154
Esempio. Sono discreti gli spazi fondamentali generati dagli
esperimenti a) e b), che corrispondono rispettivamente a
Ω = {1, 2, 3, 4, 5, 6} e Ω = {1, 2, 3, . . .} = N+ .
Sono continui gli spazi fondamentali generati dagli esperimenti c)
ed d), che corrispondono rispettivamente a Ω = R+ e Ω = R. ♦
Un evento `e un sottoinsieme dello spazio fondamentale Ω, cio`e
ogni elemento dell’insieme delle parti (insieme di tutti i
sottoinsiemi) di Ω, ovvero di P(Ω).
Un evento si realizza se e solo se si realizza uno degli eventi
elementari che lo definiscono.
Esempio. Nel caso del lancio del dado Ω = {1, 2, 3, 4, 5, 6} e sono
eventi, ad esempio, A = “Esce un numero dispari” = {1, 3, 5},
B = {1, 3, 6}, C = “Esce il numero 5” = {5}, se interpretato
come sottoinsieme di Ω e non come elemento di Ω.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
5/ 154
C’`e una evidente analogia tra eventi di uno spazio fondamentale e
` quindi possibile, come per
sottoinsiemi di un dato insieme. E
questi ultimi, definire alcune operazioni logiche sugli eventi.
Dati due eventi A, B ⊆ Ω
• Ac indica l’evento complementare ad A e contiene tutti gli
eventi elementari che non appartengono ad A;
• A ∪ B indica l’evento unione tra A e B e contiene tutti gli
eventi elementari che appartengono o ad A o a B;
• A ∩ B indica l’evento intersezione tra A e B e contiene tutti
gli eventi elementari che appartengono sia ad A che a B;
• A \ B indica l’evento differenza tra A e B e contiene tutti gli
eventi elementari che appartengono ad A ma non a B.
Ω `e detto anche evento certo, mentre con il simbolo ∅ si indica
l’evento impossibile.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
6/ 154
Se A ∩ B = ∅, gli eventi A e B si dicono incompatibili (disgiunti),
poich´e non hanno eventi elementari in comune e quindi non si
realizzano contemporaneamente.
Se A ⊆ B, allora A implica B, poich´e tutti gli eventi elementari di
A cadono anche in B (il viceversa non `e necessariamente vero),
quindi la realizzazione di A implica la realizzazione di B.
Se A ⊆ B e B ⊆ A, gli eventi A e B vengono detti equivalenti.
Esempio. Nel caso del lancio del dado, se A = {1, 3, 5},
B = {1, 3, 6} e C = {5}, allora
Ac = {2, 4, 6},
A ∩ B = {1, 3},
A ∪ B = {1, 3, 5, 6},
A \ C = {1, 3},
C ⊆ A,
B ∩ C = ∅.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
7/ 154
Probabilit`a elementare: assiomi
Dato uno spazio fondamentale Ω, si considerano tutti gli eventi di
interesse: Ω, ∅, A, B, C, ecc. In alcuni casi si considerano tutti i
possibili eventi.
La probabilit`a `e una misura che associa ad ogni evento A ⊆ Ω un
numero reale, che indica la sua possibilit`a di realizzazione.
Seguendo l’impostazione assiomatica di Kolmogorov, una misura di
probabilit`a P deve essere tale che:
A1. per ogni evento A, P (A) ≥ 0 (assioma di non negativit`a);
A2. P (Ω) = 1 (assioma di normalizzazione);
A3. per ogni collezione finita o al pi`
u numerabile di eventi Ai ,
i ∈SI ⊆ N, taliP
che Ai ∩ Aj = ∅, i 6= j, si ha che
P ( i∈I Ai ) = i∈I P (Ai ) (assioma di σ-additivit`a).
Dall’assioma A3. discende che, se A ∩ B = ∅, allora
P (A ∪ B) = P (A) + P (B).
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
8/ 154
Un evento A tale che P (A) = 0 `e detto trascurabile. Un evento A
tale che P (A) = 1 `e detto quasi certo.
Esempio. Nel caso del lancio di un dado regolare, lo spazio
fondamentale `e Ω = {i : i = 1, . . . , 6} e ogni faccia ha la stessa
probabilit`a di uscire.
In accordo con tale congettura, si associa ad ogni evento
elementare i un peso
Ppi = 1/6, i = 1, . . . , 6, e, dato un generico
evento A, P (A) = i∈A pi .
Se A = {1, 3, 5}, allora P (A) = 1/6 + 1/6 + 1/6 = 1/2, che
corrisponde alla somma dei pesi degli eventi elementari che
compongono A.
♦
Esempio. Si consideri l’esperimento che consiste nel lanciare un
dato regolare. Si `e interessati al numero di lanci necessari per
ottenere l’esito 6 per la prima volta. In questo caso Ω = N+ .
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
9/ 154
Si pu`o pensare di associare ad ogni evento elementare i ∈ N+ ,
“l’esito 6 si verifica per la prima volta al lancio i-esimo”, il peso
pi = (5/6)i−1 (1/6), che traduce il fatto che ci sono i − 1
insuccessi prima di osservare l’esito 6 per la prima volta.
P
Anche in questo caso, dato un evento A, P (A) = i∈A pi .
Se si ha l’evento A = {2, 4, 6, . . .}, “l’esito 6 si verifica
P+∞ per la prima
volta in un numero pari di lanci”, allora P (A) = i=1 p2i .
♦
Questi due esempi suggeriscono il seguente criterio costruttivo per
definire misure di probabilit`a che soddisfano ai tre assiomi di
Kolmogorov, nel caso di esperimenti con Ω finito o numerabile.
Ad ogni evento
elementare ωi ∈ Ω si associa un peso pi tale che
P
pi > 0 e i pi = 1 e si definisce P
la misura di probabilit`a P tale
che, per ogni evento A, P (A) = i∈A pi .
In entrambi gli esempi vengono soddisfatte le condizioni sui pesi pi .
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
10/ 154
Se Ω `e finito e gli eventi elementari sono equiprobabili, come ad
esempio nel caso del singolo lancio di un dado regolare, il criterio
evidenziato in precedenza corrisponde alla definizione classica di
probabilit`a.
Infatti, se Ω `e costituito da n eventi elementari equiprobabili e
A = {ωi , i ∈ I}, con I ⊆ {1, . . . , n}, allora pi = 1/n, i = 1, . . . , n,
e
X1
no. casi favorevoli ad A
P (A) =
=
.
n
no. casi possibili
i∈I
Quando si parla di “scelta a caso di un elemento da un insieme” Ω
finito, si intende implicitamente che tutti gli eventi elementari sono
ugualmente probabili.
In molti casi bisogna fare attenzione a definire in modo corretto gli
eventi elementari.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
11/ 154
Si presentano alcuni risultati che sono conseguenze immediate
degli assiomi di Kolmogorov.
1) P (∅) = 0.
Infatti, per il secondo e il terzo assioma,
1 = P (Ω) = P (Ω ∪ ∅) = P (Ω) + P (∅) = 1 + P (∅),
da cui P (∅) = 0.
2) Per ogni evento A, P (Ac ) = 1 − P (A).
Infatti, per il secondo e il terzo assioma,
1 = P (Ω) = P (A ∪ Ac ) = P (A) + P (Ac ),
da cui P (Ac ) = 1 − P (A).
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
12/ 154
3) Se A ⊆ B, allora P (A) ≤ P (B) e P (B \ A) = P (B) − P (A).
Infatti, per il terzo assioma
P (B) = P ((B \ A) ∪ A) = P (B \ A) + P (A),
da cui si ottengono entrambi i risultati.
4) Dati gli eventi A e B, P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Poich´e
A ∪ B = (A ∩ B) ∪ [B \ (A ∩ B)] ∪ [A \ (A ∩ B)],
il risultato si ottiene dalla seguente relazione
P (A ∪ B) = P (A ∩ B) + P (B) − P (A ∩ B) + P (A) − P (A ∩ B).
B
A
B
A
B/A
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
13/ 154
5) Dato un
P evento B e una partizione Ai , i ∈ I ⊆ N, di Ω, allora
P (B) = i∈I P (B ∩ Ai ) (formula di addizione).
Poich´e gli eventi Ai , i ∈ I, sono incompatibili e la loro unione d`a
Ω, anche gli eventi B ∩ Ai , i ∈ I, sono incompatibili e, per il terzo
assioma, si ha che
!
[
Ai
P (B) = P (B ∩ Ω) = P B ∩
i∈I
!
[
= P
B ∩ Ai
=
i∈I
A2
A7
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
P (B ∩ Ai ) .
i∈I
A4
A1
B
X
A3
A6
A5
14/ 154
Esempio. Una lotteria `e costituita 1000 biglietti, di cui 5 vincenti.
Si scelgono a caso 10 biglietti. Si vuole determinare la probabilit`a
di A = “un biglietto `e vincente”.
Tutti i gruppi di dieci biglietti hanno la stessa probabilit`a di venire
estratti. Quindi, utilizzando la definizione classica di probabilit`a,
5
995
1
9
.
P (A) =
= 0.048.
1000
10
Per B = “almeno un biglietto `e vincente”, conviene determinare la
probabilit`a dell’evento complementare “nessun biglietto vincente”
5
995
0
10
.
= 0.951,
P (B c ) =
1000
10
da cui si ricava che P (B) = 1 − 0.951 = 0.049.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
15/ 154
Esempio. Una rete aziendale `e costituita da un server e da dieci
PC. Quando un PC accede alla rete, riceve un indirizzo IP scelto in
modo casuale tra 200 disponibili.
Nell’ipotesi che tutti e dieci i PC accedano insieme alla rete, quale
`e la probabilit`a che il server abbia assegnato almeno due indirizzi
IP identici?
I casi elementari equiprobabili sono le sequenze ordinate di 10
indirizzi scelti tra i 200 disponibili e corrispondono alle disposizioni
con ripetizione di 200 elementi in gruppi di 10, cio`e 20010 .
Poich´e le configurazioni favorevoli all’evento complementare “tutti
i PC hanno indirizzo diverso” sono date dalle disposizioni semplici
di 200 elementi in gruppi di 10, si conclude che
.
1 − (200!/190!)/(20010 ) = 0.204
`e la probabilit`a dell’evento cercato.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
16/ 154
Probabilit`a elementare: probabilit`a condizionata
Dati due eventi A e B, con P (A) > 0, pu`
o essere interessante
specificare la probabilit`a di B nel caso sia noto il realizzarsi di A,
ossia la probabilit`a dell’evento condizionato B | A.
La probabilit`a di B|A, chiamata probabilit`a condizionata di B dato
A, `e definita ponendo
P (B|A) =
P (B ∩ A)
.
P (A)
Intuitivamente, se A si realizzato, l’unica parte di B che pu`o
ancora verificarsi `e quella comune anche ad A.
La quantit`a P (A) al denominatore permette di ristabilire le
proporzioni, assicurando la normalizzazione.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
17/ 154
Esempio. Si giocano alla roulette i numeri 7, 23 e 32. Poich´e la
roulette `e suddivisa in 37 settori, numerati da 0 a 36, la probabilit`a
.
di vincere `e P (B) = 3/37 = 0.081, con B = {7, 23, 32}.
Se la roulette fosse truccata di modo che possano uscire soltanto i
numeri compresi tra 0 e 15, posto A = {0, . . . , 15}, la probabilit`a
di vincita corrisponderebbe a
P (B|A) =
1/37
1 .
P (B ∩ A)
=
=
= 0.062.
P (A)
16/37
16
♦
Dalla definizione di probabilit`a condizionata si ottiene la formula
della probabilit`a composta (formula di moltiplicazione)
P (B ∩ A) = P (A)P (B|A),
con A, B eventi tali che P (A) > 0.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
18/ 154
La formula di moltiplicazione si pu`
o estendere anche al caso di tre o
pi`
u eventi. Ad esempio, dati A1 , A2 , A3 , tali che P (A1 ∩ A2 ) > 0,
P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ).
Esempio. Si consideri l’estrazione, senza reinserimento, di due
palline da un’urna contenente dieci palline nere e cinque bianche.
Si vuole calcolare la probabilit`a che esca pallina nera in entrambe
le estrazioni.
Indicati con A1 e A2 gli eventi “esce una pallina nera”,
rispettivamente, alla prima e alla seconda estrazione, si ha che
P (A1 ) = 10/15 e P (A2 |A1 ) = 9/14.
Utilizzando la formula di moltiplicazione, la probabilit`a cercata `e
P (A1 ∩ A2 ) = P (A1 )P (A2 |A1 ) = 6/14.
Se le singole estrazioni avvengono con reinserimento, si ha che
P (A2 |A1 ) = 10/15 = P (A1 ) e quindi P (A1 ∩ A2 ) = 4/9.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
19/ 154
Utilizzando alcune relazioni considerante in precedenza, si ottiene il
seguente risultato, che risulta molto utile nelle applicazioni.
Dato un evento B e una partizione Ai , i ∈ I ⊆ N, di Ω, con
P (Ai ) > 0, vale la formula della probabilit`a totale
X
P (Ai )P (B | Ai ).
P (B) =
i∈I
Infatti, considerando la formula di addizione, dal momento che, per
la formula di moltiplicazione, P (B ∩ Ai ) = P (Ai )P (B|Ai ), i ∈ I,
si ottiene immediatamente il risultato.
Esempio. Spam. Si suppone di possedere tre caselle di posta
` noto che il 70% della posta proviene dalla prima
elettronica. E
casella, il 20% dalla seconda e il 10% dalla terza
Dalla prima casella si riceve abitualmente l’1% di messaggi spam,
mentre dalle altre due si riceve il 2% e il 5% di messaggi spam,
rispettivamente.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
20/ 154
Si vuole calcolare la probabilit`a di riceve un messaggio spam.
Si considerino gli eventi B = “ricevere un messaggio spam” e
Ai = “ricevere posta dalla casella i”, con i = 1, 2, 3.
Evidentemente {A1 , A2 , A3 } `e una partizione di Ω costituita da
eventi di probabilit`a 0.7, 0.2 e 0.1, rispettivamente.
Poich´e
P (B|A1 ) = 0.01,
P (B|A2 ) = 0.02,
P (B|A3 ) = 0.05,
utilizzando la formula della probabilit`a totale, si ottiene che
P (B) =
3
X
P (Ai )P (B|Ai )
i=1
.
= 0.7 · 0.01 + 0.2 · 0.02 + 0.1 · 0.05 = 0.016.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
21/ 154
Probabilit`a elementare: indipendenza stocastica
Intuitivamente, due eventi si dicono indipendenti se il realizzarsi o
meno di uno dei due non modifica la probabilit`a di realizzazione
dell’altro.
Formalmente, due eventi A e B si dicono (stocasticamente)
indipendenti, se
P (A ∩ B) = P (A)P (B).
Se, invece, P (A ∩ B) 6= P (A)P (B), A e B sono detti dipendenti.
Si verifica che:
• se A e B sono non trascurabili, la definizione di indipendenza
`e equivalente a P (B|A) = P (B) oppure P (A|B) = P (A);
• se A e B sono indipendenti, allora lo sono anche A e B c , Ac e
B, Ac e B c ;
• Ω, ∅, ed anche ogni evento trascurabile, sono indipendenti da
qualsiasi evento.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
22/ 154
Esempio. Si suppone di lanciare un dado equilibrato e si vuole
verificare l’indipendenza tra A = {1, 2, 6} e B = {3, 6}.
Nonostante, A e B sembrino, a prima vista, dipendenti, si ha che
P (A ∩ B) = 1/6, P (A) = 3/6 e P (B) = 2/6, da cui segue invece
l’indipendenza stocastica.
♦
L’indipendenza `e un concetto diverso dall’incompatibilit`a. Ad
esempio, se due eventi non trascurabili A e B sono incompatibili,
allora P (A ∩ B) = 0 e quindi necessariamente sono dipendenti,
poich´e P (A ∩ B) 6= P (A)P (B) > 0.
La definizione di indipendenza pu`
o venire estesa al caso di pi`
u di
due eventi. In particolare, A1 , A2 , A3 sono indipendenti se
P (A1 ∩A2 ∩A3 ) = P (A1 )P (A2 )P (A3 ),
P (A2 ∩ A3 ) = P (A2 )P (A3 ),
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
P (A1 ∩A2 ) = P (A1 )P (A2 ),
P (A1 ∩ A3 ) = P (A1 )P (A3 ).
23/ 154
Esempio. Si consideri un circuito con sei componenti dal
funzionamento indipendente. La probabilit`a di rottura, in un certo
intervallo di tempo, `e 0.5 per il primo componente, 0.2 per il
secondo e 0.1 per i rimanenti quattro.
Si determini la probabilit`a che il circuito si blocchi nell’intervallo di
tempo prefissato, nel caso in cui i componenti siano in serie e nel
caso siano in parallelo
Sia Ai = “il componente i-esimo si rompe”, i = 1, . . . , 6, e
B = “il circuito si interrompe”. Poich´e gli eventi Ai sono
indipendenti, lo sono anche i corrispondenti complementari.
Se i componenti sono in serie, il circuito si interrompe se almeno
un componente si rompe, quindi
c
P (B) = 1−P (B ) =
1−P (Ac1 ∩. . .∩Ac6 )
= 1−
6
Y
.
P (Aci ) = 0.738.
i=1
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
24/ 154
Se i componenti sono in parallelo, il circuito si interrompe se tutti i
componenti si rompono, quindi
P (B) = P (A1 ∩ . . . ∩ A6 ) =
6
Y
P (Ai ) = 0.00001.
i=1
♦
Esempio. In una stanza ci sono 5 uomini e 5 donne. Si scelgono a
caso due persone (senza reinserimento). Quale `e la probabilit`a che
siano entrambe donne?
Sia Ai = “l’i-esima persona scelta `e donna”, i = 1, 2. Visto che
P (A1 ) = 5/10 e P (A2 | A1 ) = 4/9, la probabilit`a cercata `e
.
P (A1 ∩ A2 ) = P (A1 )P (A2 | A1 ) = 0.22.
Gli eventi non trascurabili A1 e A2 sono dipendenti poich´e
P (A2 ) = 1/2 e
P (A2 | A1 ) = 4/9.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
25/ 154
Esempio. Una filiale di un istituto bancario ha 1210 clienti titolari
di conto corrente.
L’ufficio crediti distingue tra buoni e cattivi clienti, tenendo conto
delle eventuali insolvenze. Inoltre, sono noti i dati sull’eventuale
possesso della carta di credito.
Le informazioni disponibili vengono sintetizzate nella seguente
tabella
con carta di credito
senza carta di credito
cattivo cliente
60
21
81
buon cliente
520
609
1129
580
630
1210
Si sceglie casualmente un cliente e si vuole valutare l’eventuale
indipendenza tra gli eventi A = “si sceglie un buon cliente” e
B = “si sceglie un possessore di carta di credito”.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
26/ 154
Dalla tabella si ricava che
P (A) =
1129 .
= 0.933,
1210
P (A ∩ B) =
P (B) =
580 .
= 0.479,
1210
520 .
= 0.430.
1210
Poich´e
P (A ∩ B) = 0.43 6= P (A)P (B) = 0.45,
si conclude che i due eventi sono dipendenti. Inoltre, la probabilit`a
condizionata
P (A|B) =
520/1210
520 .
P (A ∩ B
=
=
= 0.897
P (B)
580/1210
580
risulta diversa da P (A) = 0.933.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
27/ 154
Probabilit`a elementare: teorema di Bayes
Si considera la situazione in cui, noto il risultato di un qualche
esperimento, si vuole determinare la probabilit`a che esso sia dovuto
ad una certa causa, o condizione sperimentale.
Ci`o accade, ad esempio, quando l’esperimento avviene in due stadi
e, pur essendo noto il risultato finale, non si `e a conoscenza del
risultato ottenuto al primo stadio.
Esempio. Si considerino due urne indistinguibili. La prima
contiene quattro palline bianche e sei nere, la seconda tre palline
bianche e cinque nere.
Si sceglie a caso un’urna, senza sapere quale delle due, e si estrae
da essa una pallina. Se la pallina `e bianca, ci si chiede quale `e la
probabilit`a che essa provenga dalla prima urna.
Sia B = “la pallina estratta bianca” e Ai = “si sceglie l’urna i”,
i = 1, 2, si cerca P (A1 | B).
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
28/ 154
Utilizzando la formula di moltiplicazione, si si ottiene
P (A1 ∩ B) = P (A1 )P (B | A1 ) = (1/2)(4/10) = 1/5.
Per la formula delle probabilit`a totali ha che
P (B) = P (A1 )P (B | A1 ) + P (A2 )P (B | A2 )
= (1/2)(4/10) + (1/2)(3/8) = 31/80.
Quindi, per la definizione di probabilit`a condizionata,
P (A1 | B) =
1/5 .
P (A1 ∩ B)
=
= 0.516.
P (B)
31/80
Si noti che P (A1 | B) > P (A1 ) e questo trova una giustificazione
nel fatto che la prima urna contiene una porzione maggiore di
palline bianche ed inoltre si suppone di avere estratto pallina
bianca.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
29/ 154
Il teorema di Bayes afferma che:
dato un evento B non trascurabile e una partizione Ai , i ∈ I ⊆ N,
di Ω costituita da eventi non trascurabili, si ha che, per ogni i ∈ I,
P (Ai |B) =
P (Ai )P (B|Ai )
.
P (B)
Se P (B) non `eP
nota, si pu`
o utilizzare la formula delle probabilit`a
totali P (B) = j∈I P (Aj )P (B|Aj ).
Infatti, per la definizione di probabilit`a condizionata, applicando la
formula di moltiplicazione, si ha che, per ogni i ∈ I,
P (Ai |B) =
P (Ai )P (B|Ai )
P (B ∩ Ai )
=
,
P (B)
P (B)
che `e il risultato cercato.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
30/ 154
Si possono fare le seguenti considerazioni:
• le probabilit`a P (Ai ), i ∈ I, vengono chiamate probabilit`a a
priori (iniziali) della condizione sperimentale i-esima e
riflettono quelle che sono le conoscenze disponibili prima della
realizzazione dell’esperimento;
• le probabilit`a P (Ai |B), i ∈ I, vengono chiamate probabilit`a a
posteriori (finali) e tengono conto del fatto che l’esperimento
si `e concluso e l’evento B si `e realizzato;
• il teorema di Bayes esprime formalmente una procedura
coerente di apprendimento dall’esperienza;
• P (Ai |B) risulta proporzionale a P (Ai )P (B|Ai ), mentre la
quantit`a P (B), presente al denominatore, `e un fattore di
normalizzazione;
• P (B|Ai ) `e chiamata la verosimiglianza di Ai ; si pu`o
interpretare concettualmente come la verosimiglianza che il
verificarsi di B ha attribuito alla condizione sperimentale Ai .
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
31/ 154
Esempio. Un’azienda produce il 30% dei suoi articoli con una
prima linea di produzione, che fornisce 8 pezzi difettosi su 100,
mentre il restante 70% con una seconda linea, che fornisce 5 pezzi
difettosi su 100.
Si sceglie a caso un articolo, senza sapere da quale linea provenga,
e viene scartato perch´e difettoso. Si vuole calcolare la probabilit`a
che provenga dalla prima linea di produzione.
Indicato con B = “l’articolo selezionato `e difettoso” e con
Ai = “l’articolo selezionato proviene dall’i-esima linea”, i = 1, 2, si
ha che P (B|A1 ) = 8/100, P (B|A2 ) = 5/100, P (A1 ) = 3/10,
P (A2 ) = 7/10.
Per il teorema di Bayes, la probabilit`a cercata `e
P (A1 |B) =
24 .
P (A1 )P (B|A1 )
=
= 0.407.
P (A1 )P (B|A1 ) + P (A2 )P (B|A2 )
59
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
32/ 154
Esempio. La probabilit`a che nevichi in un generico giorno
invernale, in un dato comune, `e 0.2. Inoltre, in caso di neve, la
probabilit`a che il giorno dopo le strade siano impraticabili `e 0.6.
Tale probabilit`a scende a 0.1 se non ha nevicato il giorno prima.
Indicato con B = “le strade sono impraticabili” e con
A1 = “nevica in un giorno qualunque”, posto A2 = Ac1 , si ha che
P (B|A1 ) = 0.6, P (B|A2 ) = 0.1, P (A1 ) = 0.2 e P (A2 ) = 0.8.
Dalla formula della probabilit`a totale si ottiene la probabilit`a che,
in un generico giorno invernale, le strade siano impraticabili
P (B) = 0.2 · 0.6 + 0.8 · 0.1 = 0.2.
Utilizzando il teorema di Bayes, si determina la probabilit`a che,
essendo le strade impraticabili, ieri abbia nevicato
P (A1 |B) =
0.2 · 0.6
= 0.6.
0.2
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
33/ 154
Variabili casuali: funzione di ripartizione
Per descrivere fenomeni o esperimenti aleatori si considera la
nozione di variabile casuale, che fornisce un modello matematico
utile anche per le applicazioni statistiche.
Lo spazio fondamentale Ω potrebbe non essere un insieme
numerico oppure potrebbe non rappresentare in modo chiaro gli
aspetti dell’esperimento a cui si `e interessati. In alcuni casi Ω
potrebbe essere astratto e molto complesso da specificare.
Le variabili casuali permettono di svincolarsi dallo spazio Ω e di
operare in insiemi numerici dove le probabilit`a si calcolano
mediante somme o integrali.
Esempio. L’esperimento del lancio di una moneta non da luogo ad
un risultato numerico, poich´e Ω = {T, C}. Se si considera il
numero di esiti “Testa” in n = 1 lanci, si ottiene una descrizione
numerica del fenomeno in esame.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
34/ 154
In una procedura di controllo della qualit`a si pu`
o non essere
interessati all’esito completo dell’esperimento ma soltanto al
numero di oggetti che soddisfano ad opportuni standard di qualit`a,
tra quelli selezionati.
Nel lancio di due dadi, si pu`
o prestare attenzione non tanto alla
coppia di valori che appaiono sulle facce superiori dei singoli dadi,
ma alla somma di tali valori numerici.
♦
Dato un esperimento (fenomeno) aleatorio descritto da uno spazio
fondamentale Ω e una probabilit`a P , si definisce variabile casuale
(aleatoria) X una applicazione da Ω in R misurabile, cio`e tale che
sia possibile “probabilizzare” gli eventi ad essa riferiti.
Quindi una variabile casuale `e una funzione che, a seconda del
risultato dell’esperimento in esame, assume valori numerici a cui
possibile attribuire una certa probabilit`a di realizzazione coerente
con P .
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
35/ 154
Esempio. Moneta. Si consideri l’esperimento che consiste nel
lanciare tre volte una moneta regolare e si supponga di essere
interessati al numero totale degli esiti testa.
Quindi Ω = {CCC, CCT, CT C, T CC, CT T, T CT, T T C, T T T } e
la variabile casuale X : Ω → R associa ad ogni evento elementare
di Ω il numero di esiti T . Ad esempio, X(T T C) = 2.
X assume valori in {0, 1, 2, 3} e tali valori corrispondono a veri e
propri eventi elementari, indicati con la scrittura simbolica X = i,
i = 0, 1, 2, 3.
` immediato concludere che X = i ha probabilit`a 1/8, se i = 0, 3,
E
e 3/8, se i = 1, 2. Si noti che la somma delle probabilit`a riferite
agli esiti di X `e pari a 1.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
36/ 154
La misura di probabilit`a riferita agli eventi X ∈ B, B ⊆ R,
associati alla variabile casuale X, soddisfa gli assiomi di
Kolmogorov ed `e detta distribuzione (legge) di probabilit`a di X.
In genere, non si fa menzione dello spazio di partenza e si identifica
una variabile casuale X con la sua distribuzione di probabilit`a.
Due variabili casuali X e Y sono dette identicamente distribuite, in
simboli X ∼ Y , se P (X ∈ B) = P (Y ∈ B), per ogni B ⊆ R.
Per specificare la distribuzione di probabilit`a di una variabile
casuale X si considera la nozione di funzione di ripartizione, intesa
come un’applicazione FX : R → [0, 1], tale che
FX (x) = P (X ≤ x),
x ∈ R.
La conoscenza di FX permette di calcolare, eventualmente con
procedimenti di limite, tutte le probabilit`a P (X ∈ B), B ⊆ R.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
37/ 154
In particolare, per ogni a, b ∈ R, a < b,
P (a < X ≤ b) = FX (b) − FX (a),
P (X > a) = 1 − FX (a),
P (X = b) = FX (b) − lim FX (x).
x→b−
La funzione di ripartizione verifica le tre seguenti propriet`a
caratterizzanti:
• FX `e monotona non decrescente;
• FX `e continua da destra;
• FX `e tale che limx→−∞ FX (x) = 0 e limx→+∞ FX (x) = 1.
Perci`o, FX non `e necessariamente continua anche da sinistra e
quindi continua in ogni punto.
Si pu`o dimostrare che FX `e continua nei punti in cui
P (X = x) = 0 e discontinua nei punti in cui P (X = x) > 0, che
sono al pi`
u un’infinit`a numerabile.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
38/ 154
0.8
0.4
0.0
0.0
0.4
0.8
Vengono riportati due esempi di funzioni di ripartizione.
−1
1
2
3
4
5
6
−1
1
2
3
4
5
6
L’insieme di tutti i possibili valori della variabile casuale X
corrisponde usualmente alla nozione di supporto.
Il supporto di X, indicato con SX , `e l’insieme dei punti x ∈ R i cui
intorni sono eventi di probabilit`a strettamente positiva, cio`e
SX = {x ∈ R : ∀ε > 0, P (x − ε < X < x + ε) > 0}.
Esempio. Moneta (continua). Si considera il lancio della moneta
ripetuto per tre volte. In questo caso, SX = {0, 1, 2, 3} e
P (X = 0) = P (X = 3) = 1/8, P (X = 1) = P (X = 2) = 3/8. ♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
39/ 154
Variabili casuali discrete
Tra le varie tipologie di variabili casuali si considerano quelle
discrete, che possono assumere un numero finito o al pi`
u
numerabile di valori, e quelle continue, che assumono valori in un
insieme continuo.
Pi`
u precisamente, una variabile casuale X `e discreta se esiste un
insieme di numeri reali P
{xi }i∈I , finito o al pi`
u numerabile, tale che
P (X = xi ) = pi > 0 e i∈I pi = 1; usualmente, SX = {xi , i ∈ I}.
La corrispondenza tra i possibili valori di X e le rispettive
probabilit`a individua la funzione di probabilit`a (massa)
P (X = xi ) = pi se x = xi , ∀i ∈ I,
fX (x) =
0
altrimenti.
Dalla conoscenza di fX si risale facilmente alla funzione di
ripartizione FX e viceversa, quindi fX caratterizza la variabile
casuale X.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
40/ 154
Infatti, per ogni x ∈ R,
FX (x) = P (X ≤ x) =
X
pi .
i: xi ≤x
Il grafico di FX (x) `e una funzione a gradini, continua da destra,
con salti in corrispondenza degli elementi del supporto xi ∈ SX e
ampiezza del salto data da
pi = fX (xi ) = FX (xi ) − FX (xi−1 ).
La conoscenza di fX permette spesso una notevole semplificazione
nel calcolo di probabilit`a di eventi relativi a X, dal momento che,
per ogni B ⊆ R,
X
P (X ∈ B) =
fX (xi ).
i : xi ∈B
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
41/ 154
0.8
0.4
0.0
0.0
0.4
0.8
Esempio. Moneta (continua). Si considera la variabile casuale X
che conta il numero di esiti testa in tre lanci di una moneta
regolare. In questo caso, la funzione di probabilit`a e la funzione di
ripartizione corrispondono rispettivamente a
−1
0
1
2
Inoltre, P (X ≥ 1) =
P
3
4
i : xi ≥1 P (X
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
−1
0
1
= xi ) = 7/8.
2
3
4
♦
42/ 154
Esempio. Variabile casuale degenere. Una variabile casuale X `e
degenere nel punto c ∈ R, in simboli X ∼ D(c), se P (X = c) = 1.
In questo caso SX = {c} e la funzione di ripartizione `e
0 se x < c
FX (x) =
1 se x ≥ c,
0.0
0.2
0.4
0.6
0.8
1.0
con grafico, per il caso c = 1,
−1
0
1
2
3
4
Una variabile casuale degenere descrive un esperimento non
aleatorio.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
43/ 154
Esempio. Variabile casuale Bernoulliana. Una variabile casuale X
`e Bernoulliana, in simboli X ∼ Ber(p), con p ∈ (0, 1), se
SX = {0, 1} e P (X = 1) = p, P (X = 0) = 1 − p. Si ha che


se x < 0
 0
 1 − p se x = 0
1 − p se 0 ≤ x < 1
p
se x = 1
FX (x) =
fX (x) =


1
se x ≥ 1,
0
altrimenti,
con grafico, per il caso p = 2/3, rispettivamente
0.8
0.8
●
0.4
0.4
●
●
0.0
0.0
●
−0.5
0.0
0.5
1.0
1.5
−1
0
1
2
3
4
Esperimento aleatorio dicotomico, cio`e con due possibili esiti, ad
esempio, successo e insuccesso, quantificati in 1 e 0.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
44/ 154
0.0
0.1
0.2
0.3
0.4
0.5
0.6
Esempio. Tetano. Sia X una variabile casuale discreta che
descrive il numero di casi di tetano registrati nel comune di Padova
in una settimana. La sua funzione di densit`a `e

0.4 se x = 0




0.2 se x = 1



0.1 se x = 2
fX (x) =
0.05 se x = 3





0.25 se x = 4


0
altrimenti.
0
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
1
2
3
4
45/ 154
Variabili casuali continue
Una variabile casuale X `e continua se la sua funzione di
ripartizione FX `e continua ed `e tale che esiste una funzione fX ,
definita su R, tale che
Z x
FX (x) =
fX (t)dt, ∀x ∈ R.
−∞
La fX `e chiamata funzione di densit`a probabilit`a ed `e tale che
• fX (x) ≥ 0, per ogni x ∈ R;
R +∞
• −∞ fX (x)dx = 1;
• fX (x) =
d
dx FX (x),
per ogni x ∈ R in cui fX (x) continua.
Quindi dalla conoscenza di fX si ottiene FX e viceversa; fX
caratterizza la variabile casuale X.
Il supporto SX `e un insieme continuo, ad esempio R o un
intervallo o una semiretta di R.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
46/ 154
Invece che assegnare probabilit`a a valori puntuali (si ricordi che,
essendo FX continua, P (X = x) = 0, per ogni x ∈ R), si assegna
probabilit`a agli intervalli, semirette, ecc. di R.
Gli eventi (X < a) e (x ≤ a), a ∈ R, hanno la stessa probabilit`a.
0.8
0.4
0.0
0.0
0.4
0.8
Il valore della funzione di ripartizione in x = 1, FX (1), (grafico di
sinistra) corrisponde all’area sottesa dalla funzione di densit`a con
riferimento a (−∞, 1] (grafico di destra).
−1
1
2
3
4
5
6
−1
1
2
3
4
5
6
Inoltre, come conseguenza dei risultati di probabilit`a elementare,
P (X > a) = 1 − P (X ≤ a) = 1 − FX (a), per ogni a ∈ R.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
47/ 154
Vale il seguente risultato: per ogni a, b ∈ R, a < b,
Z
P (a < X ≤ b) = FX (b) − FX (a) =
b
fX (x)dx,
a
0.8
0.4
0.0
0.0
0.4
0.8
che corrisponde all’area sottesa dalla funzione di densit`a con
riferimento all’intervallo [a, b]. Graficamente, se [a, b] = [1, 2],
−1
1
2
3
4
5
6
−1
1
2
3
4
5
6
In generale, la probabilit`a associata all’evento X ∈ B corrisponde a
Z
P (X ∈ B) =
fX (x)dx.
B
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
48/ 154
Si noti che fX non definisce la probabilit`a associata all’evento
X = x, che risulta essere nulla, ma `e direttamente proporzionale
alla probabilit`a che X assuma valori in un intorno di x.
0.0
0.5
1.0
1.5
Esempio. Internet. Una compagnia telefonica ha riscontrato che
la durata, in un’ora, dei collegamenti internet dei propri utenti `e
descritta da una variabile casuale continua X con funzione di
densit`a fX (x) = 6x(1 − x), se x ∈ [0, 1], e nulla altrove
−0.5
0.0
0.5
1.0
1.5
Si
verifica facilmente che fX `e non negativa e tale che
R +∞
−∞ fX (x)dx = 1.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
49/ 154
Inoltre, la funzione di ripartizione `e tale che per x ∈ [0, 1],
FX (x) = 3x2 − 2x3 , mentre, se x < 0, FX (x) = 0 e, se x > 1,
FX (x) = 1.
La probabilit`a che X assuma valori in [0.5, 0.7] `e
Z
0.7
P (0.5 ≤ X ≤ 0.7) = FX (0.7)−FX (0.5) =
6x(1−x)dx = 0.284
0.5
0.0
0.5
1.0
1.5
e corrisponde all’area evidenziata nel grafico sottostante
−0.5
0.0
0.5
1.0
1.5
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
50/ 154
Esempio. Variabile casuale esponenziale. Una variabile casuale X
`e esponenziale, in simboli X ∼ Esp(λ), con λ > 0, se
SX = [0, +∞) e
λe−λx se x ∈ SX
fX (x) =
0
altrimenti.
La funzione di ripartizione `e
Z x
Z
−λt
λe dt =
FX (x) =
−∞
x
λe−λt dt = 1 − e−λx ,
0
se x ∈ SX , mentre FX (x) = 0, se x ∈
/ SX .
Si calcolano le probabilit`a
P (X > 1) = 1 − FX (1) = e−λ ,
P (1 ≤ X ≤ 3) = FX (3) − FX (1) = e−λ − e−3λ ,
che, se λ = 1, corrispondono rispettivamente a e−1 e e−1 − e−3 .
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
51/ 154
1.2
0.6
0.0
0.0
0.6
1.2
La variabile casuale esponenziale viene utilizzata soprattutto per
rappresentare durate e tempi di vita o di funzionamento, nel caso
in cui si ipotizza assenza di memoria o di usura.
−1
1 2 3 4 5
−1
1 2 3 4 5
Si presentano i grafici della funzione di ripartizione e della funzione
di densit`a nel caso λ = 1.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
52/ 154
Esempio. Variabile casuale uniforme. Una variabile casuale
continua X `e uniforme in [0, 1], in simboli X ∼ U (0, 1), se
SX = [0, 1] e
1 se x ∈ SX
fX (x) =
0 altrimenti.
La funzione di ripartizione `e

 0 se x < 0
x se 0 ≤ x < 1
FX (x) =

1 se x ≥ 1,
Si noti che, se gli intervalli [a, b] e [c, d] del supporto, con a < b e
c < d, hanno uguale ampiezza h, allora
P (a ≤ X ≤ b) = P (c ≤ X ≤ d) = h · 1 = h.
Dunque, tutti gli intervalli del supporto di uguale lunghezza hanno
la stessa probabilit`a di contenere un valore di X.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
53/ 154
La variabile casuale uniforme continua viene utilizzata per
esperimenti aleatori che possono essere rappresentati come
un’estrazione casuale di un numero da un certo intervallo di R.
1.0
0.0
0.0
1.0
` un modello che descrive l’equiprobabilit`a nel continuo.
E
−0.5
0.5
1.5
−0.5
0.5
1.5
Si presentano i grafici della funzione di ripartizione e della funzione
di densit`a.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
54/ 154
Variabili casuali: indici sintetici
La distribuzione di probabilit`a di una variabile casuale X viene
descritta in modo completo dalla associata funzione di ripartizione
o dalla corrispondente funzione (di densit`a) di probabilit`a.
Nonostante ci`o, spesso si interessati a conoscere soltanto alcuni
aspetti parziali della distribuzione di probabilit`a di X, quali
• la posizione, cio`e il centro della distribuzione di probabilit`a;
• la variabilit`
a, cio`e la dispersione della distribuzione di
probabilit`a attorno ad un centro;
• la forma della distribuzione di probabilit`a, considerando la
simmetria e la curtosi (pesantezza delle code).
Si riprendono sostanzialmente gli stessi concetti presentati in
Statistica descrittiva, modificando il contesto di applicazione e gli
elementi interpretativi.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
55/ 154
Data una variabile casuale discreta o continua X, con supporto SX
e funzione (di densit`a) di probabilit`a fX , si chiama valore atteso
(medio) o media di X, in simboli E(X), la media dei suoi possibili
valori ponderati con le relative probabilit`a (la relativa funzione di
densit`a di probabilit`a), ovvero
X
X
E(X) =
xfX (x) =
xP (X = x), se X `e discreta,
x∈SX
x∈SX
Z
+∞
E(X) =
xfX (x)dx,
se X `e continua,
−∞
purch´e la serie o l’integrale siano convergenti.
` l’indice di posizione pi`
E
u noto. Usualmente si pone E(X) = µ e si
intende tacitamente che tale valore atteso esista finito.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
56/ 154
Esempio. La seguente tabella di frequenza sintetizza i voti
ottenuti da 30 alunni in un compito in classe.
voto
no. alunni
4
2
5
3
6
10
7
11
8
4
Si pu`o calcolare la media aritmetica (Statistica descrittiva) che
corrisponde a 6.4.
Si supponga di avere un’urna con 30 palline, ciascuna contenente il
voto di un alunno, e si estragga a caso una pallina.
La variabile casuale X, che indica il voto ottenuto con l’estrazione,
ha distribuzione di probabilit`a
x
P (X = x)
4
2/30
5
3/30
6
10/30
7
11/30
8
4/30
e valore atteso E(X) = 6.4 (Calcolo delle probabilit`a). Il valore `e
lo stesso, ma l’interpretazione `e evidentemente diversa.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
57/ 154
Esempio. Si lancia una moneta che da testa con probabilit`a
p ∈ (0, 1); se esce testa Tizio paga a Caio un euro, se esce croce `e
Caio a dover dare a Tizio la stessa somma.
Indicata con X la variabile casuale che descrive il guadagno di
Tizio, si ha che E(X) = (−1)p + 1(1 − p) = 1 − 2p.
Quindi, E(X) `e positivo, nullo o negativo se, rispettivamente,
p < 1/2, p = 1/2 (moneta regolare) o p > 1/2.
♦
Esempio. Variabile casuale esponenziale (continua). Si consideri
la variabile casuale X ∼ Esp(λ). Poich´e la funzione di densit`a `e
nulla fuori dal supporto SX = [0, +∞),
Z +∞
Z +∞
Z
1 +∞ −t
1
E(X) =
xfX (x)dx =
xλe−λx dx =
te dt = ,
λ 0
λ
−∞
0
avendo operato il cambio di variabile t = λx e poi integrato per
parti.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
58/ 154
Esempio. Internet (continua). Si considera la variabile casuale X
che misura la durata, in un’ora, dei collegamenti internet degli
utenti di una certa compagnia telefonica. La funzione di densit`a di
X `e pari a fX (x) = 6x(1 − x), se x ∈ [0, 1], e nulla altrove.
Poich´e la funzione di densit`a `e nulla fuori dal supporto SX = [0, 1],
Z
1
Z
x6x(1 − x)dx =
E(X) =
0
0
1
1
6x2 − 6x3 dx = .
2
♦
Esempio. Variabile casuale uniforme (continua). Si consideri la
variabile casuale X ∼ U (0, 1). Poich´e la funzione di densit`a `e nulla
fuori dal supporto SX = [0, 1],
Z
E(X) =
0
1
1
x · 1 dx = .
2
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
59/ 154
Sia X una variabile casuale e Y = g(X) una variabile casuale
ottenuta come trasformata della X, tramite l’applicazione g(·).
Nota la distribuzione di probabilit`a di X, si pu`
o calcolare il valore
atteso di Y , ovvero E(Y ) = E(g(X)), senza conoscere la legge di
Y ; infatti,
X
E(Y ) =
g(x)fX (x), se X e Y sono discrete,
x∈SX
Z
+∞
E(Y ) =
g(x)fX (x)dx,
se X e Y sono continue.
−∞
Sulla nozione di valore atteso si possono fare considerazioni
analoghe a quelle fatte in Statistica descrittiva con riferimento alla
media aritmetica.
Valgono inoltre le seguenti propriet`a, per le quali si omettono le
dimostrazioni essendo sostanzialmente analoghe, per lo meno con
riferimento al caso discreto, a quelle viste per la media aritmetica:
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
60/ 154
1) Propriet`a di Cauchy: inf{x ∈ SX } ≤ E(X) ≤ sup{x ∈ SX }.
2) Propriet`a di baricentro: E(X − E(X)) = 0.
3) Propriet`a di linearit`a: E(aX + b) = aE(X) + b, per ogni
a, b ∈ R.
Inoltre, si pu`o dimostrare che vale la seguente estensione della
propriet`a di linearit`a: date due variabili casuali X e Y , per ogni
a, b ∈ R
E(aX + bY ) = aE(X) + bE(Y );
tale propriet`a si pu`o estendere anche al caso di combinazioni lineari
di pi`
u di due variabili casuali.
Oltre al valore atteso esistono altri indici di posizione. Tra questi
verranno ricordati la mediana e la moda.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
61/ 154
La mediana della distribuzione di probabilit`a di X, o pi`
u
semplicemente la mediana di X, indicata con x0.5 , `e quel valore
x0.5 ∈ R tale che
P (X ≤ x0.5 ) ≥ 1/2
e
P (X ≥ x0.5 ) ≥ 1/2.
Quindi, x0.5 ripartisce la massa unitaria di probabilit`a, di modo che
gli eventi X ≤ x0.5 e X ≥ x0.5 abbiano probabilit`a pari a 1/2, o
anche maggiore di 1/2 se P (X = x0.5 ) > 0.
Pu`o non essere unica e, in alcuni casi, pu`
o corrispondere anche ad
un intervallo di valori reali.
Se X `e una variabile casuale continua, la mediana x0.5 `e tale che
FX (x0.5 ) = 1/2;
`e il valore dove la funzione di ripartizione vale 1/2 e che ripartisce
a met`a l’area unitaria sottesa dalla funzione di densit`a.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
62/ 154
Esempio. Moneta (continua). Si consideri la variabile casuale X
che conta gli esiti testa in tre lanci di una moneta regolare.
Le condizioni P (X ≤ x0.5 ) ≥ 1/2 e P (X ≥ x0.5 ) ≥ 1/2 risultano
verificate per x0.5 = 1, x0.5 = 2 e per ogni valore reale in (1, 2).
La variabile casuale X presenta come mediana tutti i valori
dell’intervallo [1, 2]. La mediana convenzionale `e 1.5.
♦
Esempio. Sia X una variabile casuale tale che SX = {−2, 0, 1, 2},
P (X = −2) = P (X = 2) = 1/4, P (X = 0) = 1/6 e
P (X = 1) = 1/3. Si ha allora che
P (X ≤ 1) = P (X = −2) + P (X = 0) + P (X = 1) > 1/2,
P (X ≥ 1) = P (X = 1) + P (X = 2) > 1/2.
Soltanto il valore x0.5 = 1 soddisfa le due condizioni della
definizione ed `e quindi la mediana di X.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
63/ 154
Esempio. Variabile casuale esponenziale (continua). Si considera
la variabile casuale X ∼ Esp(λ), che ha funzione di ripartizione
FX (x) = 1 − e−λx , per x ≥ 0, e nulla altrove, con λ > 0.
La mediana di X si ottiene risolvendo l’equazione
1 − e−λx0.5 = 1/2. In particolare, si ha che x0.5 = λ−1 log 2.
♦
0.0
0.5
1.0
1.5
Esempio. Internet (continua). Si considera la variabile casuale X
che misura la durata, in un’ora, dei collegamenti internet degli
utenti di una certa compagnia telefonica. La funzione di densit`a di
X `e rappresentata nella figura sottostante.
−0.5
0.0
0.5
1.0
1.5
Poich´e `e simmetrica rispetto a x = 1/2, si ha che x0.5 = 1/2.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
64/ 154
La moda della distribuzione di probabilit`a di X, o pi`
u
semplicemente la moda di X, indicata con xmo , `e quel valore
xmo ∈ R per cui `e massima la funzione (di densit`a) di probabilit`a.
La moda non `e necessariamente unica e pu`
o anche non esistere. Se
esiste, appartiene al supporto SX e individua i valori pi`
u probabili,
se X discreta, o i cui intorni sono gli eventi pi`
u probabili, se X
continua.
Nel caso in cui fX (x) ha un unico massimo, la distribuzione di
probabilit`a di X `e detta unimodale; se ci sono due o pi`
u punti di
massimo, si parla di distribuzioni bimodali o multimodali.
Esempio. Internet (continua). Si considera la variabile casuale X
che misura la durata, in un’ora, dei collegamenti internet degli
utenti di una certa compagnia telefonica. Dalla analisi del grafico
della funzione di densit`a si conclude che xmo = 1/2.
♦
Esempio. Tetano (continua). Sia X una variabile casuale discreta
che descrive il numero di casi di tetano registrati nel comune di
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
65/ 154
0.0
0.1
0.2
0.3
0.4
0.5
0.6
Padova in una settimana. Dalla analisi della funzione di massa
0
si conclude che xmo = 0.
1
2
3
4
♦
Esempio. Variabile casuale esponenziale (continua). Si considera
la variabile casuale X ∼ Esp(λ). Dalla analisi del grafico della
funzione di densit`a si conclude che xmo = 0.
♦
Esempio. Variabile casuale uniforme (continua). Si consideri la
variabile casuale X ∼ U (0, 1). Dalla analisi del grafico della
funzione di densit`a si conclude che la moda xmo corrisponde ad
ogni punto dell’intervallo SX = [0, 1].
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
66/ 154
Sia α ∈ (0, 1), si chiama quantile di livello α della distribuzione di
probabilit`a di X, o pi`
u semplicemente quantile di livello α di X,
indicato con xα , quel valore xα ∈ R tale che
P (X ≤ xα ) ≥ α
e
P (X ≥ xα ) ≥ 1 − α.
Quindi, a meno di effetti legati alla discretezza, xα ripartisce la
massa unitaria di probabilit`a lasciando una porzione pari ad α alla
propria sinistra e pari a 1 − α alla propria destra.
Pu`o non essere unico e, in alcuni casi, pu`
o corrispondere anche ad
un intervallo di valori reali.
Se X `e una variabile casuale continua, xα `e tale che
FX (xα ) = α;
`e il valore dove la funzione di ripartizione vale α e che ripartisce in
due porzioni pari ad α e 1 − α l’area unitaria sottesa dalla funzione
di densit`a.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
67/ 154
Quindi la mediana corrisponde al quantile di livello α = 1/2. Se α
`e espresso in termini decimali o percentuali e si parla allora di decili
o di percentili. Se α = 1/4, 1/2, 3/4, si hanno i quartili.
Esempio. Sia X una variabile casuale tale che SX = {−2, 0, 1, 2},
P (X = −2) = P (X = 2) = 1/4, P (X = 0) = 1/6 e
P (X = 1) = 1/3. Si cerca il quantile di livello α = 0.4. Si ha che
P (X ≤ 0) = P (X = −2) + P (X = 0) > 0.4,
P (X ≥ 1) = P (X = 0) + P (X = 1) + P (X = 2) > 0.6.
Poich´e soltanto il valore 0 soddisfa le due condizioni della
definizione, si conclude che x0.4 = 0.
♦
Esempio. Variabile casuale esponenziale (continua). Si considera
la variabile casuale X ∼ Esp(λ), che ha funzione di ripartizione
FX (x) = 1 − e−λx , per x ≥ 0, e nulla altrove, con λ > 0.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
68/ 154
Il quantile xα si ottiene risolvendo l’equazione 1 − e−λxα = α. In
particolare, si ha che c = −λ−1 log(1 − α).
♦
0.0
0.5
1.0
1.5
Esempio. Internet (continua). Si considera la variabile casuale X
che misura la durata, in un’ora, dei collegamenti internet degli
utenti di una certa compagnia telefonica. La funzione di densit`a di
X `e rappresentata nella figura sottostante.
−0.5
0.0
0.5
1.0
1.5
Poich´e `e simmetrica rispetto a x = 1/2, si si pu`
o concludere che,
per ogni α ∈ (0, 0.5), l’area della coda alla sinistra di xα coincide
con l’area della coda alla destra di x1−α .
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
69/ 154
Data una variabile casuale discreta o continua X, con supporto SX
e funzione (di densit`a) di probabilit`a fX , si chiama varianza di X,
in simboli V (X), la quantit`a
V (X) = E((X − E(X))2 ),
se esiste finita, ovvero
X
(x − E(X))2 fX (x),
V (X) =
se X `e discreta,
x∈SX
Z
+∞
V (X) =
(x − E(X))2 fX (x)dx,
se X `e continua,
−∞
purch´e la serie o l’integrale siano convergenti.
` l’indice di variabilit`a pi`
E
u noto. Usualmente si pone V (X) = σ 2 e
si intende tacitamente che il valore atteso della definizione esista
finito.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
70/ 154
La varianza `e il valore atteso della variabile casuale scarto
X − E(X) elevata al quadrato e misura la dispersione
distribuzione di probabilit`a attorno alla media.
Lo scarto quadratico medio di X, indicato con σ, `e la radice
p
quadrata aritmetica (l’unica positiva) della varianza, σ = V (X).
Valgono inoltre le seguenti propriet`a, per le quali si omettono le
dimostrazioni essendo sostanzialmente analoghe a quelle viste per
la varianza in Statistica descrittiva:
1) Propriet`a di non negativit`a: V (X) ≥ 0, con V (X) = 0 se e
solo se X `e degenere.
2) Formula per il calcolo: V (X) = E(X 2 ) − (E(X))2 .
3) Propriet`a di invarianza per traslazioni: V (X + b) = V (X),
b ∈ R.
4) Propriet`a di omogeneit`a di secondo grado:
V (aX) = a2 V (X), a ∈ R.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
71/ 154
Dalle propriet`a 3) e 4) discende che V (aX + b) = a2 V (X), con
a, b ∈ R.
Inoltre, data una variabile casuale X, con media µ = E(X) e
varianza σ 2 = V (X), la variabile casuale trasformata
Y =
X −µ
σ
`e tale che E(Y ) = 0 e V (Y ) = 1 ed `e detta variabile casuale
standardizzata.
Viceversa, a partire da una variabile casuale Y con E(Y ) = 0 e
V (Y ) = 1, si pu`o ottenere una variabile casuale X, con valor
medio µ e varianza σ 2 prefissati, utilizzando la trasformata
X = σY + µ.
Oltre alla varianza esistono altri indici di variabilit`a.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
72/ 154
Se X `e positiva, pi`
u precisamente se P (X > 0) = 1, si pu`o
definire la quantit`a σ/µ, chiamata coefficiente di variazione.
Poich´e non dipende dalla unit`a di misura con cui viene studiato il
fenomeno, pu`o risultare utile per confrontare la dispersione di due
o pi`
u variabili casuali.
Lo scarto medio assoluto dalla mediana, definito come
E(|X − x0.5 |), se esiste finito, esprime la distanza attesa tra i
valori di X e la mediana x0.5 .
Lo scarto interquartilico SI = x3/4 − x1/4 , corrisponde alla
differenza tra il terzo e il primo quartile.
Il campo di variazione (range) R = sup{x ∈ SX } − inf{x ∈ SX },
corrisponde sostanzialmente alla differenza tra il valore pi`
u grande
e pi`
u piccolo del supporto.
Per quanto riguarda lo studio della simmetria e della curtosi
(pesantezza delle code) di una distribuzione di probabilit`a si
possono riprendere le considerazioni fatte in Statistica descrittiva.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
73/ 154
Esempio. Moneta (continua). Si considera la variabile casuale X
che conta il numero di esiti testa in tre lanci di una moneta
regolare. In questo caso, SX = {0, 1, 2, 3} e P (X = 0) =
P (X = 3) = 1/8, P (X = 1) = P (X = 2) = 3/8 ed `e facile
verificare che
3
3
1
3
E(X) = 0 + 1 + 2 + 3 = ,
8
8
8
2
3
1
3
E(X 2 ) = 0 + 1 + 4 + 9 = 3.
8
8
8
Con la regola per il calcolo, si ha V (X) = 3 − (3/2)2 = 3/4.
♦
Esempio. Variabile casuale uniforme (continua). Si consideri la
variabile casuale X ∼ U (0, 1). Poich´e E(X) = 1/2 e
E(X 2 ) =
Z
0
1
1
x2 · 1 dx = ,
3
si conclude che V (X) = 1/3 − (1/2)2 = 1/12.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
74/ 154
Esempio. Variabile casuale esponenziale (continua). Si consideri
la variabile casuale X ∼ Esp(λ). Poich´e E(X) = 1/λ e,
integrando per parti,
Z
Z +∞
2
2 +∞
2
2 −λx
λxe−λx dx = 2 ,
E(X ) =
λx e
dx =
λ 0
λ
0
si conclude che V (X) = 2/λ2 − (1/λ)2 = 1/λ2 .
♦
Esempio. Internet (continua). Si considera la variabile casuale X
che misura la durata, in un’ora, dei collegamenti internet degli
utenti di una certa compagnia telefonica. Poich´e E(X) = 1/2 e
2
Z
1
2
Z
x 6x(1 − x)dx =
E(X ) =
0
1
6x3 − 6x2 dx =
0
si conclude che V (X) = 3/10 − (1/2)2 = 1/20.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
3
,
10
♦
75/ 154
Modello uniforme discreto
Il modello uniforme discreto descrive esperimenti con un numero
finito di esiti equiprobabili.
Una variabile casuale X ha distribuzione uniforme discreta con
possibili valori x1 , . . . , xn ∈ R, n ∈ N+ fissato, in simboli
X ∼ U d(x1 , . . . , xn ), se SX = {x1 , . . . , xn } e
1/n se x = x1 , . . . , xn
fX (x; x1 , . . . , xn ) =
0
altrimenti
Inoltre, E(X) =
Pn
i=1 xi /n,
V (X) =
Pn
i=1 (xi
− E(X))2 /n.
Se xi = i, i = 1, . . . , n, si scrive X ∼ U d(n) e
E(X) =
n+1
,
2
V (X) =
n2 − 1
.
12
Se, in particolare, n = 1, si ottiene la distribuzione degenere in x1 ,
in simboli X ∼ D(x1 ). In questo caso, E(X) = x1 e V (X) = 0.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
76/ 154
0.8
0.4
0.0
0.0
0.4
0.8
Esempio. Si consideri il lancio di un dado regolare. La variabile
casuale X, che indica la faccia uscita dopo il lancio, ha
distribuzione di probabilit`a U d(6).
0
1
2
3
4
5
6
7
0
1
2
3
4
5
6
7
Le figure rappresentano le associate funzioni di probabilit`a e di
ripartizione di X.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
77/ 154
Modello binomiale
Si considerano esperimenti che possono essere rappresentati come
estrazioni con reinserimento da un’urna di composizione nota.
Ogni estrazione pu`o essere classificata in due categorie
incompatibili ed esaustive chiamate, in modo convenzionale,
successo e insuccesso (osservazioni dicotomiche dove, in genere, 1
indica il successo e 0 l’insuccesso): esperimento bernoulliano.
Ogni estrazione `e indipendente dalle altre e presenta la stessa
probabilit`a p ∈ (0, 1) di successo.
Il modello binomiale descrive il numero di successi in n ≥ 1
esperimenti bernoulliani indipendenti con la stessa probabilit`a di
successo p ∈ (0, 1).
Una applicazione possibile `e al controllo di qualit`a: si `e interessati
al numero di elementi difettosi in un campione casuale di
dimensione n ≥ 1, con p ∈ (0, 1) la porzione di elementi difettosi.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
78/ 154
Un’altra applicazione `e al contesto delle indagini di mercato: si `e
interessati al numero di consumatori che apprezzano un certo
prodotto in un campione casuale di dimensione n ≥ 1, con
p ∈ (0, 1) la porzione di individui che apprezzano il prodotto.
Una ulteriore applicazione `e allo studio delle popolazioni: si `e
interessati al numero di individui che presentano un certa
caratteristica in un campione casuale di dimensione n ≥ 1, con
p ∈ (0, 1) la porzione di individui portatori della caratteristica.
Se, come spesso accade nel campionamento da popolazione finita,
si effettuano estrazioni senza reinserimento (estrazione in blocco),
si pu`o comunque utilizzare il modello binomiale se la popolazione `e
cos`ı elevata da essere considerata quasi infinita.
In questo caso, ha poca importanza se l’estrazione `e fatta con o
senza reinserimento.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
79/ 154
Una variabile casuale X ha distribuzione binomiale di parametri
n ≥ 1 e p ∈ (0, 1), in simboli X ∼ Bi(n, p), se SX = {0, . . . , n} e
 n

px (1 − p)n−x se x ∈ SX
x
fX (x; n, p) =

0
altrimenti
dove n indica il numero di prove (esperimenti bernoulliani)
indipendenti e p la comune probabilit`a di successo.
` chiaro che px (1 − p)n−x indica la probabilit`a di osservare x
E
successi e n − x insuccessi, in una specifica configurazione, e il
coefficiente binomiale individua il numero di possibili configurazioni
con x successi.
Se n = 1 si ha una variabile casuale bernoulliana, o binomiale
elementare, in simboli Ber(p) o Bi(1, p).
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
80/ 154
Si considerano i grafici delle funzioni di massa nel caso in cui
n = 10 e p = 0.2, 0.5, 0.8 e n = 20 e p = 0.5.
0.2
0.0
0.0
0.2
0.4
n=10, p=0.5
0.4
n=10, p=0.2
0
2
4
6
8
10
0
2
6
8
10
15
20
0.2
0.0
0.0
0.2
0.4
n=20, p=0.5
0.4
n=10, p=0.8
4
0
2
4
6
8
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
10
0
5
10
81/ 154
Se le variabili casuali Xi ∼ Ber(p), i = 1, . . . , n, descrivono n
esperimenti bernoulliani indipendenti,
si pu`
o concludere che la
Pn
variabile casuale somma X = i=1 Xi ∼ Bi(n, p).
Si verifica facilmente che, per ogni i = 1, . . . , n,
E(Xi ) = 1 · p + 0 · (1 − p) = p,
V (Xi ) = E(Xi2 ) − (E(Xi ))2 = p(1 − p).
Quindi,
n
n
X
X
Xi ) =
E(Xi ) = np,
E(X) = E(
i=1
n
X
V (X) = V (
Xi ) =
i=1
i=1
n
X
V (Xi ) = np(1 − p).
i=1
Infine, `e facile verificare che la frequenza campionaria di successo
(media campionaria di bernoulliane) Y = X/n `e tale che
E(Y ) = p e V (Y ) = p(1 − p)/n.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
82/ 154
Esempio. Tra i 100 iscritti ad una associazione sportiva ci sono 30
pi`
u alti di 180 cm. Si estrae casualmente un campione di n = 10
atleti con reinserimento.
La variabile casuale X che definisce il numero di atleti che, tra i 10
considerati, `e pi`
u alto di 180 cm (successo) ha distribuzione
Bi(10, 0.3). Ci si attende di osservare E(X) = 3 atleti con altezza
superiore a 180 cm ed inoltre V (X) = 2.1
La probabilit`a di estrarre almeno un atleta pi`
u alto di 180 cm `e
P (X ≥ 1) = 1−P (X = 0) = 1−[10!/(0!10!)]0.30 (1−0.3)10 = 0.97.
La probabilit`a di estrarre due atleti pi`
u alti di 180 cm `e
P (X = 2) = [10!/(2!8!)]0.32 (1 − 0.3)8 = 0.23.
Infine, la probabilit`a di estrarne meno di 4 `e
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
83/ 154
P (X < 4) =
3
X
P (X = xi ) = 0.27 + 0.23 + 0.12 + 0.03 = 0.65.
i=0
♦
Esempio. Per un inconveniente nella linea di produzione, su 100
monitor prodotti da una certa azienda 10 risultano difettosi. Un
rivenditore ha, recentemente, acquistato cinquanta monitor da
questa azienda.
La variabile casuale X che descrive il numero di monitor che, tra i
cinquanta venduti, verranno resi alla casa produttrice perch´e
difettosi `e una Bi(50, 0.1).
Il numero atteso di monitor difettosi `e E(X) = 5, mentre
V (X) = 4.5. Inoltre, la probabilit`a che nessun monitor sia
difettoso `e
P (X = 0) = [50!/(0!50!)]0.10 (1 − 0.1)50 = 0.005
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
84/ 154
Modello Poisson
Il modello Poisson descrive problemi di conteggio quando non c’`e
una limitazione superiore per il supporto o problemi in cui tale
limitazione `e praticamente irrilevante.
Sotto alcune ipotesi, descrive il numero di arrivi o accadimenti di
un evento di interesse (successo) in un intervallo di tempo (o
anche su una superficie) di dimensione fissata.
Una variabile casuale X ha distribuzione Poisson con parametro
λ > 0, in simboli X ∼ P (λ), se SX = N e
x −λ
λ e /x! se x ∈ SX
fX (x; λ) =
0
altrimenti
Si dimostra che E(X) = λ e E(X 2 ) = λ2 + λ, da cui si ottiene
che V (X) = E(X 2 ) − (E(X))2 = λ2 + λ − λ2 = λ. Quindi, media
e varianza coincidono e corrispondono al parametro λ.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
85/ 154
Se il numero medio di successi in una unit`a di tempo `e ν, la
variabile casuale che rappresenta il numero di successi in un
intervallo di tempo t ha distribuzione P (λ), con λ = νt.
La distribuzione Poisson pu`
o venire interpretata come caso limite
della distribuzione binomiale. Se n `e elevato e p `e piccola, la
distribuzione Bi(n, p) viene approssimata da una P (λ), con
λ = np.
Per quanto riguarda le applicazioni, l’approssimazione `e efficace se
n ≥ 50 e p ≤ 1/25.
L’approssimazione risulta pressoch´e esatta quando si considerano
fenomeni come, ad esempio, il numero di cittadini americani
coinvolti in incidenti stradali in un anno, dove n = 303824646
(luglio 2008, stima) e p = 0.00024.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
86/ 154
Si considerano i grafici delle funzioni di massa nel caso in cui
λ = 0.5, 2, 5, 15.
0.3
0.0
0.0
0.3
0.6
lambda=2
0.6
lambda=0.5
0 5
15
25
0 5
25
0.3
0.0
0.0
0.3
0.6
lambda=15
0.6
lambda=5
15
0 5
15
25
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
0 5
15
25
87/ 154
Esempio. Al Pronto Soccorso di un piccolo ospedale si presentano
in media 3 pazienti ogni ora.
Per predisporre il personale medico necessario, si vuole calcolare la
probabilit`a che in un’ora arrivino esattamente 2 pazienti e la
probabilit`a che in un’ora arrivino pi`
u di 2 pazienti.
Indicata con X ∼ P (3) la variabile casuale che descrive il numero
di arrivi in un’ora al Pronto Soccorso, la probabilit`a che arrivino 2
pazienti in un’ora `e
P (X = 2) =
e−3 32
= 0.224,
2!
mentre la probabilit`a che arrivino pi`
u di 2 pazienti in un’ora `e
2
X
P (X > 2) = 1−P (X ≤ 2) = 1−
P (X = i) = 1−0.423 = 0.577.
i=0
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
88/ 154
Modello geometrico
Il modello geometrico descrive il tempo di attesa, espresso come
numero di replicazioni indipendenti di un esperimento bernoulliano,
con probabilit`a di successo p, per osservare per la prima volta un
successo.
Una variabile casuale X ha distribuzione geometrica con parametro
p ∈ (0, 1), in simboli X ∼ Ge(p), se SX = N+ e
(1 − p)x−1 p se x ∈ SX
fX (x; λ) =
0
altrimenti
Si dimostra che E(X) = 1/p e V (X) = (1 − p)/p2 .
Il modello geometrico `e caratterizzato dalla propriet`a di assenza di
memoria, che viene specificata dalla seguente condizione
P (X > s + t|X > s) = P (X > t), per ogni s, t ∈ SX .
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
89/ 154
Quindi la probabilit`a che il successo avvenga dopo s + t prove
bernoulliane, sotto la condizione che non sia avvenuto nelle prime
s prove, pari alla probabilit`a non condizionata che il successo
avvenga dopo t prove.
Si considerano i grafici delle funzioni di massa nel caso in cui
p = 0.25, 0.5.
0.3
0.0
0.0
0.3
0.6
p=0.5
0.6
p=0.25
2
6
10
14
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
2
6
10
14
90/ 154
Esempio. Si consideri il gioco del lotto. La probabilit`a che esca il
tre in una singola estrazione su una ruota prefissata 1/18.
La variabile casuale X, che indica il numero di settimane
necessarie affinch´e esca il numero tre sulla ruota di Napoli, ha
distribuzione Ge(1/18).
Si calcola la probabilit`a che il tre esca alla trentesima settimana, se
si `e a conoscenza che non `e uscito nelle prime dieci settimane
(17/18)29 (1/18)
P (X = 30)
=
=
P (X = 30|X > 10) =
P (X > 10)
(17/18)10
17
18
19
1
.
18
La probabilit`a cercata corrisponde a P (X = 20), cio`e alla
probabilit`a non condizionata che il tre esca alla ventesima
settimana.
Questo risultato conferma la totale infondatezza dell’uso dei ritardi
per congetturare una modificazione delle probabilit`a di successo nel
gioco del lotto.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
91/ 154
Modello uniforme continuo
Il modello uniforme continuo descrive esperimenti aleatori che
possono essere rappresentati come un’estrazione casuale di un
numero dall’intervallo [a, b].
Il concetto di equiprobabilit`a viene trasferito all’ambito continuo
richiedendo che tutti i sottointervalli del supporto di uguale
lunghezza abbiano la stessa probabilit`a di contenere il risultato
sperimentale.
Una variabile casuale X ha distribuzione uniforme continua
(rettangolare) con parametri a, b ∈ R, a < b, in simboli
X ∼ U (a, b), se SX = [a, b] e
1/(b − a) se a ≤ x ≤ b
fX (x; a, b) =
0
altrimenti

se x < a
 0
(x − a)/(b − a) se a ≤ x < b
FX (x; a, b) =

1
se x ≥ b.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
92/ 154
Si verifica facilmente che
Z b
b2 − a2 1
b+a
1
E(X) =
dx =
=
,
x
b
−
a
2
b
−
a
2
a
2
Z
2
b
V (X) = E(X ) − (E(X)) =
a
=
b3 − a3
−
3(b − a)
b+a
2
2
=
1
x
dx −
b−a
2
b+a
2
2
(b − a)2
.
12
Per il grafico delle funzioni di densit`a e di ripartizione si rimanda
all’esempio presentato in precedenza, dove si `e considerata una
variabile casuale U (0, 1).
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
93/ 154
Esempio. Si predispone un esperimento per valutare il senso di
orientamento dei criceti. Gli animali vengono posti al centro un
contenitore circolare con un’unica via di uscita. Dopo averli bendati
e disorientati, si osserva la direzione scelta da ciascun criceto.
Sia X ∼ U (−π, π) la variabile casuale che esprime l’ampiezza in
radianti dell’angolo tra la direzione scelta dall’animale e la direzione
che porta all’uscita. Si ha che E(X) = 0 e V (X) = π 2 /3.
Si consideri la variabile casuale Y , che esprime l’ampiezza
dell’angolo in gradi. Poich´e Y = 180X/π, si ha che
Y ∼ U (−180, 180).
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
94/ 154
Modello esponenziale
Il modello esponenziale viene utilizzato soprattutto per
rappresentare durate e tempi di vita o di funzionamento (ad
esempio negli studi di affidabilit`a), nel caso in cui sia plausibile
assumere la propriet`a di assenza di memoria o di usura.
Una variabile casuale X ha distribuzione esponenziale con
parametro λ > 0, detto tasso di guasto, in simboli X ∼ Esp(λ), se
SX = [0, +∞) e
λe−λx se x ∈ SX
fX (x; λ) =
0
altrimenti
FX (x; λ) =
1 − e−λx se x > 0
0
se x ≤ 0.
In alcuni casi si utilizza la parametrizzazione alternativa con
θ = 1/λ, che corrisponde al valor medio di X.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
95/ 154
Nell’esempio presentato in precedenza si `e considerato il grafico
delle funzioni di densit`a e di ripartizione per il caso λ = 1 e si `e
dimostrato che
1
1
E(X) = , V (X) = 2 .
λ
λ
La propriet`a di assenza di memoria (usura) caratterizza la
distribuzione esponenziale ed `e specificata dalla relazione
P (X > s + t|X > t) = P (X > s),
per ogni s, t > 0, che l’analogo nel continuo della condizione
specificata, nel caso discreto, per la distribuzione geometrica.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
96/ 154
Esempio. Un circuito `e costituito da due componenti dal
funzionamento indipendente la cui vita operativa, misurata in anni,
`e descritta rispettivamente dalle variabili casuali X1 ∼ Esp(0.2) e
X2 ∼ Esp(0.3).
Si cerca la probabilit`a che funzionamento del circuito sia non
superiore a 10 anni. Se i componenti sono in parallelo, si ha
P (X1 ≤ 10 ∩ X2 ≤ 10) = P (X1 ≤ 10)P (X2 ≤ 10)
= (1 − e−0.2·10 )(1 − e−0.3·10 ) = 0.822.
Se i componenti sono in serie, si ha
1 − P (X1 > 10 ∩ X2 > 10) = 1 − P (X1 > 10)P (X2 > 10)
= 1 − e−0.2·10 e−0.3·10 = 0.993.
In entrambi i casi si `e tenuto conto che gli eventi riferiti a X1 sono
indipendenti da quelli riferiti a X2 .
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
97/ 154
Modello normale
Il modello normale o gaussiano `e il modello pi`
u importante ed `e
anche il pi`
u utilizzato nelle applicazioni della Statistica inferenziale.
` stato studiato, in particolare, da K. F. Gauss, da cui il termine
E
gaussiano, che nel 1809 lo utilizz`
o per descrivere gli errori
accidentali (non sistematici), nel caso di misurazioni strumentali
ripetute di una grandezza incognita.
Viene utilizzato in vari contesti di applicazione. In particolare
risulta utile per descrivere, oltre agli errori accidentali, la presenza
di caratteri antropometrici, come la statura e il peso, in
popolazioni umane omogenee, oppure per studiare alcuni
particolari fenomeni sociali o naturali.
Infine, viene utilizzato in molte applicazione come modello per
approssimare, con buona accuratezza, diverse distribuzioni di
probabilit`a, discrete e continue, e permette quindi di agevolare i
calcoli.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
98/ 154
Una variabile casuale X ha distribuzione normale o gaussiana con
parametri µ ∈ R e σ 2 > 0, in simboli X ∼ N (µ, σ 2 ), se SX = R
e, per ogni x ∈ R,
(x − µ)2
1
exp −
fX (x; µ, σ) = √
.
2σ 2
2πσ
La corrispondente funzione di ripartizione non ha una forma
esplicita e viene definita implicitamente utilizzando la definizione di
funzione di ripartizione.
Come risulta chiaro dai grafici presentati nel seguito, la funzione
fX (x; µ, σ) ha un massimo assoluto nel punto µ e punti di flesso
nei punti µ − σ e µ + σ. Inoltre, risulta simmetrica rispetto alla
retta x = µ.
Quindi, il parametro µ `e sia la moda che la mediana. Inoltre, si
verifica che E(X) = µ e V (X) = σ 2 .
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
99/ 154
Se µ = 0 e σ 2 = 1 si ottiene la distribuzione normale standard, in
simboli N (0, 1).
0.0
0.4
0.8
0.0 0.2 0.4 0.6
Si riporta il grafico della funzione di densit`a della variabile casuale
X ∼ N (µ, σ 2 ) per µ = 0, σ 2 = 1 (—), µ = 1, σ 2 = 1 (– –),
µ = 0, σ 2 = 2 (· · · ), µ = 0, σ 2 = 1/2 (- · -).
−4 −2
0
2
4
−4 −2
0
2
4
La distribuzione normale `e chiusa rispetto alle trasformazioni
lineari.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
100/ 154
Infatti, si pu`o verificare che, se X ∼ N (µ, σ 2 ) e Y = aX + b, con
a, b ∈ R, a 6= 0, allora Y ∼ N (aµ + b, a2 σ 2 ).
In particolare, se X ∼ N (µ, σ 2 ), si ottiene una Z ∼ N (0, 1) con
l’operazione di standardizzazione Z = (X − µ)/σ. Viceversa, se
Z ∼ N (0, 1), allora X = σX + µ ∼ N (µ, σ 2 ).
La funzione di ripartizione e la funzione di densit`a di una
Z ∼ N (0, 1) si indicano con Φ(z) e φ(z), rispettivamente. Poich´e
φ(x) `e simmetrica rispetto all’origine, si ha che
∀z ≥ 0.
0.0
0.1
0.2
0.3
0.4
0.5
Φ(−z) = 1 − Φ(z),
−4
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
−2
0
2
4
101/ 154
Inoltre, dalla analisi del grafico si conclude che
P (| Z |< z) = Φ(z) − Φ(−z),
P (| Z |> z) = 2(1 − Φ(z)).
Con la standardizzazione si elimina la dipendenza da particolari
valori di µ e σ 2 e ci si riconduce ad una normale standard. Quindi,
il calcolo di probabilit`a riferite ad una X ∼ N (µ, σ 2 ) si traduce nel
calcolo di probabilit`a di opportuni eventi associati a Z ∼ N (0, 1).
In particolare, per ogni a, b ∈ R, a < b,
a−µ
X −µ
b−µ
P (a ≤ X ≤ b) = P
≤
≤
σ
σ
σ
a−µ
b−µ
= Φ
−Φ
,
σ
σ
X −µ
b−µ
b−µ
≤
P (X ≤ b) = FX (b; µ, σ) = P
=Φ
.
σ
σ
σ
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
102/ 154
Con una semplice applicazione dei risultati esposti, si ha che
.
P (µ − σ < X < µ + σ) = 0.68,
.
P (µ − 2σ < X < µ + 2σ) = 0.95,
.
P (µ − 3σ < X < µ + 3σ) = 0.997.
La maggior parte della massa di probabilit`a si trova entro i limiti
definiti dalla media pi`
u o meno 3σ (regola dei 6 sigma).
Utilizzando le tavole statistiche si ottengono facilmente i valori
della funzione di ripartizione Φ(z) di una N (0, 1) al variare di z.
Per le applicazioni statistiche, `e utile fornire i valori critici di una
N (0, 1), cio`e i valori zα tali che P (Z > zα ) = α, con α ∈ (0, 0.5).
α
zα
0.10
1.28
0.05
1.65
0.025
1.96
0.01
2.33
0.005
2.58
0.001
3.09
0.0005
3.29
zα individua una coda destra della distribuzione di probabilit`a di
peso α, mentre −zα individua una coda sinistra di peso α.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
103/ 154
Esempio. La variabile casuale X rappresenta la pressione sistolica,
in mm di mercurio, di un generico individuo. Per la popolazione
maschile italiana adulta si assume che X ∼ N (129, 392.04)
Supponendo di scegliere a caso un individuo, si pu`o calcolare
P (X < 135) = Φ((135 − 129)/19.8) = Φ(0.303) = 0.619.
P (120 < X < 130) = Φ(0.051) − Φ(−0.455) = 0.195.
La probabilit`a di selezionare un individuo con pressione compresa
tra 120 e 150 mm, tra quelli con pressione superiore alla media, `e
P (120 < X < 150 ∩ X > 129)
P (X > 129)
P (129 < X < 150)
Φ(1.061) − Φ(0)
=
=
= 0.711
1 − P (X ≤ 129)
1 − Φ(0)
P (120 < X < 150 | X > 129) =
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
104/ 154
Esempio. Per tagliare delle barre d’acciaio alla lunghezza nominale
di 5 cm si utilizza un macchinario che fornisce barre con lunghezza
X ∼ N (5.05, 0.01).
Ad un successivo controllo di qualit`a, si scartano le barre che
differiscono dalla lunghezza nominale per pi`
u di un mm.
La probabilit`a che una generica barra soddisfi ai requisiti `e
P (4.9 ≤ X ≤ 5.1) = Φ(0.5) − Φ(−1.5) = 0.625.
Se fosse possibile ricalibrare la procedura di taglio in modo da
avere µ = 5, si avrebbe
P (4.9 ≤ X ≤ 5.1) = Φ(1) − Φ(−1) = 0.683.
Infine, se si aumenta anche la precisione dello strumento di modo
che σ = 0.05, si ha
P (4.9 ≤ X ≤ 5.1) = Φ(2) − Φ(−2) = 0.954.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
105/ 154
Esempio. Un’industria alimentare confeziona pacchi di riso, con
peso dichiarato pari a 500 gr, utilizzando un macchinario che
fornisce pacchi con peso X ∼ N (500, 5).
Si scelgono a caso 5 confezioni di riso e si vuole calcolare la
probabilit`a che non ci siano pacchi con peso inferiore a quello
dichiarato.
La distribuzione di probabilit`a della variabile casuale Y , che conta
il numero di pacchi di riso con peso inferiore
√ a 500 gr, `e Bi(5, p),
con p = P (X ≤ 500) = Φ((500 − 500)/ 5) = Φ(0) = 0.5.
Quindi la probabilit`a cercata `e
5
.
P (Y = 0) =
0.55 (1 − 0.5)0 = 0.03.
0
Inoltre, E(Y ) = 2.5 e V (Y ) = 1.25.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
106/ 154
In molte applicazioni `e utile un’analisi preliminare dei dati per
verificare se il fenomeno che si sta studiando pu`
o essere descritto
da un modello normale.
Si considerano i dati x1 , . . . , xn e si vuole valutare se possono
essere interpretati come osservazioni ripetute e indipendenti di una
variabile casuale X ∼ N (µ, σ 2 ).
Tra le varie procedure per la verifica di normalit`a si presentano due
metodi grafici:
• confronto tra l’istogramma basato sui dati e la funzione di
densit`
a di una variabile casuale gaussiana
con media
P
P
µ
ˆ = ni=1 xi /n e varianza σ
ˆ 2 = ni=1 (xi − µ
ˆ)2 /n (media e
varianza calcolate sui dati);
• rappresentazione dei quantili calcolati sui dati (in ordinata) e
di quelli della distribuzione normale (in ascissa), detta q-q
plot; se il modello normale `e corretto i punti si trovano
allineati su una linea retta.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
107/ 154
Esempio. Si considerano n = 84 misurazioni sulla produzione
(grammi per pianta) di una specie di cipolle bianche coltivate in
Australia.
0.000
50 100
0.010
Dai dati si ricava che µ
ˆ = 73.33 e σ
ˆ 2 = 1704.28. Si rappresenta
l’istogramma delle frequenze relative e si disegna sovrapposta la
densit`a di una N (ˆ
µ, σ
ˆ 2 ). Inoltre, si confrontano quantili osservati e
teorici utilizzando il q-q plot.
0
50
150
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
−2 −1
0
1
2
108/ 154
L’adattamento al modello normale non `e soddisfacente.
L’istogramma presenta una evidente asimmetria mentre il q-q plot
evidenzia una notevole differenza sulle code della distribuzione.
0.0
3.0
4.0
0.4
5.0
0.8
Se si considera la trasformata logaritmica dei dati, yi = log(xi ),
i = 1, . . . , n, si ottiene un adattamento pi`
u soddisfacente alla
distribuzione normale, come viene evidenziato nei grafici seguenti.
2
3
4
5
6
−2 −1
0
1
2
Soltanto sulle code la distribuzione normale non si adatta ancora
bene ai dati.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
109/ 154
Modello chi-quadrato
Date le variabili casuali Z1 , . . . , Zn , n ≥ 1, indipendenti (gli eventi
associati a una generica variabile sono indipendenti dagli eventi
associati alle altre) con distribuzione N (0, 1), allora la variabile
casuale
n
X
Y =
Zi2
i=1
ha distribuzione chi-quadrato con n gradi di libert`a, in simboli
Y ∼ χ2 (n).
` una variabile casuale continua con supporto `e SY = [0, +∞) e
E
E(Y ) = n, V (Y ) = 2n.
Se Y1 ∼ χ2 (n1 ) e Y2 ∼ χ2 (n2 ) sono indipendenti, la loro somma
Y1 + Y2 ∼ χ2 (n1 + n2 ).
Per n → +∞, la distribuzione di probabilit`a della variabile casuale
Y ∼ χ2 (n) tende alla distribuzione normale (l’approssimazione `e
buona per n > 80).
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
110/ 154
0.0
0.1
0.2
0.3
0.4
Grafico della funzione di densit`a della variabile casuale Y ∼ χ2 (n)
per n = 1 (—), n = 3 (– –), n = 6 (· · · ), n = 10 (- · -).
0
5
10
15
20
25
Utilizzando le tavole statistiche si ottengono i valori critici di una
Y ∼ χ2 (n), cio`e i valori χ2α,n tali che P (Y > χ2α,n ) = α, con
α ∈ (0, 1), n ≥ 1.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
111/ 154
Modello t di Student
Date le variabili casuali Z ∼ N (0, 1) e Y ∼ χ2 (n) indipendenti, la
variabile casuale
Z
T =p
Y /n
ha distribuzione t di Student con n gradi di libert`a, in simboli
T ∼ t(n).
` una variabile casuale continua con supporto `e ST = R e
E
E(T ) = 0, se n > 1, V (T ) = n/(n − 2), se n > 2.
La funzione di densit`a `e simmetrica rispetto alla retta x = 0 ed ha
code pi`
u pesanti di quelle della normale standard.
Per n → +∞, la distribuzione di probabilit`a della variabile casuale
T ∼ t(n) tende alla distribuzione normale (l’approssimazione `e
buona per n > 30).
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
112/ 154
0.0
0.1
0.2
0.3
0.4
0.5
Grafico della funzione di densit`a della variabile casuale T ∼ t(n)
per n = 1 (—), n = 3 (– –), n = 10 (- · -).
−6
−4
−2
0
2
4
6
Utilizzando le tavole statistiche si ottengono i valori critici di una
T ∼ t(n), cio`e i valori tα,n tali che P (T > tα,n ) = α, con
α ∈ (0, 0.5), n ≥ 1. Per la simmetria, t1−α,n = −tα,n .
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
113/ 154
Modello F di Fisher
Date le variabili casuali X ∼ χ2 (n) e Y ∼ χ2 (m), n, m ≥ 1,
indipendenti, la variabile casuale
F =
X/n
Y /m
ha distribuzione F di Fisher con n e m gradi di libert`a, in simboli
F ∼ F (n, m).
` una variabile casuale continua con supporto `e SF = [0, +∞) e
E
E(F ) = m/(m − 2), se m > 2.
Se F ∼ F (n, m), allora F −1 ∼ F (m, n). Se T ∼ t(n), allora
T 2 ∼ F (1, n).
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
114/ 154
0.0
0.2
0.4
0.6
0.8
1.0
Grafico della funzione di densit`a della variabile casuale
F ∼ F (n, m) per n = 5, m = 5 (—), n = 5, m = 25 (– –),
n = 25, m = 25 (· · · ), n = 25, m = 25 (- · -).
0
1
2
3
4
5
6
Utilizzando le tavole statistiche si ottengono i valori critici di una
F ∼ F (n, m), cio`e i valori Fα,n,m tali che P (F > Fα,n,m ) = α,
con α ∈ (0, 1), n, m ≥ 1.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
115/ 154
Variabili casuali bivariate
Nelle applicazioni, `e assai frequente dover prendere in
considerazione pi`
u di una variabile casuale contemporaneamente.
Dal punto di vista concettuale la trattazione `e molto simile al caso
univariato, tuttavia dal punto di vista matematico vi sono delle
difficolt`a aggiuntive, basti pensare che sia la funzione di ripartizione
che quella di densit`a (di massa) sono funzioni di pi`
u variabili.
Esempio. Si lanciano contemporaneamente due dadi regolari e si `e
interessati alla somma e alla differenza dei risultati ottenuti. In
questo caso l’esperimento `e descritto da una opportuna variabile
casuale bivariata (X, Y ).
Si svolgono n esperimenti bernoulliani indipendenti con la stessa
probabilit`a di successo p. L’esperimento nel suo complesso `e
descritto da una variabile casuale multivariata (X1 , . . . , Xn ), dove
Xi ∼ Ber(p), i = 1, . . . , n. Questa `e la situazione che si presenta
tipicamente nella Statistica inferenziale.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
116/ 154
Si limita la trattazione alle variabili casuali bivariate, che tuttavia
risulta sufficiente per introdurre tutti i concetti che sono
importanti per il caso generale.
Una variabile casuale bivariata (X, Y ) risulta specificata dalla sua
funzione di ripartizione congiunta
FX,Y (x, y) = P (X ≤ x, Y ≤ y),
(x, y) ∈ R2 .
Inoltre, il supporto congiunto SX,Y `e dato dall’insieme dei punti
(x, y) ∈ R2 nei cui intorni si possono osservare valori per (X, Y )
con probabilit`a strettamente positiva.
Dalla conoscenza della funzione di ripartizione congiunta si ottiene
la funzione di ripartizione marginale delle due componenti X e Y ;
ad esempio, per la componente marginale X
FX (x) = lim FX,Y (x, y),
y→+∞
x ∈ R.
Si considera il caso discreto; quanto presentato si pu`o estendere
al caso continuo con opportune attenzioni.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
117/ 154
Una variabile casuale bivariata (X, Y ) `e discreta se esiste un
insieme di coppie di numeri reali {(xi , yj )}(i,j)∈I×J , finito
u
P o al pi`
numerabile, tale che P (X = xi , Y = yj ) = pij > 0 e i,j pij = 1;
usualmente, SX,Y = {(xi , yj ), (i, j) ∈ I × J}.
La corrispondenza tra i possibili valori di (X, Y ) e le rispettive
probabilit`a individua la funzione di probabilit`a (massa) congiunta
pij se (x, y) = (xi , yj ), ∀(i, j) ∈ I × J,
fX,Y (x, y) =
0
altrimenti.
Dalla conoscenza di fX,Y si risale facilmente alla funzione di
ripartizione congiunta FX,Y e viceversa.
Quindi anche fX,Y caratterizza la variabile casuale bivariata (X, Y )
e permette il calcolo delle probabilit`a di eventi ad essa associati.
fX,Y pu`o essere rappresentata mediante una tabella a doppia
entrata, analoga alle tabelle di contingenza, che fornisce le
probabilit`a pij riferite alle coppie (xi , yj ), (i, j) ∈ I × J.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
118/ 154
Esempio. Si consideri la variabile casuale bivariata discreta
(X, Y ), con distribuzione di probabilit`a congiunta specificata dalla
seguente tabella a doppia entrata
Y
X
1
2
3
1
2
3
4
1/10
0
2/10
0
1/10
0
0
1/10
1/10
3/10
0
1/10
Si ha che SX,Y = {(1, 1), (1, 4), (2, 2), (2, 3), (3, 1), (3, 3), (3, 4)},
poich´e i punti di probabilit`a nulla non appartengono al supporto.
Si osservi che
3 X
4
X
i=1 j=1
pij =
1
3
1
1
2
1
1
+0+0+ +0+ + +0+ +0+ +
= 1.
10
10
10 10
10
10 10
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
119/ 154
Una variabile casuale bivariata (X, Y ) `e un vettore che ha, come
componenti marginali, le variabili casuali univariate X e Y .
In precedenza si `e visto come determinare la funzione di ripartizione
marginale di X e di Y a partire dalla funzione di ripartizione
congiunta. Il supporto marginale SX corrisponde, intuitivamente, a
tutti i possibili valori della componente X; analogamente per SY .
Data una variabile casuale bivariata discreta (X, Y ), con funzione
di probabilit`a congiunta fX,Y , si pu`
o ricavare facilmente la
funzione di probabilit`a marginale di X, poich´e per ogni xi ∈ SX
X
X
P (X = xi ) =
P (X = xi , Y = yj ) =
pij = pi+ .
j∈J
j∈J
Analogamente, per la componente Y
X
P (Y = yj ) =
pij = p+j ,
yj ∈ SY .
i∈I
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
120/ 154
Se si considera la rappresentazione di fX,Y mediante una tabella a
doppia entrata, la funzione di probabilit`a marginale di X (di Y ) si
ottiene calcolando i totali di riga (di colonna).
A partire dalla distribuzione marginale delle due componenti si
possono calcolare valore atteso e varianza, che vengono chiamati
valore atteso marginale e varianza marginale di X e di Y .
Esempio. Se si considera la variabile casuale bivariata discreta
(X, Y ) definita in precedenza, si conclude che SX = {1, 2, 3} e
SY = {1, 2, 3, 4}. Inoltre, si riporta la tabella a doppia entrata
integrata con le probabilit`a marginali
Y
X
1
2
3
p+j
1
2
3
4
pi+
1/10
0
2/10
3/10
0
1/10
0
1/10
0
1/10
1/10
2/10
3/10
0
1/10
4/10
4/10
2/10
4/10
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
121/ 154
Condizionamento e indipendenza
Le componenti marginali X e Y sono indipendenti se ogni evento
associato a X `e indipendente da ogni evento associato a Y .
Formalmente, X e Y sono (stocasticamente) indipendenti se
FX,Y (x, y) = FX (x)FY (y),
per ogni (x, y) ∈ R2 .
Se, invece, esiste almeno un punto (x, y) per cui questo non vale,
X e Y vengono dette dipendenti. Se X e Y sono indipendenti, il
supporto congiunto `e il prodotto cartesiano dei supporti marginali,
cio`e SX,Y = SX × SY .
Se (X, Y ) `e discreta, la definizione di indipendenza `e equivalente a
chiedere che, per ogni (xi , yj ) ∈ SX,Y ,
fX,Y (xi , yj ) = fX (xi )fY (yj ).
Utilizzando la notazione introdotta in precedenza, ci`o corrisponde
a chiedere che, per ogni (xi , yj ) ∈ SX,Y , pij = pi+ p+j .
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
122/ 154
Se si considera la rappresentazione di fX,Y mediante una tabella a
doppia entrata, si evidenzia una forte analogia con la nozione di
indipendenza definita per tabelle di contingenza.
Pi`
u precisamente, X e Y sono indipendenti se tutte le probabilit`a
congiunte presenti all’interno della tabella coincidono con il
prodotto dei corrispondenti totali di riga e di colonna.
Esempio. Data la variabile casuale bivariata discreta (X, Y )
definita in precedenza, `e immediato concludere che X e Y sono
dipendenti.
Infatti, si riesce ad individuare in modo agevole almeno una coppia
di possibili valori (xi , yj ) tali che pij 6= pi+ p+j . Ad esempio, se si
considera (xi , yj ) = (1, 1),
p11 =
4 3
1
6=
= p1+ p+1 .
10
10 10
Si noti che, in questo caso, SX,Y 6= SX × SY .
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
123/ 154
Data una variabile casuale bivariata (X, Y ), pu`
o essere
interessante determinare la distribuzione di probabilit`a di una
componente condizionatamente ai valori assunti dall’altra.
Se (X, Y ) `e discreta, in accordo con la definizione di probabilit`a
condizionata, si ottiene la funzione di probabilit`a della variabile
casuale X condizionata a (dato) Y = yj , dove P (Y = yj ) > 0, in
simboli X | Y = yj .
In particolare, per ogni xi ∈ SX|Y =yj , si ha
fX|Y =yj (xi ) = P (X = xi |Y = yj ) =
pij
P (X = xi , Y = yj )
=
,
P (Y = yj )
p+j
mentre la funzione `e nulla altrove. SX|Y =yj `e il supporto della
variabile casuale condizionata, definito come l’insieme dei valori
che X pu`o assumere se Y = yj .
Si ottengono definizioni analoghe per Y | X = xi .
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
124/ 154
Se X e Y sono indipendenti, tutte le distribuzioni condizionate di
X | Y = yj , al variare di yj sono uguali e coincidono con la
distribuzione marginale di X; analogamente per Y | X = xi .
A partire dalla distribuzione di probabilit`a della variabile casuale
condizionata X | Y = yj , `e possibile determinare, con le formule
usuali, il valore atteso condizionato
X
E(X|Y = yj ) =
xi fX|Y =yj (xi )
xi
e la varianza condizionata
X
V (X|Y = yj ) =
(xi − E(X|Y = yj ))2 fX|Y =yj (xi ).
xi
Se X e Y sono indipendenti, valore atteso e varianza condizionati
sono costanti e coincidono con E(X) e V (X).
Si ottengono definizioni analoghe per Y | X = xi .
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
125/ 154
Esempio. Si consideri la variabile casuale bivariata discreta (X, Y )
con funzioni di probabilit`a congiunta e marginali specificate da
Y
X
1
2
3
p+j
1
2
pi+
1/10
2/10
3/10
6/10
0
4/10
0
4/10
1/10
6/10
3/10
Le componenti X e Y sono dipendenti, infatti, esiste un elemento
(xi , yj ), ad esempio (2, 1), tale che pij 6= pi+ p+j . Inoltre, le
distribuzioni di probabilit`a di Y |X = 1 e di Y |X = 2 sono diverse.
Con riferimento a Y |X = 2, si ha che
E(Y |X = 2) = 1
p21
p22
5
+2
=
p2+
p2+
3
e E(Y 2 |X = 2) = 3, da cui si ricava che V (Y |X = 2) = 2/9.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
126/ 154
Covarianza e correlazione
Sia (X, Y ) una variabile casuale bivariata discreta e g(·, ·) una
opportuna funzione di due variabili, vale che
XX
E[g(X, Y )] =
g(xi , yj )fX,Y (xi , yj ).
xi
yj
Da questo risultato si conclude che, sia per il caso discreto che per
il caso continuo, valgono le seguenti propriet`a:
• E(aX + bY ) = aE(X) + bE(Y ), con a, b ∈ R;
• se X e Y sono indipendenti, allora E(XY ) = E(X)E(Y ); un
risultato analogo vale anche per u(X) e v(Y ), con u(·) e v(·)
due funzioni a valori reali.
Si vuole introdurre opportuni indicatori che misurino l’intensit`a del
legame di dipendenza lineare tra due variabili casuali e la direzione
della relazione.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
127/ 154
Una misura della dipendenza lineare fra due variabili casuali X e
Y , con media E(X) e E(Y ), `e data dalla covarianza
Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))].
Nel caso di variabili casuali discrete
XX
Cov(X, Y ) =
(xi − E(X))(yj − E(Y ))fX,Y (xi , yj ).
xi
yj
In alternativa, si pu`o calcolare utilizzando la formula per il calcolo
Cov(X, Y ) = E(XY ) − E(X)E(Y ),
P P
dove, nel caso discreto, E(XY ) = xi yj xi yj fX,Y (xi , yj ).
Spesso si indica con σXY , che ne richiama il legame con la
2 =σ
varianza che corrisponde a V (X) = σX
XX = Cov(X, X).
Inoltre, `e banale concludere che Cov(X, Y ) = Cov(Y, X).
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
128/ 154
Vale la diseguaglianza di Cauchy-Schwarz:
−σX σY ≤ σXY ≤ σX σY .
Vale l’uguaglianza σXY = σX σY (σXY = −σX σY ) se esistono due
numeri reali a > 0 (a < 0) e b tali che P (Y = aX + b) = 1, cio`e
se la relazione tra X e Y `e lineare crescente (decrescente) con
probabilit`a 1.
Una misura normalizzata della dipendenza lineare `e il coefficiente
di correlazione lineare definito da
ρXY = Cor(X, Y ) =
σXY
.
σX σY
Dalla diseguaglianza di Cauchy-Schwarz si ha che −1 ≤ ρXY ≤ 1.
Per quanto detto in precedenza, si conclude che se X e Y sono
indipendenti, allora Cov(X, Y ) = 0 e quindi ρXY = 0, mentre il
viceversa non `e necessariamente vero.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
129/ 154
L’assenza di legame lineare non assicura l’indipendenza tra le
variabili. Tuttavia esisto alcune eccezioni a quanto ora affermato.
Nei casi elencati di seguito, se Cov(X, Y ) = 0 si ha che X e Y
sono anche indipendenti:
• (X, Y ) con componenti X ∼ Ber(p), Y ∼ Ber(p);
• (X, Y ) variabile casuale Gaussiana bivariata con componenti
2 ), Y ∼ N (µ , σ 2 ).
X ∼ N (µX , σX
Y
Y
Se Cov(X, Y ), e quindi ρXY , ha segno positivo (negativo), allora
c’`e, in media, una concordanza (discordanza) di segno tra gli scarti
X − E(X) e Y − E(Y ).
Se ρXY = 0, c’`e assenza di legame lineare tra X e Y , che sono
dette incorrelate (ma non necessariamente indipendenti).
Se ρXY > 0 c’`e relazione lineare crescente fra X e Y ; nel caso in
cui ρXY = 1 la relazione `e esattamente lineare crescente con
probabilit`a 1.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
130/ 154
Se ρXY < 0 c’`e relazione lineare decrescente fra X e Y ; nel caso
in cui ρXY = −1 la relazione `e esattamente lineare decrescente
con probabilit`a 1.
Il valore assoluto |ρXY | indica la forza del legame lineare.
La covarianza `e coinvolta nell’espressione della varianza di una
combinazione lineare di X e Y . Infatti, per ogni a, b ∈ R,
V (aX + bY ) = a2 V (X) + b2 V (Y ) + 2ab Cov(X, Y ).
Casi particolari sono
V (X + Y ) = V (X) + V (Y ) + 2Cov(X, Y ),
V (X − Y ) = V (X) + V (Y ) − 2Cov(X, Y ).
Se X e Y sono incorrelate, o a maggior ragione indipendenti, le
relazioni presentate continuano a valere con Cov(X, Y ) = 0.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
131/ 154
Si rappresentano graficamente osservazioni da variabili casuali X e
Y correlate positivamente
●
●
−2
●
●
−2
3
1
y
−1
−3
0
1
●
2
−2
−1
0
1
x
x
r=0.51
r=0.21
●
●
●● ● ● ● ● ●● ●
●●
●● ● ●
● ●● ●
● ● ●●
● ●● ●●●● ●●● ● ●
●●
●
●
● ●●●●●●●
● ●●●●
●● ●●
●●
●●●●●● ● ●●●
●● ● ●●●● ●
●● ●
●●●●
● ● ●●●●●●
●
●
●
●
●
●
● ●●
●● ● ●
●●● ●
●
●
●●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
● ● ●●
●●●
● ●●
●
● ● ●● ● ● ● ●●● ● ●
●● ●● ●●
●●●
● ● ●●● ●
● ● ●●
●●● ●● ●
●
● ●
●●
●
●
●
−1
●
● ● ● ●
● ●●●● ●
●
●●●●
●●
●●
●●● ● ●●●
●●
●●● ●
●●
●●
●●●●●●●
●
●
●
●●
●
●
●
● ●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●●●●
●
●●
●
●● ●●
●●
●
●●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●●
● ●
●●● ●
●●
●●
●●
●●
●●
●
●●●●●
●
●
●●
●●● ●●
●
●
●●
●
●●
●● ●
● ● ●●
●● ●●
●●●● ●●
●●
●
0
1
2
x
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
2
3
●
●●
● ●●
●● ● ●● ● ● ●● ●●● ● ●
●
● ● ●
●
●●●
●
●
●
●
●●
●
●●●● ●
●
●
●
● ●●
● ●●●● ● ●● ●●
●
●●●●
●
●
●●
●●
●
●
●● ● ●
●
●●●●●● ● ●●●●●
●
●
●●
●●
●
●● ●
●
● ●● ●
●
● ●●●
●●● ●●
●
●
●
●●
●
●●
●●●● ● ●
●
●
● ●● ●●
●
●
●
●
●
●
● ●
●
●
●●●
●●
●
●
●
●
●● ●● ●
●●
●
●● ● ● ●●●
●
●
●●
●
●● ●●●
●
● ●
●
●
●
●● ● ●
●
●
2
−1
●
y
0
y
1
2
−2
●●
●●●
●●●
●●●
●
●●
●
●
●●
●●●
●
●●
●
●
●
●●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●●●
0
●
●●●
●
●●●
r=0.88
●●
●
−2
y
−2
0 1 2
r=1
−3
−2
−1
0
1
2
3
x
132/ 154
e correlate negativamente
r=−0.0024
r=−0.49
−1
0
1
−1
1
y
−1
−2
0
x
r=−0.84
r=−1
0
1
2
x
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
3
3
●
●
−1
x
●
●●●
●
●●●
●●●● ● ●●●●
●
●
●● ●
●
●
●
●●●●●
●●
●●● ●●
●●●● ●
●●
●
●●●●●● ●
●
●● ● ●
● ● ●●
●
●●●● ●
●
●●●
● ●●
●●
●
●●
●
●●●● ●
●
●
●
● ●●
●●
●
●
●●●
●●
●
●
●
●●●
●●●
●
●
●● ●
●●●●●●●
●
●
●
●
●
●●
● ●●
●
●●
●
●●
●●
●● ●● ●
●●
● ●●●●
●●
●●●●●●
●●
●
●
●
●
●
●● ●●●
●● ●
●●
●
−2
−3
●
●
● ●●●●
●● ●
● ●● ●●●● ●●●● ●
●
●
● ●●●
●
●
●● ●●
●
●
●
●
●
●
● ●
●
●
●● ●●
●●
●●●
●
●●
●●●●
●
●●●●
●●●●●
●●
●
●
●
●●
●● ●●●
●
●
●●● ●●
●
●
●
● ●● ●
●●
●●●●
●●●●
●
● ●●
●●●
●●
●
●●
●
●●
●● ● ●●
●●
●●
●●
●● ● ●
●●●
●
●
●
●
●
●
●
●
●
●
● ● ● ●
●● ●●●● ●●
●
● ●
●
●
● ●
●●
●
●
●
−3
2
●●●●
1
●
−2
●●
●●
●
y
0
−2
y
2
−3
●
●
−1
−2
●
●
●
● ●●
● ●
●
●
●●
● ●
●
●
● ●
● ●●● ●●
● ●●●● ●●
●
●
● ●●● ●
●● ●● ● ●●
● ●●●
●● ●
●
● ● ●
●●
● ●
●●
●
●
●●●●●
●●
● ● ●●● ●
●
●●
●
●
●
●
●
●
● ●
●
●
●
●●●
●●●
●
● ● ●● ●
●
●
●●●
● ●●●●
●
●
●
●
●
●
●
●
●
●
●
●
● ●● ●
● ●●
●●●●●●●●
●
●
●
●
●
●
●
●
●
●● ●●●
● ● ●● ● ● ●● ●
●
●
● ●● ●●●● ●
● ●● ●
●
●
−3
y
●
0
2
●●
−3
1
2
3
●
●
●●
●
●●
●
●
●
●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●●
●
●
●●
●●
●
●●
●
●
●●
●●
●
●
●●
●●
●●●
●●
−2
−1
0
1
2
3
x
133/ 154
Esempio. Si consideri la variabile casuale bivariata discreta (X, Y )
con funzioni di probabilit`a congiunta e marginali specificate da
Y
X
1
2
3
p+j
0
1
2
3
pi+
1/8
0
0
1/8
0
1/8
1/4
3/8
0
1/8
1/4
3/8
1/8
0
0
1/8
1/4
1/4
1/2
Dal momento che E(X) = 9/4, E(Y ) = 3/2 e
1
1
1 1
1
1
27
E(XY ) = 0 + 2 + 3
+
+4 +6 = ,
8
8
4 8
8
4
8
si ha che Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 0. Dunque, le
variabili casuali X e Y sono incorrelate, ma si verifica facilmente
che non sono indipendenti.
Inoltre, si ottiene che E(X + Y ) = 15/4 e E(X − Y ) = 3/4,
mentre V (X + Y ) = V (X − Y ) = 14/4.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
134/ 154
Somma e media campionaria
Nelle applicazioni, `e assai frequente studiare fenomeni casuali che
forniscono come possibili osservazioni vettori numerici di
dimensione n ≥ 1.
In questo caso, conviene considerare la nozione di variabile casuale
multivariata (vettore casuale) X = (X1 , . . . , Xn ), che generalizza
quella di variabile casuale bivariata e univariata.
In particolare, nel contesto della Statistica inferenziale, si hanno a
disposizione dati che sono interpretabili come osservazioni ripetute
di un determinato fenomeno con riferimento a unit`a statistiche
selezionate mediante campionamento.
Oppure, come osservazioni di un certo fenomeno aleatorio ripetute
in una serie di istanti temporali o in varie localizzazioni spaziali.
Dato X = (X1 , . . . , Xn ), si `e spesso interessati alla variabile
casuale univariata ottenuta sommando le componenti X1 , . . . , Xn ,
oppure facendo la loro la media o la loro varianza.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
135/ 154
Siano X1 , . . . , Xn , n ≥ 1, variabili casuali univariate, componenti
marginali del vettore casuale X, si definiscono somma campionaria
e media campionaria, rispettivamente, le variabili casuali
Sn =
n
X
n
Xi ,
i=1
X
Sn
¯n = 1
Xi =
.
X
n
n
i=1
Se le X1 , . . . , Xn sono indipendenti (basterebbe incorrelate) e
identicamente distribuite (basterebbe che avessero stessa media e
stessa varianza) con E(Xi ) = µ e V (X) = σ 2 , i = 1, . . . , n, allora
E(Sn ) =
n
X
E(Xi ) = nµ,
V (Sn ) =
i=1
¯n) =
E(X
n
X
V (Xi ) = nσ 2 ,
i=1
E(Sn )
= µ,
n
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
¯n) =
V (X
V (Sn )
σ2
=
.
n2
n
136/ 154
Se le variabili casuali indipendenti X1 , . . . , Xn sono tali che
Xi ∼ N (µ, σ 2 ), i = 1, . . . , n, allora anche somma e media
campionaria sono variabili casuali Gaussiane, pi`
u precisamente,
Sn ∼ N (nµ, nσ 2 ),
¯ n ∼ N (µ, σ 2 /n).
X
Valgono, inoltre, i seguenti risultati con riferimento a variabili
casuali X1 , . . . , Xn indipendenti:
P
• se Xi ∼ Bi(ki , p), i = 1, . . . , n, allora Sn ∼ Bi( ni=1 ki , p);
P
• se Xi ∼ P (λi ), i = 1, . . . , n, allora Sn ∼ P ( ni=1 λi );
P
• se Xi ∼ χ2 (ri ), i = 1, . . . , n, allora Sn ∼ χ2 ( ni=1 ri ).
In generale, non `e detto che, date n ≥ 1 variabili casuali
indipendenti con distribuzione di probabilit`a definita nell’ambito di
un determinato modello, le associate variabili casuali somma e
media campionaria mantengano lo stesso modello.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
137/ 154
Se si considera una successione di variabili casuali Xi , i ≥ 1,
indipendenti e identicamente distribuite, con media µ finita e
varianza σ 2 6= 0 finita, si nota che la successione delle variabili
¯ n , n ≥ 1, `e tale che
casuali media campionaria X
¯ n ) = µ,
lim E(X
n→+∞
¯ n ) = 0.
lim V (X
n→+∞
Al crescere di n, la variabile casuale media campionaria ha una
distribuzione di probabilit`a sempre pi`
u concentrata attorno al valor
medio comune µ delle variabili casuali Xi , i ≥ 1.
Formalmente, si afferma che vale la legge debole dei grandi numeri,
cio`e che, nelle condizioni poste in precedenza, se n → +∞,
p
¯n →
X
− µ.
p
La scrittura →
− indica la convergenza in probabilit`a: la probabilit`a
¯ n e µ sia maggiore di un qualsiasi > 0 tende
che la distanza tra X
a zero per n → +∞.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
138/ 154
Formalmente, per ogni ε > 0, si ha che
¯ n − µ| ≥ ε) = 0.
lim P (|X
n→∞
4.0
4.5
5.0
5.5
6.0
Esempio. Si consideri la sequenza dei valori osservati delle medie
campionarie di n = 1, . . . , 100 variabili casuali indipendenti con
distribuzione P (5).
0
200
400
600
800
1000
Si noti che al crescere di n i valori osservati della media
campionaria tendono ad essere sempre pi`
u concentrati attorno a
µ = λ = 5.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
139/ 154
¯ n per n = 5, 10, 25, 50.
Si considerano la funzioni di massa di X
n=10
0.00
0.00
0.02
0.04
0.04
0.08
n=5
0
2
4
6
8
10
0
2
2
4
6
8
10
0.000 0.010 0.020
0.015
0.000
0
6
8
10
8
10
n=50
0.030
n=25
4
0
2
4
6
Al crescere di n le distribuzioni di probabilit`a sono sempre pi`
u
concentrate attorno a 5.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
♦
140/ 154
Per la le variabili casuali somma e media campionaria vale un
importante risultato, che `e anche molto utile nelle applicazioni: il
teorema limite centrale.
Data una successione di variabili casuali Xi , i ≥ 1, indipendenti e
identicamente distribuite, con media µ e varianza σ 2 6= 0 finite,
allora la somma standardizzata e la media campionaria
standardizzata coincidono e sono tali che, per n → +∞,
¯ −µ
Sn − nµ d
X
pn
= √
−
→ Z ∼ N (0, 1).
2
σ /n
nσ 2
d
La scrittura −
→ indica la convergenza in distribuzione: al crescere di
n la distribuzione di probabilit`a `e sempre pi`
u simile a quella di Z.
Per n fissato sufficientemente elevato (almeno n > 30), valgono le
seguenti utili approssimazioni:
¯ n ∼N
X
˙ (µ, σ 2 /n),
Sn ∼N
˙ (nµ, nσ 2 ),
dove ∼
˙ indica la distribuzione approssimata.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
141/ 154
` noto che, se le variabili casuali X1 , . . . , Xn hanno distribuzione
E
N (µ, σ 2 ), allora la somma campionaria Sn e la media campionaria
¯ n sono Gaussiane.
X
Per il teorema limite centrale, se n `e sufficientemente elevato, si
possono ancora utilizzare tali distribuzioni Gaussiane
¯ n , anche se le variabili casuali
(approssimate) per Sn e X
X1 , . . . , Xn non hanno distribuzione Gaussiana.
In particolare, per n fissato sufficientemente elevato, valgono le
seguenti relazioni approssimate: per ogni a, b ∈ R, a < b,
a
−
µ
b
−
µ
.
¯ n ≤ b) = Φ
√
√
−Φ
,
P (a < X
σ/ n
σ/ n
b − nµ
a − nµ
.
√
√
P (a < Sn ≤ b) = Φ
−Φ
.
σ n
σ n
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
142/ 154
Si possono evidenziare, a questo proposito, i seguenti casi di
interesse per le applicazioni:
·
• se Xi ∼ Ber(p), i = 1, . . . , n, allora Sn ∼ N (np, np(1 − p)) e
¯ n ∼· N (p, p(1 − p)/n) (si ottengono buone approssimazioni
X
per n tale che np ≥ 5 e n(1 − p) ≥ 5);
·
• se Xi ∼ P (λ), i = 1, . . . , n, allora Sn ∼ N (nλ, nλ) e
¯ n ∼· N (λ, λ/n) (si ottengono buone approssimazioni per n
X
tale che nλ > 10).
Esempio. Si consideri una successione {Xn }n≥1 di variabili casuali
Xn , n ≥ 1, indipendenti con distribuzione P (λ).
` noto che Sn ∼ P (nλ); inoltre, dal Teorema limite centrale, si
E
conclude che, se n `e elevato, Sn ∼N
˙ (nλ, nλ).
Si confrontano le distribuzioni di probabilit`a esatte e Gaussiane
approssimate per Sn , con n = 1, 5, 30, 100 e λ = 0.5.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
143/ 154
n=5
0.0
0.00
0.2
0.10
0.4
0.20
0.6
n=1
−2
0
2
4
6
8
0
5
n=100
0.00
0.00
0.02
0.04
0.04
0.08
n=30
10
0
5 10
20
30
20
40
60
80
Al crescere di n le funzioni di probabilit`a esatte sono sempre pi`
u
simili a funzioni di densit`a di una opportuna legge Gaussiana (linea
continua). L’approssimazione `e gi`a accettabile per n = 30.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
144/ 154
Esempio. Si `e verificato un inconveniente su una linea di
produzione che determina la presenza di 1/10 di pezzi difettosi.
La procedura di controllo della qualit`a prevede che, se si
individuano almeno 5 pezzi difettosi su n ≥ 1 scelti a caso, il
processo viene posto in revisione. Sia Sn la somma di n ≥ 1
variabili casuali Ber(1/10) indipendenti.
Si cerca il valore per n tale che ci sia una probabilit`a pari a 0.9 di
porre il processo in revisione. Quindi, n ≥ 1 deve essere tale che
!
!
Sn −(n/10)
5−(n/10) .
5−(n/10)
p
P (Sn ≥ 5) = P
≥ p
=P Z ≥ p
n9/100
n9/100
n9/100
sia 0.9, con Z ∼ N (0, 1). Poich´
pe il valore. critico z0.9 = −1.282, si
cerca n tale che [5 − (n/10)]/ n9/100 = −1.282, con n ≥ 50.
Si ottiene come soluzione il valore 85.58, quindi n = 86 pu`o essere
una scelta ragionevole.
♦
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
145/ 154
Varianza campionaria
Siano X1 , . . . , Xn , n ≥ 1, variabili casuali univariate, componenti
marginali del vettore casuale X, si definisce varianza campionaria
la variabile casuale
n
1X
2
¯ n )2 .
(Xi − X
S =
n
i=1
La varianza campionaria pu`
o venire calcolata utilizzando la
seguente regola di calcolo
n
1X 2
¯ n2 ,
S2 =
Xi − X
n
i=1
che ricorda la regola per il calcolo definita per la varianza.
Se le Xi , i = 1, . . . , n, sono indipendenti e identicamente
distribuite, con media µ e varianza σ 2 finita, si ha che
1
n−1 2
E(S 2 ) =
σ = σ2 − σ2.
n
n
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
146/ 154
Quindi la variabile casuale S 2 presenta valore medio inferiore a σ 2 .
Si noti che al crescere di n tale differenza diventa trascurabile.
La variabile casuale
n
Sc2 =
n
1 X
¯ n )2 ,
S2 =
(Xi − X
n−1
n−1
i=1
ottenuta modificando opportunamente S 2 , `e chiamata varianza
campionaria corretta, ed `e tale che
E(Sc2 ) =
n n−1 2
n
E(S 2 ) =
σ = σ2.
n−1
n−1 n
Se valgono le ipotesi della legge debole dei grandi numeri, si
conclude che, per n → +∞,
p
S 2 → σ2,
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
p
Sc2 → σ 2 .
147/ 154
Quindi, al crescere di n, le distribuzioni di probabilit`a della varianza
campionaria e della varianza campionaria corretta sono sempre pi`
u
concentrate attorno alla varianza comune σ 2 delle variabili casuali
Xi , i = 1, . . . , n.
Se le variabili casuali indipendenti X1 , . . . , Xn sono tali che
Xi ∼ N (µ, σ 2 ), i = 1, . . . , n, allora la varianza campionaria e la
varianza campionaria corretta hanno legge di probabilit`a legata alla
χ2 , pi`
u precisamente,
Pn
¯ 2
n 2 n−1 2
i=1 (Xi − Xn )
S
=
S
=
∼ χ2 (n − 1).
σ2
σ2 c
σ2
Inoltre, le variabili casuali media campionaria e varianza
campionaria (corretta) sono indipendenti.
Sempre nel caso di variabili casuali indipendenti X1 , . . . , Xn con
distribuzione N (µ, σ 2 ), valgono i seguenti risultati che risultano
utili per la Statistica inferenziale.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
148/ 154
Se si standardizza la variabile casuale media campionaria si ha che
¯n − µ
X
√ ∼ N (0, 1),
σ/ n
che `e chiamata media campionaria standardizzata.
p
Se al posto di σ si considera Sc = Sc2 , si ha la variabile casuale
¯ n e Sc2 sono
chiamata media campionaria studentizzata. Poich´e X
2
2
2
indipendenti e (n − 1)Sc /σ ∼ χ (n − 1), si ha che
¯n − µ
X
√ ∼ t(n − 1),
Sc / n
dove t(n − 1) indica una variabile casuale t di Student con n − 1
gradi di libert`a.
Il risultato `e una conseguenza del fatto che la t di Student si
ottiene come rapporto tra una variabile casuale N (0, 1) e una
variabile casuale χ2 indipendente, diviso i suoi gradi di libert`a.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
149/ 154
2 ) e
Siano X1 , . . . , Xn variabili casuali con distribuzione N (µX , σX
2
Y1 , . . . , Ym variabili casuali con distribuzione N (µY , σY ); tutte le
variabili casuali sono indipendenti.
Indicate con
2
SX
=n
−1
n
X
¯ n ),
(Xi − X
i=1
SY2
−1
=m
m
X
(Yi − Y¯m )
i=1
le associate varianze campionarie, che risultano indipendenti, si ha
2 /σ 2 ∼ χ2 (n − 1) e mS 2 /σ 2 ∼ χ2 (m − 1).
che nSX
Y
X
Y
Quindi, si pu`o verificare che
2 /σ 2 ]/(n − 1)
[nSX
X
∼ F (n − 1, m − 1),
[mSY2 /σY2 ]/(m − 1)
dove F (n − 1, m − 1) indica una variabile casuale F di Fisher con
n − 1 e m − 1 gradi di libert`a.
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
150/ 154
Appendice: tavole statistiche
Tavola 1: Funzione di ripartizione della Variabile Casuale Normale Standardizzata
(z ) = P (Z z ) =
Z z
p1 e
1 2
(z )
z2 =2 dz
0
z
-3.4
-3.3
-3.2
-3.1
-3.0
-2.9
-2.8
-2.7
-2.6
-2.5
-2.4
-2.3
-2.2
-2.1
-2.0
-1.9
-1.8
-1.7
-1.6
-1.5
-1.4
-1.3
-1.2
-1.1
-1.0
-0.9
-0.8
-0.7
-0.6
-0.5
-0.4
-0.3
-0.2
-0.1
-0.0
0.00
0.0003
0.0005
0.0007
0.0010
0.0013
0.0019
0.0026
0.0035
0.0047
0.0062
0.0082
0.0107
0.0139
0.0179
0.0228
0.0287
0.0359
0.0446
0.0548
0.0668
0.0808
0.0968
0.1151
0.1357
0.1587
0.1841
0.2119
0.2420
0.2743
0.3085
0.3446
0.3821
0.4207
0.4602
0.5000
0.01
0.0003
0.0005
0.0007
0.0009
0.0013
0.0018
0.0025
0.0034
0.0045
0.0060
0.0080
0.0104
0.0136
0.0174
0.0222
0.0281
0.0351
0.0436
0.0537
0.0655
0.0793
0.0951
0.1131
0.1335
0.1562
0.1814
0.2090
0.2389
0.2709
0.3050
0.3409
0.3783
0.4168
0.4562
0.4960
0.02
0.0003
0.0005
0.0006
0.0009
0.0013
0.0018
0.0024
0.0033
0.0044
0.0059
0.0078
0.0102
0.0132
0.0170
0.0217
0.0274
0.0344
0.0427
0.0526
0.0643
0.0778
0.0934
0.1112
0.1314
0.1539
0.1788
0.2061
0.2358
0.2676
0.3015
0.3372
0.3745
0.4129
0.4522
0.4920
0.03
0.0003
0.0004
0.0006
0.0009
0.0012
0.0017
0.0023
0.0032
0.0043
0.0057
0.0075
0.0099
0.0129
0.0166
0.0212
0.0268
0.0336
0.0418
0.0516
0.0630
0.0764
0.0918
0.1093
0.1292
0.1515
0.1762
0.2033
0.2327
0.2643
0.2981
0.3336
0.3707
0.4090
0.4483
0.4880
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
0.04
0.0003
0.0004
0.0006
0.0008
0.0012
0.0016
0.0023
0.0031
0.0041
0.0055
0.0073
0.0096
0.0125
0.0162
0.0207
0.0262
0.0329
0.0409
0.0505
0.0618
0.0749
0.0901
0.1075
0.1271
0.1492
0.1736
0.2005
0.2296
0.2611
0.2946
0.3300
0.3669
0.4052
0.4443
0.4840
0.05
0.0003
0.0004
0.0006
0.0008
0.0011
0.0016
0.0022
0.0030
0.0040
0.0054
0.0071
0.0094
0.0122
0.0158
0.0202
0.0256
0.0322
0.0401
0.0495
0.0606
0.0735
0.0885
0.1056
0.1251
0.1469
0.1711
0.1977
0.2266
0.2578
0.2912
0.3264
0.3632
0.4013
0.4404
0.4801
0.06
0.0003
0.0004
0.0006
0.0008
0.0011
0.0015
0.0021
0.0029
0.0039
0.0052
0.0069
0.0091
0.0119
0.0154
0.0197
0.0250
0.0314
0.0392
0.0485
0.0594
0.0721
0.0869
0.1038
0.1230
0.1446
0.1685
0.1949
0.2236
0.2546
0.2877
0.3228
0.3594
0.3974
0.4364
0.4761
z
0.07
0.0003
0.0004
0.0005
0.0008
0.0011
0.0015
0.0021
0.0028
0.0038
0.0051
0.0068
0.0089
0.0116
0.0150
0.0192
0.0244
0.0307
0.0384
0.0475
0.0582
0.0708
0.0853
0.1020
0.1210
0.1423
0.1660
0.1922
0.2206
0.2514
0.2843
0.3192
0.3557
0.3936
0.4325
0.4721
0.08
0.0003
0.0004
0.0005
0.0007
0.0010
0.0014
0.0020
0.0027
0.0037
0.0049
0.0066
0.0087
0.0113
0.0146
0.0188
0.0239
0.0301
0.0375
0.0465
0.0571
0.0694
0.0838
0.1003
0.1190
0.1401
0.1635
0.1894
0.2177
0.2483
0.2810
0.3156
0.3520
0.3897
0.4286
0.4681
0.09
0.0002
0.0003
0.0005
0.0007
0.0010
0.0014
0.0019
0.0026
0.0036
0.0048
0.0064
0.0084
0.0110
0.0143
0.0183
0.0233
0.0294
0.0367
0.0455
0.0559
0.0681
0.0823
0.0985
0.1170
0.1379
0.1611
0.1867
0.2148
0.2451
0.2776
0.3121
0.3483
0.3859
0.4247
0.4641
151/ 154
Tavola 1 (segue): Funzione di ripartizione della Variabile Casuale Normale Standardizzata
z
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
3.2
3.3
3.4
0.00
0.5000
0.5398
0.5793
0.6179
0.6554
0.6915
0.7257
0.7580
0.7881
0.8159
0.8413
0.8643
0.8849
0.9032
0.9192
0.9332
0.9452
0.9554
0.9641
0.9713
0.9772
0.9821
0.9861
0.9893
0.9918
0.9938
0.9953
0.9965
0.9974
0.9981
0.9987
0.9990
0.9993
0.9995
0.9997
0.01
0.5040
0.5438
0.5832
0.6217
0.6591
0.6950
0.7291
0.7611
0.7910
0.8186
0.8438
0.8665
0.8869
0.9049
0.9207
0.9345
0.9463
0.9564
0.9649
0.9719
0.9778
0.9826
0.9864
0.9896
0.9920
0.9940
0.9955
0.9966
0.9975
0.9982
0.9987
0.9991
0.9993
0.9995
0.9997
0.02
0.5080
0.5478
0.5871
0.6255
0.6628
0.6985
0.7324
0.7642
0.7939
0.8212
0.8461
0.8686
0.8888
0.9066
0.9222
0.9357
0.9474
0.9573
0.9656
0.9726
0.9783
0.9830
0.9868
0.9898
0.9922
0.9941
0.9956
0.9967
0.9976
0.9982
0.9987
0.9991
0.9994
0.9995
0.9997
0.03
0.5120
0.5517
0.5910
0.6293
0.6664
0.7019
0.7357
0.7673
0.7967
0.8238
0.8485
0.8708
0.8907
0.9082
0.9236
0.9370
0.9484
0.9582
0.9664
0.9732
0.9788
0.9834
0.9871
0.9901
0.9925
0.9943
0.9957
0.9968
0.9977
0.9983
0.9988
0.9991
0.9994
0.9996
0.9997
0.04
0.5160
0.5557
0.5948
0.6331
0.6700
0.7054
0.7389
0.7704
0.7995
0.8264
0.8508
0.8729
0.8925
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738
0.9793
0.9838
0.9875
0.9904
0.9927
0.9945
0.9959
0.9969
0.9977
0.9984
0.9988
0.9992
0.9994
0.9996
0.9997
0.05
0.5199
0.5596
0.5987
0.6368
0.6736
0.7088
0.7422
0.7734
0.8023
0.8289
0.8531
0.8749
0.8944
0.9115
0.9265
0.9394
0.9505
0.9599
0.9678
0.9744
0.9798
0.9842
0.9878
0.9906
0.9929
0.9946
0.9960
0.9970
0.9978
0.9984
0.9989
0.9992
0.9994
0.9996
0.9997
0.06
0.5239
0.5636
0.6026
0.6406
0.6772
0.7123
0.7454
0.7764
0.8051
0.8315
0.8554
0.8770
0.8962
0.9131
0.9279
0.9406
0.9515
0.9608
0.9686
0.9750
0.9803
0.9846
0.9881
0.9909
0.9931
0.9948
0.9961
0.9971
0.9979
0.9985
0.9989
0.9992
0.9994
0.9996
0.9997
0.07
0.5279
0.5675
0.6064
0.6443
0.6808
0.7157
0.7486
0.7794
0.8078
0.8340
0.8577
0.8790
0.8980
0.9147
0.9292
0.9418
0.9525
0.9616
0.9693
0.9756
0.9808
0.9850
0.9884
0.9911
0.9932
0.9949
0.9962
0.9972
0.9979
0.9985
0.9989
0.9992
0.9995
0.9996
0.9997
0.08
0.5319
0.5714
0.6103
0.6480
0.6844
0.7190
0.7517
0.7823
0.8106
0.8365
0.8599
0.8810
0.8997
0.9162
0.9306
0.9429
0.9535
0.9625
0.9699
0.9761
0.9812
0.9854
0.9887
0.9913
0.9934
0.9951
0.9963
0.9973
0.9980
0.9986
0.9990
0.9993
0.9995
0.9996
0.9997
Tavola 1a: Valori critici della Variabile Casuale Normale Standardizzata. P (Z
z
z
0.10
1.2816
0.00009
3.7455
0.05
1.6449
0.00008
3.7750
0.025
1.9600
0.00007
3.8082
Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni
0.01
2.3263
0.00006
3.8461
0.005
2.5758
0.00005
3.8906
0.001
3.0902
0.00004
3.9444
0.0005
3.2905
0.00003
4.0128
0.0001
3.7190
0.00002
4.1075
0.09
0.5359
0.5753
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8389
0.8621
0.8830
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767
0.9817
0.9857
0.9890
0.9916
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986
0.9990
0.9993
0.9995
0.9997
0.9998
z ) = .
0.00001
4.2649
152/ 154