Note ottimizzate per la stampa cartacea

Note di Probabilità 1
A.A. 2013-2014
Mauro Mariani
Dipartimento di Matematica Guido Castelnuovo
VERSIONE PRELIMINARE
Indice
A cosa servono queste note?
3
Capitolo 1. Notazione e preliminari
1. Notazione di base
2. Richiami preliminari
3. Esercizi Capitolo 1
5
5
5
9
Capitolo 2. Spazi di probabilità
1. Spazi ingenui di probabilità
2. Probabilità uniformi e combinatoria
3. Probabilità su spazi campionari finiti o numerabili
4. Probabilità discrete: esempi e controesempi
5. Probabilità continue su R
6. ?Spazi di probabilità
7. ?Identificazione di misure di probabilità
8. ?Dimostrazione del Teorema 2.35
9. Esercizi Capitolo 2
11
11
15
15
17
19
19
23
25
27
Capitolo 3. Combinatoria e probabilità
1. Il principio di inclusione-esclusione
2. Combinatoria degli spazi funzionali finiti
3. Campionamenti
4. ?Cardinalità dell’insieme quoziente
5. Il principio dei cassetti
6. Esercizi Capitolo 3
29
30
33
37
40
41
42
Capitolo 4. Operazioni su spazi di probabilità
1. Condizionamento
2. Combinazioni convesse
3. Indipendenza e spazi prodotto
4. Trasporto
5. ?Un esempio di trasporto
6. ?Struttura simplettica
7. Esercizi Capitolo 4
43
43
43
44
46
47
49
50
Capitolo 5. Variabili aleatorie
1. Definizioni ingenue
2. Variabili aleatorie discrete e continue
3. Esempi di variabili aleatorie discrete e continue
4. Condizionamento ed indipendenza di variabili aleatorie
51
51
53
54
54
1
2
INDICE
Capitolo 6. Valore di attesa
1. Attesa di variabili aleatorie discrete
2. Attesa di variabili aleatorie arbitrarie
3. Il valore d’attesa di variabili aleatorie continue
4. Prodotti e somme di variabili aleatorie indipendenti
5. Varianza, covarianza e correlazione
6. La funzione caratteristica
7. ?Definizioni nel contesto della teoria della misura
8. Esercizi Capitolo 6
57
57
59
61
62
64
65
66
67
Capitolo 7. Limiti di variabili aleatorie
1. Alcune nozioni di convergenza
2. Disuguaglianze notevoli
3. La legge dei grandi numeri
4. Esercizi Capitolo 7
69
69
71
73
73
Capitolo 8.
Applicazioni
75
Capitolo 9. Teorema del limite centrale
1. Esercizi Capitolo 9
77
79
Bibliografia commentata
81
A cosa servono queste note?
In queste pagine sono raccolte le note del corso di Probabilità 1, del Dipartimento di Matematica dell’Universtià degli studi di Roma ""La Sapienza”, anno
accademico 2013-2014. Vista l’abbondanza di testi di probabilità elementare, queste note non nascono con l’idea di fornire un corso autoconsistente di calcolo delle
probabilità. Piuttosto esse vogliono integrare i testi in uso nel corso, ed essere una
guida per una lettura consapevole ed approfondita degli stessi.
L’insegnamento di Probabilità 1, pensato per gli studenti del I anno del corso
di laurea in Matematica, offre delle peculiarità rispetto agli altri insegnamenti dello stesso anno. Da un lato, esso vive del compromesso tra un approccio rigoroso
alla probabilità e l’impossibilità di affrontare correttamente la teoria della misura
durante il corso; dall’altro esso consente (e richiede) di risolvere problemi direttamente legati alla vita quotidiana o a fenomeni del mondo esterno. Molti studenti di
Matematica tuttavia trovano difficoltà nel modelizzare correttamente tali fenomeni,
o nel tradurli in un linguaggio matematico preciso.
Uno degli obiettivi del corso di Probabilità è quindi quello di colmare tali lacune.
Ci sono numerosi testi di calcolo delle probabilità che aiutano in questo approccio,
fornendo numerosi esempi, esercizi e metodi di soluzione ai problemi. Avendo scelto
uno di tali testi (il Ross) come libro di riferimento per il corso, lo scopo di queste
note è allora quello di mettere la teoria ed i problemi affrontati durante il corso
in una prospettiva matematica più ampia e coerente con gli altri corsi seguiti. La
probabilità non è diversa dagli altri insegnamenti come può apparire a prima vista
ad uno studente sommerso da calcoli su dadi, monete ed urne. Sono le stesse
definizioni e gli stessi problemi di tutta la matematica a fornire gli strumenti per
la modellizazione probabilistica. Ad esempio in queste note si è voluto coprire con
rigore il teorema del limite centrale: esso lega la nozione di convergenza debole di
misure (sicuramente più strutturata ed astratta rispetto alla media degli argomenti
presentati al I anno) con la possibilità di fare stime numeriche esplicite e non banali
in problemi reali.
Queste note sono pensate per essere lette contemporaneamente ad un testo che
offra spunti per esempi ed esercizi, e come supporto alle lezioni ed esercitazioni di
Probabilità 1. Non tutti i contenuti sono quindi obbligatori ai fini del superamento
del corso. Le sezioni, i teoremi e gli esercizi marcati con ? sono facoltativi, e non
sempre trattati a lezione.
Ogni commento, in particolare la correzione di errori o imprecisioni, è benvenuto. Queste note sono disponibili sul sito
www.mat.uniroma1.it/~mariani.
Mauro Mariani
3
CAPITOLO 1
Notazione e preliminari
In questa sezione si ricordano alcuni risultati preliminari, indispensabili per il
seguito. Si assume che il lettore abbia familiarità con la teoria ingenua degli insiemi,
le funzioni di variabili reali, gli spazi vettoriali. Nelle ultime sezioni delle note si
assume un risultato di convergenza per le serie di Fourier, tipicamente affrontato
nell’ultima parte del corso di Analisi 1 (e comunque richiamato in queste note).
1. Notazione di base
Nel seguito è utilizzata l’abituale notazione insiemistica (appartenenza, unione,
intersezione, funzioni). Inoltre N := {0, 1, . . .} è l’insieme dei numeri naturali,
N+ = {1, 2, . . .} l’insieme dei naturali strettamente positivi, Z l’insieme degli interi,
Q l’insieme dei razionali, R l’insieme dei reali, R+ l’insieme dei reali strettamente
+
positivi, R+
0 = R ∪ {0} l’insieme dei reali positivi, C l’insieme dei complessi.
Dati due insiemi E ed F , F E denota l’insieme delle funzioni f : E → F , mentre
2E è l’insieme delle parti di E. Tali notazioni sono consistenti, in quanto l’insieme
della parti di E è in corrispondenza biunivoca con {0, 1}E . Se E è finito, |E| ∈ N
rappresenta la sua cardinalità, ad esempio |∅| = 0, |2E | = 2|E| .
Gli intervalli di R si denotano come [a, b], [a, b[ etc, a seconda che gli estremi
siano inclusi o esclusi. Ad esempio [a, a] = {a}, [a, a) = ∅, (−∞, +∞) = R,
(0, +∞) = R+ . Cb (R) denota l’insieme delle funzioni continue e limitate su R,
mentre Cc (R) denota le funzioni continue a supporto compatto su R; ossia f ∈
Cc (R) sse f ∈ C(R) ed esiste L > 0 tale che f (x) = 0 se |x| > L.
2. Richiami preliminari
2.1. Funzioni ed inverse. Dati S, S 0 due insiemi non vuoti ed una funzione
0
f : S → S 0 , possiamo sollevare f ad una funzione f : 2S → 2S (denotata ancora
con f abusando della notazione) ponendo per E ⊂ S
f (E) := {u ∈ S 0 : ∃s ∈ S con f (s) = u}
(1.1)
0
Analogamente l’inversa f −1 di f è una funzione f −1 : 2S → 2S definita ponendo
per F ⊂ S 0
f −1 (F ) := {s ∈ S : f (s) ∈ F }
(1.2)
0
Si noti che in generale non si può definire l’inversa di f su S 0 , ma solo su 2S .
Tuttavia, se f è una biiezione, esiste un’unica funzione g : S 0 → S tale che f ◦ g sia
l’identità su S ed g ◦ f sia l’identità su S 0 . Si verifica immediatamente che g(F ) =
f −1 (F ), dove g(·) è definita analogamente a (1.1). Una tale g viene chiamata
l’inversa di f su S 0 , e ancora denotata, con abuso di notazione, f −1 . Tuttavia
l’inversa su S 0 di una funzione biiettiva non va confusa con l’inversa f −1 definita
5
6
1.
NOTAZIONE E PRELIMINARI
0
su 2S . Esse sono due oggetti diversi (l’una è una funzione da S 0 in S, l’altra da
0
2S in 2S ), e solo la seconda esiste se f non è biiettiva.
La seguenti osservazioni dovrebbero essere note, e si dimostrano applicando
direttamente le definizioni della teoria ingenua degli insiemi.
Osservazione 1.1. Siano S, S 0 due insiemi non vuoti ed f : S → S 0 una
funzione. Sia (Eα )α∈A una famiglia di sottoinsiemi di S. Allora
(a) f (S) ⊂ S 0 .
(b) f (∩α∈A Fα ) ⊂ ∩α∈A f (Fα ).
(c) f (∪α∈A Eα ) = ∪α∈A f (Eα ).
Osservazione 1.2. Siano S, S 0 due insiemi non vuoti ed f : S → S 0 una funzione. Sia (Eα )α∈A una famiglia di sottoinsiemi di S, ed (Fα )α∈A una famiglia di
sottoinsiemi di S 0 . Allora
(a) f −1 (S 0 ) = S.
(b) f −1 (∩α∈A Fα ) = ∩α∈A f −1 (Fα ). In particolare gli (Fα )α∈A sono a due a due
disgiunti, ossia se Fα ∩ Fβ = ∅ per α 6= β, allora gli (f −1 (Fα ))α∈A sono a due
a due disgiunti.
(c) f −1 (∪α∈A Fα ) = ∪α∈A f −1 (Fα ).
In qualche senso, tali osservazioni mostrano che l’inversa di una funzione è più
regolare della funzione stessa. Questo sarà un punto chiave per comporre funzioni
e misure di probabilità nella Sezione 4. Si veda anche l’Esercizio 1.1 alla fine di
questo capitolo.
2.2. Funzione indicatrice. La seguente notazione sarà utilizzata spesso.
Definizione 1.3. Dato un insieme S non vuoto ed E ⊂ S chiamiamo funzione
indicatrice di E la funzione 1E : S → {0, 1} definita come
(
1 se s ∈ E
1E (s) :=
0 se s 6∈ E
A volte può essere utile considerare 1E come una funzione a valori in R (e non
in {0, 1}). Così possiamo ad esempio definire la funzione ϕ : R → R
ϕ(x) := 5 1[0,1] (x) + 2 1[2,4] (x)
il cui grafico è rappresentato di seguito.
Nota. A volte la funzione indicatrice di un insieme E viene anche chiamata
la funzione caratteristica di E. Quando si parla di probabilità tuttavia è preferibile
la dicitura funzione indicatrice poichè con funzione caratteristica si denota un altro
oggetto (vedere la Definizione 6.16).
2.3. Limiti di insiemi e successioni. La seguente notazione è di uso comune
e conveniente nel seguito. Essa è simile alle definizioni di limite superiore e limite
inferiore per successioni di numeri reali.
Definizione 1.4. Sia (Ei )i∈N+ una successione di sottoinsiemi di un insieme
S. Si definiscono i due seguenti sottoinsiemi di S
\ [
lim Ei ≡ lim Ei :=
Ek
i
i→+∞
lim Ei ≡ lim Ei :=
i
i→+∞
n∈N+ k≥n
[ \
n∈N+
k≥n
Ek
2. RICHIAMI PRELIMINARI
7
Figura 1. Il grafico della funzione ϕ(x) = 5 1[0,1] (x) + 2 1[2,4] (x).
rispettivamente come il limite superiore della successione ed il limite inferiore della
successione.
Si ha che limi Ei ⊃ limi Ei . Se limi Ei = limi Ei , allora si dice che la successione ammette limite, e tale insieme limite si denota limi→+∞ Ei .
Definizione 1.5. Una successione (Ei )i∈N+ di sottoinsiemi di un insieme S
si dice: crescente se Ei ⊂ Ej per ogni i ∈ N+ e j ≥ i; decrescente se Ei ⊃ Ej per
ogni i ∈ N+ e j ≥ i. Se una successione è crescente oppure decrescente essa si dice
monotona.
Osservazione 1.6. Sia (Ei )i∈N+ una successione di sottoinsiemi di un insieme
S. Se la tale successione è monotona allora essa ammette limite e
[
lim Ei =
Ei
se la successione è crescente
i
i∈N+
lim Ei =
i
\
Ei
se la successione è decrescente
i∈N+
Si vedano gli esercizi alla fine del capitolo per prendere dimestichezza con i
limiti, le unioni e le intersezioni di successioni di insiemi.
Per successioni di numeri reali si danno delle definizioni analoghe a quelle
insiemistiche.
Definizione 1.7. Sia (ai )i∈N+ una successione di numeri reali ai ∈ R. Si
definiscono
lim ai := inf+ sup ak ∈ R ∪ {−∞} ∪ {+∞}
i
n∈N
k≥n
lim ai := sup inf ak ∈ R ∪ {−∞} ∪ {+∞}
i
n∈N+ k≥n
8
1.
NOTAZIONE E PRELIMINARI
Allora limi ai ≥ limi ai , e se il limite superiore ed inferiore coincidono tale valore è
detto limite della successione e si denota limi ai .
Proposizione 1.8. Siano (ai )i∈N+ e (bi )i∈N+ due successioni di numeri reali
positivi. Supponiamo che esista una biiezione π : N+ → N+ tale che bi = aπ(i) , ossia
P∞
P∞
che la successione (bi ) sia ottenuta permutando gli ai . Allora i=1 ai = i=1 bi .
In particolare, per un insieme S finito
P o numerabile ed una famiglia (as )s∈S di
numeri reali positivi possiamo scrivere s∈S as senza ambiguità.
2.4. Richiami di analisi matematica. Ricordiamo un classico teorema sulle
serie di Fourier (in genere affrontato alla fine del I semestre nel corso di Analisi, ed
utilizzato alla fine di questo corso).
Teorema 1.9. Sia f : [−π, π] → R una funzione continua, derivabile con derivata continua su (−π, π) e tale che f (−π) = f (π). Esistono due successioni (ai )i∈N
e (bi )i∈N+ di numeri reali tali che
lim
sup
n→+∞ x∈[−π,π]
|f (x) − fn (x)| = 0
dove la funzione fn [−π, π] → R è data da
fn (x) := a0 +
n
X
ak cos(k x) + bk sin(k x)
k=1
Ricordiamo che per θ ∈ R, ei θ = cos(θ) + i sin(θ). In particolare se α ∈ C,
α ei θ + α
¯ e−iθ ∈ R.
Corollario 1.10. Siano dati ε > 0, f ∈ Cc (R) ed L > 0 tale che f (x) = 0
per |x| ≥ L. Allora esistono N ∈ N+ , α0 ∈ R, α1 , . . . , αN ∈ C tali che, definita
fε : R → R come
fε (x) = α0 +
N
X
αk exp(i k
π
L
x) + α
¯ k exp(−i k
π
L
x)
k=1
si ha
sup
f (x) − fε (x) ≤ ε
x∈[−L,L]
Ricordiamo delle proprietà delle funzioni convesse su R.
Proposizione 1.11. Sia f : R → R, e per a, b ∈ R sia à , b : R → R la funzione
affine à,b (x) = a x + b. Allora le due seguenti condizioni sono equivalenti.
(a) Per ogni α ∈ [0, 1] ed x, y ∈ R, f (αx + (1 − α)y) ≤ αf (x) + (1 − α)f (y).
(b) f (x) = supa,b : à,b ≤f à,b (x) per ogni x ∈ R.
Una f che soddisfi tali condizioni si dice convessa.
Se f è convessa, per ogni ϕ ∈ C 2 (R) ∩ Cc (R) con ϕ ≥ 0, si ha che
Z
f (x)ϕ00 (x) dx ≥ 0
R
In particolare, se f ∈ C (R) si ha f 00 ≥ 0.
2
3. ESERCIZI CAPITOLO 1
9
2.5. Un limite ed un integrale notevoli. Il seguente limite, detto limite di
Eulero, è immediato.
Osservazione 1.12. Sia (xn ) una successione di numeri reali. Se xn → x
allora
n
lim 1 + xnn = ex
n→+∞
Il seguente integrale può essere calcolato con diverse tecniche (ad esempio considerandone il quadrato e passando in coordinate polari). Si noti tuttavia che una
2
funzione primitiva di e−x /2 non può scriversi esplicitamente in termini di funzioni elementari (quest’ultimo risultato è piuttosto complicato da formalizzare e
mostrare, ma esso ha un senso molto preciso).
Osservazione 1.13. Siano m ∈ R e σ 2 > 0. Allora
Z +∞
√
(x−m)2
e 2σ2 dx = 2πσ 2
−∞
Più in generale, se λ ∈ C
√
1
2πσ 2
Z
+∞
e
(x−m)2
2σ 2
eiλx dx = e−σ
2
λ2 +i λ m
−∞
3. Esercizi Capitolo 1
Esercizio 1.1. Provare le Osservazioni 1.1-1.2. Con la stessa notazione di tali
osservazioni, dire sotto quali ipotesi sulla funzione f valgono
(a) f (S) = S 0 .
(b) f (∩α∈A Eα ) = ∩α∈A f (Eα ). In particolare se gli (Eα )α∈A sono a due a due
disgiunti, allora gli (f (Eα ))α∈A sono a due a due disgiunti.
Dedurne che entrambe le condizioni sono sempre vere (per ogni scelta degli (Eα ))
sse f è l’inversa su S di una biiezione g : S → S 0 , nel qual caso esse corrispondono
proprio ai punti (a)-(b) dell’Osservazione 1.2 applicata alla funzione g.
Esercizio 1.2. Disegnare il grafico della funzione ϕ : R → R definita come
ϕ(x) = x 1[0,2] (x) − 1[1,3] (x).
Esercizio 1.3. Sia data una successione (Ei )i∈N+ di sottoinsiemi di un insieme
S. Mostrare che limi Ei è l’insieme di tutti gli s ∈ S che appartengono ad un
numero infinito di Ei . Mostrare che limi Ei è l’insieme di tutti gli s ∈ S che
appartengono definitivamente a tutti gli Ei (ossia gli s ∈ S che sono in tutti gli Ei
con i ≥ j ≡ js ∈ N+ , per un qualche j che in generale dipende da s). Dedurne che
limi Ei ⊃ limi Ei .
T
Esercizio 1.4. Per i ∈ N+ , sia Ei = [i, +∞[. Trovare i∈N+ Ei e limi Ei .
Esercizio 1.5. Per i ∈ N+ ed a ∈ R, siano Ei = [a − 1i , a[ ed Fi = [a − 1i , a].
Trovare limi Ei e limi Fi .
Esercizio 1.6. Per i ∈ N+ , siano
(
[0, 1]
Ei :=
[i, 2 i]
se i è pari
se i è dispari
ed Fi = Ei ∪[−i, − 1i [. Trovare i limiti superiore ed inferiore di (Ei )i∈N+ e (Fi )i∈N+ .
10
1.
NOTAZIONE E PRELIMINARI
Esercizio 1.7. Provare che per una successione di reali (ai ) si ha limi (−ai ) =
− limi ai . Inoltre se b ∈ R, limi (ai + b) = b + limi ai .
Esercizio
1.8. Provare che per una successione di insiemi (Ei ) si ha limi Eic =
c
limi Ei . Inoltre se F è un insieme limi (Ei ∪ F ) = F ∪ limi Ei .
CAPITOLO 2
Spazi di probabilità
In questo capitolo si introducono le prime definizioni e proprietà degli spazi di
probabilità. Si veda anche gli interi primi due capitoli del Ross.
Non è immediato immaginare come formalizzare l’idea di probabilità. Per esempio, considerato un certo fenomeno aleatorio (diciamo il lancio di un dado) potremmo volere una teoria matematica rigorosa che permetta di calcolare la probabilità
degli eventi legati a tale fenomeno (i possibili risultati del lancio del dado), e che
siano in linea col valore che gli assegnerebbe una persona ’ragionevole’ (1/6 per
ogni risultato tra 1 e 6). Naturalmente ciò è impossibile. Se pure pensassimo la
probabilità come intrinseca nei fenomeni del mondo reale (e ciò è tutt’altro che
necessario), comunque non potremmo calcolarla a priori.
Un altro approccio possibile segue dall’osservazione seguente. Se ripetiamo un
esperimento n volte in maniera indipendente (diciamo che lanciamo un dado n volte), ci aspettiamo che ogni risultato si presenti con una frequenza che -nel limite in
cui n → +∞- converge alla probabilità di tale risultato (ogni faccia del dado apparirà in 1/6 dei lanci). Dunque potremmo voler introdurre una teoria matematica
rigorosa che permetta di calcolare i limiti delle frequenze di risultati di esperimenti indipendenti. Oltre alla stessa critica dell’approccio soggettivista riportata
sopra, questo approccio richiede anche la precisazione del termine indipendenza,
che verosimilmente è più difficile da formalizzare di quello di probabilità.
Insomma, è chiaro che siamo molto lontani da una formalizzazione precisa seguendo questi approcci. A noi (matematici) basta introdurre una semantica che
evochi queste idee (parleremo quindi di probabilità, numeri aleatori, eventi), e mettere in assiomi le relazioni che intercorrono tra di essi. Come in ogni altro settore
della matematica. Sarà poi una questione non-matematica (ma comunque richiesta
negli esercizi del corso), proporre dei modelli stocastici che ’una persona ragionevole’
possa utilizzare per calcolare la probabilità di eventi aleatori. Non possiamo mostrare matematicamente che la probabilità di fare ambo nell’estrazione del lotto sia
1/4005; possiamo però dare un modello ’ragionevole’ del fenomeno dell’estrazione, e
quindi usarlo per calcolare (rigorosamente all’interno del modello) tale probabilità.
La seguente definizione, alla base del nostro corso, fornisce un esempio di tale
approccio assiomatico dovuto a Kolmogorov.
1. Spazi ingenui di probabilità
Definizione 2.1. Uno spazio (ingenuo) di probabilità è una coppia (S, P), dove
S è un insieme non vuoto e P un’applicazione
P : 2S → [0, 1]
tale che
(a) P(S) = 1.
11
12
2.
SPAZI DI PROBABILITÀ
(b) Per ogni famiglia numerabile (Ei )i∈N+ di sottoinsiemi di S a due a due disgiunti
(ossia Ei ∩ Ej = ∅ per i 6= j) si ha
P
∞
[
∞
X
Ei =
P(Ei )
i=1
i=1
In questo contesto, S si dice uno spazio campionario, i sottoinsiemi di S eventi e
P una misura di probabilità o una legge di probabilità o ancora una probabilità su
S.
La proprietà (a) della definizione precedente è detta proprietà di normalizzazione di P, mentre la proprietà (b) è detta σ-additività di P. Il prefisso σ- è legato al
fatto che tale proprietà è richiesta per successioni infinite numerabili di sottoinsiemi
di S, e non su famiglie finite. La seguente proposizione mostra che la σ-additività
è una condizione più forte dell’additività.
Proposizione 2.2. Sia (S, P) uno spazio di probabilità
Pn ed E1 , . . . , En ⊂ S degli
eventi a due a due disgiunti di S. Allora P(∪ni=1 Ei ) = i=1 P(Ei ).
Dimostrazione. Siano E1 , . . . , En come nell’enunciato, e definiamo Ek = ∅
per k ≥ n + 1. Allora la successione (Ei )i∈N+ è composta da eventi a due a due
disgiunti e dalla σ-additività
P(∪ni=1 Ei ) = P(∪i∈N+ Ei ) =
X
i∈N+
P(Ei ) =
n
X
P(Ei ) +
i=1
+∞
X
P(∅)
i=n+1
Poichè il termine di sinistra è finito, la serie a destra deve essere convergente e
quindi P(∅) = 0.
Corollario 2.3. Sia (S, P) uno spazio di probabilità. Allora
(a)
(b)
(c)
(d)
(e)
(f)
Per ogni E ⊂ S, P(E c ) = 1 − P(E).
P(∅) = 0.
Se E ⊂ F ⊂ S, allora P(E) ≤ P(F ).
Se E, F ⊂ S e P(E) = 0, allora P(E ∩ F ) = 0.
Se E, F ⊂ S e P(E) = 1, allora P(E ∩ F ) = P(F ).
Siano E, F ⊂ S. Allora
P(E ∪ F ) = P(E) + P(F ) − P(E ∩ F )
(b)
(c)
(d)
(e)
(f)
Dimostrazione. (a) S = E ∪ E c , e per additività 1 = P(S) = P(E) + P(E c )
essendo E ed E c disgiunti.
Segue da (a) con E = S, oppure dalla prova della Proposizione 2.2.
Se E ⊂ F , allora F = E ∪ (F \ E), e gli insiemi E, (F \ E) sono disgiunti. Da
cui P(F ) = P(E) + P(F \ E) ≥ P(E).
Si ha E ∩ F ⊂ E, e da (c) P(E ∩ F ) ≤ P(E) = 0.
P(E c ) = 0, e da (d), P(F ∩ E c ) = 0. Ora F = (F ∩ E) ∪ (F ∩ E c ), con
F ∩ E e F ∩ E c disgiunti (essendo E ed E c disgiunti). Quindi per additività
P(F ) = P(F ∩ E) + P(F ∩ E c ) = P(F ∩ E).
Dapprima notiamo che E = (E \ F ) ∪ (E ∩ F ). Essendo tale unione disgiunta,
e scambiando i ruoli di E ed F abbiamo
P(E) = P(E \ F ) + P(E ∩ F )
P(F ) = P(F \ E) + P(∩F )
(2.1)
1. SPAZI INGENUI DI PROBABILITÀ
13
Ora E ∪ F = (E \ F ) ∪ (E ∩ F ) ∪ (F \ E). Essendo gli eventi nell’unione di
destra a due a due disgiunti, ed usando la (2.1)
P(E ∪ F ) = P(E \ F ) + P(F \ E) + P(E ∩ F )
= P(E) + P(F ) − P(E ∩ F )
Proposizione 2.4. Sia (S, P) uno spazio di probabilità e (Ei )i∈N+ una successione di eventi Ei ⊂ S (non necessariamente disgiunti). Allora
[
X
P
Ei ≤
P(Ei )
(2.2)
i∈N+
i∈N+
In particolare per ogni n ∈ N+
P
n
[
n
X
Ei ≤
P(Ei )
i=1
i=1
(2.3)
Dimostrazione. Definiamo la successione di eventi (Fi )i∈N+ come
F1 := E1
Fi := Ei \ ∪i−1
k=1 Ek
per i ≥ 2
(2.4)
∞
Notiamo che ∪∞
i=1 Fi = ∪i=1 Ei , e che la (Fi ) è una successione di eventi a due a
due disgiunti. Possiamo pertanto applicare la proprietà di σ-additività agli Fi per
ottenere
∞
∞
X
X
∞
∞
P ∪i=1 Ei = P ∪i=1 Fi =
P(Fi ) ≤
P(Ei )
i=1
i=1
dove nell’ultimo passaggio abbiamo considerato che Fi ⊂ Ei e quindi, dal Corollario 2.3-(c), P(Fi ) ≤ P(Ei ).
La (2.3) si ottiene dalla (2.2) applicata ad una successione (Ei )i∈N+ tale che
Ei = ∅ per tutti gli i ≥ n + 1.
Il seguente teorema è noto come il Teorema di continuità su successioni monotone (si ricordi la Definizione 1.5).
Teorema 2.5. Sia (S, P) uno spazio di probabilità e (Ei )i∈N+ una successione
monotona di eventi Ei ⊂ S. Allora
P(lim Ei ) = lim P(Ei )
i
i
Quindi, se (Ei ) è crescente
P(∪i∈N+ Ei ) = P(lim Ei ) = lim P(Ei ) = sup P(Ei )
i
i
i∈N+
Mentre se (Ei ) è decrescente
P(∩i∈N+ Ei ) = P(lim Ei ) = lim P(Ei ) = inf+ P(Ei )
i
i
i∈N
14
2.
SPAZI DI PROBABILITÀ
Dimostrazione. Consideriamo prima il caso in cui (Ei ) sia crescente e definiamo la successione di eventi (Fi ) come in (2.4). Allora
X
P(Fi )
P(lim Ei ) = P(∪i∈N+ Ei ) = P(∪i∈N+ Fi ) =
i
i∈N+
= lim
n
X
n→+∞
P(Fi ) = lim P(∪ni=1 Fi ) = lim P(En )
n→+∞
i=1
n→+∞
dove nella prima uguaglianza abbiamo usato che gli (Ei ) sono crescenti; nella seconda che ∪i∈N+ Fi = ∪i∈N+ Ei ; nella terza il fatto che gli Fi sono a due a due disgiunti
e la σ-additività; nella quarta il fatto che la serie è a termini positivi; nella quinta
l’additività mostrata nella Proposizione 2.2; nella sesta ∪ni=1 Fi = En .
Se gli (Ei ) sono decrescenti possiamo ripetere un’analoga catena di disuguaglianze. Oppure notare che in tal caso la successione degli Eic è crescente, ed
applicando il risultato appena mostrato abbiamo
P(lim Ei ) = P((lim Eic )c ) = 1 − P(lim Eic ) = 1 − lim P(Eic ) = lim P(Ei )
i
i
i
i
c
i
dove nella prima uguaglianza abbiamo usato che (∪i Ei ) =
∩i Eic .
Il Teorema 2.5 si generalizza come segue.
Teorema 2.6. Si ricordino le Definizioni 1.4, 1.5, 1.7 e l’Osservazione 1.6.
Sia (S, P) uno spazio di probabilità e (Ei )i∈N+ una successione di eventi Ei ⊂ S.
Allora
P(lim Ei ) ≤ lim P(Ei ) ≤ lim P(Ei ) ≤ P(lim Ei )
i
i
i
i
In particolare se limi Ei esiste (ad esempio per successioni monotone di eventi)
allora
lim P(Ei ) = P(lim Ei )
i
i
+
Dimostrazione. Per n ∈ N definiamo Fn := ∩k≥n Ek . (Fn ) è una successione crescente, ed inoltre per ogni k ≥ n abbiamo Fn ⊂ Ek . Quindi per il
Corollario 2.3-(c), P(Fn ) ≤ P(Ek ), per ogni k ≥ n. Ottimizzando su k deduciamo
P(Fn ) ≤ inf P(Ek )
k≥n
∀n ∈ N+
(2.5)
Ne segue
P(lim Ei ) := P(
i
[
Fn ) = sup P(Fn ) ≤ sup inf P(Ek ) = lim P(Ei )
n∈N+
n∈N+
n∈N+ k≥n
i
dove nella prima uguaglianza abbiamo usato la Definizione 1.4, nella seconda il
Teorema 2.5 applicato ad (Fn ), nella terza la (2.5), e nella quarta la Definizione 1.7.
La limi P(Ei ) ≤ limi P(Ei ) è la solita disuguaglianza tra limsup e liminf già
notata nella Definizione 1.7.
Per mostrare l’ultima disuglianza dell’enunciato, è sufficiente applicare la già
mostrata disuglianza sui liminf ai complementari degli eventi Ei , combinata con gli
Esercizi 1.7-1.8
lim P(Ei ) = lim 1 − P(Eic ) = 1 − lim P(Eic )
i
i
i
c
≤ 1 − P(lim Ei ) = 1 − P (lim Ei )c = P(lim Ei )
i
i
3. PROBABILITÀ SU SPAZI CAMPIONARI FINITI O NUMERABILI
15
L’Esercizio 2.1 mostra l’interesse del seguente corollario.
Corollario 2.7. Sia (S, P) uno spazio di probabilità. Per ogni successione
decrescente di eventi (Ei )i∈N+ tali che ∩i Ei = ∅ si ha limi P(Ei ) = 0.
Definizione 2.8. Sia (S, P) uno spazio di probabilità ed E ⊂ S. Diremo che
(a) l’evento E è quasi-certo se P(E) = 1. In tal caso si dice anche che P è
concentrata su E.
(b) l’evento E è trascurabile se P(E) = 0.
(c) l’evento E è impossibile se E = ∅.
2. Probabilità uniformi e combinatoria
Definizione 2.9. Sia S finito. Allora definendo
P(A) =
|A|
|S|
A⊂S
si ottiene una misura di probabilità P su S. Tale misura di probabilità è detta
uniforme su S (da non confondere con la probabilità uniforme su un intervallo,
nozione che sarà introdotta in seguito).
Questo esempio, spesso ricorrente negli esercizi, ci suggerisce di imparare a
calcolare la cardinalità di particolari classi di insiemi, così da saperne calcolare
la probabilità uniforme. Proprio il calcolo delle probabilità è in effetti stato alla
base dello sviluppo della combinatoria, un settore della matematica che rimane
ad oggi intimamente legato alla probabilità. Non a caso, uno dei fondatori della
combinatoria superiore, il matematico italiano Giancarlo Rota, è noto anche per i
suoi difficilissimi corsi di teoria della probabilità al MIT.
Per numerosi esempi ed esercizi di combinatoria e probabilità su insieme finiti,
vedere il Capitolo1 del Ross. Una trattazione più generale di alcuni problemi si
trova nel Capitolo 3 di queste note.
3. Probabilità su spazi campionari finiti o numerabili
Si ricorda che una misura di probabilità è una funzione su 2S , e quindi in
generale essa non è caratterizzata dai suoi valori sui singleton: ci sono ad esempio
un numero infinito di misure di probabilità su S = [0, 1] tali che P({x}) = 0 per
ogni x ∈ [0, 1]. Tuttavia, essa non è un’arbitraria funzione su 2S , poichè deve essere
normalizzata e σ-additiva. Vogliamo dimostrare che se lo spazio campionario S è
finito o numerabile, allora i valori di P sui singleton identificano univocamente P.
In pratica, per assegnare una misura di probabilità su uno spazio campionario S
finito o numerabile, è sufficiente assegnare la probabilità di ciascun elemento di S
(e non di ciascun sottoinsieme di S). Ciò è piuttosto intuitivo; ad esempio se si
conoscono le probabilità che un dado dia risultato 1, 2, 3, 4, 5 o 6, si conosce anche
la probabilità che il dado dia un numero pari, o un numero minore di 4.
Teorema 2.10. Sia S un insieme finito o numerabile. Allora
(a) se P è una misura di probabilità su S, la funzione p : S → R definita come
p(s) := P({s}) per s ∈ S soddisfa
X
p(s) ≥ 0
∀s ∈ S,
p(s) = 1
(2.6)
s∈S
16
2.
SPAZI DI PROBABILITÀ
(b) Viceversa, data una funzione p : S → R che soddisfi (2.6), esiste un’unica
misura di probabilità P su S per cui P({s}) = p(s). Inoltre per ogni E ⊂ S
X
P(E) :=
p(s)
(2.7)
s∈E
che è ben definita grazie alla Proposizione 1.8.
In altre parole, per ogni evento E ⊂ S vale
X
X
P(E) =
P({s}) =
P({s})1E (s)
s∈E
(2.8)
s∈S
Dimostrazione. (a) Dalla Definizione 2.1 segue p(s) = P({s}) ≥ 0 per ogni
s ∈ S. D’altra parte, poiché gli eventi {s}s∈S sono a due a due disgiunti, per
σ-additività (o additività nel caso di S finito) di P
X
X
p(s) =
P({s}) = P(∪s∈S {s}) = P(S) = 1
s∈S
s∈S
S
(b) Definiamo P : 2 → R come nella (2.7). L’enunciato segue dai seguenti tre
punti.
(b1) P prende valori in [0, 1]. Per ogni E ⊂ S, P(E) ≥ 0 in quanto somma (o
serie) di termini positivi. D’altra parte per (2.6)
X
X
P(E) :=
p(s) ≤
p(s) = 1
s∈E
s∈S
(b2) P è normalizzata e σ-additiva (Definizione 2.1-(a) e -(b)). La proprietà
di normalizzazione segue da
X
P(S) :=
p(s) = 1
s∈S
Sia ora (Ei )i∈N+ una famiglia di sottoinsiemi di S a due a due disgiunti.
Evidentemente s ∈ ∪i∈N+ Ei sse s è in uno ed uno soltanto degli Ei .
Pertanto dalla Proposizione 1.8
P
∞
[
i=1
Ei =
X
p(s) =
s∈∪∞
i=1 Ei
+∞ X
X
p(s) =
i=1 s∈Ei
+∞
X
P(Ei )
i=1
e dunque P è σ-additiva.
(b3) Se P0 è una misura di probabilità su S tale che P0 ({s}) = p(s) per ogni
s ∈ S, allora P0 = P. Se E ⊂ S, allora E è esso stesso finito o numerabile, e
possiamo pertanto scriverlo come un’unione (finita o numerabile) di eventi
a due a due disgiunti ponendo E = ∪s∈E {s}. Pertanto, dalla σ-additività
(o additività se E è finito) di P0 segue
X
X
P0 (E) = P0 (∪s∈E {s}) =
P0 ({s}) =
p(s) = P(E)
s∈E
0
s∈E
Poiché P e P coincidono su ogni E ⊂ S, esse coincidono come funzioni su
2S , ossia P0 = P.
4. PROBABILITÀ DISCRETE: ESEMPI E CONTROESEMPI
17
4. Probabilità discrete: esempi e controesempi
In questa sezione generalizziamo il caso di spazio campionari numerabili, al caso
di spazio con misure di probabilità concentrate su insiemi numerabili. Tale generalizzazione è utile per parlare nel seguito di variabili aleatorie, e per approssimare
variabili aleatorie generali con variabili discrete.
Definizione 2.11. Sia (S, P) uno spazio di probabilità. P si dice discreta se
essa è concentrata su un insieme finito o numerabile. Ossia se esiste un insieme
finito o numerabile E ⊂ S tale che P(E) = 1.
Esempio 2.12. Siano S un insieme non vuoto ed x ∈ S. La delta di Dirac
centrata in x, indicata con P = δx , è la misura di probabilità su S definita da
(
1 se x ∈ E
δx (E) =
E⊂S
0 se x 6∈ E
È immediato verificare che δx è in effetti una probabilità su S. Inoltre δx è l’unica
misura di probabilità P su S tale che, per ogni y ∈ S
(
1 se x = y
P({y}) =
0 se x 6= y
Ossia, anche nel caso di S non numerabile, δx è identificata dai suoi valori sui
singleton. Naturalmente δx è una misura discreta essendo concentrata su {x}.
Esempio 2.13. Siano S e J due insiemi non vuoti con J finito o numerabile.
Siano poi (xj )j∈J una famiglia di elementi (non necessariamente distinti) di S, e
α una misura di probabilità su J. Come nel Teorema 2.10 denotiamo αj = α({j}).
Definiamo la misura di probabilità P su S ponendo per E ⊂ S
X
X
P(E) :=
αj =
αj δxj (E)
(2.9)
j∈J : xj ∈E
j∈J
P
Si denota P =
j αj δxj ed è immediato verificare che P è l’unica misura di
probabilità su S tale che
X
P({x}) =
αj
per ogni j ∈ J
j∈J : xj =x
Dunque anch’essa è identificata dai suoi valori sui singleton. Naturalmente
è una misura discreta essendo concentrata su S0 .
P
j
αj δxj
Osservazione 2.14. Sia (S, P) uno spazio di probabilità con P discreta, e sia
E ⊂ S finito o numerabile
con P(E) = 1. Per x ∈ E definiamo αx = P({x}).
P
Allora vale P = x∈E αx δx . In altre parole, una misura di probabilità è discreta
sse ammette la rappresentazione (2.9).
Il Teorema 2.10 si generalizza immediatamente al caso discreto.
Teorema 2.15. Sia S un insieme non vuoto ed E ⊂ S finito o numerabile.
Allora
(a) se P è una misura di probabilità su S e concentrata su E, la funzione p : S → R
definita come p(s) := P({s}) per s ∈ S soddisfa
X
p(s) ≥ 0
∀s ∈ S,
p(s) = 1
s∈E
18
2.
SPAZI DI PROBABILITÀ
(b) Viceversa, data una funzione p : S → R che soddisfi (2.6), esiste un’unica misura di probabilità P su S per cui P({s}) = p(s). Inoltre P è concentrata su E
e per ogni F ⊂ S
X
P(F ) :=
p(s)
s∈E∩F
Esempio 2.16. Vogliamo costruire un modello probabilistico per il risultato aleatorio del lancio di un dado. Possiamo ottenere tutti i numeri 1, 2, 3, 4, 5, 6 con
probabilità 1/6. Quindi possiamo definire S = {1, 2, 3, 4, 5, 6} e P({i}) = 1/6 per
ogni i ∈ S. Dal Teorema 2.10, tale scelta identifica univocamente P.
Tuttavia, per motivi chiari
P6 in seguito, potremmo voler prendere S = R. Ciò
è possibile, ponendo P = i=1 61 δi . Con la notazione dell’Esempio 2.13, abbiamo
J = {1, 2, 3, 4, 5, 6}, αj = 1/6 per ogni j ∈ J e xj = j.
Esempio 2.17. Lanciamo una moneta onesta infinite volte, e ad ogni lancio
identifichiamo testa con 0 e croce con 1. Lo spazio campionario è dato da S =
+
{0, 1}N = {(x1 , x2 , . . . ) : xk ∈ {0, 1}}. xk è da intendersi come il risultato del
lancio k-esimo. Dato a ∈ S e n ∈ N+ , consideriamo l’evento Ean
Ean := {x ∈ S : xi = ai , ∀i = 1, . . . , n}
Se ad esempio a = (0, 0, 0, . . .), allora Ean è l’evento che corrisponde ad ottenere n
volte testa nei primi n lanci.
Anche se non sappiamo come definire una misura di probabilità su ogni sottoinsieme di S (si veda la Sezione 6), la misura di probabilità P corrispondente a
lanci di una moneta ""onesta” è tale che
P(Ean ) = 2−n
Ean
0
Ean
(2.10)
0
se n ≥ n e che {a} =
⊂
per ogni a ∈ S. Si noti che
applicando il Teorema 2.5 del limite di successioni monotone
∩n≥1 Ean .
Pertanto,
P({a}) = P(∩n≥1 Ean ) = lim P(Ean ) = lim 2−n = 0
n→+∞
n→+∞
Vale a dire, ogni punto di S ha probabilità 0, e dunque P non è identificata dai suoi
valori sui singleton. Inoltre P non è discreta, poichè per σ-additività ogni insieme
finito o numerabile è trascurabile (ha probabilità 0).
Esempio 2.18. Vorremmo dare un modello per l’esperimento ideale in cui si
sceglie a caso un punto dall’intervallo [0, 1]. Lo spazio campionario è allora S =
[0, 1]. Risulta naturale proporre come funzione di probabilità
P(E) := lunghezza di E
per ogni E ⊂ S
Tuttavia non tutti i sottinsiemi di S = [0, 1] hanno una lunghezza ben definita, e la
funzione P non potrà essere definita per ogni E ⊂ [0, 1]. Si prova infatti che non
esiste una funzione di probabilità sull’insieme delle parti di [0, 1] tale che per cui
P([a, b]) = b − a. Tale ostacolo è superato dalla nozione di spazio di probabilità
(non ingenuo), dove gli eventi non sono tutti i possibili sottinsiemi di S, ma una
sottofamiglia con opportune proprietà (detta σ–algebra). Ad esempio, in questo
caso tale famiglia è data proprio dagli E la cui lunghezza è ben definita. Si noti
che per definizione P({s}) = 0 per ogni esito s, cioè gli esiti hanno probabilità di
realizzazione nulla (anche se uno verrà realizzato). In particolare P non può essere
discreta.
6. ?SPAZI DI PROBABILITÀ
19
5. Probabilità continue su R
L’Esempio 2.18 fornisce un esempio tipico di probabilità non discreta. In questa
sezione diamo qualche definizione che ci tornerà molto utile nel seguito. Sebbene
in questo corso ci concentreremo unicamente su misura di probabilità discrete e
continue, non si deve pensare che, anche sullo spazio campionario S = R, tutte
le misure di probabilità siano o discrete o continue (nè combinazioni convesse di
discrete e continue).
Definizione 2.19. Una misura di probabilità P sullo spazio reale S = R si dice
continua se esiste una funzione integrabile % : R → R+ tale
Z
P(I) = %(x) dx
per ogni intervallo I ⊂ R
(2.11)
I
Una funzione % per cui valga la (2.11) si dice una densità della probabilità P.
Osservazione 2.20. Sia % : R → R+R integrabile. Allora esiste una misura di
probabilità P su di cui % è la densità sse R %(x)dx = 1. In tal caso sussiste
Z
P(E) =
%(x)dx
per ogni evento E ⊂ R
(2.12)
E
R
Dimostrazione. Se % è una densità di probabilità, allora 1 = P(R) = R %(x)dx.
Viceversa, data % con tale proprietà, definiamo P come in (2.12), e verifichiamo
che si tratti di una probabilità. Dalla positività di % e (2.11) segue subito 0 ≤
P(E) ≤ 1 e P(R) = 1. Per verificare la σ-additività, notiamo dapprima che se gli
(En ) sono una famiglia numerabile di intervalli a due a due disgiunti, allora
Z
XZ
X
P(∪n En ) =
%(x)dx =
%(x)dx =
P(En )
∪n En
n
En
n
In generale, per eventi E generali, non abbiamo neanche definito propriamente cosa
voglia dire la (2.12), e per comprendere propriamente cosa si intenda per evento
e σ-additività in questo contesto (e completare la prova) è necessario leggere le
prossime sezioni (facoltative) di questo capitolo.
Nota. Una probabilità continua P su R ammette infinite densità diverse. Ad
esempio, se cambiamo una densità % in un numero finito (o numerabile) di punti,
la (2.11) rimane valida.
Consideriamo allora l’insieme D di tutte le funzioni % : R → [0, +∞) integrabili
e di integrale pari ad 1, e sia P una probabilità continua su R. Consideriamo la
seguente relazione di equivalenza su D
%1 ∼ %2
⇐⇒
P({x ∈ R : %1 (x) = %2 (x)}) = 1
ossia %1 ∼ %2 sse %1 (x) = %2 (x) P-quasi certamente. Allora, se % ∈ D è una densità
di P, una %˜ ∈ D è una densità di P sse %˜ ∼ %. In altre parole, la densità è definita
univocamente sul quoziente D/ ∼.
6. ?Spazi di probabilità
Questa sezione è dedicata ad una breve introduzione alla teoria della probabilità
(contrapposta al calcolo elementare delle probabilità che fa uso degli spazi ingenui,
e non può essere applicato rigorosamente in generale). Per approfondire questi
argomenti, il libro di Sinai offre degli ottimi spunti.
20
2.
SPAZI DI PROBABILITÀ
6.1. ?Un paradosso. Il seguente teorema, noto come paradosso di BanachTarski, ci lascia riflettere sui limiti della nozione di spazio ingenuo di probabilità.
Un’ampia discussione di tale paradosso si trova in S. Wagon, The Banach-Tarski
Paradox, Cambridge University Press, Cambridge, 1985.
Teorema 2.21. Per x ∈ R3 , sia Bx la palla unitaria 3-dimensionale centrata
in x, ossia Bx = {y ∈ R3 : (y1 − x1 )2 + (y2 − x2 )2 + (y3 − x3 )2 < 1}. Ad esempio
B0 è la palla di raggio 1 centrata nell’origine.
Esiste una partizione (Ei )6i=1 di B0 in 6 sottoinsiemi (ossia gli Ei sono a due
a due disgiunti e B0 = ∪6i=1 Ei ), ed esistono 6 isometrie dirette (composizioni di
rotazione e traslazioni in R3 ) Ti , i = 1, . . . , 6, tali che
∪6i=1 Ti (Ei ) = B(−1,0,0) ∪ B(1,0,0)
Cosa ci sta dicendo questo teorema? Si afferma che è possibile ’tagliare’ una
palla in 6 parti, ruotare e traslare rigidamente ciascuna di queste parti, ed ottenere
alla fine due palle uguali a quella di partenza (stesso raggio)! A prima vista questo
ci sembra un paradosso. La palla iniziale aveva un volume finito, le rotazioni e le
traslazioni rigide conservano il volume: poco importa come taglieremo la palla, la
somma dei volumi delle parti ottenute Ei dovrà essere sempre uguale al volume
iniziale; eppure alla fine della procedura abbiamo ottenuto due palle, raddoppiando
nei fatti il volume! Il paradosso è presto sciolto: il problema è che gli insiemi Ei
sono talmente bizzarri che non è possibile parlare di volume per loro, e l’intuizione
ingenua precedente non si applica. Più precisamente, non è possibile definire un
’volume’, additivo ed invariante per rotazioni e traslazioni, per ogni sottoinsieme di
R3 .
Ora, se pensiamo di voler scegliere ’a caso’ un punto su B0 cadiamo nello
stesso paradosso. Stiamo cercando di definire una misura di probabilità su R3 , che
sia concentrata su B0 , e tale che la probabilità di un sottoinsieme E di B0 sia
P(E) =
Volume(E)
Volume(B0 )
Naturalmente la costante Volume(B0 ) non cambia niente nel paradosso di BanachTarski: una tale probabilità semplicemente non esiste. Con dei paradossi un po’
meno evidenti, è possibile far vedere che anche su R (o su un generico Rn ) non è
possibile definire misure di probabilità associate all’idea di lunghezza (o area etc in
dimensione maggiore), che assegnino una probabilità ad ogni sottoinsieme di R.
La soluzione di questo problema tuttavia non è molto complicata. Semplicemente dobbiamo decidere a priori quali sottoinsiemi dello spazio campionario
vogliamo considerare. In fondo, misurare il volume o dare una probabilità per insiemi bizzarri e non-costruttivi come quelli del paradosso di Banach-Tarski, non ci
interessa molto.
6.2. ?Spazi misurabili. Ci siamo convinti che non è necessario (anzi è spesso
impossibile) definire una probabilità P come una funzione P : 2S → [0, 1]. Piuttosto,
vogliamo fissare una famiglia di eventi F ⊂ 2S e definire la probabilità come una
funzione P : F → [0, 1]. In altre parole, la scelta di F farà parte del nostro modello
probabilistico, proprio come lo spazio campionario S e la misura di probabilità P.
Tuttavia, non possiamo scegliere F in maniera del tutto arbitraria. Anche solo per
enunciare le proprietà (a) e (b) della Definizione 2.1 abbiamo bisogno che P sia
definita su S, e sull’unione numerabile di eventi di F. Allo stesso modo, vorremmo
6. ?SPAZI DI PROBABILITÀ
21
poter avere a disposizione i risultati della Proposizione 2.2, del Corollario 2.3 o
del Teorema 2.6: questi descrivono delle proprietà intuitive della probabilità, e
vorremmo che siano validi quale che sia la nostra definizione di spazio di probabilità.
Dobbiamo ad esempio poter parlare di probabilità dell’evento complementare di un
evento dato.
Le osservazioni precedenti motivano la seguente definizione.
Definizione 2.22. Sia S un insieme non vuoto. Una famiglia F di sottoinsiemi
di S è detta σ-algebra se
(a) ∅ ∈ F.
(b) Se E ∈ F, allora E c ∈ F.
(c) Data una famiglia numerabile E1 , E2 , . . . con Ei ∈ F, vale ∪∞
i=1 Ei ∈ F.
Una coppia (S, F) dove S è un insieme non vuoto ed F una σ-algebra su S si
dice spazio misurabile. Gli elementi di F, ossia i sottoinsiemi di S che sono in
F, si dicono insiemi misurabili dello spazio (S, F) o, nel contesto della probabilità,
eventi.
Attenzione, la definizione ci sta dicendo che una σ-algebra è una famiglia di
sottoinsiemi di S, quindi F ⊂ 2S , che contiene l’insieme vuoto, ed è stabile per
passaggio al complementare ed unione numerabile.
Osservazione 2.23. Sia (S, F) uno spazio misurabile, e sia E1 , E2 , . . . una
successione di eventi. Allora
(a) S ∈ F, ossia l’intero spazio campionario è un evento.
(b) ∩i∈N+ Ei ∈ F, ossia l’intersezione numerabile di eventi è un evento.
(c) Per ogni n ∈ N+ , ∪i≤n Ei ∈ F e ∩i≤n Ei ∈ F, ossia l’unione ed intersezione
finita di eventi sono eventi.
(d) Più in generale, qualsiasi sottoinsieme di S rappresentabile come composizione
finita o numerabile di applicazioni insiemistiche sugli Ei è un evento (ossia è
in F). Ad esempio E1 \ E2 ∈ F.
Dimostrazione. (a) Dalla Definizione 2.22-(a), ∅ ∈ F, e per la Definizione 2.22-(b) S = ∅c ∈ F.
(b) Analogamente ∩i Ei = ∪i Eic )c , ma per la Definizione 2.22-(c), ∪i Eic ∈ F, e
per la Definizione 2.22-(b) anche il suo complementare è in F.
(c) Applichiamo la Definizione 2.22-(c) alla successione di eventi Ei0 con Ei0 = Ei
per i ≤ n, ed Ei0 = ∅ per i ≥ n. Otteniamo che ∪i≤n Ei ∈ F. Ragionando come
al punto (b) sopra, si ha che pure ∩i≤n Ei ∈ F.
(d) E1 \ E2 = E1 ∩ (E2c ). Ma E2c ∈ F, e dunque anche E1 ∩ (E2c ) per la (c). Per
induzione, componendo un numero finito di volte le operazioni elementari di
unione, intersezione, passaggio al complementare (e quelle derivate, come la
differenza simmetrica), si ottengono ancora elementi in F. Non precisiamo qui
il significato di ’composizione numerabile di operazioni elementari’.
Definizione 2.24. Sia S un insieme non vuoto ed F, G due σ-algebre su S.
Si dice che F è più fine (o più forte) di G se F ⊃ G, e che F è meno fine (o più
debole) di G se F ⊂ G.
Esempio 2.25. Sia S non vuoto. Allora 2S è una σ-algebra su S. Essa è la
più fine σ-algebra su S, ossia se F è una σ-algebra, F ⊂ 2S .
22
2.
SPAZI DI PROBABILITÀ
Analogamente, F0 = {∅, S} è una σ-algebra su S, ed essa è la meno fine
σ-algebra su S.
Esempio 2.26. Sia S = {♥, ♦, ♣, ♠}. Allora
F := {∅, {♥}, {♦, ♣, ♠}, S}
è una σ-algebra su S, così come
G := {∅, {♥}, {♦}, {♥, ♦}, {♣, ♠}, {♥, ♣, ♠}, {♦, ♣, ♠}, S}
G è più fine di F. Invece
H := {∅, {♥}, {♣}, {♥, ♦}, {♣, ♠}, {♥, ♣, ♠}, {♦, ♣, ♠}, S}
non è una σ-algebra, poichè {♣} ∈ H, ma {♣}c = {♥, ♦, ♠} 6∈ H.
Osservazione 2.27. Sia S un insieme non vuoto e (Fα )α∈A una famiglia arbitraria di σ-algebre su S. Allora F := ∩α∈A Fα è una σ-algebra su S. Ossia,
l’intersezione di σ-algebre è una σ-algebra.
Dimostrazione. La dimostrazione è immediata. Ad esempio ∅ ∈ Fα per ogni
α ∈ A, e quindi ∅ ∈ ∩α Fα . Analogamente si ragiona per complementari ed unioni
numerabili di elementi di F.
Nota. In generale l’ unione di σ-algebre non è una σ-algebra.
Definizione 2.28. Sia P ⊂ 2S una famiglia di sottoinsiemi di S. Si definisce
F := σ(P) la σ-algebra generata da P come la meno fine σ-algebra che contiene P.
Ossia F è l’intersezione di tutte le σ-algebre che contengono P (tale intersezione è
non vuota poichè 2S ⊃ P).
Si noti che σ(P) ⊃ P e σ(P) = P sse P è una σ-algebra. Nell’Esempio 2.26,
F = σ({{♥}}), G = σ({{♥}, {♦}}), e σ(H) = 2S .
Definizione 2.29. Nel caso in cui S = R, si definisce la σ-algebra di Borel B
come la σ-algebra generata dalla
famiglia degli intervalli (a, b) al variare di a, b ∈ R.
Ossia B = σ {(a, b), a, b ∈ R . La coppia (R, B) è detta spazio di Borel (reale).
Gli insiemi di B sono detti insiemi boreliani di R, o semplicemente boreliani.
Osservazione 2.30. Tutti gli intervalli (aperti, chiusi, aperti a destra o a
sinistri, finiti o infiniti) sono boreliani. Gli aperti ed i chiusi di R sono boreliani.
Dimostrazione. L’intervallo (a, b] con a ∈ {−∞} ∪ R e b ∈ R può scriversi
come
(a, b] = ∩i≥n (a, b + n1 )
Pertanto (a, b] è intersezione numerabile di Boreliani, ed è dunque esso stesso
Boreliano. Si ragiona analogamente per le altre famiglie di intervalli.
Sia ora A ⊂ R un aperto e per x ∈ A definiamo
εx :=
1
2
sup{ε ≤ 1 : (x − ε, x + ε) ⊂ A}
Ix := (x − εx , x + εx )
Poichè A è aperto, εx > 0 e Ix ⊂ A. Sia E := A ∩ Q l’insieme numerabile dei
razionali in A. Dalla precedente osservazione abbiamo A ⊃ ∪q∈E Iq . D’altra parte,
per ogni x ∈ A, esiste q ∈ Ix ∩ Q con |x − q| < εx /4, da cui x ∈ Iq . Pertanto
A ⊂ ∪q∈E Iq , e dunque A = ∪q∈E Iq . Ossia ogni aperto A è unione numerabile di
intervalli aperti, ed è pertanto un boreliano.
Poichè ogni chiuso è il complementare di un aperto, anche i chiusi sono boreliani.
7. ?IDENTIFICAZIONE DI MISURE DI PROBABILITÀ
23
6.3. ?Spazi non ingenui di probabilità. Possiamo finalmente dare la definizione completa di spazio di probabilità.
Definizione 2.31. Uno spazio di probabilità è una terna (S, F, P) tale che
(S, F) è uno spazio misurabile (ossia S è non vuoto ed F è una σ-algebra su S), e
P : F → [0, 1] è tale che
(a) P(S) = 1 (si ricordi che S ∈ F dall’Osservazione 2.23-(a)).
(b) Per ogni famiglia numerabile (Ei )i∈N+ di elementi di F a due a due disgiunti
∞
∞
[
X
P
Ei =
P(Ei )
i=1
i=1
Uno spazio ingenuo di probabilità è uno spazio di probabilità con F = 2S .
D’altra parte, se (S, F, P) è uno spazio di probabilità, in generale non è possibile
estendere P su tutto 2S mantenendo le proprietà di normalizzazione e σ-additività
(questo è il contenuto del paradosso di Banach-Tarski). Potremmo dire che la
nozione di spazio di probabilità è quindi (strettamente) più generale di quello di
spazio ingenuo di probabilità.
7. ?Identificazione di misure di probabilità
Nella Sezione 3 abbiamo visto come, su uno spazio numerabile, sia sufficiente
assegnare una misura di probabilità sui singleton per identificarla univocamente.
In questa sezione vogliamo dare un risultato equivalente più in generale. Infatti,
nella pratica è troppo laborioso definire direttamente una misura di probabilità su
ogni evento: vogliamo assegnare la probabilità su una famiglia di eventi molto più
piccola dell’intera σ-algebra, ma sufficientemente grande da identificare la misura
di probabilità su tutta la σ-algebra utilizzando la σ-additività.
Definizione 2.32. Sia S un insieme non vuoto ed P ⊂ 2S una famiglia di
sottoinsiemi di S. Diremo che P è un π-sistema se
(a) P è non vuoto (esiste almeno un insieme di S in P).
(b) Se E, F ∈ P, allora E ∩ F ∈ P.
È immediato verificare che una σ-algebra è un π-sistema. Diamo qualche altro
esempio significativo. Il lettore può facilmente identificare altre famiglie di intervalli
che formano un π-sistema oltre a quelle elencate di seguito.
Esempio 2.33. Sia S = R. Ciascuna delle seguenti famiglie di sottoinsiemi di R sono un π-sistema (essendo l’intersezione di due intervalli un intervallo,
possibilmente vuoto).
(a) Gli intervalli (incluso l’insieme vuoto) aperti della forma (a, b) con a, b ∈ R.
(b) Gli intervalli (incluso l’insieme vuoto) aperti della forma (a, b) con a, b ∈ R ∪
{−∞} ∪ {+∞}.
(c) Gli intervalli (incluso l’insieme vuoto) della forma (a, b] con a, b ∈ R.
(d) Gli intervalli (incluso l’insieme vuoto) della forma (a, b] con a ∈ R ∪ {−∞},
b ∈ R.
(e) Tutti intervalli di R (di qualunque forma).
La seguente osservazione ha una dimostrazione immediata, poichè ciascun intervallo aperto può ottenersi per composizione numerabile di operazioni di insieme
su una qualsiasi delle famiglie di intervalli descritte nell’Esempio 2.33 (ad esempio
(a, b) = ∪i≥1 (a, b − 1/i]).
24
2.
SPAZI DI PROBABILITÀ
Osservazione 2.34. La σ-algebra generata da uno qualunque dei π-sistemi
nell’Esempio 2.33 coincide con la σ-algebra di Borel su R.
L’utilità del seguente teorema sarà presto chiara. Esso ci dice che per identificare una probabilità, è sufficiente conoscerne i valori che essa prende su un π-sistema
che generi l’intera σ-algebra. Tale teorema è parte di un approccio moderno alla
teoria classica della misura, che ne semplifica e potenzia la trattazione.
Teorema 2.35. Siano P1 e P2 due probabilità sullo stesso spazio misurabile
(S, F). Sia P un π-sistema che genera F, ossia tale che F = σ(P). Se P1 e P2
coincidono su P allora P1 = P2 . In altre parole, se
P1 (E) = P2 (E)
per ogni E ∈ P
P1 (E) = P2 (E)
per ogni E ∈ F
allora
La dimostrazione, arricchita da alcuni risultati più generali, è data nella prossima sezione. Notiamo il seguente corollario al Teorema 2.35, che segue dall’Osservazione 2.34.
Corollario 2.36. Siano P1 e P2 due misure di probabilità sullo spazio di Borel
(R, B). Se per ogni a ∈ R si ha
P1 ((−∞, a]) = P2 ((−∞, a])
allora P1 = P2 .
In effetti per misure di probabilità su R, si riesce a semplificare un po’ la
trattazione generale della teoria della misura utilizzando le funzioni cadlag. Di
seguito diamo una traccia della caratterizzazione delle misure di probabilità su R.
Risultati simili, ma in un ambito più astratto, esistono su spazi misurabili più
generali dello spazio boreliano, e saranno (forse) trattati nel corso di Analisi reale.
Definizione 2.37. Una funzione F : R → R si dice cadlag (dal francese continue à droite, limite à gauche) se essa è continua a destra, ed ammette limite da
sinistra. In altre parole, se per ogni x ∈ R
lim F (y) = F (x)
y↓x
esiste lim F (y) =: F (x+ )
y↑x
Teorema 2.38. Sia F : R → [0, 1] una funzione cadlag, crescente e tale che
limx→−∞ F (x) = 0, limx→+∞ F (x) = 1. Allora esiste un’unica misura di probabilità
P sullo spazio di Borel (R, B) tale che P((−∞, a]) = F (a), per ogni a ∈ R.
Traccia di dimostrazione. L’unicità è una conseguenza immediata del Corollario 2.36. Dobbiamo quindi costruire una misura di probabilità P sui boreliani
che verifichi P((−∞, a]) = F (a), per ogni a ∈ R. Lo faremo in tre passi: dapprima
definiremo il valore di P sugli intervalli, poi sulle unioni numerabili di intervalli, ed
infine su un generico elemento della σ-algebra di Borel B.
Passo1: intervalli. Se I = (a, b] con a ≤ b poniamo
P(I) = P((a, b]) = F (b) − F (a)
(2.13)
(in particolare P(∅) = 0). La scelta (2.13) è l’unica possibile, in quanto (a, b] =
(−∞, b]\(−∞, a]. Quindi se P deve essere una probabilità, necessariamente P((a, b]) =
P((−∞, b]) − P((−∞, a]) e dunque la (2.13) è obbligata (e banale).
8. ?DIMOSTRAZIONE DEL TEOREMA 2.35
25
Passo2: unioni numerabili di intervalli. Sia ora J l’insieme dei boreliani che si scrivono come unione numerabile di intervalli della forma (a, b], a due a due disgiunti.
Se J ∈ J , diciamo J = ∪i≥1 Ii con Ii = (ai , bi ] e ai ≤ bi ≤ ai+1 , poniamo
X
P(J) =
P(Ii )
(2.14)
i≥1
dove P(Ii ) è definito tramite la (2.13). Dato J ∈ J , esso si può rappresentare in
maniera non unica come unione numerabile di intervalli (ai , bi ] disgiunti. Tuttavia
(si veda l’Esercizio 2.2) la somma a destra nella formula qui sopra non dipende
dalla rappresentazione utilizzata, ed è quindi ben posta, e rende consistentemente
P((a, b]) = F (b) − F (a).
Traccia del Passo3: boreliani. Infine per un generico boreliano E ∈ F definiamo
P(E) come
P(E) =
inf P(J)
(2.15)
J⊃E,J∈J
dove P(J) è consistentemente definito, per j ∈ J , nella (2.14). È immediato
P+∞
verificare che P(R) = i=−∞ F (i + 1) − F (i) = 1, ossia P è normalizzata.
Dobbiamo mostrare la σ-additività. Sia pertanto (En )n∈N+ una famiglia numerabile di boreliani di R ed E = ∪n∈N+ En . Per n ∈ N+ sia Jn ∈ J tale che Jn ⊃ En .
Allora J := ∪n Jn ⊃ E e dunque dalla (2.15)
P(E) ≤ P(J) = P(∪n Jn ) ≤
+∞
X
P(Jn )
n=1
dove nell’ultima disuguaglianza abbiamo usato la (2.14). Passando all’inf su tutte
le scelte degli Jn ⊃ En otteniamo facilmente
P(E) ≤
+∞
X
P(En )
n=1
Ci resta allora da dimostrare che se gli En sono a due a due disgiunti, vale la
disuguaglianza opposta. Questo è un punto tecnico, nel quale si usano le proprietà
di F ed il fatto che En ∈ B, e la dimostrazione è omessa in queste note. Il lettore
interessato può riferirsi al libro di Sinai in bibliografia.
Ad esempio, prendendo


0 se x ≤ 0
F (x) := x se x ∈ (0, 1)


1 se x ≥ 1
la P corrispondente realizza il modello probabilistico cercato nell’Esempio 2.18.
8. ?Dimostrazione del Teorema 2.35
Definizione 2.39. Sia S un insieme non vuoto ed D ⊂ 2S una famiglia di
sottoinsiemi di S. Diremo che D è un λ-sistema se
(a) ∅ ∈ D.
(b) Se E, F ∈ D, allora E \ F ∈ D.
(c) Data una famiglia numerabile di insiemi a due a due disgiunti E1 , E2 , . . . con
Ei ∈ D, vale ∪∞
i=1 Ei ∈ D.
26
2.
SPAZI DI PROBABILITÀ
In altre parole, la proprietà della Definizione-2.22 (c) è qui richiesta solo per
successioni di insiemi a due a due disgiunti. Le seguenti osservazioni si dimostrano esattamente come nel caso delle σ-algebre, si vedano l’Osservazione 2.27, la
Definizione 2.28 e l’Osservazione 2.23-(c).
Osservazione 2.40. Siano S un insieme non vuoto, D un λ-sistema su S e P
un π-sistema su S. Allora l’unione finita di insiemi a due a due disgiunti in D è
ancora in D. Mentre l’intersezione finita di insiemi in P è ancora in P.
Osservazione 2.41. Sia S un insieme non vuoto, e (Dα )α∈A una famiglia di
λ-sistemi su S. Allora ∩α∈A Dα è un λ-sistema. In particolare, per P ⊂ 2S , è ben
definito λ(P) come il più piccolo λ-sistema che contiene P.
Lemma 2.42. Sia S un insieme non vuoto. Se D ⊂ 2S è una σ-algebra su S
se e solo se D è un π-sistema ed un λ-sistema.
Dimostrazione. Segue immediatamente dalle definizioni che una σ-algebra
è un π-sistema ed un λ-sistema. Per verificare l’implicazione opposta, sia D un
π-sistema ed un λ-sistema. Dobbiamo solo provare che ∪i Ei ∈ D se tutti gli Ei
sono in D (ma non sono necessariamente a due a due disgiunti). Definiamo gli Fi
come nella (2.4). Dal Lemma 2.40 segue che Fi ∈ D per ogni i, inoltre gli Fi sono
in a due a due disgiunti, e dunque D 3 ∪i Fi = ∪i Ei .
Teorema 2.43. Sia S un insieme non vuoto, P un π-sistema su S e D un
λ-sistema su S con P ⊂ D. Allora la σ-algebra generata da P è ancora contenuta
in D. In breve, P ⊂ D implica σ(P) ⊂ D.
Dimostrazione. Si ricordi che λ(P) è il λ-sistema generato da P. Ci basterà
mostrare che λ(P) è un π-sistema. Infatti in tal caso λ(P) è una σ-algebra per il
Lemma 2.42, e dunque D ⊃ λ(P) ⊃ σ(P).
Dobbiamo allora mostrare che dati A, B ∈ λ(P), si ha A ∩ B ∈ λ(P). Per
E ⊂ S definiamo
DE := {A ∈ λ(P) : A ∩ E ∈ λ(P)}
Si verifica facilmente che DE è un λ-sistema. Inoltre se prendiamo E ∈ P abbiamo
certamente DE ⊃ P. Pertanto, per E ∈ P, DE ⊃ λ(P), essendo quest’ultimo il
più piccolo λ-sistema contenente P. Ma allora, per ogni A ∈ λ(P) si ha DA ⊃ P,
e di nuovo, essendo DA un λ-sistema, DA ⊃ λ(P). Vale a dire A ∩ B ∈ λ(P) per
ogni A, B ∈ λ(P).
Dimostrazione del Teorema 2.35. Consideriamo la famiglia di insiemi
D = {E ∈ F : P1 (E) = P2 (E)} ⊂ F
Dobbiamo mostrare che D = F. Notiamo che D è un λ-sistema, infatti
(a) P1 (∅) = P2 (∅) = 0. Dunque ∅ ∈ D.
(b) Se P1 (E) = P2 (E), allora P1 (E c ) = 1 − P1 (E) = 1 − P2 (E) = P(E c ). Ossia
E c ∈ D.
(c) Se E1 , E2 , . . . è una famiglia numerabile di insiemi in D a due a due disgiunti,
allora (per σ-additività di P1 e P2 )
X
X
P1 (∪i Ei ) =
P1 (Ei ) =
P2 (Ei ) = P2 (∪i Ei )
i
i
Dunque D è un λ-sistema, e per il Teorema 2.43, F = σ(P) ⊂ D ⊂ F. Da cui
D = F.
9. ESERCIZI CAPITOLO 2
27
9. Esercizi Capitolo 2
Esercizio 2.1. Sia S un insieme non vuoto e P : 2S → [0, 1] un’applicazione
tale che
(a) P(S) = 1.
(b) Per ogni famiglia finita (Ei )ni=1 di sottoinsiemi di S a due a due disgiunti
si ha
n
n
[
X
P
Ei =
P(Ei )
i=1
i=1
(c) Per ogni successione decrescente (Ei )i∈N+ di sottoinsiemi di S tali che
∩i Ei = ∅, si ha limi P(Ei ) = 0.
Provare che P è una misura di probabilità su S. Confrontare tale risultato con la
Definizione 2.1, la Proposizione 2.2 ed il Corollario 2.7. Dedurre che le condizioni
(a), (b), (c) qui date sono equivalenti alla Definizione 2.1.
Esercizio 2.2. Sia P una misura di probabilità sullo spazio campionario R. Sia
(Ii )i∈N+ una successione di intervalli chiusi e limitati di R con le seguenti proprietà.
(a) per ogni n ∈ N si ha ∩ni=1 Ii 6= ∅.
(b) limi lunghezza(Ii ) = 0.
Mostrare che esiste un unico x ∈ R tale che limi P(Ii ) = P({x}).
?Esercizio 2.1. Nel contesto della Definizione 2.29, mostrare che gli intervalli
della forma (a, b], [a, b), [a, b], (−∞, a), (a, +∞), (−∞, a], [a, +∞), (−∞, +∞)
sono insiemi boreliani.
?Esercizio 2.2. Nel contesto del Teorema 2.38, supponiamo che J ⊂ R sia
un’unione numerabile disgiunta di intervalli della forma (a, b]. Mostrare che se
possiamo scrivere J = ∪i∈N Ii con Ii = (ai , bi ] e J = ∪i∈N Ii0 (unione disgiunta) con
Ii0 = (a0i , b0i ], allora
X
X
F (bi ) − F (ai ) =
F (b0i ) − F (a0i )
i
i
[ Suggerimento: Si consideri la famiglia numerabile di intervalli ottenuti come intersezione Ki,j = Ii ∩Ij0 (tale intersezione può essere
j). Mostrare che
P vuota per molti i,P
i Ki,j sono a due a due disgiunti, e riscrivere i F (bi ) − F (ai ) e i F (b0i ) − F (a0i )
in termini dei Ki,j .]
CAPITOLO 3
Combinatoria e probabilità
In questo capitolo sviluppiamo alcuni strumenti di combinatoria, in modo da
dare una veste più generale ai metodi introdotti per risolvere gli esercizi ed i problemi della prima parte del corso. Abbiamo già ricordato, con la Definizione 2.9,
l’importanza di saper ""contare” il numero di elementi di particolari insiemi dati.
Questo è stato un tipico problema affrontato all’inizio della teoria della probabilità.
Facciamo un esempio risalente al XVIII secolo.
EsercizioRisolto 3.1. Al matematico francese Fermat, fu chiesto se fosse
maggiore la probabilità di ottenere almeno 1 volta il risultato ""sei” lanciando 6 dadi, 2 volte il risultato ""sei” lanciando 12 dadi, o 3 volte il risultato ""sei” lanciando
18 dadi.
Più in generale, avendo a disposizione dei dadi a k ≥ 2 facce, calcolare la
probabilità di ottenere almeno m volte il risultato ""uno” lanciando k m dadi.
Soluzione. Risolviamo direttamente il caso generale. Per ogni dado lanciato
abbiamo che la probabilità di ottenere ""uno” vale 1/k. Effettuando
n lanci la
n−j −j
k .
probabilità di ottenere esattamente j volte ""uno” vale pertanto nj ( k−1
k )
Per n = k m e sommando su j ≥ m si ha che la probabilità richiesta vale
Figura 1. Il valore di pm,k per k = 6, 24, 48.
29
30
3.
COMBINATORIA E PROBABILITÀ
pm,k = 1 −
km 1 km X km
(k − 1)−j
k
j
j=m
In alternativa, passando al complementare si ottiene
m−1 1 km X km
pm,k = 1 − 1 −
(k − 1)−j
k
j
j=0
Non è difficile vedere che pm,k è decrescente in m e k e che
lim pm,k =
m→+∞
lim pm,k = 1 − e−m
1
2
k→+∞
m−1
X
j=0
mj
j!
Nei casi richiesti, con l’aiuto del calcolatore, otteniamo
p1,6 ' 0.665102
p2,6 ' 0.618667
p3,6 ' 0.597346
1. Il principio di inclusione-esclusione
In questa sezione si discute il principio di inclusione/esclusione dal punto di
vista combinatorio e probabilistico.
Teorema 3.1 (Principio combinatorio di inclusione-esclusione). Sia S un insieme finito non vuoto. Siano f, g : 2S → R. Allora si ha che
X
f (E) =
g(F )
∀E ⊂ S
(3.1)
F : F ⊂E
sse
g(E) =
X
(−1)|E|−|F | f (F )
∀E ⊂ F
(3.2)
F : F ⊂E
Dimostrazione. Per E ∈ 2S ed F ⊂ E denotiamo
X
h(E, F ) :=
(−1)|E|−|A|
A : F ⊂A⊂E
n
Se |E| − |F | = |E \ F | = n ≥ 1, E \ F ha
k parti di cardinalità k. Nella somma
che definisce h(E, F ) vi sono dunque nk termini del tipo (−1)k . Ossia, per n ≥ 1
X
n
n X
n n−k
k n
h(E, F ) =
(−1)
=
1
(−1)k = (1 + (−1))n = 0
k
k
k=0
k=0
D’altra parte, per E = F (ossia n = 0), h(E, F ) = 1.
Mostriamo che (3.1) implica (3.2). Per E ∈ 2S
X
X
X
(−1)|E|−|F | f (F ) =
(−1)|E|−|F |
g(A)
F : F ⊂E
F : F ⊂E
=
=
X
A : A⊂F
g(A)
X
(−1)|E|−|F |
A : A⊂E
F : A⊂F ⊂E
X
g(A)h(E, A) = g(E)
A : A⊂E
dove nella prima uguaglianza abbiamo usato la definizione di f , nella seconda abbiamo scambiato gli indici di somma, nella terza abbiamo usato la definizione di h,
e nella quarta il fatto che h(E, F ) è sempre nulla tranne che per E = F .
1. IL PRINCIPIO DI INCLUSIONE-ESCLUSIONE
31
Mostriamo infine che (3.2) implica (3.1). Per E ∈ 2S , ragionando come sopra
X
X
X
g(F ) =
(−1)|F |−|A| f (A)
F : F ⊂E
F : F ⊂E A : A⊂F
X
=
X
f (A)
(−1)|F |−|A|
A : A⊂E
F : A⊂F ⊂E
X
f (A)h(E, A) = f (E)
=
A : A⊂E
Teorema 3.2 (Principio probabilistico di inclusione-esclusione). Siano (S, P)
uno spazio di probabilità, ed E1 , . . . , En ⊂ S degli eventi. Allora
n
X
X
P(E1 ∪ E2 ∪ · · · ∪ En ) =
(−1)r+1
P(Ei1 ∩ Ei2 ∩ · · · ∩ Eir )
(3.3)
r=1
(i1 ,i2 ,...,ir ):
1≤i1 <i2 <···<ir ≤n
Diamo tre dimostrazioni di questo teorema. Una più astratta basata sul principio combinatorio di inclusione-esclusione. Una per induzione, in cui non si effettuano solo calcoli espliciti più semplici da seguire. Ed un’ultima valida solo per
spazi campionari finiti o numerabili, basata sulla rappresentazione (2.8), valida in
questo caso.
Dimostrazione I del Teorema 3.2. Per I ⊂ {1, . . . , n} definiamo
\
FI := (∩j6∈I Ej ) (∩i∈I Eic ) ⊂ S
Si noti che F{1,...,n} = ∅ e che FI ∩ FI 0 = ∅ per I 6= I 0 . Sia quindi g : 2{1, 2,..., n} → R
definita come
g(I) := P FI )
Come nel Teorema 3.1 poniamo
X
f (I) :=
g(I)
I ⊂ {1, . . . , n}
J⊂I
e poichè gli FI sono a due a due disgiunti, per additività
(
P(∩i6∈I Ei ) se I ( {1, . . . , n}
f (I) =
P(∪ni=1 Ei ) se I = {1, . . . , n}
Usando la (3.2) otteniamo allora
0 =g({1, . . . , n}) =
X
(−1)n−|I| f (I)
I⊂{1,..., n}
=P(∪ni=1 Ei )
−
X
(−1)n−|I| P(∩i6∈I Ei )
I({1,..., n}
da cui la (3.3).
Dimostrazione II del Teorema 3.2. Dimostriamo per induzione che la proposizione Pn :=’vale (3.3) per ogni famiglia di eventi (Ei )ni=1 ’ è vera per ogni n ≥ 1.
Base dell’induzione: Per n = 1, la somma su r si riduce al solo termine P(E1 ).
Passo dell’induzione: Si noti che non stiamo fissando gli insiemi Ei , ma piuttosto verificando l’identità per ogni scelta degli Ei . Dato n ≥ 2 dobbiamo mostrare
32
3.
COMBINATORIA E PROBABILITÀ
che (3.3) (con n cambiato in n + 1) è vera, sapendo che (3.3) è vera non solo
per E1 , . . . , En , ma per ogni scelta di m ≤ n eventi in S. Dal Corollario 2.3-(f)
applicato ai due insiemi En+1 e ∪ni=1 Ei
n
P ∪n+1
i=1 Ei = P En+1 ∪ ∪i=1 Ei
= P(En+1 ) + P ∪ni=1 Ei − P En+1 ∩ ∪ni=1 Ei
= P(En+1 ) + P ∪ni=1 Ei − P ∪ni=1 (En+1 ∩ Ei )
Applicando l’ipotesi induttiva al secondo e terzo termine sopra
n
X
P ∪n+1
E
=P(E
)
+
(−1)r+1
i
n+1
i=1
r=1
r=1
P ∩rj=1 Eij
(i1 ,i2 ,...,ir ):
1≤i1 <i2 <···<ir ≤n
n
X
(−1)r+1
−
X
X
P En+1 ∩ (∩rj=1 Eij )
(i1 ,i2 ,...,ir ):
1≤i1 <i2 <···<ir ≤n
È facile convincersi che quest’identità è quella voluta. In effetti, nel membro di
destra si trovano tutti i termini del tipo P(Ei ), i = 1, . . . , n + 1; vi si trovano poi
tutti i termini del tipo P(Ei ∩ Ej ) (intersezioni a due insiemi) col segno meno (le
intersezioni di insiemi che non coinvolgono En+1 si trovano nel secondo addendo a
destra, le intersezioni che coinvolgono En+1 nel terzo addendo); e così via per tutte
le intersezioni a r insiemi, r = 1, . . . , n + 1.
Dimostrazione III del Teorema 3.2 per spazi campionari numerabili.
Assumiamo S numerabile. Allora dalla (2.8)
X
P(E1 ∪ E2 ∪ · · · ∪ En ) =
P({s})1Ei1 ∪Ei2 ∪···∪Ein (s)
s∈S
P(Ei1 ∩ Ei2 ∩ · · · ∩ Eir ) =
X
P({s})1Ei1 ∩Ei2 ∩···∩Eir (s)
s∈S
L’identità (3.3) da mostrare può essere quindi riscritta come
X
P({s})1Ei1 ∪Ei2 ∪···∪Ein (s) =
s∈S
X
n
hX
P({s})
(−1)r+1
s∈S
r=1
X
i
1Ei1 ∩Ei2 ∩···∩Eir (s)
(i1 ,i2 ,...,ir ):
1≤i1 <i2 <···<ir ≤n
Per verificare (1) ci basta provare che per ogni s ∈ S
1Ei1 ∪Ei2 ∪···∪Ein (s) =
n
X
(−1)r+1
r=1
X
1Ei1 ∩Ei2 ∩···∩Eir (s)
(3.4)
(i1 ,i2 ,...,ir ):
1≤i1 <i2 <···<ir ≤n
Se s 6∈ E1 ∪ E2 ∪ · · · ∪ En la suddetta identità è banalmente vera dato che si riduce
a 0 = 0. Sia s ∈ E1 ∪ E2 ∪ · · · ∪ En . Supponiamo che s appartenga ad esattamente
m insiemi del tipo Ei . Allora
X
1Ei1 ∩Ei2 ∩···∩Eir (s)
(i1 ,i2 ,...,ir ):
1≤i1 <i2 <···<ir ≤n
2. COMBINATORIA DEGLI SPAZI FUNZIONALI FINITI
33
corrisponde a quanti modi
possiamo scegliere r indici tra gli m indici i per cui
d ∈ Ei , e quindi vale m
r . Ne deriva che (3.4) equivale a
m
X
m
1=
(−1)r+1
r
r=1
Pm
ovvero r=0 (−1)r m
r = 0. Quest’ultima è vera poichè il lato sinistro è lo sviluppo
del binomio (−1 + 1)m .
2. Combinatoria degli spazi funzionali finiti
Un’applicazione del Teorema 3.1 è data di seguito.
Teorema 3.3. Siano E, F due insiemi finiti con m = |E| ed n = |F |. Allora
(a) Ci sono nm funzioni distinte u : E → F .
(b) Se m = n, ci sono n! funzioni biiettive distinte u : E → F (e nessuna se
m 6= n).
n!
funzioni iniettive distinte u : E → F (e nessuna
(c) Se m ≤ n, ci sono (n−m)!
se m > n).
(d) Se m ≥ n, ci sono
n X
n
(−1)n−k k m
k
k=0
funzioni suriettive distinte u : E → F (e nessuna se m < n).
(e) Se l ≤ min(m, n), ci sono
l X
n
(−1)n−k k m
k, l − k, n − l
k=0
funzioni distinte u : E → F tali che l’immagine di u ha cardinalità l.
Dimostrazione. I punti (a), (b) e (c) sono più semplici e già discussi a lezione:
la prova è data rapidamente. Per contro, per i punti (d) ed (e) (che generalizza
(d)), utilizzeremo il principio di inclusione-esclusione.
(a) Per ogni x ∈ E possiamo scegliere u(x) in n modi diversi, dando origine a nm
funzioni distinte.
(b) Le funzioni biiettive da E ad F sono tante quante le permutazioni di n oggetti:
n!.
(c) Le funzioni iniettive da E ad F hanno la stessa cardinalità dell’insieme quoziente delle permutazioni di n oggetti, sotto l’equivalenza π ∼ π 0 se π(i) = π 0 (i)
per i = 1, . . . , m. Poichè ogni classe di equivalenza ha cardinalità (n − m)!,
l’insieme quoziente ha cardinalità n!/(n − m)!.
(d) La (d) è un caso particolare di (e) per l = m, tuttavia ne diamo una dimostrazione separata. Siano f, g : 2S → N
f (A) := numero di funzioni da E in F la cui immagine è contenuta in A
(3.5)
g(A) := numero di funzioni da E in F la cui immagine coincide con A
(3.6)
o più formalmente
f (A) := {f ∈ F E : f (E) ⊂ A} = |A||E| = |A|m
g(A) := {f ∈ F E : f (E) = A}
34
3.
COMBINATORIA E PROBABILITÀ
g(F ) rappresenta proprio il numero
Pdi funzioni suriettive da E ad F , da determinare. Chiaramente f (A) =
B⊂A g(B). Possiamo perciò applicare il
Teorema 3.1 ed ottenere
n
X
X
X
n m
g(F ) =
(−1)|F |−|A| f (A) =
(−1)|F |−|A| |A|m =
(−1)n−k
k
k
A⊂F
A⊂F
k=0
dove nell’ultima uguaglianza abbiamo usato il fatto che ci sono esattamente nk
parti A di F tali che |A| = k.
(e) Definiamo f e g come in (d) e sia B ⊂ F con l = |B|. Vi sono tante funzioni
da E in F la cui immagine coincide con B quante sono le funzioni suriettive da
E in B, ossia dal punto (d)
l
X
l−k l
g(B) =
(−1)
km
k
k=0
Poichè vi sono nl sottoinsiemi di cardinalità l in F , si ha che l’intero cercato
è uguale a
X
l
l
X
X
n
n
l−k
l−k l
m
(−1)
km
(−1)
k =
g(B) =
k, l − k, n − l
k
l
B⊂F : |B|=l
k=0
k=0
EsercizioRisolto 3.2 (Generalizzazione dell’esercizio II.40 del Ross). A Roma vi sono n pianoforti da accordare e m accordatori. Per ogni pianoforte viene
chiamato un accordatore a caso fra gli m disponibili. Calcolare la probabilità che
esattamente l accordatori distinti vengano chiamati per 1 ≤ l ≤ min(n, m).
Soluzione. Identifichiamo A = {1, . . . , m} con l’insieme degli accordatori, e
consideriamo lo spazio campionario S = An con misura di probabilità P uniforme.
Se Fl è l’evento corrispondente all’aver chiamato esattamente l accordatori distinti,
avremo
|Fl |
|Fl |
P(Fl ) =
= n
|S|
m
Per calcolare la cardinalità di Fl , notiamo che essa corrisponde al numero di funzioni
dall’insieme {1, . . . , n} di pianoforti da accordare nell’insieme A degli accordatori,
la cui immagine ha cardinalità l. Dal punto (e) del Teorema 3.3 abbiamo pertanto
l
X
n
−n
l−k
P(Fl ) = m
(−1)
km
k, l − k, n − l
k=0
Ad esempio per m = n = 4 come nell’esercizio II.40 si ha
P(F1 ) =
P(F3 ) =
1
64
9
16
= 0.015625
P(F2 ) =
= 0.5625
P(F4 ) =
21
64
3
32
= 0.328125
= 0.09375
EsercizioRisolto 3.3. Un album per figurine è composto da m caselle numerate. Quando si acquista una figurina, si trova quella associata alla casella i con
probabilità pi , i = 1, . . . , m e p1 + . . . + pm = 1. Si acquistano N figurine. Calcolare
(a) la probabilità che l’album sia completato (tutte le caselle riempite).
(b) la probabilità che la N -esima figurina non sia un doppione.
2. COMBINATORIA DEGLI SPAZI FUNZIONALI FINITI
35
Carlo abita molto lontano dall’edicola, ha un album con 100 caselle e vuole acquistare N figurine in modo tale che la probabilità di completare l’album senza dover
tornare all’edicola sia almeno 0.98. Calcolare il numero minimo di figurine che
Carlo deve acquistare se
(c) ogni figurina può andare in ciascuna casella con uguale probabilità (p1 =
p2 = . . . = p100 ).
(d) la probabilità che una figurina vada in una delle prime 50 caselle è il
doppio della probabilità che vada in una delle seconde 50 caselle (pi = 2 pj ,
i = 1, . . . , 50, j = 51, . . . , 100).
(e) tutte le prime 99 caselle hanno la stessa probabilità, ma l’ultima casella è
rara ed ha probabilità 0.001 (p1 = p2 = . . . = p99 e p100 = 10−3 ).
Soluzione. Possiamo pensare che le figurine acquistate siano numerate (ad
esempio in ordine di acquisto), ed assumiamo che le caselle associate a figurine
distinte siano indipendenti. Possiamo formalizzare il problema prendendo S =
{1, 2, . . . , m}N , e pensando che se si è realizzato s = (s1 , . . . , sN ) se la n-esima
figurina va nella casella sn ∈ {1, . . . , m}, n = 1, . . . , N . Per n ≤ N sia
Bin := {s ∈ S : sn = i}
ossia Bin è l’evento su cui l’n-esima figurina va nella casella i. L’ipotesi di indipendenza caratterizza P come
P({s}) =
n
P(∩N
n=1 Bsn )
=
N
Y
P(Bsnn )
N
Y
=
n=1
psn
n=1
Per I ⊂ {1, . . . , m} un insieme di caselle ed n ≤ N definiamo pI ∈ [0, 1] e gli
eventi EIn , FIn come
X
pI =
pi
i∈I
EIn
:= {s ∈ S : sk ∈ I, ∀k ≤ n}
FIn := {s ∈ S : ∪k≤n {sk } = I}
ossia EIn è l’evento su cui le prime n figurine occupano solamente caselle in I, mentre
FIn è l’evento su cui le prime n figurine occupano tutte e sole le caselle in I. pI è
invece la probabilità che una figurina vada in una delle caselle in I.
Poiché EIn = ∪J⊂I FJn e tale unione è disgiunta:
X
P(EIn ) =
P(FJn )
J⊂I
Allora, dal principio di inclusione-esclusione nel Teorema 3.1 (applicato con f (I) =
P(EIn ) e g(J) = P(FJn ))
X
P(FIn ) =
(−1)|I|−|J| P(EJn )
(3.7)
J⊂I
Per indipendenza
P(EJn )
=
pnJ
e quindi
X
P(FIn ) =
(−1)|I|−|J| pnJ
J⊂I
(3.8)
36
3.
COMBINATORIA E PROBABILITÀ
(a) L’evento che corrisponde ad avere l’album completato dopo al più N acquisti
N
coincide con F{1,...,m}
. Pertanto dalla (3.8) abbiamo che tale probabilità vale
X N
X
(−1)m−|J|
pj
j∈J
J⊂{1,..., m}
(b) Sia ora A l’evento su cui l’N -esima figurina è diversa da tutte le precedenti
ossia
A = {s ∈ S : sN 6= si , ∀i < N }
Allora
m
m
X
X
P(A) =
P(A|BiN )P(Bi )N =
(1 − pi )N −1 pi
i=1
i=1
dove abbiamo usato il fatto che la probabilità che l’ultima figurina non sia un
doppione sapendo che essa va nella casella i, corrisponde alla probabilità che le
prime N − 1 figurine non vadano nella casella i.
(c) Si ha in questo caso pi = 1/m = 1/100. Dal punto (a) , la probabilità che
acquistando N figurine si completi l’album vale in questo caso
m
X
k N
m−k m
(−1)
m
k
k=1
ossia per m = 100
100
X
(−1)
k=1
k
100 k N
k
100
che supera la soglia di 0.98 per N = 847.
(d) Abbiamo p1 = . . . = p50 = 1/75 e p51 = . . . = p100 = 1/150. Se J ⊂
{1, . . . , 100} ha h elementi in {1, . . . , 50} ek elementi
in {51, . . . , 100}, allora
50
sottoinsiemi
J di {1, . . . , 100}
pJ = (2h + k)/150. Vi sono esattamente 50
k
h
con tale proprietà. Dal punto (a) , la probabilità che acquistando N figurine si
completi l’album vale in questo caso
50
X
50 2h + k N
h+k 50
(−1)
h
k
150
h,k=0
che supera la soglia di 0.98 per N = 1169.
(e) Abbiamo
p = pm = 10−3 e p1 = . . . = pm−1 = (1 − p)/(m − 1). Vi sono
m−1
insiemi J ⊂ {1, . . . , 100} di cardinalità k che non contengono m, e per
k
essi pJ = k(1 − p)/(m − 1). Vi sono poi m−1
k−1 insiemi J ⊂ {1, . . . , 100} di
cardinalità k che contengono m, e per essi pJ = p + (k − 1)(1 − p)/(m − 1). Dal
punto (a) , la probabilità che acquistando N figurine si completi l’album vale
in questo caso
"
#
m
X
m − 1 k(1 − p) N
m − 1 k(1 − p) − (1 − pm) N
m−k
+
(−1)
k
m−1
k−1
m−1
k=1
100
99 99 X
100 N = (111/11000)N
(−1)k k N
+
1−
k
k−1
111k
k=1
che supera la soglia di 0.98 per N = 3911.
3. CAMPIONAMENTI
37
Figura 2. La probabilità di completare l’album acquistando N
figurine, nei casi (c), (d), (e).
3. Campionamenti
Il campionamento di palle colorate da un’urna è stato uno degli esempi che ci
ha spinto a dare diversi definizioni e risultati a lezione. Cerchiamo di dare una
trattazione sistematica di un esempio abbastanza generale.
In questa sezione dati tre interi l, m, n con l, n ≥ 0 (mentre m può essere
negativo) e l ≥ −n m introduciamo la notazione
l(m,n) =
n−1
Y
(l + i m) = l(l + m) = l(l + m) · · · (l + (n − 1)m)
i=0
dove al solito l(0,n) = 1. Ad esempio
l(−1,l) = 1(1,l) = l!
Esempio 3.4. Un’urna contiene u palle blu e v palle verdi. Si effettuano n
estrazioni successive. Ogni volta, si estrae una palla a caso tra quelle nell’urna, e
si reintroducono nell’urna la palla estratta ed altre m palle dello stesso colore. Qui
m è un intero m ≥ −1, dove per m = 0 si intende che la sola palla estratta viene
reintrodotta (n estrazioni con rimescolamento); per m = −1 si intende che la palla
estratta non viene reintrodotta (n estrazioni senza rimescolamento, in questo caso
necessariamente n ≤ u + v); mentre ad esempio per m = 1, ad ogni estrazione in
cui è uscita una palla blu reintroduciamo immediatamente (=prima della prossima
estrazione) nell’urna la palla stessa ed un’altra blu.
Determinare uno spazio di probabilità (S, P) che modellizzi questo metodo aleatorio di campionamento dei colori blu e verde.
38
3.
COMBINATORIA E PROBABILITÀ
Soluzione dell’Esempio 3.4. Associamo al colore blu il numero 1 ed al verde
lo 0. Ci interessiamo al solo colore delle palle estratte, ed è conveniente prendere
S = {0, 1}n come spazio campionario. Un elemento x = (x1 , . . . , xn ) corrisponde
alla successione di colori campionati in una realizzazione del nostro metodo (ad
esempio se n = 3 e x = (1, 0, 1) abbiamo estratto blu, poi verde, poi blu).
Naturalmente la misura di probabilità P associata a questa procedura di campionamento non sarà uniforme su S (a meno di casi particolari, come: u = v e
k = 0). Dal Teorema 2.10, per caratterizzare P è sufficiente dare P({x}) per ogni
x ∈ S, ossia per ogni successione x di colori estratti.
Dato σ ∈ {0, 1} e i ∈ {1, . . . , n} sia Ei,σ l’evento ""l’i-esima estrazione ha
colore σ”, ossia
Ei,σ := {x ∈ S : xi = σ}
Pn
Sia ora j ≡ j(x) = i=1 xi il numero di palle blu estratte in x. Poichè {x} =
∩ni=1 Ei,xi , dalla regola del prodotto
P({x}) = P(∩ni=1 Ei,xi ) = P(E1,x1 )P(E2,x2 |E1,x1 ) · · · P(En,xn | ∩n−1
i=1 Ei,xi )
=
u(m,j) v (m,n−j)
(u + v)(m,n)
j ≡ j(x) =
n
X
(3.9)
xi
i=1
L’ultima uguaglianza segue dal fatto che, se prima di un’estrazione vi sono U palle
U
blu e V palle verdi, la probabilità di prendere una palla blu è U +V
e di prenderne
V
una verde è U +V . Pertanto, quale che sia x, al denominatore nella (3.9) troveremo
il prodotto degli n fattori
(u + v)(u + v + m) · · · (u + v + (n − 1) m) = (u + v)(m,n)
Il numeratore dipende naturalmente da x in generale. Tuttavia se in x vi sono
esattamente j componenti uguali a 1 (j estrazioni di blu), e quindi n − j componenti uguali a 0, indipendentemente dall’ordine di tali componenti troveremo al
numeratore i fattori
u(u + m) · · · (u + (j − 1) m) = u(m,j)
v(v + m) · · · (v + (n − j − 1) m) = v
da cui la (3.9).
(m,n−j)
per le j estrazioni di blu
per le n − j estrazioni di verdi
Esempio 3.5. Si consideri la stessa procedura e la stessa notazione dell’Esempio 3.4.
(i) Calcolare per i = 1, . . . , n la probabilità che la i-esima estrazione dia una
palla blu.
(ii) Calcolare per j = 0, 1, . . . , n la probabilità di estrarre esattamente j palle
blu in n estrazioni. Dopo n estrazioni nell’urna vi saranno esattamente
u + v + n m palle. Si calcoli la probabilità che esattamente k di queste
u + v + n m siano blu.
Soluzione dell’Esempio 3.5. Utilizziamo la notazione e lo spazio (S, P) introdotti nella soluzione dell’Esempio 3.4.
(i) Dalla (3.9) dell’Esempio 3.4, segue che la probabiità di estrarre la successione di colori x, dipende solo dal numero di blu e verdi (o 1 e 0) in
x e non dal loro ordine. Vediamo come ciò implichi che la probabilità di
3. CAMPIONAMENTI
39
avere un blu alla i-esima estrazione non dipenda da i, e sia quindi uguale
a u/(u + v) come nella prima estrazione.
Per x ∈ S e π una permutazione su {1, . . . , n}, definiamo xπ ∈ S
mediante xπi = xπ(i) , i = 1, . . . , n. Dalla (3.9)
P({xπ }) = P({x})
per ogni permutazione π
(appunto, la probabilità di x non dipende dall’ordine ma solo dal numero
di verde e blu estratti).
Fissiamo i = 1, . . . , n. L’evento ""la i-esima palla estratta ha colore
blu” corrisponde a Ei,1 e per π una qualunque permutazione con π(i) = 1
P(Ei,1 ) = P({x ∈ S : xi = σ}) = P({xπ ∈ S : xπi = σ})
u
= P({x ∈ S : xπ(i) = σ}) = P(E1,1 ) =
u+v
(ii) Poichè vi sono esattamente nj successioni di colore x distinte con esattamente j ""verde” (o j componenti uguali a 1), dalla (3.9) la probabilità
di estrarre esattamente j palle verdi è
(m,j) (m,n−j)
n
X
n u
v
xi = j =
P x∈S :
(3.10)
j
(u
+
v)(m,n)
i=1
Se si sono avute j palle blu nelle n estrazioni, troveremo alla fine nell’urna
u + j m palle blu. Pertanto la probabilità di trovare k palle blu è nulla
se k non è della forma k = u + j m per qualche j = 0, 1, . . . , n ed è data
dalla (3.10) altrimenti.
Osservazione 3.6. Gli stessi ragionamenti fatti sopra si generalizzano immediatamente al seguente caso. In un’urna vi sono u1 palle del colore 1, u2 palle del
colore 2, . . . , uR palle del colore R. Si effettuano n estrazioni aleatorie, ed immediatamente dopo ogni estrazione si rimette nell’urna la palla estratta, insieme con
altre m palle dello stesso colore, m ≥ −1 (e n ≤ u1 + u2 + . . . + uR se m = −1).
Allora:
(a) La probabilità che alla i-esima estrazione si prenda una palla di colore r
vale
ur
r = 1, . . . , R
u1 + u2 + . . . + uR
(b) La probabilità che una certa successione di colori sia estratta, non dipende
dall’ordine dei colori ma solo dai numeri di volte j1 , . . . , jR che si sono
avuti i colori 1, . . . , R rispettivamente (quindi n = j1 + . . . + jn ) e vale
(m,j )
(m,j )
u1 1 · · · uR R
(u1 + . . . + uR )(m,n)
(c) La probabilità di avere, in n = j1 + . . . + jR estrazioni, j1 volte il colore
1, . . . , jR volte il colore R vale
(m,j1 )
(m,j )
u1
· · · uR R
n
(3.11)
j1 , . . . , jR (u1 + . . . + uR )(m,n)
Osservazione 3.7. Siano n ≥ 1 e siano j1 , . . . jR interi con j1 + . . . + jR = n,
jr ≥ 0. Indichiamo con pj1 ,...,jR la probabilità di avere j1 palle di colore 1, . . . jR
palle di colore R (come sopra). Consideriamo qualche caso particolare.
40
3.
COMBINATORIA E PROBABILITÀ
(a) Se m = −1, la procedura descritta corrisponde al campionamento senza
rimescolamento. Poiché u−1,n = u!/(u − n)!, otteniamo dalla (3.11) in
questo caso
u1
uR
j1 · · · jR
pj1 ,...,jR = u1 +...+uR n
come facile dedurre con gli usuali argomenti di combinatoria degli insiemi.
(b) Se m = 0, la procedura descritta corrisponde al campionamento con rimescolamento (estrazioni indipendenti). Poichè u(0,n) = un per la medesima
probabilità si ha in questo caso
n
jR
pj1 ,...,jR =
v j1 · · · vR
j1 , . . . , j R 1
con vr = ur /(u1 + . . . + uR ) la frazione di palle di colore r.
(c) Se u1 = u2 = . . . = uR = m si ha un risultato sorprendente. Poichè
n
u(u,n) = n!un e (Ru)(u,n) = (R+n−1)!
(R−1)! u si ha in questo caso
pj1 ,...,jR =
1
R+n−1
n
Ad esempio se partiamo con una palla blu ed una verde, ed ogni volta
aggiungiamo una palla dello stesso colore di quella estratta, dopo n estrazioni avremo una probabilità 1/(n + 1) di aver estratto esattamente k palle
blu, indipendentemente da k.
(d) Se mandiamo m all’infinito, si ottiene
pn, 0,..., 0 → v1 ,
p0, n, 0,..., 0 → v2
...
p0, 0, 0,..., n → vR
ossia quando m → +∞, con probabilità che converge a 1 si estraggono
sempre palle dello stesso colore.
4. ?Cardinalità dell’insieme quoziente
Sia S un insieme finito e non vuoto, diciamo |S| = n, e sia Φ un gruppo di
bijezioni su S. Φ induce una relazione ∼Φ su S data da
s ∼Φ s0
sse ∃ϕ ∈ Φ : s = ϕ(s0 )
(3.12)
Poichè Φ è un gruppo, si ha che ∼Φ è una relazione di equivalenza. Supponiamo
dapprima che tutte le classi di equivalenza abbiamo la stessa cardinalità m. È
allora chiaro che m divide n, e che l’insieme quoziente S/ ∼ ha cardinalità n/m.
Vogliamo vedere cosa accade quando le classi di equivalenza non hanno tutte la
stessa cardinalità.
Un esempio che abbiamo già incontrato è il seguente. Prendiamo S = {1, . . . , k}n .
Possiamo pensare S come lo spazio campionario associato al lancio ripetuto n volte
di un dado con k facce. Se ora non siamo interessati all’ordine con cui ciascuna
faccia si presenta negli n lanci, ma solo al numero di volte che ciascuna faccia si è
presentata, possiamo definire Φ come il gruppo delle permutazioni su n elementi,
che agisce su S permutando l’ordine delle componenti della stringa (i1 , . . . , in ). Si
noti che le classi di equivalenza non hanno tutte la stessa cardinalità. Se s è una
stringa con tutte le componenti uguali, la sua classe di equivalenza ha cardinalità 1; se invece s ha tutte le componenti diverse, la cardinalità della sua classe di
equivalenza vale n!.
5. IL PRINCIPIO DEI CASSETTI
41
Cerchiamo allora di dare una procedura generale per calcolare la cardinalità di
un insieme quoziente.
Lemma 3.8. Sia S un insieme non vuoto di cardinalità finita. Sia Φ un insieme
di bijezioni di S in S, chiuso per composizione, ossia tale che se ϕ, ψ ∈ Φ, allora
ϕ ◦ ψ ∈ Φ.
Allora Φ è un gruppo, in particolare ∼Φ , definita dalla (3.12) è una relazione
di equivalenza.
Dimostrazione. Poichè Φ è chiuso per composizione, e la composizione di
funzioni è associativa, dobbiamo solo mostrare che l’identità è in Φ e che se ϕ ∈
Φ allora ϕ−1 ∈ Φ. Si noti che, essendo S finito, Φ è esso stesso finito poichè
sottoinsieme delle permutazioni su S.
k volte
z }| {
Fissato ora ϕ ∈ Φ, definiamo una successione (ϕk )k≥1 ponendo ϕk = ϕ ◦ . . . ◦ ϕ.
Dall’ipotesi di chiusura per composizione ϕk ∈ Φ per ogni k, ed essendo Φ finito
esistono i > j ≥ 1 tali che ϕi = ϕj . Ma allora ϕi−j è l’identità. Inoltre se i − j = 1
si ottiene ϕ = id = ϕ−1 , mentre se i − j > 1 allora ϕi−j−1 = ϕ−1 . In ogni caso,
ogni ϕ ∈ Φ ammette inverso.
Teorema 3.9 (Lemma di Burnside). Siano dati S e Φ come nel Lemma 3.8.
Allora la cardinalità dell’insieme quoziente S/ ∼Φ è data da
P
ϕ∈Φ rϕ
|S/ ∼Φ | =
|Φ|
dove rϕ è il numero di punti fissi della bijezione ϕ
rϕ := |{s ∈ S : ϕ(s) = s}|
Dimostrazione.
EsercizioRisolto 3.4. Per comporre una collana abbiamo a disposizione 5
perline bianche, 5 nere e 5 rosse. Quante collane diverse si possono comporre?
Soluzione.
EsercizioRisolto 3.5. Possiamo colorare ciascuna faccia di un cubo di bianco
o di nero. Quanti cubi distinti possiamo ottenere?
Soluzione.
5. Il principio dei cassetti
Il principio dei cassetti afferma che, se si partizione un insieme di n k+1 elementi
in k parti, almeno una delle parti contiene almeno n + 1 elementi. Tale principio è
elementare, e segue direttamente dalla definizione di cardanilità. Tuttavia, a volte
ammette delle applicazioni non banali.
EsercizioRisolto 3.6. Sul piano sono dati 25 punti, disposti in modo tale da
avere la seguente proprietà. Comunque siano presi 3 punti tra i 25, almeno 2 di
tali 3 punti sono a distanza minore di 1. Mostrare che esiste un disco di raggio 1
che copra almeno 13 dei 25 punti.
Soluzione.
42
3.
COMBINATORIA E PROBABILITÀ
6. Esercizi Capitolo 3
Esercizio 3.1. Sia S un insieme non vuoto e finito, ed f, g : 2S → R. Ragionando come nel Teorema 3.1 mostrare che
X
f (E) =
g(F )
∀E ∈ 2S
(3.13)
F : F ⊃E
sse
g(E) =
X
(−1)|F |−|E| f (F )
∀E ∈ 2S
(3.14)
F : F ⊃E
Esercizio 3.2. Nel contesto dell’EsercizioRisolto 3.3, mostrare che la probabilità di completare l’album avendo acquistato N figurine è massima quando
p1 = p2 = . . . = pm = 1/m. [ Suggerimento: Dimostrare prima che cambiando
2
la probabilità cercata aumenta.]
solamente p1 e p2 con p01 = p02 = p1 +p
2
Esercizio 3.3. Ripetere i ragionamenti del Capitolo 3 per provare in dettaglio
le Osservazioni 3.6-3.7.
CAPITOLO 4
Operazioni su spazi di probabilità
In questo capitolo S ed S 0 saranno degli insiemi non vuoti.
1. Condizionamento
Per questa parte facciamo riferimento al III capitolo del Ross. Qui ricordiamo
qualche nozione per completezza.
Proposizione 4.1. Sia (S, P) uno spazio di probabilità, ed E ⊂ S un evento
di probabilità strettamente positiva P(E) > 0. Definiamo PE : 2S → [0, 1] come
PE (F ) := P(F |E) :=
P(E ∩ F )
P(E)
F ⊂S
Allora
(a)
(b)
(c)
(d)
PE è una misura di probabilità su S.
La restrizione di PE a 2E è una misura di probabilità su E.
PE = P sse P(E) = 1.
Se E 0 ⊂ S è tale che P(E ∩ E 0 ) > 0 allora per ogni F ⊂ S
PE (F |E 0 ) = PE∩E 0 (F )
Nota. A volte è naturale definire PE anche quando P(E) = 0. Supponiamo di
andare a pranzo da un amico, di iniziare il nostro viaggio al tempo t = 0, e di essere
attesi a tavola al tempo t = 1. Diciamo che dobbiamo prendere un autobus, e che
arriveremo puntuali se la somma del tempo di attesa alla fermata e del tempo di
percorrenza del tragitto è minore di 1. Per t ≥ 0, siano Et l’evento su cui il tempo
di attesa alla fermata sia uguale a t, ed Ft l’evento su cui il tempo di percorrenza
del tragitto sia uguale a t. È ragionevole pensare che P(Et ) = P(Ft ) = 0 per ogni
t ≥ 0. Tuttavia è altrettanto intuitivo calcolare
P(arrivare in tempo|Et ) = P(∪s≤1−t Fs )
Da un punto di vista matematico, la procedura di condizionare su un evento di
probabilità 0 è piuttosto delicata, ma possibile con una certa generalità. Per molti
aspetti, questa è una procedura inversa a quella di integrazione (perchè?), ed è
quindi nota come disintegrazione.
2. Combinazioni convesse
Sia Proba(S) l’insieme delle misure di probabilità su S, ossia l’insieme delle
funzioni P : 2S → [0, 1] tali che valgano le condizioni (a), (b) della Definizione 2.1.
43
44
4.
OPERAZIONI SU SPAZI DI PROBABILITÀ
Definizione 4.2. Siano α ∈ [0, 1], P0 , P1 ∈ Proba(S). La combinazione convessa di P0 e P1 con coefficiente α è la misura di probabilità Pα := αP1 + (1 − α)P0 ,
intesa come uguaglianza di funzioni si 2S , ossia
Pα : 2S → [0, 1]
E 7→ Pα (E) = α P1 (E) + (1 − α) P0 (E)
È immediato verificare che la notazione è consistente (Pα = P0 e Pα = P1 per
α = 0, 1 rispettivamente), e che Pα ∈ Proba(S) (Pα soddisfa (a) e (b) nella
Definizione 2.1).
Esempio 4.3. Si lancia una moneta onesta. Se esce ’testa’, si lancia un dado
a 6 facce, e si scrive il risultato su un foglio. Se esce croce, si lancia un dado a 12
facce e si scrive un risultato sul foglio. Determinare la probabilità che il numero sul
foglio sia uguale ad i, per i = 1, 2, . . . , 12.
Soluzione. Siano P e Q le probabilità su S := {1, . . . , 12} relative al risultato
del lancio di un dado a 6 e 12 facce rispettivamente, ossia P({i}) = 1/6 per i ≤ 6,
P(({i}) = 0 per i > 6 e Q({i}) = 1/12 per ogni i. La probabilità richiesta è
( 21 P + 12 Q)(i).
3. Indipendenza e spazi prodotto
Per l’indipendenza ci riferiamo al Capitolo 3 del Ross. Qui sviluppiamo in
dettaglio la costruzione di spazi prodotto di spazi di probabilità discreti.
Iniziamo la nostra discussione con un esempio: vogliamo modelizzare con uno
spazio di probabilità l’esperimento che consiste nel lanciare prima un dado e poi
una moneta truccata, dove la probabilità di avere testa è 1/3. I due lanci sono
considerati operativamente indipendenti, cioè l’uno non puo’ influenzare il risultato
dell’altro. Lo spazio campionario S, dato dall’insieme dei possibili esiti, è
S = { (x1 , x2 ) : x1 ∈ {1, 2, . . . , 6}, x2 ∈ {T, C}} = S1 × S2
dove S1 = {1, 2, . . . , 6} e S2 = {T, C}. Qui x1 è da pensare come l’esito del lancio
del dado e x2 come l’esito del lancio della moneta. Poiché la moneta è truccata,
non possiamo definire una probabilità P su S invocando la simmetria e concludere
che gli esiti di S sono equiprobabili. Invece, essendo gli esperimenti operativamente
indipendenti, è naturale richiedere che, fissati x1 ∈ S1 ed x2 ∈ S2 , i due eventi
E1 = {x1 } × S2 e E2 = S1 × {x2 } (interpretati come: E1 =”il lancio del dado
ha dato x1 ” e E2 =”il lancio della moneta ha dato x2 ”), siano eventi indipendenti.
Quindi P deve essere tale che
P {(x1 , x2 )} = P (E1 ∩ E2 ) = P (E1 )P (E2 ) .
È naturale porre P(E1 ) = 1/6 e P(E2 ) = 1/3 se x2 = T oppure P(E2 ) = 2/3 se
x2 = C. Quindi possiamo definire P sui singleton come
(
11
1
= 18
se x2 = T,
P {(x1 , x2 )} = 61 32
2
se x2 = C,
6 3 = 18
Ricordiamo che, essendo S numerabile, la funzione di probabilità P è univocamente
determinata
P una volta assegnata sui singleton di S, purché P({s}) ≥ 0 per ogni
s ∈ S e s∈S P({s}) = 1. Queste verifiche sono elementari e lasciate al lettore.
Il precedente esempio può essere facilmente generalizzato per modellizzare un
esperimento che consiste di n sotto–esperimenti indipendenti.
3. INDIPENDENZA E SPAZI PRODOTTO
45
Definizione 4.4. Sia n ∈ N+ e per i = 1, . . . , n siano (Si , Pi ) degli spazi
di probabilità discreti, ossia per cui esiste Ei ⊂ Si finito o numerabile tale che
Pi (Ei ) = 1. Si definisce spazio di probabilità prodotto degli (Si , Pi ) lo spazio di
probabilità (S, P) definito come segue
• Lo spazio campionario S è il prodotto cartesiano S = S1 × · · · × Sn .
• La probabilità P è definita da
P({(x1 , . . . , xn )}) = P1 ({x1 }) · · · Pn ({xn }) =: p(x1 ,...,xn )
Tale relazione identifica P sui singleton di S. Ora E := E1 × · · · × En è finito o
numerabile e soddisfa P(E) = 1. Le condizioni
X
px ≥ 0,
px = 1
x∈E
sono verificate e, per il Teorema 2.15, resta univocamente identificata una probabilità P su S (e concentrata su E).
Proposizione 4.5. Utilizziamo la stessa notazione della Definizione 4.4, e per
x ∈ S, scriviamo xi ∈ Si come la coordinata i-esima di x, ossia x = (x1 , . . . , xn ).
Per degli arbitrari Fi ⊂ Si definiamo F¯i ⊂ S come
F¯i = {x ∈ S : xi ∈ Fi } = S1 × · · · × Si−1 × Fi × Si+1 × · · · × Sn
Allora
(a) Gli eventi F¯1 , . . . , F¯n sono indipendenti in (S, P). Ossia eventi che dipendono
da sotto–esperimenti distinti sono indipendenti.
(b) Se per ogni i = 1, . . . , n, Si è finito e Pi è uniforme su Si , allora P è uniforme su S. Ossia un esperimento che consiste di sotto–esperimenti con esiti
equiprobabilii ha esiti equiprobabili.
Dimostrazione. (a) Per provare che F¯1 , F¯2 , . . . , F¯n sono indipendenti dobbiamo provare che, dati 1 ≤ i1 < i2 < · · · < ir ≤ n, vale
r
Y
P(F¯ij )
P ∩nj=1 F¯ij =
(4.1)
j=1
Tuttavia ci basterà provare il risultato per r = n. Infatti notiamo S¯i = S e
dunque
∩rj=1 F¯ij = S¯1 ∩ · · · ∩ F¯i1 ∩ S¯i1 +1 · · · ∩ S¯i2 −1 ∩ F¯i2 ∩ · · · ∩ F¯ir ∩ · · · ∩ S¯n
ed ottenere dunque la (4.1) dal caso r = n grazie all’arbitrarietà degli Fi .
Proviamo dunque
n
Y
P ∩ni=1 F¯i =
P(F¯i )
(4.2)
i=1
Usiamo la stessa notazione della Definizione 4.4 per gli Ei ed E. Dal
Teorema 2.15
n
X
X Y
X
Y X
P(F¯i ) =
P({x}) =
Pj ({xj }) =
P({xi })
P({xj })
x∈E∩F¯i
x∈E∩F¯i j=1
= P(Fi ) · 1 · · · · 1 = Pi (Fi )
xi ∈Ei ∩Fi
j6=i xj ∈Ej
46
4.
OPERAZIONI SU SPAZI DI PROBABILITÀ
Analogamente
P(∩ni=1 F¯j ) = P(
n
Y
Fi ) =
i=1
=
X
x1 ∈F1
···
X
···
x1 ∈F1
n
X Y
X
P({(x1 , . . . , xn )})
xn ∈Fn
Pi ({xi }) =
xn ∈Fn i=1
n
Y
Pi (Fi )
i=1
Le ultime due formule implicano la (4.2).
(b) Per ipotesi, Pi ({xi }) = 1/|Si | per ogni xi ∈ Si e per ogni i. Dunque
P({(x1 , x2 · · · , xn )}) = P1 ({x1 })P2 ({x2 }) · · · Pn ({xn })
1
1
1
1
=
·
···
=
|S1 | |S2 |
|Sn |
|S|
Osserviamo che la proprietà (a) della precedente proposizione conferma che lo
spazio prodotto è il giusto spazio di probabilità per modellizzare un esperimento
composto da n sotto-esperimenti elementari indipendenti.
Esempio 4.6. Consideriamo n prove indipendenti, dove ogni prova ha due esiti
che chiamiamo ”successo” e ”insuccesso”, per cui il successo si verifica con probabilità p ∈ [0, 1]. Codificando ”successo” e ”insuccesso” rispettivamente con le cifre
”1” e ”0”, la singola prova i-esima è modellizzata dallo spazio di probabilità (Si , Pi ),
dove Si = {0, 1} e Pi ({1}) = p, Pi ({0}) = 1 − p. Lo spazio prodotto che modellizza
l’esperimento globale dato dalle n prove, detto schema di Bernoulli di parametro p,
è quindi (S, P) dove
S = {0, 1}n = {(x1 , x2 , . . . , xn ) : xi ∈ {0, 1} ∀i : 1 ≤ i ≤ n}
P({(x1 , x2 , . . . , xn )}) = pk (1 − p)n−k ,
k ≡ k(x) =
n
X
xi
i=1
Esempio 4.7. Si lanciano 2 monete truccate per cui testa esce rispettivamente
con con probabilità 1/3 e 1/4. Vogliamo determinare la probabilità che escano due
facce uguali. Considerando S = {(T, T, ), (C, C), (T, C), (C, T )}, dobbiamo calcolare
P(E) dove E = {(T, T ), (C, C)}. Allora
P(E) = P({(T, T )}) + P({(C, C)}) = (1/3)(1/4) + (2/3)(3/4) = 7/12
4. Trasporto
0
Sia ora π : S → S una funzione data. Ci si chiede se sia possibile trasportare
la funzione π ad una funzione Tπ : Proba(S) → Proba(S 0 ). La risposta affermativa
è data dalla seguente proposizione
Proposizione 4.8 (Trasporto di probabilità). Sia (S, P) uno spazio di proba0
bilità, S 0 un insieme non vuoto e π : S → S 0 . Definiamo Q : 2S → [0, 1] come
−1
Q := P ◦ π ossia
Q(E) := P({x ∈ S : π(x) ∈ E})
0
Allora (S , Q) è uno spazio di probabilità.
E ⊂ S0
(4.3)
5. ?UN ESEMPIO DI TRASPORTO
47
Dimostrazione. È chiaro che Q prende valori in [0, 1] restano pertanto da
mostrare le proprietà (a) e (b) della Definizione 2.1. Si ha
Q(S 0 ) = P({x ∈ S : π(x) ∈ S 0 }) = P(S) = 1
e quindi vale (a).
Data una famiglia numerabile E1 , E2 , . . . di eventi a due a due disgiunti in S 0 ,
dall’Osservazione 1.2 si ha che π −1 (∪i∈N+ Ei ) = ∪i∈N+ π −1 (Ei ) e che gli π −1 (Ei )
sono a due a due disgiunti. Dunque
(P ◦ π −1 )(∪i∈N+ Ei ) =P(π −1 (∪i∈N+ Ei )) = P(∪i∈N+ π −1 (Ei ))
X
X
(P ◦ π −1 )(Ei )
P(π −1 (Ei )) =
=
i∈N+
i∈N+
ossia (b).
Nota. Nella precedente proposizione abbiamo utilizzato il fatto che π −1 sia
una funzione di insieme inversa di una funzione π data. Se (S, P) è uno spazio di
0
probabilità e π
˜ : S 0 → S, possiamo sollevare π
˜ : 2S → 2S ponendo
π
˜ (E) = {y ∈ S : ∃x ∈ E, y = π
˜ (x)}
Tuttavia in generale P ◦ π
˜ non è una probabilità su S 0 , come segue dall’Esercizio 1.1
5. ?Un esempio di trasporto
Si ricordi la Definizione 2.22.
Definizione 4.9. Siano (S, F) e (S 0 , F0 ) due spazi misurabili. Una funzione
π : S → S 0 si dice (F, F0 )-misurabile (o semplicemente misurabile se le σ-algebre
sono intese) se π −1 (F0 ) ⊂ F, ossia quando π −1 (F 0 ) ∈ F per ogni F 0 ∈ F0 .
Ad esempio, se S = S 0 e F ⊃ F0 l’identità su S è misurabile, mentre se F ( F0
essa non sarà misurabile.
Se (S, F, P) è uno spazio di probabilità, (S 0 , F0 ) uno spazio misurabile e π : S →
S 0 una funzione misurabile, definendo Q su F0 come nella (4.3), si ha che Q =
P ◦ π −1 è una probabilità su (S 0 , F0 ) (la dimostrazione è identica a quella della
Proposizione 4.8). Nel seguito sviluppiamo un esempio interessante di trasporto da
+
uno schema di Bernoulli su S = {0, 1}N alla misura piatta su [0, 1].
+
Ricordiamo l’Esempio 2.17 in cui avevamo preso S = {0, 1}N , per a ∈ S e
+
n
n ∈ N , avevamo definito l’evento Ea ⊂ S come
Ean := {x ∈ S : xi = ai , ∀i = 1, . . . , n}
e posto
P(Ean ) = 2−n
(4.4)
Non è difficile verificare che gli insieme della forma Ean al variare di a ∈ S ed n ∈ N+
formano un π-sistema (vedere Definizione 2.32), e dunque la (4.4) identifica P sulla
σ-algebra F generata dagli Ean . Consideriamo allora la mappa π : S → R definita
da
∞
X
π(x) =
xk 2−k
(4.5)
k=1
π associa ad una stringa di 0 ed 1 il numero reale in [0, 1] di cui tale stringa è una
rappresentazione in base 2.
48
4.
OPERAZIONI SU SPAZI DI PROBABILITÀ
Nota. π non è invertibile, in quanto la rappresentazione in base 2 non è unica.
Ad esempio 1/2 = 0 + 1/4 + 1/8 + . . ., proprio come 1 = 0.99999 . . ..
Teorema 4.10. La funzione π è (F, B)-misurabile, dove F è la σ-algebra
generata dagli Ean ed B la σ-algebra di Borel su R. Inoltre vale
P({x ∈ S : π(x) ∈ [u, v]}) = v − u,
∀0 ≤ u ≤ v ≤ 1
(4.6)
−1
ossia P ◦ π è la misura piatta su [0, 1]. Dunque π induce una corrispondenza tra
gli spazi di probabilità degli Esempi 2.17 e 2.18.
Prima di dimostrare il teorema, proviamo un lemma preliminare.
Lemma 4.11. Dati n ∈ N+ e 0 ≤ i ≤ j ≤ 2n , si ha
P({x ∈ S : π(x) ∈ [i 2−n , j 2−n ]}) = (j − i)2−n
Dimostrazione. Per ogni x ∈ S, {x} = ∩n≥1 Exn , per cui i singleton sono eventi di S, e dunque anche gli insiemi numerabili di S sono eventi. Come
nell’Esempio 2.17, per ogni x ∈ S ed n ∈ N+
P(Exn ) = 2−n
e
P({x}) = 0
Dunque, dalla σ-additività, P(E) = 0 per ogni E ⊂ S numerabile. Sia ora
S¯ = {x ∈ S : esistono un numero infinito di k per cui xk = 1} ∪ {(0, 0, 0, . . .)}
¯ = 1. In particolare se E ∈ F, dal Corollario 2.3-(e),
S¯c è numerabile, e pertanto P(S)
¯
P(E) = P(E ∩ S).
Dato n ∈ N+ ed h ∈ {0, . . . , 2n − 1} esistono unici y1 ≡ y1 (h, n), y2 ≡
y2 (h, n), . . . , yn ≡ yn (h, n) ∈ {0, 1} tali che
n
X
2−k yk = h 2−n
k=1
Per x ∈ S¯ si ha π(x) ∈ [h2−n , (h + 1)2−n ) se e solo se xk = yk per k = 1, . . . , n.
Fissato pertanto un qualunque y ∈ S¯ con tale proprietà
P({x ∈ S : π(x) ∈ [h 2−n , (h + 1) 2−n )})
= P({x ∈ S¯ : π(x) ∈ [h 2−n , (h + 1) 2−n )})
=
P(Eyn
(4.7)
¯ = P(Eyn ) = 2−n
∩ S)
Poiché |{x ∈ S¯ : π(x) = h 2−n }| = 1, tale evento ha probabilità nulla per ogni h e
P({x ∈ S : π(x) ∈ [i 2−n , j 2−n ]}) =
j−1
X
P({x ∈ S : π(x) ∈ [h 2−n , (h + 1) 2−n )})
h=i
= (j − i)2−n
dalla (4.7).
Dimostrazione del Teorema 4.10. Gli intervalli della forma Ih,k,n := (h2−n , k2−n ],
con h, k ∈ Z ed n ∈ N+ generano la σ-algebra di Borel e sono un π-sistema. È
immediato verificare che π −1 (Ih,k,n ∈ F per ogni h, k, n. Dunque
D := {E ⊂ B : π −1 (E) ∈ F}
è un λ-sistema che contiene il π-sistema degli Ih,k,n . Dunque D contiene l’intera
σ-algebra generata dagli Ih,k,n , ossia B. Vale a dire, π è (F − B)-misurabile.
6. ?STRUTTURA SIMPLETTICA
49
Per provare la (4.6), siano dati u, v come in (4.6). Per n ∈ N+ siano in , jn ∈
{0, 1, . . . , 2n − 1} con in ≤ jn tali che
in 2−n ≤ u ≤ (in + 1)2−n
jn 2−n ≤ v ≤ (jn + 1)2−n
In particolare
(jn − in )2−n − 2−n ≤ v − u ≤ (jn − in )2−n + 2−n
(4.8)
Dal Lemma 4.11
P({x ∈ S : π(x) ∈ [u, v]}) ≤ P({x ∈ S : π(x) ∈ [in 2−n , (jn + 1)2−n ]})
= (jn + 1 − in )2−n
P({x ∈ S : π(x) ∈ [u, v]}) ≥ P({x ∈ S : π(x) ∈ [(in + 1)2−n , jn )2−n ]})
= (jn − in − 1)2−n
e da (4.8) ambo i membri di destra delle due precedenti formule convergono a v − u
quando n → +∞.
6. ?Struttura simplettica
Come notato nell’Esempio 2.12, esiste un’immersione canonica ı di S in Proba(S)
ı : S → Proba(S)
x 7→ ı(x) = δx
(4.9)
(in questo contesto, un’immersione è semplicemente una funzione iniettiva).
La Proposizione 4.8 lascia definita una mappa
Tπ : Proba(S) → Proba(S 0 )
P 7→ Tπ P ≡ P ◦ π −1
(4.10)
le cui proprietà sono date nel seguente teorema riassuntivo di questa sezione. La
prova del teorema è un esercizio formale lasciato al lettore, vedi Esercizio 4.1.
Teorema 4.12. Siano S, S 0 due insiemi non vuoti, e ı, ı0 le immersioni canoniche di S ed S 0 in Proba(S) e Proba(S 0 ) rispettivamente, definite come in (4.9).
Sia π : S → S 0 e Tπ definita in (4.10). Allora
(a) Tπ è lineare su Proba(S), ossia per ogni α ∈ [0, 1], P1 , P2 ∈ Proba(S)
Tπ (αP1 + (1 − α)P2 ) = αTπ P1 + (1 − α)Tπ P2
(b) Vale Tπ ◦ ı = ı0 ◦ π. Ossia per ogni x ∈ S, Tπ δx = δπ(x) . O equivalentemente, il seguente diagramma è commutativo
Proba(S)
∧
ı
S
Tπ
> Proba(S 0 )
∧0
ı
π
> S0
Si può mostrare che se S è numerabile, allora le proprietà (a) e (b) del Teorema 4.12 identificano Tπ tra tutte le applicazioni da Proba(S) a Proba(S 0 ). In
generale, un’ulteriore proprietà di continuità è necessaria per caratterizzare Tπ .
50
4.
OPERAZIONI SU SPAZI DI PROBABILITÀ
Definizione 4.13. Una combinazione convessa di due misure di probabilità P0
e P1 di coefficiente α si dice banale se P1 = P0 oppure se α = 0 oppure se α = 1.
In altre parole, se Pα coincide con uno tra P1 o P0 .
L’insieme estremale di Proba(S) è l’insieme di tutti gli elementi di Proba(S)
che non possono essere scritti come una combinazione banale non convessa.
Proposizione 4.14. Una misura di probabilità P ∈ Proba(S) è estremale sse
P(E) ∈ {0, 1} per ogni evento E.
Dimostrazione. (⇐) Dapprima proviamo che se P(E) = 0 o P(E) = 1 per ogni
E ⊂ S, allora P è estremale. Supponiamo che
P = αP1 + (1 − α)P0
per qualche α ∈ (0, 1). Dobbiamo mostrare che P1 = P0 = P. In effetti per ogni
evento E tale che P(E) = 0
0 = α P1 (E) + (1 − α)P0 (E)
ed essendo i termini della somma a destra positivi, e α, 1 − α > 0, si deve aver
per forza P1 (E) = P0 (E) = 0 = P(E). D’altra parte per ogni evento E tale che
P(E) = 1
0 = α(1 − P1 (E)) + (1 − α)(1 − P0 (E))
da cui ragionando come sopra P1 (E) = P0 (E) = 1 = P(E). Quindi P1 (E) =
P2 (E) = P(E) per ogni E ⊂ S, ossia P1 = P0 = P.
(⇒) Mostriamo che se esiste un evento E ⊂ S tale che P(E) ∈ (0, 1), allora P può
essere scritta come combinazione convessa non banale. In effetti per ogni F ⊂ S
possiamo scrivere
P(F ) = α P(F |E) + (1 − α)P(F |E c )
dove α = P(E). Abbiamo visto a lezione che P(·|E), P(·|E c ) sono delle probabilità su S, ed esse sono distinte da P poichè P(E) ∈ (0, 1) mentre P(E|E) = 1 e
P(E|E c ) = 0.
Nota. Si noti in particolare che le delta di Dirac sono sempre estremali. Sotto
ipotesi abbastanza generali sullo spazio campionario (ad esempio se S è numerabile
oppure S = Rn con σ-algebra di Borel), si ha che una misura di probabilità prende
valori in {0, 1} se e solo se è una delta di Dirac. Quindi nei casi più comuni
l’insieme delle probabilità estremali coincide con le delta di Dirac.
7. Esercizi Capitolo 4
?Esercizio 4.1. Dimostrare il Teorema 4.12.
CAPITOLO 5
Variabili aleatorie
Possiamo pensare una variabile aleatoria come un numero reale casuale. Ci
riferiamo ai Capitoli 4, 5, 6 del Ross.
1. Definizioni ingenue
Definizione 5.1. Sia (S, P) uno spazio di probabilità. Una funzione X : S → R
si dice una variabile aleatoria, e la misura di probabiltà PX su R data da PX :=
P ◦ X −1 è detta legge di X.
Osservazione 5.2. Data una misura di probabilità Q su R, esistono sempre
uno spazio di probabilità (S, P) ed una funzione X : S → R tale che PX = Q. Ad
esempio è sufficiente prendere (S, P) = (R, Q) ed X(s) = s.
Nel seguito, assumeremo di aver fissato uno spazio di probabilità (S, P) su
cui sono definite le nostre variabili aleatorie. Come nell’osservazione precedente,
prenderemo cura di mostrare che possiamo definire spazi campionari con opportune
proprietà quando necessario.
Nota. Spesso lo spazio campionario S su cui una variabile aleatoria è definita
è irrilevante, e ci si interessa solo alla legge di X (ossia, in ultima analisi, ad una
misura di probabilità sullo spazio campionario R). In tale caso, faremo ampiamente
uso di una notazione abbreviata che ’nasconde’ lo spazio S. Scriveremo infatti, per
E⊂R
P(X ∈ E) := P({s ∈ S : X(s) ∈ E) = P ◦ X −1 (E)
e per gli eventi intenderemo {X ∈ E} := {s ∈ S : X(s) ∈ E}. Tale notazione viene
estesa a varie espressioni che si ottengono per scelte particolari di E. Ad esempio
per E un intervallo abbiamo
P(X ≤ x) := P({s ∈ S : X(s) ≤ x) = P ◦ X −1 ((−∞, x])
P(X = x) := P({s ∈ S : X(s) = x) = P ◦ X −1 ([x, x])
P(x1 < X ≤ x2 ) := P({s ∈ S : x1 < X(s) ≤ x2 ) = P ◦ X −1 ((x1 , x2 ])
e così via. Analogamente, se si hanno due o più variabili aleatorie definite sullo
stesso spazio, si denota
P(X ∈ E, Y ∈ F ) = P({X ∈ E} ∩ {Y ∈ F }) = P({s ∈ S : X(s) ∈ E, Y (s) ∈ F )
Tale notazione sottolinea l’interpretazione di una variabile aleatoria come ’numero
reale random’.
Definizione 5.3. Sia X una variabile aleatoria. La funzione FX : R → [0, 1]
definita da
FX (x) = P(X ≤ x)
si dice funzione di ripartizione di X.
51
52
5.
VARIABILI ALEATORIE
Si ricordi la Definizione 2.37.
Teorema 5.4. Sia X una variabile aleatoria reale. Allora FX ha le seguenti
proprietà
(a) F è crescente.
(b) F è cadlag.
(c) limx→−∞ F (x) = 0 e limx→+∞ F (x) = 1.
Viceversa, data una F : R → [0, 1] con tali proprietà, esiste una variabile aleatoria
X tale che F = FX .
Dimostrazione. Naturalmente FX prende valori in [0, 1]. Mostriamo dapprima che FX soddisfa le proprietà elencate.
(a) Se x ≤ y, FX (x) = P(X ≤ x) ≤ P(X ≤ y) = FX (y).
(b) Poichè FX è crescente e limitata, i limiti di FX da destra e sinistra esistono, denotiamoli con FX (x± ). Dobbiamo allora solo provare che la funzione è
continua da destra, ossia FX (x+ ) = FX (x). Poichè il limite da destra esiste, possiamo calcolarlo lungo una qualunque successione xn ↓ x, prendiamo dunque xn = x + n1 . Poichè (−∞, x] = ∩n (−∞, x + 1/n], abbiamo che
{X ≤ x} = ∪n {X ≤ x + n1 }. Essendo la successione di insiemi ({X ≤ x + n1 })n
monotona decrescente in n, per il Teorema 2.5
FX (x+ ) = lim FX (x + n1 ) = lim P(X ≤ x + n1 ) = P(X ≤ x) = FX (x)
n
n
(c) Analogamente, sempre per la monotonia di FX , possiamo calcolare il limite
limx→−∞ lungo una qualunque successione xn ↓ −∞. Prendiamo ad esempio
xn = −n, e notiamo che ∩n (−∞, −n] = ∅, da cui ∩n {X ≤ −n} = ∅. Dunque,
ancora dal Teorema 2.5
lim FX (x) = lim FX (−n) = lim P(X ≤ −n) = P(∅) = 0
x→−∞
n→+∞
n→+∞
(5.1)
Per calcolare limx→+∞ FX (x) ragioniamo allora allo stesso modo, usando la
successione di insiemi {X ≤ n}. Oppure notiamo che
FX (x) = P(X ≤ x) = 1 − P(X ≥ x) = 1 − P(−X ≤ −x) = 1 − FY (−x)
dove la variabile aleatoria Y è definita come Y (s) = −X(s). Da cui
lim FX (x) = 1 − lim FY (x) = 1
x→+∞
x→−∞
dove nell’ultima uguaglianza abbiamo usato la (5.1) applicata alla variabile
aleatoria Y .
Per le implicazioni inverse, data F come nell’enunciato, dal Teorema 2.38 esiste
una misura di probabilità P su R tale che P((−∞, x]) = F (x). E dall’Osservazione 5.2 esiste una variabile aleatoria X di cui P è la legge.
Definizione 5.5. Sia X una variabile aleatoria. L’insieme EX := {x ∈ R :
P(X = x) > 0} si dice insieme dei valori discreti di X.
Corollario 5.6. Sia X una variabile aleatoria reale. L’insieme EX dei valori
discreti di X è finito (possibilmente vuoto) o numerabile, e dunque X è discreta sse
P(X ∈ EX ) = 1. Inoltre valgono
FX (x− ) = P(X < x)
−
FX (x) − FX (x ) = P(X = x)
∀x ∈ R
∀x ∈ R
(5.2)
(5.3)
2. VARIABILI ALEATORIE DISCRETE E CONTINUE
53
ossia EX è l’insieme di discontinuità di FX (FX è continua su R \ EX ) ed il salto
di FX su un punto x ∈ EX è proprio la probabilità P(X = x).
n
Dimostrazione. Dato n ∈ N+ , sia EX
= {x ∈ R : P(X = x) ≥ n1 }. La
n
n
n
cardinalità di EX è al più n (poichè P(EX ) ≤ 1), e dunque EX = ∪n EX
è unione
numerabile di insiemi finiti.
Ora, come nel Teorema 5.4
FX (x− ) = lim F (x − n1 ) = lim PX ((−∞, x − n1 ]) = PX ((−∞, x)) = P(X < x)
n
n
2. Variabili aleatorie discrete e continue
Si ricordi la Definizione 2.11.
Definizione 5.7. Una variabile aleatoria X si dice discreta se la sua legge
PX è discreta (sullo spazio campionario R), ossia se esiste un sottoinsieme finito o
numerabile E ⊂ R tale che P(X ∈ E) = 1. O equivalentemente se P(X ∈ EX ) = 1.
O ancora equivalentemente se la legge di X è concentrata su EX .
Si ricordi la Definizione 2.19.
Definizione 5.8. Una variabile aleatoria X si dice continua se la sua legge
PX è continua, ossia se esiste una funzione % integrabile, positiva, e di integrale
pari ad 1, tale che
Z
P(X ∈ I) = %(x) dx
per ogni intervallo I ⊂ R
I
Si noti che se una variabile aleatoria è continua, per ogni si ha
Z
P(X = x) =
%(y) dy = 0
∀x ∈ R
[x,x]
Dunque, dalla σ-additività, per ogni E ⊂ R numerabile si ha P(X ∈ E) = 0.
Dunque, se una variabile aleatoria è continua, essa non è discreta.
Proposizione 5.9. Sia X una variabile aleatoria. Allora
(a) Se X è discreta, FX è costante su ciascun intervallo connesso di R\EX , mentre
soddisfa (5.3) su EX . Ossia
X
FX (x) =
P(X = y)
y∈EX , y≤x
(b) Se X è continua, allora per ogni densità % di PX si ha
Z x
FX (x) =
%(y) dy
(5.4)
−∞
in particolare tale integrale non dipende dalla scelta della densità % tra tutte le possibili densità di PX . Inoltre FX è continua e detto NX := {x ∈
R : FX non è derivabile in x} si ha P(X ∈ NX ) = 0. Infine ogni funzione
% positiva e che convida con la derivata di FX su R \ NX è una densità di PX .
54
5.
VARIABILI ALEATORIE
Dimostrazione. (a) Sia X discreta, e siano x ∈ R ∪ {−∞}, y ∈ R tali che
x ≤ y e (x, y] ∩ EX = ∅. Allora
X
FX (y) − FX (x) = P((x, y]) =
P(X = z) = 0
z∈EX , z∈(x,y]
dove nella penultima uguaglianza abbiamo usato il Teorema 2.15.
(b) Se X è continua, esiste una densità % tale che
Z
PX ((−∞, x]) =
%(y) dy
(−∞,x]
per ogni x ∈ R, da cui la (5.4) e la continuità di FX . Definiamo ora per x ∈ R
e k ∈ N+
FX (y) − FX (x)
=
y−x
FX (y) − FX (x)
%(x) := lim
y−x
y→x
%(x) := lim
y→x
k
NX
:= {x ∈ R : %(x) − %(x) > k1 }
k
k
Poichè NX = ∪k≥1 NX
, dal Teorema 2.5, P(X ∈ NX ) = limk P(X ∈ NX
).
+
Dunque per concludere basta mostrare che per ogni k ∈ N
Z
%(x) dx = 0
k
NX
Ma questo è un risultato noto per ogni funzione integrabile % (teorema di
Lebesgue), la cui prova è omessa in queste note.
Le seguenti osservazioni si dimostrano facilmente.
Osservazione 5.10. Sia X una variabile aleatoria sullo spazio di probabilità
(S, P), e sia f : R → R. Allora Y = f (X) (definita come la composizione Y (s) =
f (X(s))) è una variabile aleatoria su (S, P) con legge PY = PX ◦f −1 e EY = f (EX ).
In
P particolare se X è discreta anche Y è discreta, e per y ∈ EY , P(Y = y) =
x∈f −1 ({y}) P(X = x).
Osservazione 5.11. Siano X ed Y due variabili aleatorie sul medesimo spazio
di probabilità (S, P), e sia f : R2 → R. Allora Z = f (X, Y ) (definita come Z(s) =
f (X(s), Y (s))) è una variabile aleatoria su (S, P). Inoltre EZ = f (EX , EY ) = {z ∈
R : ∃(x, y) ∈ EX × EY e z = f (x,P
y)}. Inoltre se X ed Y sono discrete, Z è
discreta e e per z ∈ EZ , P(Z = z) = x EX , y∈EY : z=f (x,y) P(X = x, Y = y).
3. Esempi di variabili aleatorie discrete e continue
Si veda il Ross, capitoli 4 e 5.
4. Condizionamento ed indipendenza di variabili aleatorie
Si veda il Ross, capitolo 6.
4. CONDIZIONAMENTO ED INDIPENDENZA DI VARIABILI ALEATORIE
55
Definizione 5.12. Due variabili aleatorie X ed Y definite sullo stesso spazio
di probabilità si dicono indipendenti se per ogni A, B ⊂ R gli eventi {X ∈ A} ed
{Y ∈ B} sono indipendenti, ovvero se
P(X ∈ A, Y ∈ B) = P(X ∈ A)P(Y ∈ B)
(5.5)
Una famiglia {Xi }i∈I di variabili aleatorie (definite sullo stesso spazio di probabilità) si dice indipendente se per ogni famiglia {Ai }i∈I di insiemi Ai ⊂ R, gli
eventi {Xi ∈ Ai }i∈I sono indipendenti, ovvero se per ogni n ∈ N+ ed ogni collezione
collezione finita i1 , i2 , . . . , in di indici in I
P(Xi1 ∈ Ai1 , Xi2 ∈ Ai2 , . . . , Xin ∈ Ain ) =
n
Y
P(Xij ∈ Aij )
(5.6)
j=1
Proposizione 5.13. Siano X, Y due variabili aleatorie discrete definite sullo
stesso spazio di probabilità, e siano E, F ⊂ R tali che P(X ∈ E) = P(Y ∈ F ) = 1.
Allora X ed Y sono indipendenti se e solo se
P(X = x, Y = y) = P(X = x) P(Y = y)
∀x ∈ E, y ∈ F
(5.7)
Ovverosia, per mostrare che due variabili aleatorie discrete sono indipendenti, è
sufficiente mostrare la (5.5) per A e B dei singleton A = {x}, B = {y} con P(X =
x), P(Y = y) > 0.
Più in generale, per mostrare che una famiglia di variabili aleatorie discrete è
indipendente, è sufficiente mostrare che la (5.6) è valida quando gli Aij = {xij }
dove gli xi sono tali che P(Xi = xi ) > 0.
Dimostrazione. Mostriamolo per due variabili aleatorie. La dimostrazione
generale è del tutto analoga. Naturalmente se X ed Y sono indipendenti, possiamo
prendere A = {x} e B = {y} nella (5.5) ed ottenere la (5.7) al variare di x ∈ E
ed y ∈ F . Supponiamo allora che la (5.7) sia valida e mostriamo la (5.5). Dal
Teorema 2.15, per ogni A, B ∈ R
X
X
P(X ∈ A) =
P({x})
P(X ∈ B) =
P({y})
x∈A∩E
B∈A∩F
Come per gli eventi, data una famiglia di variabili aleatorie non è sufficiente
sapere che tutte le coppie di variabili di tale famiglia sono mutualmente indipendenti
per avere indipendenza della famiglia stessa, come mostrato nel seguente esempio.
Esempio 5.14. Alla tavola rotonda della corte di Camelot sono seduti n ≥ 3
cavalieri, incluso Re Artù. Numeriamo Artù con 1, il cavaliere alla sua destra con
2, e così via fino al cavaliere n alla sinistra di Artù. Ogni cavaliere può scegliere se
bere acqua o sidro durante la discussione, ed assumiamo che ciascuno decida per il
sidro con probabilità 1/2 indipendentemente dagli altri. Definiamo per i = 1, . . . , n
le variabili aleatorie
(
1
se il cavaliere alla destra di i ha la stessa bevanda di i.
Xi =
−1 altrimenti.
Abbiamo che P(Xi = ±1) = 41 + 14 = 1/2 e si verifica facilmente che dati i 6= j,
P(Xi = ±1, Xj = ±1) = 1/4 = P(Xi = ±1)P(Xj = ±1). Dalla Proposizione 5.13
56
5.
VARIABILI ALEATORIE
si ha che per i 6= j, Xi ed Xj sono indipendenti. Tuttavia
P(
n
Y
Xi = 1) = 1
i=1
poichè deve esserci un numero pari di ""cambi di bevanda” partendo da Artù e
compiendo l’intero giro della tavola. In particolare la famiglia {Xi } non può essere
indipendente: ad esempio
Y
P(X1 = −1, Xi = 1 ∀i ≥ 2) = 0 6= P(X1 = 1)
P(Xi = 1) = 2−n
i≥2
Proposizione 5.15. Siano X ed Y due variabili aleatorie indipendenti, ed
f, g : R → R due funzioni. Allora f (X) e g(Y ) sono delle variabili aleatorie
indipendenti.
Dimostrazione. Per ogni A, B ⊂ R si ha
P(f (X) ∈ A, g(Y ) ∈ B) = P(X ∈ f −1 (A), Y ∈ g −1 (B))
= P(X ∈ f −1 (A))P(Y ∈ g −1 (B))
= P(f (X) ∈ A)P(g(Y ) ∈ B)
CAPITOLO 6
Valore di attesa
1. Attesa di variabili aleatorie discrete
Sia X una variabile aleatoria discreta, e per x ∈ R sia px = P(X = x). Allora
px > 0 sse x ∈ EX . Possiamo immaginare la legge di X come la distribuzione
di massa sulla retta reale R, che corrisponde a mettere un peso di massa px sul
punto x, per ogni x ∈ R. Ad esempio, se lanciamo una moneta ed otteniamo con
probabilità 1/2 il risultato 0, e con probabilità 1/2 il risultato 1, possiamo pensare
di mettere un peso 1/2 sul punto 0 ed un peso 1/2 sul punto 1.
P
In generale, il baricentro di tale distribuzione di massa sarà dato da x∈EX x px ,
ammesso chePtale serie sia P
ben definita. Inoltre, se E ⊃ EX è finito o numerabile,
avremo che x∈E x px = x∈EX x px , poichè nella prima somma abbiamo semplicemente aggiunto degli addendi nulli. Ciò motiva le definizioni date in questa
sezione.
Data una variabile aleatoria X possiamo considerare le due variabili aleatorie
X + = max(X, 0), X − = max(−X, 0), da cui X = X + − X − e |X| = X + + X − .
Dall’Osservazione 5.10, se X è discreta allora |X| e X ± sono variabili aleatorie
positive discrete.
Definizione 6.1. Sia X una variabile aleatoria discreta positiva ed E ⊂ R
finito o numerabile tale che P(X ∈ E) = 1, ossia E ⊃ EX . Si definisce valore atteso
di X o attesa di X o ancora speranza matematica di X il valore (indipendente dalla
scelta di E tale che P(X ∈ E) = 1)
X
E[X] :=
x P(X = x) ∈ [0, +∞]
(6.1)
x∈E
Sia ora X è una variabile aleatoria discreta (non necessariamente positiva).
Restano sempre ben definiti in [0, +∞] i valori attesi E[|X|], E[X + ] ed E[X − ] dalla
(6.1).
Se E[|X|] < +∞, allora E[X + ] < +∞ e E[X − ] < +∞; in tal caso si dice che
X è integrabile o di attesa finita e si pone
X
E[X] := E[X + ] − E[X − ] =
x P(X = x) ∈ R
x∈E
Altrimenti, se E[X + ] = +∞ e E[X − ] < ∞ si pone E[X] = +∞, se E[X − ] = +∞
e E[X + ] < ∞ si pone E[X] = −∞.
Infine, se E[X + ] = E[X − ] = +∞, diremo che E[X] non è ben definito.
EsercizioRisolto 6.1. Nello stesso contesto dell’EsercizioRisolto 3.3, calcolare il valore atteso del numero di figurine da acquistare per completare l’album.
Soluzione. Assumiamo m > 1, poichè X è costante ed uguale ad 1 se m = 1.
57
58
6.
VALORE DI ATTESA
Sia X la variable aleatoria corrispondente al numero di acquisto della figurina
che completa l’album. Con la notazione dell’EsercizioRisolto 3.3, X(s) = n sse
n−1
n
c
s ∈ F{1,...,
m} ∩ (F{1,..., m} ) . Quindi il valore atteso richiesto vale
EX =
∞
X
n−1
n
c
n P(F{1,...,
m} ∩ (F{1,..., m} ) )
n=1
n−1
n
Poiché F{1,...,
m} ⊃ F{1,..., m} abbiamo dall’EsercizioRisolto 3.3-(a)
n−1
n−1
n
c
n
P(F{1,...,
m} ∩ (F{1,..., m} ) ) =P(F{1,..., m} ) − P(F{1,..., m} )
X n−1
X
X
=
(−1)m−|J|+1
pj
(1 −
pj )
j∈J
J⊂{1,..., m}
j∈J
da cui
E[X] =
X
∅(J({1,..., m}
(−1)m−|J|+1
P
=
1 − j∈J pj
X
∅(J({1,..., m}
(−1)|J|−1
P
j∈J pj
Ad esempio se tutte le caselle sono equiprobabili
m−1
X (−1)k−1 m
E[X] = m
:= e(m)
k
k
k=1
Si può mostrare (si veda l’Esercizio 3.2) che il caso in cui tutte le caselle sono
Figura 1. Il rapporto E[X]/(m log(1 + m)) per m ∈ {2, . . . , 200}.
equiprobabili minimizza, ad m fissato, il valore E[X]. Sulla funzione e(m) sappiamo
a priori che e(m) ≥ m, poichè P(X < m) = 0. Con qualche accortezza si ottiene,
2. ATTESA DI VARIABILI ALEATORIE ARBITRARIE
59
per m ≥ 2
e(m) ≥ m log(1 + m)
lim
m→+∞
e(m)
=1
m log(1 + m)
In particolare, anche nel caso non-equiprobabile abbiamo E[X] ≥ m log(1 + m). 2. Attesa di variabili aleatorie arbitrarie
In questa sezione costruiamo una definizione di valore atteso per variabili arbitrarie, in diversi passi a partire dalla definizione di valore atteso di variabili discrete
positive.
Si ricordi che dato x ∈ R, bxc denota il più piccolo intero minore di x. Ad esempio bπc = 3, b5c = 5 e b−πc = −4. Data una variabile aleatoria X, introduciamo
(nel resto di questo capitolo) per n ∈ N+ le variabili aleatorie
X n := 2−n b2n Xc
X n := 2−n b2n X + 1c
(6.2)
La seguente osservazione si dimostra senza difficoltà.
Osservazione 6.2. Le variabili aleatorie X n ed X n sono discrete poichè P(X n ∈
Z/2n ) = P(X n ∈ Z/2n ) = 1, dove Z/2n := {y ∈ R : 2n y ∈ Z}.
Inoltre X n è crescente, X n è decrescente e per ogni n ∈ N+ e k ∈ Z valgono
X n − 2−n ≤ X n ≤ X ≤ X n ≤ X n + 2−n
P(X n = k 2−n ) = P(X ∈ [k 2−n , (k + 1)2−n ))
P(X n = k 2−n ) = P(X ∈ [(k − 1) 2−n , k 2−n ))
(6.3)
(6.4)
Osservazione 6.3. Sia X una variabile aleatoria positiva. Allora
lim EX n = sup E[Y ] = lim EX n = inf E[Z]
n
n
Y
Z
(6.5)
dove l’estremo superiore è preso su tutte la variabili aleatorie discrete Y di attesa
ben definita e tali che Y ≤ X (ossia Y (s) ≤ X(s) per ogni s ∈ S), e l’estremo
inferiore è preso su tutte la variabili aleatorie discrete Z di attesa ben definita tali
che Z ≥ X.
Dimostrazione. Essendo X positiva, le attese di X n e X n sono ben definite
dalla (6.3), ed i limiti in n dell’enunciato esistono per la monotonia notata nell’Osservazione 6.2. Per ogni Y e Z, come nell’enunciato, Y ≤ X ≤ Z, e pertanto per
ogni n ∈ N+ (essendo X n una di tali Y e X n una di tali Z)
E[X n ] ≤ sup E[Y ] ≤ inf E[Z] ≤ E[X]n ≤ E[X n ] + 2−n
Y
Z
dove abbiamo utilizzato la (6.3) per l’ultima disuguaglianza. Passando al limite in
n si ha la tesi.
Definizione 6.4. Sia X una variabile aleatoria reale positiva sullo spazio di
probabilità (S, P). La quantità identificata dall’uguaglianza (6.5) si dice attesa di
X.
Come nella Definizione 6.1 si definisce poi l’attesa di una variabile reale (non
necessariamente positiva) se almeno uno tra E[X + ] o E[X − ] è finito, ed X si dice
integrabile o di attesa finita se E[|X|] < +∞.
60
6.
VALORE DI ATTESA
È immediato verificare che tale definizione è consistente con la Definizione 6.1
poichè il superiore sulle Y e l’inferiore sulle Z è raggiunto per X = Y = Z se X è
discreta.
Lemma 6.5. Siano X ed Y due variabili aleatorie discrete definite sullo stesso
spazio di probabilità (S, P). Per x, y ∈ R definiamo
px = P(X = x)
qy = P(Y = y)
rx,y := P(X = x, Y = y) = P({s ∈ S : X(s) = s, Y (s) = y)
Allora si ha
X
X
rx,y = px
y∈EY
rx,y = qy
x∈EX
Dimostrazione. Mostriamo la prima affermazione, la seconda essendo simmetrica per scambio di X con Y . Possiamo assumere x ∈ EX , l’uguaglianza riducendosi a 0 = 0 altrimenti. Sia allora S¯ := {s ∈ S : Y (s) ∈ EY }. Poichè Y è
¯ = P(Y ∈ EY ) = 1 e dunque
discreta, P(S)
X
X
rx,y =
P({X = x} ∩ {y = Y })
y∈EY
y∈EY
¯ = P(X = x) = px
= P ∪y∈EY ({X = x} ∩ {Y = y}) = P({X = x} ∩ S)
Lemma 6.6. Siano X ed Y due variabili aleatorie discrete di attesa finita definite sullo stesso spazio campionario. Allora la variabile aleatoria Z = X + Y è
discreta, ha attesa finita e E[X + Y ] = E[X] + E[Y ].
Dimostrazione. Dall’Osservazione 5.11 Z è discreta e
EZ := {z ∈ R : ∃x ∈ EX , y ∈ EY tali che z = x + y}
e per z ∈ EZ
X
P(Z = z) =
P(X = x, Y = y) =
x,y : x+y=z
X
rx,y
x,y : x+y=z
dove abbiamo usato la notazione del Lemma 6.5, ed in questa dimostrazione le somme sulle x ed y sono ristrette rispettivamente ad EX ed EY . Usando il Lemma 6.5
X
X
X
E[Z] =
zP(Z = z) =
z rx,y
z∈EZ x,y : x+y=z
z∈EZ
X
=
X
(x + y) rx,y =
z∈EZ x,y : x+y=z
X
x,y
x rx,y +
X
x,y
y rx,y =
X
(x + y) rx,y =
x,y
X
x
x px +
X
y qy = E[X] + E[Y ]
y
Teorema 6.7. Siano X ed Y due variabili aleatorie di attesa finita definite
sullo stesso spazio campionario (S, P), e siano α β, γ ∈ R. Allora
(a) La variabile αX ha attesa finita e E[αX] = αE[X].
(b) La variabile X + Y ha attesa finita e E[X + Y ] = E[X] + E[Y ].
(c) Se P(X = γ) = 1 allora E[X] = γ.
(d) Se P(X ≥ Y ) = 1, allora E[X] ≥ E[Y ].
3. IL VALORE D’ATTESA DI VARIABILI ALEATORIE CONTINUE
61
Ne segue in particolare che
E[α X + β Y + γ] = αE[X] + βE[Y ] + γ
Dimostrazione. (a) L’identità è immediata per variabili aleatorie discrete.
Sia allora X arbitraria. Se Z è una variabile aleatoria discreta che minora X,
allora αZ maggiora (minora) αX se α ≥ 0 (se α ≤ 0). Se Z 0 è una variabile
aleatoria che maggiora X, allora αZ 0 minora (maggiora) αX se α ≥ 0 (se
α ≤ 0). Ottimizzando su Z e Z 0 si ottiene l’uguaglianza.
(b) Si noti che X n + Y n e X n + Y n sono delle variabili aleatorie discrete, che
rispettivamente maggiorano e minorano X + Y . Dal Lemma 6.6 segue allora
E[X n ] + E[Y n ] = E[X n + Y n ] ≤ E[X + Y ] ≤ E[X n + Y n ] = E[X n ] + E[Y n ]
e passando al limite in n si ottiene la tesi.
(c) X è discreta, e l’uguaglianza segue immediatamente dalla definizione.
(d) Sia Z = −(X − Y )− . Allora Z ≤ X − Y e P(Z = 0) = P(X − Y ≥ 0) = 1.
In particolare Z è discreta, e dunque E[X − Y ] ≥ E[Z] = 0, dove l’ultima
uguaglianza segue dal punto (c). Dal punto (b) segue allora la tesi.
3. Il valore d’attesa di variabili aleatorie continue
Teorema 6.8. Sia X una variabile aleatoria continua e sia % una densità della
legge di X. Allora vale
Z
E[|X|] = |x|%(x) dx
e se X ha attesa finita allora
Z
E[X] =
x%(x) dx
Dimostrazione. Dalla (6.4) e dalla Definizione 6.1 si ha
k+1
X
X Z 2n
−n
k k+1
kP(X ∈ [ 2n , 2n )) =
k 2−n %(x) dx
E[X n ] = 2
k∈Z
Da cui
k∈Z
Z
0≤
k
2n
x%(x)dx − EX n ≤ 2−n
e la tesi segue dalla Definizione 6.4, se si passa al limite in n.
Il precedente teorema si generalizza come segue.
Teorema 6.9. Sia X una variabile aleatoria continua di densità %, sia f : R →
R, e supponiamo che la variabile aleatoria Y = f (X) abbia attesa ben definita.
Allora
Z
E[Y ] = f (x)%(x) dx
Dimostrazione. Dalla (6.4) otteniamo
−1
P(Y n = k) = P(Y ∈ [ 2kn , k+1
([ 2kn , k+1
2n )) = P(X ∈ f
2n )))
e come nella dimostrazione del Teorema 6.8
XZ
E[Y n ] =
k∈Z
k k+1
f −1 ([ 2n , 2n ))
k 2−n %(x) dx
62
6.
VALORE DI ATTESA
−n
Ma per x ∈ f −1 ([ 2kn , k+1
≤ f (x) ≤ (k + 1)2−n da cui
2n )) si ha appunto k2
Z
0 ≤ f (x)%(x) dx − E[Y n ] ≤ 2−n
e si ottiene la tesi passando al limite.
4. Prodotti e somme di variabili aleatorie indipendenti
Si veda anche il Ross, capitolo 6.
Teorema 6.10. Siano X ed Y due variabili aleatorie indipendenti e di attesa
finita. Allora la variabile aleatoria X Y ha attesa finita e
E X Y = E[X] E[Y ]
(6.6)
Dimostrazione. Sia Z = X Y . Dividiamo la dimostrazione in due passi.
Dapprima mostriamo l’identità per X ed Y discrete. Poi, mediante approssimazione, per X ed Y arbitrarie.
Passo1. Siano allora X ed Y discrete, e siano E, F ⊂ R numerabili tali che P(X ∈
E) = P(Y ∈ F ) = 1. Per x ∈ E e y ∈ F definiamo
px = P(X = x),
qy = P(Y = y)
e dall’indipendenza di X ed Y , P(X = x, Y = y) = px qy .
Sia ora G = E + F := {z ∈ R : ∃ (x, y) ∈ E × F tali che z = xy}. Notiamo
che P(Z ∈ G) = 1, e che G è numerabile, pertanto Z e discreta. Inoltre per z ∈ G
(in effetti per ogni z ∈ R)
X
X
P(Z = z) =
P(X = x, Y = x) =
px qy
(x,y)∈E×F : xy=z
(x,y)∈E×F : xy=z
e pertanto
E[Z] =
X
P(Z = z) =
z∈G
=
X
X
z px qy
z∈G (x,y)∈E×F : xy=z
X
(x,y)∈E×F
xy px qy =
X
x∈E
x px
X
y qy = E[X] E[Y ]
y∈F
Passo2. Siano ora X ed Y delle variabili aleatorie (non necessariamente discrete).
Si ricordi la (6.2). Dalla Proposizione 5.15 e dall’Osservazione 6.2, X n ed Y n
sono delle variabili aleatorie discrete ed indipendenti. Allora Zn := X n Y n è una
variabile aleatoria discreta e dal Passo1
EZn = E[X n ]E[Y n ]
(6.7)
D’altra parte
|EX n − EX| ≤ E|X n − X| ≤ 2−n
|EY n − EY | ≤ E|X n − X| ≤ 2−n
|EZn − EZ| = E[(X n − X)Y ] + E[X n (Yn − Y )]
≤ E[|X n − X| |Y |] + E[|X n | |Yn − Y |]
≤ 2−n (E[|Y |] + E[X n ]) ≤ 2−n (E[|Y |] + E[|X|] + 2−n )
Pertanto passando al limite n → +∞ nella (6.7) si ottiene l’uguaglianza desiderata.
4. PRODOTTI E SOMME DI VARIABILI ALEATORIE INDIPENDENTI
63
Proposizione 6.11. Siano X ed Y due variabili aleatorie indipendenti e sia
Z = X + Y . Allora
(a) Se X ed Y sono discrete, con E ed F numerabili tali che P(X ∈ E) = P(Y ∈
F ) = 1, allora Z è discreta con P(Z ∈ E + F ) = 1 e
X
X
P(Z = z) =
px qz−x =
pz−y qy
x∈E
y∈F
dove px = P(X = x) e qy = P(Y = y).
(b) Se X ed Y sono continue con densità %X e %Y rispettivamente, allora Z è
continua con densità
Z
Z
%Z (z) =
%X (x)%Y (z − x) dx =
%X (z − y)%Y (y) dy
R
R
Dimostrazione. (a) Sia G = E + F . Allora per ogni z ∈ G abbiamo
X
P(X + Y = z) =
P(X + Y = z|X = x)P(X = x)
x∈E
=
X
P(Y = z − x|X = x)P(X = x) =
x∈E
X
qz−x px
x∈E
(b) Si ricordi la (6.2). Per n ∈ N+ sia allora Zn = X n + Y n e per k ∈ Z sia Ik,n
l’intervallo [k2−n , (k + 1)2−n ). Dal punto (a) e dall’Osservazione 6.2
X
P(Zn = k2−n ) =
P(Xn = h2−n )P(Yn = (k − h)2−n )
h∈Z
=
X
P(X ∈ Ih,n )P(Y ∈ Ih−k,n ) =
h∈Z
−n
=2
XZ
h∈Z
X
2−n %¯X
h,n
X
% (x)dx
Ih,n
Z
%Y (y)dy
Ik−h,n
%¯Yk−h,n
h∈Z
dove %¯X
¯Yj,n sono rispettivamente le medie di %X e %Y sull’intervallo Ij,n .
j,n e %
Riconosciamo pertanto nell’ultima riga della formula precedente una somma di
Riemann, ed otteniamo quindi
hZ
i
P(Zn = k2−n ) = 2−n
%X (x)%Y (k2−n − x) dx + rn (k)
R
= 2−n %Z (k2−n ) + rn (k)2−n
dove per ogni c > 0, limn→+∞ supk∈Z : |k2n |≤c |rn (k)| = 0.
Dati α, β ∈ R con α < β sia abbiamo pertanto
X
P(Zn ∈ (α, β]) =
P(Zn = k2−n )
k : k2−n ∈(α,β]
=
X
2−n %Z (k2−n ) + rn (k)2−n
k∈(2n α, 2n β]∩Z
Si verifica facilmente che la somma dei resti rn (k)2−n converge a 0 quando
n → +∞, mentre nel primo termine della somma riconosciamo di nuovo una
somma di Riemann. Pertanto
Z β
(6.8)
lim P(Zn ∈ (α, β]) =
%Z (z) dz
n→+∞
α
64
6.
VALORE DI ATTESA
D’altra parte, per ogni a < b, ε > 0 tale che a + ε < b − ε ed n abbastanza
grande in modo che 2−n ≤ ε, poichè |Z − Zn | ≤ ε, si ha che
P(Zn ∈ [a + ε, b − ε]) ≤ P(Z ∈ (a, b]) ≤ P(Zn ∈ [a − ε, b + ε])
Passando al limite n → +∞ ed usando (6.8)
Z b−ε
Z
Z
% (z) dz ≤ P(Z ∈ (a, b]) ≤
a+ε
b+ε
%Z (z) dz
a−ε
Passando al limite ε ↓ 0 abbiamo che %Z è proprio la densità di Z.
5. Varianza, covarianza e correlazione
Osservazione 6.12. Siano X ed Y due variabili aleatorie, tali che E[X 2 ] <
+∞ e E[Y 2 ] < +∞. Allora E[|X Y |]2 ≤ E[X 2 ] E[Y 2 ].
Dimostrazione. Assumiamo E[X 2 ] > 0, poichè se E[X 2 ] = 0 allora P(X =
`
0) = 1 e dunque la disuguaglianza banalmente
verificata. Per ogni c > 0 is ha
|X Y | = (c |X|) |Yc | ≤
2
c2
2 X
+
2
1
2c2 Y
Per il Teorema 6.7-(d), la disuguaglianza passa alle attese
E[|X Y |] ≤
2
c2
2 E[X ]
+
2
1
2c2 E[Y ]
1
1
che rende la disuguaglianza voluta per c2 = E[X 2 ]− 2 E[Y 2 ] 2
Definizione 6.13. Sia X ed Y due variabili aleatorie tali che E[X 2 ] < +∞ e
E[Y ] < +∞. Si definisce covarianza di X ed Y la quantintià
2
Cov[X, Y ] := E[X Y ] − E[X] E[Y ]
che è ben definita per via dell’Osservazione 6.12.
La quantità
Var[X] := Cov[X, X] = E[X 2 ] − E[X]2 = E (X − E[X])2
si dice varianza di X.
Se Var[X], Var[Y ] > 0 la quantità
Cov[X, Y ]
Corr[X, Y ] := p
Var[X] Var[Y ]
si dice correlazione di X ed Y .
Se Cov[X, Y ] = 0 diremo che X ed Y sono decorrelate.
Per linearità dell’attesa, si ha che Cov[·, ·] è una forma quadratica (simmetrica)
sullo spazio vettoriale delle variabili aleatorie. In particolare date α e β due costanti
reali
Cov[α X, β Y ] = α β Cov[X, Y ]
Var[α X] = α2 Var[X]
La seguenti osservazioni hanno una dimostrazione immediata.
Osservazione 6.14. Siano X ed Y come nella Definizione 6.13. Allora
(a) Var[X] ≥ 0 e Var[X] = 0 sse esiste una costante c ∈ R tale che P(X = c) = 1.
6. LA FUNZIONE CARATTERISTICA
65
(b) Corr[X, Y ] ∈ [−1, 1], e Corr[X, X] = 1, Corr[X, −X] = −1 e Corr[X, Y ] = 0
se X ed Y sono indipendenti.
Nota. La condizione Corr[X, Y ] = 1 non implica X = Y , così come Corr[X, Y ] =
−1 non implica X = −Y e Corr[X, Y ] = 0 non implica che X ed Y sono indipendenti. Ossia, la decorrelazione è una proprietà strettamente più debole dell’indipendenza.
Osservazione 6.15. Sia X1 , X2 , . . . , Xn delle variabili aleatorie decorrelate e
tali che E[Xi2 ] < +∞ per i = 1, . . . , n. Allora
n
n
X
X
Var
Xi =
Var[Xi ]
i=1
i=1
6. La funzione caratteristica
Definizione 6.16. Sia X una variabile aleatoria. La funzione θ : R → C
definita da
θ(λ) := EeiλX := E cos(λX) + iE sin(λX)
è detta funzione caratteristica di X.
Nota. Attenzione a non confondere la funzione caratteristica di una variabile
aleatoria con la funzioni indicatrice di un insieme, che a volte (non in queste note)
è detta, appunto ""funzione caratteristica” dell’insieme stesso.
Data la linearità del valore d’attesa, è naturale definire il valore d’attesa di una
funzione complessa di X come l’attesa della sua parte reale più i volte l’attesa della
parte immaginaria. La definizione precedente di EeiλX è pertanto canonica. D’altra
parte, è conveniente pensare direttamente in termini di funzioni a valori complessi,
poichè appunto le funzioni esponenziali sono più maneggevoli (ed in qualche modo
intrinseche) di quelle trigonometriche. Si può ad esempio verificare il seguente fatto
che segue dal Teorema 6.10 e dalla definizione precedente.
Osservazione 6.17. Se X1 , X2 , . . . , Xn sono delle variabili aleatorie indipendenti, allora
n
Pn
Y
Eeiλ( j=1 Xj ) =
EeiλXj
j=1
Altrimenti detto, la funzione caratteristica della somma di variabili aleatorie indipendenti è uguale al prodotto delle funzioni caratteristiche.
?Proposizione 6.18. Sia X una variabile aleatoria e θ la sua funzione caratteristica. Allora
(a)
(b)
(c)
(d)
θ(0) = 1.
θ è uniformemente continua.
Se E[|X|] < +∞, allora θ è derivabile e θ0 (0) = iE[X].
Più in generale, se E[|X|k ] < +∞, allora θ è derivabile k volte, e θ0 (0) =
ik E[X k ]
Dimostrazione. (a) θ(0) = E[1] = 1.
66
6.
VALORE DI ATTESA
(b) Dati λ, µ ∈ R, si ha per linearità dell’attesa
θ(λ) − θ(µ) = E eiλX − eiµX = E (ei(λ−µ)X − 1)eiµX
Dunque per ogni L > 0
θ(λ) − θ(µ) ≤ E ei(λ−µ)X − 1 eiµX = E ei(λ−µ)X − 1
≤ E ei(λ−µ)X − 11[−L,L] (X) + 2 P(|X| > L)
Da cui per ogni ε, L > 0
θ(λ) − θ(µ) ≤ 2 P(|X| > L) + sup
sup
sup
iδx
e − 1
(6.9)
δ∈(0,ε] x∈[−L,L]
λ, µ :|λ−µ|≤ε
Ora si noti che
lim sup
sup |eiδ x − 1| = 0
ε↓0 δ :|δ|≤ε x |x|≤L
∀L > 0
lim P(|X| > L) = lim 1 − FX (L) = 0
L→+∞
L→+∞
che con la (6.9) implicano l’uniforme continuità.
(c) Questa dimostrazione è un po’ più complessa e non sarà utilizzata nel seguito.
(d) Questa dimostrazione è un po’ più complessa e non sarà utilizzata nel seguito.
7. ?Definizioni nel contesto della teoria della misura
Si ricordi la Definizione 4.9. Nella teoria (non-ingenua) della probabilità una
variabile aleatoria reale si definisce come segue.
Definizione 6.19. Sia (S, F, P) uno spazio di probabilità. Una funzione X : S →
R è una variabile aleatoria se essa è F-Borel misurabile. La legge di X, è la misura
di probabilità su (R, B) data da PX := P ◦ X −1 .
Le nozioni di variabili discrete e continue si estendono naturalmente a questo
contesto, restringendo gli insiemi su cui si valutano le probabilità ai boreliani. Per
estendere tutte le prove date in questo capitolo, bisogna solo notare che la somma e il
prodotto di funzioni misurabili sono misurabili, così come il superiore e l’inferiore di
famiglie di funzioni misurabili sono funzioni misurabili, così come il limite superiore
ed il limite inferiore di successioni misurabili sono funzioni misurabili.
In questo contesto, l’attesa di una variabile aleatoria (che si può costruire come
sopra) si denota anche
Z
E[X] =
X(s) dP(s)
S
essendo essa una generalizzazione dell’integrale. Le identità sull’attesa si leggono
in questo contesto come
Z
Z
X(s) dP(s) =
x d(P ◦ X −1 )(x)
S
R
E più in generale, se f è Borel-Borel misurabile
Z
Z
f (X(s)) dP(s) =
f (x) d(P ◦ X −1 )(x)
S
R
che altri non è che la formula di cambio di variabile nell’integrale.
8. ESERCIZI CAPITOLO 6
67
Nota. Tutte queste nozioni si possono modificare per fornire R di una σ-algebra
più fine di quella di Borel, quella di Lebesgue (traendone alcuni vantaggi ed alcuni
svantaggi). Tale approccio è sviluppato (forse) nel corso di Analisi Reale.
8. Esercizi Capitolo 6
Esercizio 6.1. Fare un esempio di due variabili aleatorie decorrelate ma non
indipendenti.
CAPITOLO 7
Limiti di variabili aleatorie
1. Alcune nozioni di convergenza
Definizione 7.1. Sia (S, P) uno spazio di probabilità ed (Xn )n∈N+ una successione di variabili aleatorie, ed X una variabile aleatoria. Diremo che
(a) (Xn ) converge ad X con probabilità 1 (o quasi-certamente) se
P(lim Xn = X) = 1
n
(b) (Xn ) converge ad X in probabilità se per ogni ε > 0
lim P(|Xn − X| > ε) = 1
n→+∞
(c) (Xn ) converge ad X in legge (o in distribuzione) se per ogni f ∈ Cb (R)
lim Ef (Xn ) = Ef (X)
n→+∞
Il seguente lemma ci sarà utile in diverse occasioni. Ricordiamo che Cc (R)
denote l’insieme delle funzioni continue a supporto compatto su R, e che Cc (R) è
un ideale in Cb (R): moltiplicando una funzione continua per una funzione continua
a supporto compatto, si ottiene una funzione continua a supporto compatto.
Lemma 7.2. Sia (Xn )n∈N+ una successione di variabili aleatorie, ed X una
variabile aleatoria. Allora (Xn ) converge ad X in legge se e solo se
lim Ef (Xn ) = Ef (X)
n
∀f ∈ Cc (R)
(7.1)
Dimostrazione. Se Xn → X in legge, allora per definizione sappiamo che
limn EF (Xn ) = EF (X) per ogni F continua e limitata. Poichè ogni funzione
continua a supporto compatto è anche limitata, segue (7.1).
Supponiamo ora (7.1), dobbiamo mostrare che
lim EF (Xn ) = EF (X)
n
per ogni funzione F continua e limitata. Fissiamo una tale F e per L > 0 sia ϕL
una funzione continua tale che
• ϕL (x) = 1 per |x| ≤ L.
• ϕL (x) = 0 per |x| ≥ L + 1
• |ϕL (x)| ≤ 1 per ogni x ∈ R.
In particolare ϕL ∈ Cc (R) e
1[−L,L] ≤ ϕL ≤ 1[−L−1,L+1]
69
70
7.
LIMITI DI VARIABILI ALEATORIE
Ora, posto C = supx∈R |F (x)|, per ogni L > 0 si ha
E F (Xn ) − F (X) ≤E F (Xn )ϕL (Xn ) − F (X)ϕL (X) + E F (Xn )(1 − ϕL (Xn )) + E F (X)(1 − ϕL (X)) ≤E (F ϕL )(Xn ) − (F ϕL )(X) + C 1 − EϕL (Xn )
+ C 1 − E[ϕL (X)]
Poichè ϕL , F ϕL ∈ Cc (R) possiamo passare al limite n → +∞ ed applicare la (7.1)
con f = F ϕL ed f = ϕL , per ottenere
lim E F (Xn ) − F (X) ≤ lim E (F ϕL )(Xn ) − (F ϕL )(X) n
n
+ C 1 − EϕL (Xn ) + C 1 − EϕL (X)
=0 + 2CE(1 − ϕL (X)) ≤ 2 CE1[−L,L]c (X)
=2 C P(|X| ≥ L)
Poichè L è arbitrario, possiamo prendere il limite L → +∞ nella disuguaglianza
precedente. Per il Teorema 2.5 di convergenza monotona
lim P(|X| ≥ L) = P(X ∈ ∩L>0 [−L, L]c ) = P(X ∈ ∅) = 0
L→+∞
da cui limn |E[F (Xn ) − F (X)]| = 0.
Teorema 7.3. La convergenza con probabilità 1 implica la convergenza in
probabilità, che implica la convergenza in legge.
Dimostrazione. (a)⇒(b) Per k, n ∈ N+
En,k := {s ∈ S : |Xn (s) − X(s)| < k1 }
Ek := lim En,k = {s ∈ S : lim |Xn (s) − X(s)| < k1 }
n
n
E := ∩k≥1 Ek = {s ∈ S : lim |Xn (s) − X(s)| = 0}
n
Con questa notazione, la prima implicazione del teorema afferma che se
limn P(En,k ) = 1 per ogni k ∈ N+ , allora P(E) = 1. In effetti, poichè la
successione degli Ek è decrescente, usando i Teoremi 2.5-2.6
P(E) = lim P(Ek ) = lim P(lim En,k ) ≥ lim lim P(En,k ) = 1
k
k
n
k
n
(b)⇒(c) Per il Lemma 7.2 è sufficiente mostrare che se Xn converge ad X in
probabilità, allora per ogni funzione continua a supporto compatto f
lim E[f (Xn ) − f (X)] = 0
n
Una funzione continua a supporto compatto è limitata ed uniformemente
continua. Dunque se definiamo ω : R+ → R+
0 come
ω(δ) :=
sup
|f (x) − f (y)|
x,y∈R, |x−y|≤δ
si ha che
Cf := sup ω(δ) < +∞
e
δ>0
lim ω(δ) = 0
δ↓0
Dunque per ogni δ > 0, x, y ∈ R si ha
|f (x) − f (y)| ≤ ω(δ) + Cf 1[δ,+∞) (|x − y|)
2. DISUGUAGLIANZE NOTEVOLI
71
da cui
lim E f (Xn ) − f (X) ≤ E[ω(δ)] + lim E Cf 1[δ,+∞) (|Xn − X|)
n
n
= ω(δ) + Cf lim P(|Xn − X| ≥ δ) = ω(δ)
n
Poichè tale disuguaglianza è vera per ogni δ > 0, possiamo prenderne il
limite δ ↓ 0 ed ottenere la tesi.
Questo esempio mostra che la convergenza in probabilità non implica quella
con probabilità 1.
Esempio 7.4. Sia S = [0, 1], P la misura piatta su [0, 1] caratterizzata da
P((a, b]) = b − a per b ≥ a con a, b ∈ [0, 1]. Per n ∈ N+ , siano hn , kn ∈ N, gli
unici naturali tali che n = 2hn + kn con kn < 2hn . In altre parole, hn è il più
grande intero tale che 2hn ≤ n, mentre kn è il resto della divisione di n per 2hn .
Sia Xn : S → R la variabile aleatoria definita da
(
1 se s ∈ [2−hn kn , 2−hn (kn + 1)]
Xn (s) =
0 altrimenti
Sia poi X la variabile aleatoria costante nulla, X(s) ≡ 0. Per ogni s ∈ S si ha
limn Xn (s) = 1 e dunque P(limn Xn = X) = P(∅) = 0. Dunque (Xn ) non converge
ad X con probabilità 1. Tuttavia per ε ∈ (0, 1) abbiamo P(|Xn − X| > ε) = P(Xn =
1) = 2−hn . Poichè limn hn = +∞, Xn → X in probabilità.
È molto più semplice convincersi che la convergenza in legge non implica quella
in probabilità, come si può vedere dal seguente esempio.
Esempio 7.5. Siano X ed Y due variabili aleatorie con la stessa legge. Prendiamo (Xn ) come la successione data da Xn (s) = Y (s). Evidentemente (Xn ) converge
ad X in legge, visto che per ogni f ∈ Cb (R), Ef (Xn ) = Ef (Y ) = Ef (X). Tuttavia
limn P(|Xn − X| > ε) = P(|Y − X| > ε) si annulla per ogni ε > 0 sse X = Y con
probabilità 1. Dunque nel caso considerato Xn → X in probabilità sse X = Y con
probabilità 1. Ad esempio, se X ed Y sono due variabili aleatorie indipendenti, non
costanti e con la stessa legge, avremo Xn → X in legge ma non in probabilità.
2. Disuguaglianze notevoli
Si ricordi la Proposizione 1.11.
Teorema 7.6 (Disuguaglianza di Jensen). Sia X una variabile aleatoria di
attesa finita, ed f : R → R una funzione convessa. Allora E[f (X)] è ben definito
(ma non necessariamente finito) e
E[f (X)] ≥ f (E[X])
2
2
ad esempio E[X ] ≥ E[X] e E[eX ] ≥ eE[X] .
Dimostrazione I. Per a, b ∈ R sia à,b come nella Proposizione 1.11. Allora,
dalla medesima proposizione, si ha che esistono a, b ∈ R tali che f ≥ à,b , da cui
f (X) ≥ à,b (X) e f (X)− ≤ |a||X| + |b|. Ne risulta E[f (X)− ] < +∞.
Siano ora a, b tali che à,b ≤ f . Allora
E[f (X)] ≥ E[aX + b] = aE[X] + b
72
7.
LIMITI DI VARIABILI ALEATORIE
Passando al superiore su a, b tali che à,b ≤ f si ottiene il teorema grazie alla
Proposizione 1.11.
Dimostrazione II per funzioni regolari. Supponiamo che f sia regolare,
diciamo di classe C 2 . La convessità allora equivale a f 00 ≥ 0, e quindi
f (x) ≥ f (y) + f 0 (y)(x − y)
∀x, y ∈ R
poichè il resto nell’espansione di Taylor è positivo (per esempio usando la forma
di Lagrange). Ma allora scrivendo la precedente disuguaglianza per x = X(s) e
y = E[X] otteniamo
f (X(s)) ≥ f (E[X]) + f 0 (E[X]) X(s) − E[X])
Si noti ora che l’attesa dell’ultimo termina a destra è nulla (f 0 (E[X]) è un numero reale, che esce dall’attesa). Pertanto passando al valore atteso otteniamo la
disuguaglianza.
Proposizione 7.7 (Disuguaglianza di Markov). Sia X una variabile aleatoria
di attesa finita. Allora per ogni M > 0
E|X|
P(X ≥ M ) ≤
M
Dimostrazione. Abbiamo
|X| P(X ≥ M ) = E[1[M,+∞) (X)] ≤ E |X|
M 1[M,+∞) (X) ≤ E M
Corollario 7.8 (Disuguaglianze di Chebyshev). Sia X una variabile aleatoria
ed f : R → R una funzione crescente e strettamente positiva. Allora per ogni x ∈ R
E[f (X)]
P(X ≥ x) ≤
f (x)
In particolare
Var[X]
P X − E[X] ≥ x) ≤
x2
Dimostrazione. Poichè f è crescente, X ≥ x implica f (X) ≥ f (x). Allora,
dalla disuguaglianza di Markov per la variabile f (X)
P(X ≥ x) ≤ P(f (X) ≥ f (x)) ≤
E[f (X)]
f (x)
La seconda disuguaglianza segue prendendo f (x) = x2 e come variabile aleatoria
|X − E[X]|.
Corollario 7.9 (Disuguaglianza di Cramer). Sia X una variabile aleatoria.
Definiamo la funzione convessa q : R → R+ come
q(x) := sup λ x − log E[eλ X ]
λ≥0
Allora P(X ≥ x) ≤ e
−q(x)
.
Dimostrazione. Utilizzando la disuguaglianza di Chebyshev con f (x) = eλx ,
per ogni λ ≥ 0 abbiamo
P(X ≥ x) ≤ e−λx E[eλX ] = e−λx−log E[e
ed ottimizzando su λ ≥ 0 si ottiene il risultato.
λX
]
4. ESERCIZI CAPITOLO 7
73
3. La legge dei grandi numeri
Vedi Ross.
Teorema 7.10 (Legge forte dei grandi numeri). Sia (Xn ) una successione di
variabili aleatorie i.i.d. e diPattesa finita E[X1 ] = E[X2 ] = . . . = m ∈ R. Allora la
n
variabile aleatoria Sn := n1 k=1 Xk converge con probabilità 1 alla costante m.
4. Esercizi Capitolo 7
Esercizio 7.1. Siano dati a ≥ σ > 0. Trovare una variabile aleatoria X tale
che Var(X) = σ 2 e P(|X − EX| ≥ a) = σ 2 /a2 .
CAPITOLO 8
Applicazioni
75
CAPITOLO 9
Teorema del limite centrale
In questo capitolo vogliamo mostrare la versione più semplice del teorema del
limite centrale. Si intende assegnato uno spazio di probabilità (S, P), su cui sono
definite tutte le variabili aleatorie di cui si tratta in questo capitolo.
Vogliamo utilizzare il Corollario 1.10 per provare la seguente affermazione
informale, il cui significato sarà chiarito in seguito:
Xn converge in legge ad X se e solo se per ogni λ ∈ R
lim EeiλXn = EeiλX
n→+∞
Lemma 9.1. Sia (Xn )n∈N+ una successione arbitraria di variabili aleatorie, e
sia X una variabile aleatoria. Siano θn e θ le funzioni caratteristiche di Xn ed X
rispettivamente. Assumiamo che θn converga puntualmente a θ quando n → +∞.
Allora per ogni funzione f ∈ Cc (R)
lim Ef (Xn ) − f (X) ≤ C lim sup P(|Xn | > L)
(9.1)
n→+∞
L→+∞ n
dove C ≡ Cf = supx∈R |f (x)|.
Dimostrazione. Fissiamo ε ∈ (0, 1) e sia L > 0 abbastanza grande in modo
tale che f (x) = 0 per |x| ≥ L. Applichiamo il Corollario 1.10. Siano N , (αi )i=0,...,N
ed fε come in tale corollario. Si noti che
sup
x∈[−L,L]
|fε (x)| ≤
sup
|fε (x) − f (x)| +
x∈[−L,L]
sup
|f (x)| ≤ C + ε
x∈[−L,L]
e dunque ricordando che |f (x) − fε (x)|1[−L,L] (x) ≤ ε per ogni x ∈ R abbiamo
|f (x) − fε (x)| ≤ ε1[−L,L] (x) + (C + ε)1[L,L]c (x) = ε + C1[L,L]c (x)
da cui
Ef (Xn ) − fε (Xn ) ≤ ε + C P(|Xn | ≥ L)
Ef (X) − fε (X) ≤ ε + C P(|X| ≥ L)
(9.2)
Inoltre ricordando la definizione di fε e per linearità dell’attesa
N
X
kπ
kπ
¯ k θn (− kπ
E fε (Xn ) − fε (X) =
αk θn ( kπ
L ) − θ( L ) + α
L ) − θ(− L )
k=1
da cui per ipotesi sulla convergenza puntuale delle θn , per ogni ε > 0 ed L
abbastanza grande
lim E fε (Xn ) − fε (X) = 0
(9.3)
n→+∞
77
78
9. TEOREMA DEL LIMITE CENTRALE
Infine, usando (9.2) e (9.3) (attenzione a dove i moduli vengono portati dentro o
lasciati fuori le attese)
lim E f (Xn ) − f (X) ≤ lim Ef (Xn ) − fε (Xn )
n→+∞
n→∞
+ E fε (Xn ) − fε (X) + Efε (X) − f (X)
≤ 2ε + C P(|X| > L) + C lim P(|Xn | > L)
n→+∞
che, essendo valida per ogni ε > 0 ed L abbastanza grande, rende la tesi prendendo
il limite ε ↓ 0 ed L → +∞.
Teorema 9.2. Sia (Xn )n∈N+ una successione arbitraria di variabili aleatorie
tali che
lim sup P(|Xn | > L) = 0
(9.4)
L→+∞ n
Siano θn e θ le funzioni caratteristiche di Xn ed X rispettivamente. Allora (Xn )
converge ad X in legge se e solo se θn converge puntualmente a θ.
Dimostrazione. Poichè x 7→ sin(λx) e x 7→ cos(λx) sono funzioni continue e
limitate, se Xn → X in legge deve accadere che θn (λ) → θ(λ) per ogni λ ∈ R.
Mostriamo l’implicazione inversa. È sufficiente provare che per ogni f ∈ Cc (R)
si ha limn Ef (Xn ) = Ef (X). In tal caso, infatti abbiamo la tesi grazie al Lemma 7.2.
Ma questa segue immediatamente dal Lemma 9.1 sotto le ipotesi del teorema. Si noti che se Xn ≡ X per ogni n, evidentemente Xn → X in legge. Il precedente teorema ci dice pertanto che la funzione caratteristica di una variabile aleatoria
ne identifica la legge. O, più propriamente, la caratterizza, da cui il nome di una
tale funzione.
Lemma 9.3. Sia X una variabile aleatoria tale che E(|X|3 ) < +∞, e sia θ la
sua funzione caratteristica. Allora
θ(λ) = 1 + i λ E[X] −
λ2 E[X 2 ]
+ o(|λ|2 )
2
dove limλ→0 |λ|−2 o(|λ|2 ) = 0.
Dimostrazione. Poichè la funzione x 7→ ei x ha tutte le derivate limitate
possiamo scrivere
λ2 x2
+ r(λ x) (λ x)3
eiλ x = 1 + iλ x −
2
con la funzione r(·) limitata uniformemente, ossia R := supy |r(y)| < +∞. Ne segue
λ2 E[X 2 ]
+ λ3 E r(λ X) X 3
2
e l’ultimo termine è limitato da λ3 R E[|X|3 ].
θ(λ) = Eeiλ X = 1 + iλ EX −
Teorema 9.4 (Teorema del limite centrale). Sia (Xj )j∈N+ una successione di
variabili aleatorie indipendenti, tutte con la stessa legge, e tali che E[|Xj |2 ] < +∞.
Siano m e σ 2 l’attesa e la varianza di tali variabili aleatorie (avendo tutte la stessa
legge, esse hanno tutte le stesse attesa e varianza). Definiamo
n
1 X Xj − m
Sn = √
σ
n j=1
Allora Sn converge in legge ad una variabile aleatoria normale standard Z.
1. ESERCIZI CAPITOLO 9
79
Mostriamo il teorema sotto l’ipotesi aggiuntiva E[|Xj |3 ] < +∞.
Dimostrazione. Dall’ipotesi E[|Xj |2 ] < +∞ e la disuguaglianza di Chebyshev, segue immediatamente che la (9.4) è valida. Per concludere basta verificare
che la funzione caratteristica di Sn converge puntualmente a (si veda l’Osservazione 1.13)
Z
z2
λ2
1
iλZ
Ee
=√
e− 2 +iλ z dz = e− 2
2π R
X −m
Sia ora Yj = jσ , e sia θ la funzione caratteristica di Yi (tali funzioni sono tutte
uguali poichè le Xi hanno tutte la stessa legge). Si noti che le (Yj ) sono indipendenti
in quanto funzioni di variabili aleatorie indipendenti, e dall’Osservazione 6.17
n
Pn
Y
√
Y
i √λ Y
i √λ
Ee n j = θ(λ/ n)n
EeiλSn = Ee n j=1 j =
j=1
Dal Lemma 9.3, notando che EYj = 0 e E[Yj2 ] = 1
n
√
λ
λ2
EeiλSn = θ(λ/ n)n = 1 + i √ 0 −
1 + o(λ3 n−3/2 )
2n
n
2
che per il limite notevole dell’Osservazione 1.12 converge proprio a e−λ
n → +∞.
/2
quando
1. Esercizi Capitolo 9
Esercizio 9.1. Sia (Xi ) una successione di variabili aleatorie di Poisson indipendenti, tutte di parametro t > 0.
(a) Calcolare la
caratteristica di X1 .
Pfunzione
n
(b) Sia Sn = i=1 Xi . Calcolare la funzione caratteristica di Sn . Che possiamo
dedurne?
(c) Utilizzare la legge dei grandi numeri per calcolare
lim e−nt
n→+∞
quando 0 < s < t e quando s > t.
[ns] k k
X
n t
k=0
k!
Bibliografia commentata
I libri elencati sono tutti disponibili in biblioteca.
• S. Ross, Calcolo delle probabilità, III ed., Apogeo 2013 : è il testo di riferimento del corso. Oltre ad essere accessibile alla lettura, il libro di
Ross è molto ricco di esempi, esercizi, osservazioni e note. Tuttavia è
assente un punto di vista superiore sulla teoria della probabilità, e solo raramente utilizza l’esposizione classica della matematica enunciatodimostrazione. Ottimo per acquisire manualità, sia negli esercizi che negli
schemi di ragionamento. Sufficiente per il corso se integrato con queste
note.
• W. Feller, An Introduction to Probability Theory and Its Applications,
Vol. 1, III ed., Springer 1968 : Un ottimo testo, divenuto un classico
della didattica della probabilità. Studiarlo è forse il modo migliore per
capire a fondo i contenuti del corso, inclusi nei primi undici capitoli della
III edizione del libro.
• Y. Sinai, Probability theory, An Introductory Course, Springer Textbook
1992 : Alcune parti sono un po’ difficili per uno studente del I anno.
Le prime otto lezioni sono comunque leggibili. Si possono tralasciare i
passaggi troppo duri, e cercare di comprendere le idee dietro le parti più
tecniche.
• M. Piccioni, Probabilità di base, Aracne 2010 : un testo specificamente
pensato per gli studenti di Matematica del I anno. Contiene esercizi, ma
copre solo la parte di probabilità discreta.
• L. Koralov, Y. Sinai, Theory of Probability and Random Processes: un
testo decisamente più avanzato per gli studenti interessati.
81

Download Report