Note di Probabilità 1 A.A. 2013-2014 Mauro Mariani Dipartimento di Matematica Guido Castelnuovo VERSIONE PRELIMINARE Indice A cosa servono queste note? 3 Capitolo 1. Notazione e preliminari 1. Notazione di base 2. Richiami preliminari 3. Esercizi Capitolo 1 5 5 5 9 Capitolo 2. Spazi di probabilità 1. Spazi ingenui di probabilità 2. Probabilità uniformi e combinatoria 3. Probabilità su spazi campionari finiti o numerabili 4. Probabilità discrete: esempi e controesempi 5. Probabilità continue su R 6. ?Spazi di probabilità 7. ?Identificazione di misure di probabilità 8. ?Dimostrazione del Teorema 2.35 9. Esercizi Capitolo 2 11 11 15 15 17 19 19 23 25 27 Capitolo 3. Combinatoria e probabilità 1. Il principio di inclusione-esclusione 2. Combinatoria degli spazi funzionali finiti 3. Campionamenti 4. ?Cardinalità dell’insieme quoziente 5. Il principio dei cassetti 6. Esercizi Capitolo 3 29 30 33 37 40 41 42 Capitolo 4. Operazioni su spazi di probabilità 1. Condizionamento 2. Combinazioni convesse 3. Indipendenza e spazi prodotto 4. Trasporto 5. ?Un esempio di trasporto 6. ?Struttura simplettica 7. Esercizi Capitolo 4 43 43 43 44 46 47 49 50 Capitolo 5. Variabili aleatorie 1. Definizioni ingenue 2. Variabili aleatorie discrete e continue 3. Esempi di variabili aleatorie discrete e continue 4. Condizionamento ed indipendenza di variabili aleatorie 51 51 53 54 54 1 2 INDICE Capitolo 6. Valore di attesa 1. Attesa di variabili aleatorie discrete 2. Attesa di variabili aleatorie arbitrarie 3. Il valore d’attesa di variabili aleatorie continue 4. Prodotti e somme di variabili aleatorie indipendenti 5. Varianza, covarianza e correlazione 6. La funzione caratteristica 7. ?Definizioni nel contesto della teoria della misura 8. Esercizi Capitolo 6 57 57 59 61 62 64 65 66 67 Capitolo 7. Limiti di variabili aleatorie 1. Alcune nozioni di convergenza 2. Disuguaglianze notevoli 3. La legge dei grandi numeri 4. Esercizi Capitolo 7 69 69 71 73 73 Capitolo 8. Applicazioni 75 Capitolo 9. Teorema del limite centrale 1. Esercizi Capitolo 9 77 79 Bibliografia commentata 81 A cosa servono queste note? In queste pagine sono raccolte le note del corso di Probabilità 1, del Dipartimento di Matematica dell’Universtià degli studi di Roma ""La Sapienza”, anno accademico 2013-2014. Vista l’abbondanza di testi di probabilità elementare, queste note non nascono con l’idea di fornire un corso autoconsistente di calcolo delle probabilità. Piuttosto esse vogliono integrare i testi in uso nel corso, ed essere una guida per una lettura consapevole ed approfondita degli stessi. L’insegnamento di Probabilità 1, pensato per gli studenti del I anno del corso di laurea in Matematica, offre delle peculiarità rispetto agli altri insegnamenti dello stesso anno. Da un lato, esso vive del compromesso tra un approccio rigoroso alla probabilità e l’impossibilità di affrontare correttamente la teoria della misura durante il corso; dall’altro esso consente (e richiede) di risolvere problemi direttamente legati alla vita quotidiana o a fenomeni del mondo esterno. Molti studenti di Matematica tuttavia trovano difficoltà nel modelizzare correttamente tali fenomeni, o nel tradurli in un linguaggio matematico preciso. Uno degli obiettivi del corso di Probabilità è quindi quello di colmare tali lacune. Ci sono numerosi testi di calcolo delle probabilità che aiutano in questo approccio, fornendo numerosi esempi, esercizi e metodi di soluzione ai problemi. Avendo scelto uno di tali testi (il Ross) come libro di riferimento per il corso, lo scopo di queste note è allora quello di mettere la teoria ed i problemi affrontati durante il corso in una prospettiva matematica più ampia e coerente con gli altri corsi seguiti. La probabilità non è diversa dagli altri insegnamenti come può apparire a prima vista ad uno studente sommerso da calcoli su dadi, monete ed urne. Sono le stesse definizioni e gli stessi problemi di tutta la matematica a fornire gli strumenti per la modellizazione probabilistica. Ad esempio in queste note si è voluto coprire con rigore il teorema del limite centrale: esso lega la nozione di convergenza debole di misure (sicuramente più strutturata ed astratta rispetto alla media degli argomenti presentati al I anno) con la possibilità di fare stime numeriche esplicite e non banali in problemi reali. Queste note sono pensate per essere lette contemporaneamente ad un testo che offra spunti per esempi ed esercizi, e come supporto alle lezioni ed esercitazioni di Probabilità 1. Non tutti i contenuti sono quindi obbligatori ai fini del superamento del corso. Le sezioni, i teoremi e gli esercizi marcati con ? sono facoltativi, e non sempre trattati a lezione. Ogni commento, in particolare la correzione di errori o imprecisioni, è benvenuto. Queste note sono disponibili sul sito www.mat.uniroma1.it/~mariani. Mauro Mariani 3 CAPITOLO 1 Notazione e preliminari In questa sezione si ricordano alcuni risultati preliminari, indispensabili per il seguito. Si assume che il lettore abbia familiarità con la teoria ingenua degli insiemi, le funzioni di variabili reali, gli spazi vettoriali. Nelle ultime sezioni delle note si assume un risultato di convergenza per le serie di Fourier, tipicamente affrontato nell’ultima parte del corso di Analisi 1 (e comunque richiamato in queste note). 1. Notazione di base Nel seguito è utilizzata l’abituale notazione insiemistica (appartenenza, unione, intersezione, funzioni). Inoltre N := {0, 1, . . .} è l’insieme dei numeri naturali, N+ = {1, 2, . . .} l’insieme dei naturali strettamente positivi, Z l’insieme degli interi, Q l’insieme dei razionali, R l’insieme dei reali, R+ l’insieme dei reali strettamente + positivi, R+ 0 = R ∪ {0} l’insieme dei reali positivi, C l’insieme dei complessi. Dati due insiemi E ed F , F E denota l’insieme delle funzioni f : E → F , mentre 2E è l’insieme delle parti di E. Tali notazioni sono consistenti, in quanto l’insieme della parti di E è in corrispondenza biunivoca con {0, 1}E . Se E è finito, |E| ∈ N rappresenta la sua cardinalità, ad esempio |∅| = 0, |2E | = 2|E| . Gli intervalli di R si denotano come [a, b], [a, b[ etc, a seconda che gli estremi siano inclusi o esclusi. Ad esempio [a, a] = {a}, [a, a) = ∅, (−∞, +∞) = R, (0, +∞) = R+ . Cb (R) denota l’insieme delle funzioni continue e limitate su R, mentre Cc (R) denota le funzioni continue a supporto compatto su R; ossia f ∈ Cc (R) sse f ∈ C(R) ed esiste L > 0 tale che f (x) = 0 se |x| > L. 2. Richiami preliminari 2.1. Funzioni ed inverse. Dati S, S 0 due insiemi non vuoti ed una funzione 0 f : S → S 0 , possiamo sollevare f ad una funzione f : 2S → 2S (denotata ancora con f abusando della notazione) ponendo per E ⊂ S f (E) := {u ∈ S 0 : ∃s ∈ S con f (s) = u} (1.1) 0 Analogamente l’inversa f −1 di f è una funzione f −1 : 2S → 2S definita ponendo per F ⊂ S 0 f −1 (F ) := {s ∈ S : f (s) ∈ F } (1.2) 0 Si noti che in generale non si può definire l’inversa di f su S 0 , ma solo su 2S . Tuttavia, se f è una biiezione, esiste un’unica funzione g : S 0 → S tale che f ◦ g sia l’identità su S ed g ◦ f sia l’identità su S 0 . Si verifica immediatamente che g(F ) = f −1 (F ), dove g(·) è definita analogamente a (1.1). Una tale g viene chiamata l’inversa di f su S 0 , e ancora denotata, con abuso di notazione, f −1 . Tuttavia l’inversa su S 0 di una funzione biiettiva non va confusa con l’inversa f −1 definita 5 6 1. NOTAZIONE E PRELIMINARI 0 su 2S . Esse sono due oggetti diversi (l’una è una funzione da S 0 in S, l’altra da 0 2S in 2S ), e solo la seconda esiste se f non è biiettiva. La seguenti osservazioni dovrebbero essere note, e si dimostrano applicando direttamente le definizioni della teoria ingenua degli insiemi. Osservazione 1.1. Siano S, S 0 due insiemi non vuoti ed f : S → S 0 una funzione. Sia (Eα )α∈A una famiglia di sottoinsiemi di S. Allora (a) f (S) ⊂ S 0 . (b) f (∩α∈A Fα ) ⊂ ∩α∈A f (Fα ). (c) f (∪α∈A Eα ) = ∪α∈A f (Eα ). Osservazione 1.2. Siano S, S 0 due insiemi non vuoti ed f : S → S 0 una funzione. Sia (Eα )α∈A una famiglia di sottoinsiemi di S, ed (Fα )α∈A una famiglia di sottoinsiemi di S 0 . Allora (a) f −1 (S 0 ) = S. (b) f −1 (∩α∈A Fα ) = ∩α∈A f −1 (Fα ). In particolare gli (Fα )α∈A sono a due a due disgiunti, ossia se Fα ∩ Fβ = ∅ per α 6= β, allora gli (f −1 (Fα ))α∈A sono a due a due disgiunti. (c) f −1 (∪α∈A Fα ) = ∪α∈A f −1 (Fα ). In qualche senso, tali osservazioni mostrano che l’inversa di una funzione è più regolare della funzione stessa. Questo sarà un punto chiave per comporre funzioni e misure di probabilità nella Sezione 4. Si veda anche l’Esercizio 1.1 alla fine di questo capitolo. 2.2. Funzione indicatrice. La seguente notazione sarà utilizzata spesso. Definizione 1.3. Dato un insieme S non vuoto ed E ⊂ S chiamiamo funzione indicatrice di E la funzione 1E : S → {0, 1} definita come ( 1 se s ∈ E 1E (s) := 0 se s 6∈ E A volte può essere utile considerare 1E come una funzione a valori in R (e non in {0, 1}). Così possiamo ad esempio definire la funzione ϕ : R → R ϕ(x) := 5 1[0,1] (x) + 2 1[2,4] (x) il cui grafico è rappresentato di seguito. Nota. A volte la funzione indicatrice di un insieme E viene anche chiamata la funzione caratteristica di E. Quando si parla di probabilità tuttavia è preferibile la dicitura funzione indicatrice poichè con funzione caratteristica si denota un altro oggetto (vedere la Definizione 6.16). 2.3. Limiti di insiemi e successioni. La seguente notazione è di uso comune e conveniente nel seguito. Essa è simile alle definizioni di limite superiore e limite inferiore per successioni di numeri reali. Definizione 1.4. Sia (Ei )i∈N+ una successione di sottoinsiemi di un insieme S. Si definiscono i due seguenti sottoinsiemi di S \ [ lim Ei ≡ lim Ei := Ek i i→+∞ lim Ei ≡ lim Ei := i i→+∞ n∈N+ k≥n [ \ n∈N+ k≥n Ek 2. RICHIAMI PRELIMINARI 7 Figura 1. Il grafico della funzione ϕ(x) = 5 1[0,1] (x) + 2 1[2,4] (x). rispettivamente come il limite superiore della successione ed il limite inferiore della successione. Si ha che limi Ei ⊃ limi Ei . Se limi Ei = limi Ei , allora si dice che la successione ammette limite, e tale insieme limite si denota limi→+∞ Ei . Definizione 1.5. Una successione (Ei )i∈N+ di sottoinsiemi di un insieme S si dice: crescente se Ei ⊂ Ej per ogni i ∈ N+ e j ≥ i; decrescente se Ei ⊃ Ej per ogni i ∈ N+ e j ≥ i. Se una successione è crescente oppure decrescente essa si dice monotona. Osservazione 1.6. Sia (Ei )i∈N+ una successione di sottoinsiemi di un insieme S. Se la tale successione è monotona allora essa ammette limite e [ lim Ei = Ei se la successione è crescente i i∈N+ lim Ei = i \ Ei se la successione è decrescente i∈N+ Si vedano gli esercizi alla fine del capitolo per prendere dimestichezza con i limiti, le unioni e le intersezioni di successioni di insiemi. Per successioni di numeri reali si danno delle definizioni analoghe a quelle insiemistiche. Definizione 1.7. Sia (ai )i∈N+ una successione di numeri reali ai ∈ R. Si definiscono lim ai := inf+ sup ak ∈ R ∪ {−∞} ∪ {+∞} i n∈N k≥n lim ai := sup inf ak ∈ R ∪ {−∞} ∪ {+∞} i n∈N+ k≥n 8 1. NOTAZIONE E PRELIMINARI Allora limi ai ≥ limi ai , e se il limite superiore ed inferiore coincidono tale valore è detto limite della successione e si denota limi ai . Proposizione 1.8. Siano (ai )i∈N+ e (bi )i∈N+ due successioni di numeri reali positivi. Supponiamo che esista una biiezione π : N+ → N+ tale che bi = aπ(i) , ossia P∞ P∞ che la successione (bi ) sia ottenuta permutando gli ai . Allora i=1 ai = i=1 bi . In particolare, per un insieme S finito P o numerabile ed una famiglia (as )s∈S di numeri reali positivi possiamo scrivere s∈S as senza ambiguità. 2.4. Richiami di analisi matematica. Ricordiamo un classico teorema sulle serie di Fourier (in genere affrontato alla fine del I semestre nel corso di Analisi, ed utilizzato alla fine di questo corso). Teorema 1.9. Sia f : [−π, π] → R una funzione continua, derivabile con derivata continua su (−π, π) e tale che f (−π) = f (π). Esistono due successioni (ai )i∈N e (bi )i∈N+ di numeri reali tali che lim sup n→+∞ x∈[−π,π] |f (x) − fn (x)| = 0 dove la funzione fn [−π, π] → R è data da fn (x) := a0 + n X ak cos(k x) + bk sin(k x) k=1 Ricordiamo che per θ ∈ R, ei θ = cos(θ) + i sin(θ). In particolare se α ∈ C, α ei θ + α ¯ e−iθ ∈ R. Corollario 1.10. Siano dati ε > 0, f ∈ Cc (R) ed L > 0 tale che f (x) = 0 per |x| ≥ L. Allora esistono N ∈ N+ , α0 ∈ R, α1 , . . . , αN ∈ C tali che, definita fε : R → R come fε (x) = α0 + N X αk exp(i k π L x) + α ¯ k exp(−i k π L x) k=1 si ha sup f (x) − fε (x) ≤ ε x∈[−L,L] Ricordiamo delle proprietà delle funzioni convesse su R. Proposizione 1.11. Sia f : R → R, e per a, b ∈ R sia `a , b : R → R la funzione affine `a,b (x) = a x + b. Allora le due seguenti condizioni sono equivalenti. (a) Per ogni α ∈ [0, 1] ed x, y ∈ R, f (αx + (1 − α)y) ≤ αf (x) + (1 − α)f (y). (b) f (x) = supa,b : `a,b ≤f `a,b (x) per ogni x ∈ R. Una f che soddisfi tali condizioni si dice convessa. Se f è convessa, per ogni ϕ ∈ C 2 (R) ∩ Cc (R) con ϕ ≥ 0, si ha che Z f (x)ϕ00 (x) dx ≥ 0 R In particolare, se f ∈ C (R) si ha f 00 ≥ 0. 2 3. ESERCIZI CAPITOLO 1 9 2.5. Un limite ed un integrale notevoli. Il seguente limite, detto limite di Eulero, è immediato. Osservazione 1.12. Sia (xn ) una successione di numeri reali. Se xn → x allora n lim 1 + xnn = ex n→+∞ Il seguente integrale può essere calcolato con diverse tecniche (ad esempio considerandone il quadrato e passando in coordinate polari). Si noti tuttavia che una 2 funzione primitiva di e−x /2 non può scriversi esplicitamente in termini di funzioni elementari (quest’ultimo risultato è piuttosto complicato da formalizzare e mostrare, ma esso ha un senso molto preciso). Osservazione 1.13. Siano m ∈ R e σ 2 > 0. Allora Z +∞ √ (x−m)2 e 2σ2 dx = 2πσ 2 −∞ Più in generale, se λ ∈ C √ 1 2πσ 2 Z +∞ e (x−m)2 2σ 2 eiλx dx = e−σ 2 λ2 +i λ m −∞ 3. Esercizi Capitolo 1 Esercizio 1.1. Provare le Osservazioni 1.1-1.2. Con la stessa notazione di tali osservazioni, dire sotto quali ipotesi sulla funzione f valgono (a) f (S) = S 0 . (b) f (∩α∈A Eα ) = ∩α∈A f (Eα ). In particolare se gli (Eα )α∈A sono a due a due disgiunti, allora gli (f (Eα ))α∈A sono a due a due disgiunti. Dedurne che entrambe le condizioni sono sempre vere (per ogni scelta degli (Eα )) sse f è l’inversa su S di una biiezione g : S → S 0 , nel qual caso esse corrispondono proprio ai punti (a)-(b) dell’Osservazione 1.2 applicata alla funzione g. Esercizio 1.2. Disegnare il grafico della funzione ϕ : R → R definita come ϕ(x) = x 1[0,2] (x) − 1[1,3] (x). Esercizio 1.3. Sia data una successione (Ei )i∈N+ di sottoinsiemi di un insieme S. Mostrare che limi Ei è l’insieme di tutti gli s ∈ S che appartengono ad un numero infinito di Ei . Mostrare che limi Ei è l’insieme di tutti gli s ∈ S che appartengono definitivamente a tutti gli Ei (ossia gli s ∈ S che sono in tutti gli Ei con i ≥ j ≡ js ∈ N+ , per un qualche j che in generale dipende da s). Dedurne che limi Ei ⊃ limi Ei . T Esercizio 1.4. Per i ∈ N+ , sia Ei = [i, +∞[. Trovare i∈N+ Ei e limi Ei . Esercizio 1.5. Per i ∈ N+ ed a ∈ R, siano Ei = [a − 1i , a[ ed Fi = [a − 1i , a]. Trovare limi Ei e limi Fi . Esercizio 1.6. Per i ∈ N+ , siano ( [0, 1] Ei := [i, 2 i] se i è pari se i è dispari ed Fi = Ei ∪[−i, − 1i [. Trovare i limiti superiore ed inferiore di (Ei )i∈N+ e (Fi )i∈N+ . 10 1. NOTAZIONE E PRELIMINARI Esercizio 1.7. Provare che per una successione di reali (ai ) si ha limi (−ai ) = − limi ai . Inoltre se b ∈ R, limi (ai + b) = b + limi ai . Esercizio 1.8. Provare che per una successione di insiemi (Ei ) si ha limi Eic = c limi Ei . Inoltre se F è un insieme limi (Ei ∪ F ) = F ∪ limi Ei . CAPITOLO 2 Spazi di probabilità In questo capitolo si introducono le prime definizioni e proprietà degli spazi di probabilità. Si veda anche gli interi primi due capitoli del Ross. Non è immediato immaginare come formalizzare l’idea di probabilità. Per esempio, considerato un certo fenomeno aleatorio (diciamo il lancio di un dado) potremmo volere una teoria matematica rigorosa che permetta di calcolare la probabilità degli eventi legati a tale fenomeno (i possibili risultati del lancio del dado), e che siano in linea col valore che gli assegnerebbe una persona ’ragionevole’ (1/6 per ogni risultato tra 1 e 6). Naturalmente ciò è impossibile. Se pure pensassimo la probabilità come intrinseca nei fenomeni del mondo reale (e ciò è tutt’altro che necessario), comunque non potremmo calcolarla a priori. Un altro approccio possibile segue dall’osservazione seguente. Se ripetiamo un esperimento n volte in maniera indipendente (diciamo che lanciamo un dado n volte), ci aspettiamo che ogni risultato si presenti con una frequenza che -nel limite in cui n → +∞- converge alla probabilità di tale risultato (ogni faccia del dado apparirà in 1/6 dei lanci). Dunque potremmo voler introdurre una teoria matematica rigorosa che permetta di calcolare i limiti delle frequenze di risultati di esperimenti indipendenti. Oltre alla stessa critica dell’approccio soggettivista riportata sopra, questo approccio richiede anche la precisazione del termine indipendenza, che verosimilmente è più difficile da formalizzare di quello di probabilità. Insomma, è chiaro che siamo molto lontani da una formalizzazione precisa seguendo questi approcci. A noi (matematici) basta introdurre una semantica che evochi queste idee (parleremo quindi di probabilità, numeri aleatori, eventi), e mettere in assiomi le relazioni che intercorrono tra di essi. Come in ogni altro settore della matematica. Sarà poi una questione non-matematica (ma comunque richiesta negli esercizi del corso), proporre dei modelli stocastici che ’una persona ragionevole’ possa utilizzare per calcolare la probabilità di eventi aleatori. Non possiamo mostrare matematicamente che la probabilità di fare ambo nell’estrazione del lotto sia 1/4005; possiamo però dare un modello ’ragionevole’ del fenomeno dell’estrazione, e quindi usarlo per calcolare (rigorosamente all’interno del modello) tale probabilità. La seguente definizione, alla base del nostro corso, fornisce un esempio di tale approccio assiomatico dovuto a Kolmogorov. 1. Spazi ingenui di probabilità Definizione 2.1. Uno spazio (ingenuo) di probabilità è una coppia (S, P), dove S è un insieme non vuoto e P un’applicazione P : 2S → [0, 1] tale che (a) P(S) = 1. 11 12 2. SPAZI DI PROBABILITÀ (b) Per ogni famiglia numerabile (Ei )i∈N+ di sottoinsiemi di S a due a due disgiunti (ossia Ei ∩ Ej = ∅ per i 6= j) si ha P ∞ [ ∞ X Ei = P(Ei ) i=1 i=1 In questo contesto, S si dice uno spazio campionario, i sottoinsiemi di S eventi e P una misura di probabilità o una legge di probabilità o ancora una probabilità su S. La proprietà (a) della definizione precedente è detta proprietà di normalizzazione di P, mentre la proprietà (b) è detta σ-additività di P. Il prefisso σ- è legato al fatto che tale proprietà è richiesta per successioni infinite numerabili di sottoinsiemi di S, e non su famiglie finite. La seguente proposizione mostra che la σ-additività è una condizione più forte dell’additività. Proposizione 2.2. Sia (S, P) uno spazio di probabilità Pn ed E1 , . . . , En ⊂ S degli eventi a due a due disgiunti di S. Allora P(∪ni=1 Ei ) = i=1 P(Ei ). Dimostrazione. Siano E1 , . . . , En come nell’enunciato, e definiamo Ek = ∅ per k ≥ n + 1. Allora la successione (Ei )i∈N+ è composta da eventi a due a due disgiunti e dalla σ-additività P(∪ni=1 Ei ) = P(∪i∈N+ Ei ) = X i∈N+ P(Ei ) = n X P(Ei ) + i=1 +∞ X P(∅) i=n+1 Poichè il termine di sinistra è finito, la serie a destra deve essere convergente e quindi P(∅) = 0. Corollario 2.3. Sia (S, P) uno spazio di probabilità. Allora (a) (b) (c) (d) (e) (f) Per ogni E ⊂ S, P(E c ) = 1 − P(E). P(∅) = 0. Se E ⊂ F ⊂ S, allora P(E) ≤ P(F ). Se E, F ⊂ S e P(E) = 0, allora P(E ∩ F ) = 0. Se E, F ⊂ S e P(E) = 1, allora P(E ∩ F ) = P(F ). Siano E, F ⊂ S. Allora P(E ∪ F ) = P(E) + P(F ) − P(E ∩ F ) (b) (c) (d) (e) (f) Dimostrazione. (a) S = E ∪ E c , e per additività 1 = P(S) = P(E) + P(E c ) essendo E ed E c disgiunti. Segue da (a) con E = S, oppure dalla prova della Proposizione 2.2. Se E ⊂ F , allora F = E ∪ (F \ E), e gli insiemi E, (F \ E) sono disgiunti. Da cui P(F ) = P(E) + P(F \ E) ≥ P(E). Si ha E ∩ F ⊂ E, e da (c) P(E ∩ F ) ≤ P(E) = 0. P(E c ) = 0, e da (d), P(F ∩ E c ) = 0. Ora F = (F ∩ E) ∪ (F ∩ E c ), con F ∩ E e F ∩ E c disgiunti (essendo E ed E c disgiunti). Quindi per additività P(F ) = P(F ∩ E) + P(F ∩ E c ) = P(F ∩ E). Dapprima notiamo che E = (E \ F ) ∪ (E ∩ F ). Essendo tale unione disgiunta, e scambiando i ruoli di E ed F abbiamo P(E) = P(E \ F ) + P(E ∩ F ) P(F ) = P(F \ E) + P(∩F ) (2.1) 1. SPAZI INGENUI DI PROBABILITÀ 13 Ora E ∪ F = (E \ F ) ∪ (E ∩ F ) ∪ (F \ E). Essendo gli eventi nell’unione di destra a due a due disgiunti, ed usando la (2.1) P(E ∪ F ) = P(E \ F ) + P(F \ E) + P(E ∩ F ) = P(E) + P(F ) − P(E ∩ F ) Proposizione 2.4. Sia (S, P) uno spazio di probabilità e (Ei )i∈N+ una successione di eventi Ei ⊂ S (non necessariamente disgiunti). Allora [ X P Ei ≤ P(Ei ) (2.2) i∈N+ i∈N+ In particolare per ogni n ∈ N+ P n [ n X Ei ≤ P(Ei ) i=1 i=1 (2.3) Dimostrazione. Definiamo la successione di eventi (Fi )i∈N+ come F1 := E1 Fi := Ei \ ∪i−1 k=1 Ek per i ≥ 2 (2.4) ∞ Notiamo che ∪∞ i=1 Fi = ∪i=1 Ei , e che la (Fi ) è una successione di eventi a due a due disgiunti. Possiamo pertanto applicare la proprietà di σ-additività agli Fi per ottenere ∞ ∞ X X ∞ ∞ P ∪i=1 Ei = P ∪i=1 Fi = P(Fi ) ≤ P(Ei ) i=1 i=1 dove nell’ultimo passaggio abbiamo considerato che Fi ⊂ Ei e quindi, dal Corollario 2.3-(c), P(Fi ) ≤ P(Ei ). La (2.3) si ottiene dalla (2.2) applicata ad una successione (Ei )i∈N+ tale che Ei = ∅ per tutti gli i ≥ n + 1. Il seguente teorema è noto come il Teorema di continuità su successioni monotone (si ricordi la Definizione 1.5). Teorema 2.5. Sia (S, P) uno spazio di probabilità e (Ei )i∈N+ una successione monotona di eventi Ei ⊂ S. Allora P(lim Ei ) = lim P(Ei ) i i Quindi, se (Ei ) è crescente P(∪i∈N+ Ei ) = P(lim Ei ) = lim P(Ei ) = sup P(Ei ) i i i∈N+ Mentre se (Ei ) è decrescente P(∩i∈N+ Ei ) = P(lim Ei ) = lim P(Ei ) = inf+ P(Ei ) i i i∈N 14 2. SPAZI DI PROBABILITÀ Dimostrazione. Consideriamo prima il caso in cui (Ei ) sia crescente e definiamo la successione di eventi (Fi ) come in (2.4). Allora X P(Fi ) P(lim Ei ) = P(∪i∈N+ Ei ) = P(∪i∈N+ Fi ) = i i∈N+ = lim n X n→+∞ P(Fi ) = lim P(∪ni=1 Fi ) = lim P(En ) n→+∞ i=1 n→+∞ dove nella prima uguaglianza abbiamo usato che gli (Ei ) sono crescenti; nella seconda che ∪i∈N+ Fi = ∪i∈N+ Ei ; nella terza il fatto che gli Fi sono a due a due disgiunti e la σ-additività; nella quarta il fatto che la serie è a termini positivi; nella quinta l’additività mostrata nella Proposizione 2.2; nella sesta ∪ni=1 Fi = En . Se gli (Ei ) sono decrescenti possiamo ripetere un’analoga catena di disuguaglianze. Oppure notare che in tal caso la successione degli Eic è crescente, ed applicando il risultato appena mostrato abbiamo P(lim Ei ) = P((lim Eic )c ) = 1 − P(lim Eic ) = 1 − lim P(Eic ) = lim P(Ei ) i i i i c i dove nella prima uguaglianza abbiamo usato che (∪i Ei ) = ∩i Eic . Il Teorema 2.5 si generalizza come segue. Teorema 2.6. Si ricordino le Definizioni 1.4, 1.5, 1.7 e l’Osservazione 1.6. Sia (S, P) uno spazio di probabilità e (Ei )i∈N+ una successione di eventi Ei ⊂ S. Allora P(lim Ei ) ≤ lim P(Ei ) ≤ lim P(Ei ) ≤ P(lim Ei ) i i i i In particolare se limi Ei esiste (ad esempio per successioni monotone di eventi) allora lim P(Ei ) = P(lim Ei ) i i + Dimostrazione. Per n ∈ N definiamo Fn := ∩k≥n Ek . (Fn ) è una successione crescente, ed inoltre per ogni k ≥ n abbiamo Fn ⊂ Ek . Quindi per il Corollario 2.3-(c), P(Fn ) ≤ P(Ek ), per ogni k ≥ n. Ottimizzando su k deduciamo P(Fn ) ≤ inf P(Ek ) k≥n ∀n ∈ N+ (2.5) Ne segue P(lim Ei ) := P( i [ Fn ) = sup P(Fn ) ≤ sup inf P(Ek ) = lim P(Ei ) n∈N+ n∈N+ n∈N+ k≥n i dove nella prima uguaglianza abbiamo usato la Definizione 1.4, nella seconda il Teorema 2.5 applicato ad (Fn ), nella terza la (2.5), e nella quarta la Definizione 1.7. La limi P(Ei ) ≤ limi P(Ei ) è la solita disuguaglianza tra limsup e liminf già notata nella Definizione 1.7. Per mostrare l’ultima disuglianza dell’enunciato, è sufficiente applicare la già mostrata disuglianza sui liminf ai complementari degli eventi Ei , combinata con gli Esercizi 1.7-1.8 lim P(Ei ) = lim 1 − P(Eic ) = 1 − lim P(Eic ) i i i c ≤ 1 − P(lim Ei ) = 1 − P (lim Ei )c = P(lim Ei ) i i 3. PROBABILITÀ SU SPAZI CAMPIONARI FINITI O NUMERABILI 15 L’Esercizio 2.1 mostra l’interesse del seguente corollario. Corollario 2.7. Sia (S, P) uno spazio di probabilità. Per ogni successione decrescente di eventi (Ei )i∈N+ tali che ∩i Ei = ∅ si ha limi P(Ei ) = 0. Definizione 2.8. Sia (S, P) uno spazio di probabilità ed E ⊂ S. Diremo che (a) l’evento E è quasi-certo se P(E) = 1. In tal caso si dice anche che P è concentrata su E. (b) l’evento E è trascurabile se P(E) = 0. (c) l’evento E è impossibile se E = ∅. 2. Probabilità uniformi e combinatoria Definizione 2.9. Sia S finito. Allora definendo P(A) = |A| |S| A⊂S si ottiene una misura di probabilità P su S. Tale misura di probabilità è detta uniforme su S (da non confondere con la probabilità uniforme su un intervallo, nozione che sarà introdotta in seguito). Questo esempio, spesso ricorrente negli esercizi, ci suggerisce di imparare a calcolare la cardinalità di particolari classi di insiemi, così da saperne calcolare la probabilità uniforme. Proprio il calcolo delle probabilità è in effetti stato alla base dello sviluppo della combinatoria, un settore della matematica che rimane ad oggi intimamente legato alla probabilità. Non a caso, uno dei fondatori della combinatoria superiore, il matematico italiano Giancarlo Rota, è noto anche per i suoi difficilissimi corsi di teoria della probabilità al MIT. Per numerosi esempi ed esercizi di combinatoria e probabilità su insieme finiti, vedere il Capitolo1 del Ross. Una trattazione più generale di alcuni problemi si trova nel Capitolo 3 di queste note. 3. Probabilità su spazi campionari finiti o numerabili Si ricorda che una misura di probabilità è una funzione su 2S , e quindi in generale essa non è caratterizzata dai suoi valori sui singleton: ci sono ad esempio un numero infinito di misure di probabilità su S = [0, 1] tali che P({x}) = 0 per ogni x ∈ [0, 1]. Tuttavia, essa non è un’arbitraria funzione su 2S , poichè deve essere normalizzata e σ-additiva. Vogliamo dimostrare che se lo spazio campionario S è finito o numerabile, allora i valori di P sui singleton identificano univocamente P. In pratica, per assegnare una misura di probabilità su uno spazio campionario S finito o numerabile, è sufficiente assegnare la probabilità di ciascun elemento di S (e non di ciascun sottoinsieme di S). Ciò è piuttosto intuitivo; ad esempio se si conoscono le probabilità che un dado dia risultato 1, 2, 3, 4, 5 o 6, si conosce anche la probabilità che il dado dia un numero pari, o un numero minore di 4. Teorema 2.10. Sia S un insieme finito o numerabile. Allora (a) se P è una misura di probabilità su S, la funzione p : S → R definita come p(s) := P({s}) per s ∈ S soddisfa X p(s) ≥ 0 ∀s ∈ S, p(s) = 1 (2.6) s∈S 16 2. SPAZI DI PROBABILITÀ (b) Viceversa, data una funzione p : S → R che soddisfi (2.6), esiste un’unica misura di probabilità P su S per cui P({s}) = p(s). Inoltre per ogni E ⊂ S X P(E) := p(s) (2.7) s∈E che è ben definita grazie alla Proposizione 1.8. In altre parole, per ogni evento E ⊂ S vale X X P(E) = P({s}) = P({s})1E (s) s∈E (2.8) s∈S Dimostrazione. (a) Dalla Definizione 2.1 segue p(s) = P({s}) ≥ 0 per ogni s ∈ S. D’altra parte, poiché gli eventi {s}s∈S sono a due a due disgiunti, per σ-additività (o additività nel caso di S finito) di P X X p(s) = P({s}) = P(∪s∈S {s}) = P(S) = 1 s∈S s∈S S (b) Definiamo P : 2 → R come nella (2.7). L’enunciato segue dai seguenti tre punti. (b1) P prende valori in [0, 1]. Per ogni E ⊂ S, P(E) ≥ 0 in quanto somma (o serie) di termini positivi. D’altra parte per (2.6) X X P(E) := p(s) ≤ p(s) = 1 s∈E s∈S (b2) P è normalizzata e σ-additiva (Definizione 2.1-(a) e -(b)). La proprietà di normalizzazione segue da X P(S) := p(s) = 1 s∈S Sia ora (Ei )i∈N+ una famiglia di sottoinsiemi di S a due a due disgiunti. Evidentemente s ∈ ∪i∈N+ Ei sse s è in uno ed uno soltanto degli Ei . Pertanto dalla Proposizione 1.8 P ∞ [ i=1 Ei = X p(s) = s∈∪∞ i=1 Ei +∞ X X p(s) = i=1 s∈Ei +∞ X P(Ei ) i=1 e dunque P è σ-additiva. (b3) Se P0 è una misura di probabilità su S tale che P0 ({s}) = p(s) per ogni s ∈ S, allora P0 = P. Se E ⊂ S, allora E è esso stesso finito o numerabile, e possiamo pertanto scriverlo come un’unione (finita o numerabile) di eventi a due a due disgiunti ponendo E = ∪s∈E {s}. Pertanto, dalla σ-additività (o additività se E è finito) di P0 segue X X P0 (E) = P0 (∪s∈E {s}) = P0 ({s}) = p(s) = P(E) s∈E 0 s∈E Poiché P e P coincidono su ogni E ⊂ S, esse coincidono come funzioni su 2S , ossia P0 = P. 4. PROBABILITÀ DISCRETE: ESEMPI E CONTROESEMPI 17 4. Probabilità discrete: esempi e controesempi In questa sezione generalizziamo il caso di spazio campionari numerabili, al caso di spazio con misure di probabilità concentrate su insiemi numerabili. Tale generalizzazione è utile per parlare nel seguito di variabili aleatorie, e per approssimare variabili aleatorie generali con variabili discrete. Definizione 2.11. Sia (S, P) uno spazio di probabilità. P si dice discreta se essa è concentrata su un insieme finito o numerabile. Ossia se esiste un insieme finito o numerabile E ⊂ S tale che P(E) = 1. Esempio 2.12. Siano S un insieme non vuoto ed x ∈ S. La delta di Dirac centrata in x, indicata con P = δx , è la misura di probabilità su S definita da ( 1 se x ∈ E δx (E) = E⊂S 0 se x 6∈ E È immediato verificare che δx è in effetti una probabilità su S. Inoltre δx è l’unica misura di probabilità P su S tale che, per ogni y ∈ S ( 1 se x = y P({y}) = 0 se x 6= y Ossia, anche nel caso di S non numerabile, δx è identificata dai suoi valori sui singleton. Naturalmente δx è una misura discreta essendo concentrata su {x}. Esempio 2.13. Siano S e J due insiemi non vuoti con J finito o numerabile. Siano poi (xj )j∈J una famiglia di elementi (non necessariamente distinti) di S, e α una misura di probabilità su J. Come nel Teorema 2.10 denotiamo αj = α({j}). Definiamo la misura di probabilità P su S ponendo per E ⊂ S X X P(E) := αj = αj δxj (E) (2.9) j∈J : xj ∈E j∈J P Si denota P = j αj δxj ed è immediato verificare che P è l’unica misura di probabilità su S tale che X P({x}) = αj per ogni j ∈ J j∈J : xj =x Dunque anch’essa è identificata dai suoi valori sui singleton. Naturalmente è una misura discreta essendo concentrata su S0 . P j αj δxj Osservazione 2.14. Sia (S, P) uno spazio di probabilità con P discreta, e sia E ⊂ S finito o numerabile con P(E) = 1. Per x ∈ E definiamo αx = P({x}). P Allora vale P = x∈E αx δx . In altre parole, una misura di probabilità è discreta sse ammette la rappresentazione (2.9). Il Teorema 2.10 si generalizza immediatamente al caso discreto. Teorema 2.15. Sia S un insieme non vuoto ed E ⊂ S finito o numerabile. Allora (a) se P è una misura di probabilità su S e concentrata su E, la funzione p : S → R definita come p(s) := P({s}) per s ∈ S soddisfa X p(s) ≥ 0 ∀s ∈ S, p(s) = 1 s∈E 18 2. SPAZI DI PROBABILITÀ (b) Viceversa, data una funzione p : S → R che soddisfi (2.6), esiste un’unica misura di probabilità P su S per cui P({s}) = p(s). Inoltre P è concentrata su E e per ogni F ⊂ S X P(F ) := p(s) s∈E∩F Esempio 2.16. Vogliamo costruire un modello probabilistico per il risultato aleatorio del lancio di un dado. Possiamo ottenere tutti i numeri 1, 2, 3, 4, 5, 6 con probabilità 1/6. Quindi possiamo definire S = {1, 2, 3, 4, 5, 6} e P({i}) = 1/6 per ogni i ∈ S. Dal Teorema 2.10, tale scelta identifica univocamente P. Tuttavia, per motivi chiari P6 in seguito, potremmo voler prendere S = R. Ciò è possibile, ponendo P = i=1 61 δi . Con la notazione dell’Esempio 2.13, abbiamo J = {1, 2, 3, 4, 5, 6}, αj = 1/6 per ogni j ∈ J e xj = j. Esempio 2.17. Lanciamo una moneta onesta infinite volte, e ad ogni lancio identifichiamo testa con 0 e croce con 1. Lo spazio campionario è dato da S = + {0, 1}N = {(x1 , x2 , . . . ) : xk ∈ {0, 1}}. xk è da intendersi come il risultato del lancio k-esimo. Dato a ∈ S e n ∈ N+ , consideriamo l’evento Ean Ean := {x ∈ S : xi = ai , ∀i = 1, . . . , n} Se ad esempio a = (0, 0, 0, . . .), allora Ean è l’evento che corrisponde ad ottenere n volte testa nei primi n lanci. Anche se non sappiamo come definire una misura di probabilità su ogni sottoinsieme di S (si veda la Sezione 6), la misura di probabilità P corrispondente a lanci di una moneta ""onesta” è tale che P(Ean ) = 2−n Ean 0 Ean (2.10) 0 se n ≥ n e che {a} = ⊂ per ogni a ∈ S. Si noti che applicando il Teorema 2.5 del limite di successioni monotone ∩n≥1 Ean . Pertanto, P({a}) = P(∩n≥1 Ean ) = lim P(Ean ) = lim 2−n = 0 n→+∞ n→+∞ Vale a dire, ogni punto di S ha probabilità 0, e dunque P non è identificata dai suoi valori sui singleton. Inoltre P non è discreta, poichè per σ-additività ogni insieme finito o numerabile è trascurabile (ha probabilità 0). Esempio 2.18. Vorremmo dare un modello per l’esperimento ideale in cui si sceglie a caso un punto dall’intervallo [0, 1]. Lo spazio campionario è allora S = [0, 1]. Risulta naturale proporre come funzione di probabilità P(E) := lunghezza di E per ogni E ⊂ S Tuttavia non tutti i sottinsiemi di S = [0, 1] hanno una lunghezza ben definita, e la funzione P non potrà essere definita per ogni E ⊂ [0, 1]. Si prova infatti che non esiste una funzione di probabilità sull’insieme delle parti di [0, 1] tale che per cui P([a, b]) = b − a. Tale ostacolo è superato dalla nozione di spazio di probabilità (non ingenuo), dove gli eventi non sono tutti i possibili sottinsiemi di S, ma una sottofamiglia con opportune proprietà (detta σ–algebra). Ad esempio, in questo caso tale famiglia è data proprio dagli E la cui lunghezza è ben definita. Si noti che per definizione P({s}) = 0 per ogni esito s, cioè gli esiti hanno probabilità di realizzazione nulla (anche se uno verrà realizzato). In particolare P non può essere discreta. 6. ?SPAZI DI PROBABILITÀ 19 5. Probabilità continue su R L’Esempio 2.18 fornisce un esempio tipico di probabilità non discreta. In questa sezione diamo qualche definizione che ci tornerà molto utile nel seguito. Sebbene in questo corso ci concentreremo unicamente su misura di probabilità discrete e continue, non si deve pensare che, anche sullo spazio campionario S = R, tutte le misure di probabilità siano o discrete o continue (nè combinazioni convesse di discrete e continue). Definizione 2.19. Una misura di probabilità P sullo spazio reale S = R si dice continua se esiste una funzione integrabile % : R → R+ tale Z P(I) = %(x) dx per ogni intervallo I ⊂ R (2.11) I Una funzione % per cui valga la (2.11) si dice una densità della probabilità P. Osservazione 2.20. Sia % : R → R+R integrabile. Allora esiste una misura di probabilità P su di cui % è la densità sse R %(x)dx = 1. In tal caso sussiste Z P(E) = %(x)dx per ogni evento E ⊂ R (2.12) E R Dimostrazione. Se % è una densità di probabilità, allora 1 = P(R) = R %(x)dx. Viceversa, data % con tale proprietà, definiamo P come in (2.12), e verifichiamo che si tratti di una probabilità. Dalla positività di % e (2.11) segue subito 0 ≤ P(E) ≤ 1 e P(R) = 1. Per verificare la σ-additività, notiamo dapprima che se gli (En ) sono una famiglia numerabile di intervalli a due a due disgiunti, allora Z XZ X P(∪n En ) = %(x)dx = %(x)dx = P(En ) ∪n En n En n In generale, per eventi E generali, non abbiamo neanche definito propriamente cosa voglia dire la (2.12), e per comprendere propriamente cosa si intenda per evento e σ-additività in questo contesto (e completare la prova) è necessario leggere le prossime sezioni (facoltative) di questo capitolo. Nota. Una probabilità continua P su R ammette infinite densità diverse. Ad esempio, se cambiamo una densità % in un numero finito (o numerabile) di punti, la (2.11) rimane valida. Consideriamo allora l’insieme D di tutte le funzioni % : R → [0, +∞) integrabili e di integrale pari ad 1, e sia P una probabilità continua su R. Consideriamo la seguente relazione di equivalenza su D %1 ∼ %2 ⇐⇒ P({x ∈ R : %1 (x) = %2 (x)}) = 1 ossia %1 ∼ %2 sse %1 (x) = %2 (x) P-quasi certamente. Allora, se % ∈ D è una densità di P, una %˜ ∈ D è una densità di P sse %˜ ∼ %. In altre parole, la densità è definita univocamente sul quoziente D/ ∼. 6. ?Spazi di probabilità Questa sezione è dedicata ad una breve introduzione alla teoria della probabilità (contrapposta al calcolo elementare delle probabilità che fa uso degli spazi ingenui, e non può essere applicato rigorosamente in generale). Per approfondire questi argomenti, il libro di Sinai offre degli ottimi spunti. 20 2. SPAZI DI PROBABILITÀ 6.1. ?Un paradosso. Il seguente teorema, noto come paradosso di BanachTarski, ci lascia riflettere sui limiti della nozione di spazio ingenuo di probabilità. Un’ampia discussione di tale paradosso si trova in S. Wagon, The Banach-Tarski Paradox, Cambridge University Press, Cambridge, 1985. Teorema 2.21. Per x ∈ R3 , sia Bx la palla unitaria 3-dimensionale centrata in x, ossia Bx = {y ∈ R3 : (y1 − x1 )2 + (y2 − x2 )2 + (y3 − x3 )2 < 1}. Ad esempio B0 è la palla di raggio 1 centrata nell’origine. Esiste una partizione (Ei )6i=1 di B0 in 6 sottoinsiemi (ossia gli Ei sono a due a due disgiunti e B0 = ∪6i=1 Ei ), ed esistono 6 isometrie dirette (composizioni di rotazione e traslazioni in R3 ) Ti , i = 1, . . . , 6, tali che ∪6i=1 Ti (Ei ) = B(−1,0,0) ∪ B(1,0,0) Cosa ci sta dicendo questo teorema? Si afferma che è possibile ’tagliare’ una palla in 6 parti, ruotare e traslare rigidamente ciascuna di queste parti, ed ottenere alla fine due palle uguali a quella di partenza (stesso raggio)! A prima vista questo ci sembra un paradosso. La palla iniziale aveva un volume finito, le rotazioni e le traslazioni rigide conservano il volume: poco importa come taglieremo la palla, la somma dei volumi delle parti ottenute Ei dovrà essere sempre uguale al volume iniziale; eppure alla fine della procedura abbiamo ottenuto due palle, raddoppiando nei fatti il volume! Il paradosso è presto sciolto: il problema è che gli insiemi Ei sono talmente bizzarri che non è possibile parlare di volume per loro, e l’intuizione ingenua precedente non si applica. Più precisamente, non è possibile definire un ’volume’, additivo ed invariante per rotazioni e traslazioni, per ogni sottoinsieme di R3 . Ora, se pensiamo di voler scegliere ’a caso’ un punto su B0 cadiamo nello stesso paradosso. Stiamo cercando di definire una misura di probabilità su R3 , che sia concentrata su B0 , e tale che la probabilità di un sottoinsieme E di B0 sia P(E) = Volume(E) Volume(B0 ) Naturalmente la costante Volume(B0 ) non cambia niente nel paradosso di BanachTarski: una tale probabilità semplicemente non esiste. Con dei paradossi un po’ meno evidenti, è possibile far vedere che anche su R (o su un generico Rn ) non è possibile definire misure di probabilità associate all’idea di lunghezza (o area etc in dimensione maggiore), che assegnino una probabilità ad ogni sottoinsieme di R. La soluzione di questo problema tuttavia non è molto complicata. Semplicemente dobbiamo decidere a priori quali sottoinsiemi dello spazio campionario vogliamo considerare. In fondo, misurare il volume o dare una probabilità per insiemi bizzarri e non-costruttivi come quelli del paradosso di Banach-Tarski, non ci interessa molto. 6.2. ?Spazi misurabili. Ci siamo convinti che non è necessario (anzi è spesso impossibile) definire una probabilità P come una funzione P : 2S → [0, 1]. Piuttosto, vogliamo fissare una famiglia di eventi F ⊂ 2S e definire la probabilità come una funzione P : F → [0, 1]. In altre parole, la scelta di F farà parte del nostro modello probabilistico, proprio come lo spazio campionario S e la misura di probabilità P. Tuttavia, non possiamo scegliere F in maniera del tutto arbitraria. Anche solo per enunciare le proprietà (a) e (b) della Definizione 2.1 abbiamo bisogno che P sia definita su S, e sull’unione numerabile di eventi di F. Allo stesso modo, vorremmo 6. ?SPAZI DI PROBABILITÀ 21 poter avere a disposizione i risultati della Proposizione 2.2, del Corollario 2.3 o del Teorema 2.6: questi descrivono delle proprietà intuitive della probabilità, e vorremmo che siano validi quale che sia la nostra definizione di spazio di probabilità. Dobbiamo ad esempio poter parlare di probabilità dell’evento complementare di un evento dato. Le osservazioni precedenti motivano la seguente definizione. Definizione 2.22. Sia S un insieme non vuoto. Una famiglia F di sottoinsiemi di S è detta σ-algebra se (a) ∅ ∈ F. (b) Se E ∈ F, allora E c ∈ F. (c) Data una famiglia numerabile E1 , E2 , . . . con Ei ∈ F, vale ∪∞ i=1 Ei ∈ F. Una coppia (S, F) dove S è un insieme non vuoto ed F una σ-algebra su S si dice spazio misurabile. Gli elementi di F, ossia i sottoinsiemi di S che sono in F, si dicono insiemi misurabili dello spazio (S, F) o, nel contesto della probabilità, eventi. Attenzione, la definizione ci sta dicendo che una σ-algebra è una famiglia di sottoinsiemi di S, quindi F ⊂ 2S , che contiene l’insieme vuoto, ed è stabile per passaggio al complementare ed unione numerabile. Osservazione 2.23. Sia (S, F) uno spazio misurabile, e sia E1 , E2 , . . . una successione di eventi. Allora (a) S ∈ F, ossia l’intero spazio campionario è un evento. (b) ∩i∈N+ Ei ∈ F, ossia l’intersezione numerabile di eventi è un evento. (c) Per ogni n ∈ N+ , ∪i≤n Ei ∈ F e ∩i≤n Ei ∈ F, ossia l’unione ed intersezione finita di eventi sono eventi. (d) Più in generale, qualsiasi sottoinsieme di S rappresentabile come composizione finita o numerabile di applicazioni insiemistiche sugli Ei è un evento (ossia è in F). Ad esempio E1 \ E2 ∈ F. Dimostrazione. (a) Dalla Definizione 2.22-(a), ∅ ∈ F, e per la Definizione 2.22-(b) S = ∅c ∈ F. (b) Analogamente ∩i Ei = ∪i Eic )c , ma per la Definizione 2.22-(c), ∪i Eic ∈ F, e per la Definizione 2.22-(b) anche il suo complementare è in F. (c) Applichiamo la Definizione 2.22-(c) alla successione di eventi Ei0 con Ei0 = Ei per i ≤ n, ed Ei0 = ∅ per i ≥ n. Otteniamo che ∪i≤n Ei ∈ F. Ragionando come al punto (b) sopra, si ha che pure ∩i≤n Ei ∈ F. (d) E1 \ E2 = E1 ∩ (E2c ). Ma E2c ∈ F, e dunque anche E1 ∩ (E2c ) per la (c). Per induzione, componendo un numero finito di volte le operazioni elementari di unione, intersezione, passaggio al complementare (e quelle derivate, come la differenza simmetrica), si ottengono ancora elementi in F. Non precisiamo qui il significato di ’composizione numerabile di operazioni elementari’. Definizione 2.24. Sia S un insieme non vuoto ed F, G due σ-algebre su S. Si dice che F è più fine (o più forte) di G se F ⊃ G, e che F è meno fine (o più debole) di G se F ⊂ G. Esempio 2.25. Sia S non vuoto. Allora 2S è una σ-algebra su S. Essa è la più fine σ-algebra su S, ossia se F è una σ-algebra, F ⊂ 2S . 22 2. SPAZI DI PROBABILITÀ Analogamente, F0 = {∅, S} è una σ-algebra su S, ed essa è la meno fine σ-algebra su S. Esempio 2.26. Sia S = {♥, ♦, ♣, ♠}. Allora F := {∅, {♥}, {♦, ♣, ♠}, S} è una σ-algebra su S, così come G := {∅, {♥}, {♦}, {♥, ♦}, {♣, ♠}, {♥, ♣, ♠}, {♦, ♣, ♠}, S} G è più fine di F. Invece H := {∅, {♥}, {♣}, {♥, ♦}, {♣, ♠}, {♥, ♣, ♠}, {♦, ♣, ♠}, S} non è una σ-algebra, poichè {♣} ∈ H, ma {♣}c = {♥, ♦, ♠} 6∈ H. Osservazione 2.27. Sia S un insieme non vuoto e (Fα )α∈A una famiglia arbitraria di σ-algebre su S. Allora F := ∩α∈A Fα è una σ-algebra su S. Ossia, l’intersezione di σ-algebre è una σ-algebra. Dimostrazione. La dimostrazione è immediata. Ad esempio ∅ ∈ Fα per ogni α ∈ A, e quindi ∅ ∈ ∩α Fα . Analogamente si ragiona per complementari ed unioni numerabili di elementi di F. Nota. In generale l’ unione di σ-algebre non è una σ-algebra. Definizione 2.28. Sia P ⊂ 2S una famiglia di sottoinsiemi di S. Si definisce F := σ(P) la σ-algebra generata da P come la meno fine σ-algebra che contiene P. Ossia F è l’intersezione di tutte le σ-algebre che contengono P (tale intersezione è non vuota poichè 2S ⊃ P). Si noti che σ(P) ⊃ P e σ(P) = P sse P è una σ-algebra. Nell’Esempio 2.26, F = σ({{♥}}), G = σ({{♥}, {♦}}), e σ(H) = 2S . Definizione 2.29. Nel caso in cui S = R, si definisce la σ-algebra di Borel B come la σ-algebra generata dalla famiglia degli intervalli (a, b) al variare di a, b ∈ R. Ossia B = σ {(a, b), a, b ∈ R . La coppia (R, B) è detta spazio di Borel (reale). Gli insiemi di B sono detti insiemi boreliani di R, o semplicemente boreliani. Osservazione 2.30. Tutti gli intervalli (aperti, chiusi, aperti a destra o a sinistri, finiti o infiniti) sono boreliani. Gli aperti ed i chiusi di R sono boreliani. Dimostrazione. L’intervallo (a, b] con a ∈ {−∞} ∪ R e b ∈ R può scriversi come (a, b] = ∩i≥n (a, b + n1 ) Pertanto (a, b] è intersezione numerabile di Boreliani, ed è dunque esso stesso Boreliano. Si ragiona analogamente per le altre famiglie di intervalli. Sia ora A ⊂ R un aperto e per x ∈ A definiamo εx := 1 2 sup{ε ≤ 1 : (x − ε, x + ε) ⊂ A} Ix := (x − εx , x + εx ) Poichè A è aperto, εx > 0 e Ix ⊂ A. Sia E := A ∩ Q l’insieme numerabile dei razionali in A. Dalla precedente osservazione abbiamo A ⊃ ∪q∈E Iq . D’altra parte, per ogni x ∈ A, esiste q ∈ Ix ∩ Q con |x − q| < εx /4, da cui x ∈ Iq . Pertanto A ⊂ ∪q∈E Iq , e dunque A = ∪q∈E Iq . Ossia ogni aperto A è unione numerabile di intervalli aperti, ed è pertanto un boreliano. Poichè ogni chiuso è il complementare di un aperto, anche i chiusi sono boreliani. 7. ?IDENTIFICAZIONE DI MISURE DI PROBABILITÀ 23 6.3. ?Spazi non ingenui di probabilità. Possiamo finalmente dare la definizione completa di spazio di probabilità. Definizione 2.31. Uno spazio di probabilità è una terna (S, F, P) tale che (S, F) è uno spazio misurabile (ossia S è non vuoto ed F è una σ-algebra su S), e P : F → [0, 1] è tale che (a) P(S) = 1 (si ricordi che S ∈ F dall’Osservazione 2.23-(a)). (b) Per ogni famiglia numerabile (Ei )i∈N+ di elementi di F a due a due disgiunti ∞ ∞ [ X P Ei = P(Ei ) i=1 i=1 Uno spazio ingenuo di probabilità è uno spazio di probabilità con F = 2S . D’altra parte, se (S, F, P) è uno spazio di probabilità, in generale non è possibile estendere P su tutto 2S mantenendo le proprietà di normalizzazione e σ-additività (questo è il contenuto del paradosso di Banach-Tarski). Potremmo dire che la nozione di spazio di probabilità è quindi (strettamente) più generale di quello di spazio ingenuo di probabilità. 7. ?Identificazione di misure di probabilità Nella Sezione 3 abbiamo visto come, su uno spazio numerabile, sia sufficiente assegnare una misura di probabilità sui singleton per identificarla univocamente. In questa sezione vogliamo dare un risultato equivalente più in generale. Infatti, nella pratica è troppo laborioso definire direttamente una misura di probabilità su ogni evento: vogliamo assegnare la probabilità su una famiglia di eventi molto più piccola dell’intera σ-algebra, ma sufficientemente grande da identificare la misura di probabilità su tutta la σ-algebra utilizzando la σ-additività. Definizione 2.32. Sia S un insieme non vuoto ed P ⊂ 2S una famiglia di sottoinsiemi di S. Diremo che P è un π-sistema se (a) P è non vuoto (esiste almeno un insieme di S in P). (b) Se E, F ∈ P, allora E ∩ F ∈ P. È immediato verificare che una σ-algebra è un π-sistema. Diamo qualche altro esempio significativo. Il lettore può facilmente identificare altre famiglie di intervalli che formano un π-sistema oltre a quelle elencate di seguito. Esempio 2.33. Sia S = R. Ciascuna delle seguenti famiglie di sottoinsiemi di R sono un π-sistema (essendo l’intersezione di due intervalli un intervallo, possibilmente vuoto). (a) Gli intervalli (incluso l’insieme vuoto) aperti della forma (a, b) con a, b ∈ R. (b) Gli intervalli (incluso l’insieme vuoto) aperti della forma (a, b) con a, b ∈ R ∪ {−∞} ∪ {+∞}. (c) Gli intervalli (incluso l’insieme vuoto) della forma (a, b] con a, b ∈ R. (d) Gli intervalli (incluso l’insieme vuoto) della forma (a, b] con a ∈ R ∪ {−∞}, b ∈ R. (e) Tutti intervalli di R (di qualunque forma). La seguente osservazione ha una dimostrazione immediata, poichè ciascun intervallo aperto può ottenersi per composizione numerabile di operazioni di insieme su una qualsiasi delle famiglie di intervalli descritte nell’Esempio 2.33 (ad esempio (a, b) = ∪i≥1 (a, b − 1/i]). 24 2. SPAZI DI PROBABILITÀ Osservazione 2.34. La σ-algebra generata da uno qualunque dei π-sistemi nell’Esempio 2.33 coincide con la σ-algebra di Borel su R. L’utilità del seguente teorema sarà presto chiara. Esso ci dice che per identificare una probabilità, è sufficiente conoscerne i valori che essa prende su un π-sistema che generi l’intera σ-algebra. Tale teorema è parte di un approccio moderno alla teoria classica della misura, che ne semplifica e potenzia la trattazione. Teorema 2.35. Siano P1 e P2 due probabilità sullo stesso spazio misurabile (S, F). Sia P un π-sistema che genera F, ossia tale che F = σ(P). Se P1 e P2 coincidono su P allora P1 = P2 . In altre parole, se P1 (E) = P2 (E) per ogni E ∈ P P1 (E) = P2 (E) per ogni E ∈ F allora La dimostrazione, arricchita da alcuni risultati più generali, è data nella prossima sezione. Notiamo il seguente corollario al Teorema 2.35, che segue dall’Osservazione 2.34. Corollario 2.36. Siano P1 e P2 due misure di probabilità sullo spazio di Borel (R, B). Se per ogni a ∈ R si ha P1 ((−∞, a]) = P2 ((−∞, a]) allora P1 = P2 . In effetti per misure di probabilità su R, si riesce a semplificare un po’ la trattazione generale della teoria della misura utilizzando le funzioni cadlag. Di seguito diamo una traccia della caratterizzazione delle misure di probabilità su R. Risultati simili, ma in un ambito più astratto, esistono su spazi misurabili più generali dello spazio boreliano, e saranno (forse) trattati nel corso di Analisi reale. Definizione 2.37. Una funzione F : R → R si dice cadlag (dal francese continue à droite, limite à gauche) se essa è continua a destra, ed ammette limite da sinistra. In altre parole, se per ogni x ∈ R lim F (y) = F (x) y↓x esiste lim F (y) =: F (x+ ) y↑x Teorema 2.38. Sia F : R → [0, 1] una funzione cadlag, crescente e tale che limx→−∞ F (x) = 0, limx→+∞ F (x) = 1. Allora esiste un’unica misura di probabilità P sullo spazio di Borel (R, B) tale che P((−∞, a]) = F (a), per ogni a ∈ R. Traccia di dimostrazione. L’unicità è una conseguenza immediata del Corollario 2.36. Dobbiamo quindi costruire una misura di probabilità P sui boreliani che verifichi P((−∞, a]) = F (a), per ogni a ∈ R. Lo faremo in tre passi: dapprima definiremo il valore di P sugli intervalli, poi sulle unioni numerabili di intervalli, ed infine su un generico elemento della σ-algebra di Borel B. Passo1: intervalli. Se I = (a, b] con a ≤ b poniamo P(I) = P((a, b]) = F (b) − F (a) (2.13) (in particolare P(∅) = 0). La scelta (2.13) è l’unica possibile, in quanto (a, b] = (−∞, b]\(−∞, a]. Quindi se P deve essere una probabilità, necessariamente P((a, b]) = P((−∞, b]) − P((−∞, a]) e dunque la (2.13) è obbligata (e banale). 8. ?DIMOSTRAZIONE DEL TEOREMA 2.35 25 Passo2: unioni numerabili di intervalli. Sia ora J l’insieme dei boreliani che si scrivono come unione numerabile di intervalli della forma (a, b], a due a due disgiunti. Se J ∈ J , diciamo J = ∪i≥1 Ii con Ii = (ai , bi ] e ai ≤ bi ≤ ai+1 , poniamo X P(J) = P(Ii ) (2.14) i≥1 dove P(Ii ) è definito tramite la (2.13). Dato J ∈ J , esso si può rappresentare in maniera non unica come unione numerabile di intervalli (ai , bi ] disgiunti. Tuttavia (si veda l’Esercizio 2.2) la somma a destra nella formula qui sopra non dipende dalla rappresentazione utilizzata, ed è quindi ben posta, e rende consistentemente P((a, b]) = F (b) − F (a). Traccia del Passo3: boreliani. Infine per un generico boreliano E ∈ F definiamo P(E) come P(E) = inf P(J) (2.15) J⊃E,J∈J dove P(J) è consistentemente definito, per j ∈ J , nella (2.14). È immediato P+∞ verificare che P(R) = i=−∞ F (i + 1) − F (i) = 1, ossia P è normalizzata. Dobbiamo mostrare la σ-additività. Sia pertanto (En )n∈N+ una famiglia numerabile di boreliani di R ed E = ∪n∈N+ En . Per n ∈ N+ sia Jn ∈ J tale che Jn ⊃ En . Allora J := ∪n Jn ⊃ E e dunque dalla (2.15) P(E) ≤ P(J) = P(∪n Jn ) ≤ +∞ X P(Jn ) n=1 dove nell’ultima disuguaglianza abbiamo usato la (2.14). Passando all’inf su tutte le scelte degli Jn ⊃ En otteniamo facilmente P(E) ≤ +∞ X P(En ) n=1 Ci resta allora da dimostrare che se gli En sono a due a due disgiunti, vale la disuguaglianza opposta. Questo è un punto tecnico, nel quale si usano le proprietà di F ed il fatto che En ∈ B, e la dimostrazione è omessa in queste note. Il lettore interessato può riferirsi al libro di Sinai in bibliografia. Ad esempio, prendendo 0 se x ≤ 0 F (x) := x se x ∈ (0, 1) 1 se x ≥ 1 la P corrispondente realizza il modello probabilistico cercato nell’Esempio 2.18. 8. ?Dimostrazione del Teorema 2.35 Definizione 2.39. Sia S un insieme non vuoto ed D ⊂ 2S una famiglia di sottoinsiemi di S. Diremo che D è un λ-sistema se (a) ∅ ∈ D. (b) Se E, F ∈ D, allora E \ F ∈ D. (c) Data una famiglia numerabile di insiemi a due a due disgiunti E1 , E2 , . . . con Ei ∈ D, vale ∪∞ i=1 Ei ∈ D. 26 2. SPAZI DI PROBABILITÀ In altre parole, la proprietà della Definizione-2.22 (c) è qui richiesta solo per successioni di insiemi a due a due disgiunti. Le seguenti osservazioni si dimostrano esattamente come nel caso delle σ-algebre, si vedano l’Osservazione 2.27, la Definizione 2.28 e l’Osservazione 2.23-(c). Osservazione 2.40. Siano S un insieme non vuoto, D un λ-sistema su S e P un π-sistema su S. Allora l’unione finita di insiemi a due a due disgiunti in D è ancora in D. Mentre l’intersezione finita di insiemi in P è ancora in P. Osservazione 2.41. Sia S un insieme non vuoto, e (Dα )α∈A una famiglia di λ-sistemi su S. Allora ∩α∈A Dα è un λ-sistema. In particolare, per P ⊂ 2S , è ben definito λ(P) come il più piccolo λ-sistema che contiene P. Lemma 2.42. Sia S un insieme non vuoto. Se D ⊂ 2S è una σ-algebra su S se e solo se D è un π-sistema ed un λ-sistema. Dimostrazione. Segue immediatamente dalle definizioni che una σ-algebra è un π-sistema ed un λ-sistema. Per verificare l’implicazione opposta, sia D un π-sistema ed un λ-sistema. Dobbiamo solo provare che ∪i Ei ∈ D se tutti gli Ei sono in D (ma non sono necessariamente a due a due disgiunti). Definiamo gli Fi come nella (2.4). Dal Lemma 2.40 segue che Fi ∈ D per ogni i, inoltre gli Fi sono in a due a due disgiunti, e dunque D 3 ∪i Fi = ∪i Ei . Teorema 2.43. Sia S un insieme non vuoto, P un π-sistema su S e D un λ-sistema su S con P ⊂ D. Allora la σ-algebra generata da P è ancora contenuta in D. In breve, P ⊂ D implica σ(P) ⊂ D. Dimostrazione. Si ricordi che λ(P) è il λ-sistema generato da P. Ci basterà mostrare che λ(P) è un π-sistema. Infatti in tal caso λ(P) è una σ-algebra per il Lemma 2.42, e dunque D ⊃ λ(P) ⊃ σ(P). Dobbiamo allora mostrare che dati A, B ∈ λ(P), si ha A ∩ B ∈ λ(P). Per E ⊂ S definiamo DE := {A ∈ λ(P) : A ∩ E ∈ λ(P)} Si verifica facilmente che DE è un λ-sistema. Inoltre se prendiamo E ∈ P abbiamo certamente DE ⊃ P. Pertanto, per E ∈ P, DE ⊃ λ(P), essendo quest’ultimo il più piccolo λ-sistema contenente P. Ma allora, per ogni A ∈ λ(P) si ha DA ⊃ P, e di nuovo, essendo DA un λ-sistema, DA ⊃ λ(P). Vale a dire A ∩ B ∈ λ(P) per ogni A, B ∈ λ(P). Dimostrazione del Teorema 2.35. Consideriamo la famiglia di insiemi D = {E ∈ F : P1 (E) = P2 (E)} ⊂ F Dobbiamo mostrare che D = F. Notiamo che D è un λ-sistema, infatti (a) P1 (∅) = P2 (∅) = 0. Dunque ∅ ∈ D. (b) Se P1 (E) = P2 (E), allora P1 (E c ) = 1 − P1 (E) = 1 − P2 (E) = P(E c ). Ossia E c ∈ D. (c) Se E1 , E2 , . . . è una famiglia numerabile di insiemi in D a due a due disgiunti, allora (per σ-additività di P1 e P2 ) X X P1 (∪i Ei ) = P1 (Ei ) = P2 (Ei ) = P2 (∪i Ei ) i i Dunque D è un λ-sistema, e per il Teorema 2.43, F = σ(P) ⊂ D ⊂ F. Da cui D = F. 9. ESERCIZI CAPITOLO 2 27 9. Esercizi Capitolo 2 Esercizio 2.1. Sia S un insieme non vuoto e P : 2S → [0, 1] un’applicazione tale che (a) P(S) = 1. (b) Per ogni famiglia finita (Ei )ni=1 di sottoinsiemi di S a due a due disgiunti si ha n n [ X P Ei = P(Ei ) i=1 i=1 (c) Per ogni successione decrescente (Ei )i∈N+ di sottoinsiemi di S tali che ∩i Ei = ∅, si ha limi P(Ei ) = 0. Provare che P è una misura di probabilità su S. Confrontare tale risultato con la Definizione 2.1, la Proposizione 2.2 ed il Corollario 2.7. Dedurre che le condizioni (a), (b), (c) qui date sono equivalenti alla Definizione 2.1. Esercizio 2.2. Sia P una misura di probabilità sullo spazio campionario R. Sia (Ii )i∈N+ una successione di intervalli chiusi e limitati di R con le seguenti proprietà. (a) per ogni n ∈ N si ha ∩ni=1 Ii 6= ∅. (b) limi lunghezza(Ii ) = 0. Mostrare che esiste un unico x ∈ R tale che limi P(Ii ) = P({x}). ?Esercizio 2.1. Nel contesto della Definizione 2.29, mostrare che gli intervalli della forma (a, b], [a, b), [a, b], (−∞, a), (a, +∞), (−∞, a], [a, +∞), (−∞, +∞) sono insiemi boreliani. ?Esercizio 2.2. Nel contesto del Teorema 2.38, supponiamo che J ⊂ R sia un’unione numerabile disgiunta di intervalli della forma (a, b]. Mostrare che se possiamo scrivere J = ∪i∈N Ii con Ii = (ai , bi ] e J = ∪i∈N Ii0 (unione disgiunta) con Ii0 = (a0i , b0i ], allora X X F (bi ) − F (ai ) = F (b0i ) − F (a0i ) i i [ Suggerimento: Si consideri la famiglia numerabile di intervalli ottenuti come intersezione Ki,j = Ii ∩Ij0 (tale intersezione può essere j). Mostrare che P vuota per molti i,P i Ki,j sono a due a due disgiunti, e riscrivere i F (bi ) − F (ai ) e i F (b0i ) − F (a0i ) in termini dei Ki,j .] CAPITOLO 3 Combinatoria e probabilità In questo capitolo sviluppiamo alcuni strumenti di combinatoria, in modo da dare una veste più generale ai metodi introdotti per risolvere gli esercizi ed i problemi della prima parte del corso. Abbiamo già ricordato, con la Definizione 2.9, l’importanza di saper ""contare” il numero di elementi di particolari insiemi dati. Questo è stato un tipico problema affrontato all’inizio della teoria della probabilità. Facciamo un esempio risalente al XVIII secolo. EsercizioRisolto 3.1. Al matematico francese Fermat, fu chiesto se fosse maggiore la probabilità di ottenere almeno 1 volta il risultato ""sei” lanciando 6 dadi, 2 volte il risultato ""sei” lanciando 12 dadi, o 3 volte il risultato ""sei” lanciando 18 dadi. Più in generale, avendo a disposizione dei dadi a k ≥ 2 facce, calcolare la probabilità di ottenere almeno m volte il risultato ""uno” lanciando k m dadi. Soluzione. Risolviamo direttamente il caso generale. Per ogni dado lanciato abbiamo che la probabilità di ottenere ""uno” vale 1/k. Effettuando n lanci la n−j −j k . probabilità di ottenere esattamente j volte ""uno” vale pertanto nj ( k−1 k ) Per n = k m e sommando su j ≥ m si ha che la probabilità richiesta vale Figura 1. Il valore di pm,k per k = 6, 24, 48. 29 30 3. COMBINATORIA E PROBABILITÀ pm,k = 1 − km 1 km X km (k − 1)−j k j j=m In alternativa, passando al complementare si ottiene m−1 1 km X km pm,k = 1 − 1 − (k − 1)−j k j j=0 Non è difficile vedere che pm,k è decrescente in m e k e che lim pm,k = m→+∞ lim pm,k = 1 − e−m 1 2 k→+∞ m−1 X j=0 mj j! Nei casi richiesti, con l’aiuto del calcolatore, otteniamo p1,6 ' 0.665102 p2,6 ' 0.618667 p3,6 ' 0.597346 1. Il principio di inclusione-esclusione In questa sezione si discute il principio di inclusione/esclusione dal punto di vista combinatorio e probabilistico. Teorema 3.1 (Principio combinatorio di inclusione-esclusione). Sia S un insieme finito non vuoto. Siano f, g : 2S → R. Allora si ha che X f (E) = g(F ) ∀E ⊂ S (3.1) F : F ⊂E sse g(E) = X (−1)|E|−|F | f (F ) ∀E ⊂ F (3.2) F : F ⊂E Dimostrazione. Per E ∈ 2S ed F ⊂ E denotiamo X h(E, F ) := (−1)|E|−|A| A : F ⊂A⊂E n Se |E| − |F | = |E \ F | = n ≥ 1, E \ F ha k parti di cardinalità k. Nella somma che definisce h(E, F ) vi sono dunque nk termini del tipo (−1)k . Ossia, per n ≥ 1 X n n X n n−k k n h(E, F ) = (−1) = 1 (−1)k = (1 + (−1))n = 0 k k k=0 k=0 D’altra parte, per E = F (ossia n = 0), h(E, F ) = 1. Mostriamo che (3.1) implica (3.2). Per E ∈ 2S X X X (−1)|E|−|F | f (F ) = (−1)|E|−|F | g(A) F : F ⊂E F : F ⊂E = = X A : A⊂F g(A) X (−1)|E|−|F | A : A⊂E F : A⊂F ⊂E X g(A)h(E, A) = g(E) A : A⊂E dove nella prima uguaglianza abbiamo usato la definizione di f , nella seconda abbiamo scambiato gli indici di somma, nella terza abbiamo usato la definizione di h, e nella quarta il fatto che h(E, F ) è sempre nulla tranne che per E = F . 1. IL PRINCIPIO DI INCLUSIONE-ESCLUSIONE 31 Mostriamo infine che (3.2) implica (3.1). Per E ∈ 2S , ragionando come sopra X X X g(F ) = (−1)|F |−|A| f (A) F : F ⊂E F : F ⊂E A : A⊂F X = X f (A) (−1)|F |−|A| A : A⊂E F : A⊂F ⊂E X f (A)h(E, A) = f (E) = A : A⊂E Teorema 3.2 (Principio probabilistico di inclusione-esclusione). Siano (S, P) uno spazio di probabilità, ed E1 , . . . , En ⊂ S degli eventi. Allora n X X P(E1 ∪ E2 ∪ · · · ∪ En ) = (−1)r+1 P(Ei1 ∩ Ei2 ∩ · · · ∩ Eir ) (3.3) r=1 (i1 ,i2 ,...,ir ): 1≤i1 <i2 <···<ir ≤n Diamo tre dimostrazioni di questo teorema. Una più astratta basata sul principio combinatorio di inclusione-esclusione. Una per induzione, in cui non si effettuano solo calcoli espliciti più semplici da seguire. Ed un’ultima valida solo per spazi campionari finiti o numerabili, basata sulla rappresentazione (2.8), valida in questo caso. Dimostrazione I del Teorema 3.2. Per I ⊂ {1, . . . , n} definiamo \ FI := (∩j6∈I Ej ) (∩i∈I Eic ) ⊂ S Si noti che F{1,...,n} = ∅ e che FI ∩ FI 0 = ∅ per I 6= I 0 . Sia quindi g : 2{1, 2,..., n} → R definita come g(I) := P FI ) Come nel Teorema 3.1 poniamo X f (I) := g(I) I ⊂ {1, . . . , n} J⊂I e poichè gli FI sono a due a due disgiunti, per additività ( P(∩i6∈I Ei ) se I ( {1, . . . , n} f (I) = P(∪ni=1 Ei ) se I = {1, . . . , n} Usando la (3.2) otteniamo allora 0 =g({1, . . . , n}) = X (−1)n−|I| f (I) I⊂{1,..., n} =P(∪ni=1 Ei ) − X (−1)n−|I| P(∩i6∈I Ei ) I({1,..., n} da cui la (3.3). Dimostrazione II del Teorema 3.2. Dimostriamo per induzione che la proposizione Pn :=’vale (3.3) per ogni famiglia di eventi (Ei )ni=1 ’ è vera per ogni n ≥ 1. Base dell’induzione: Per n = 1, la somma su r si riduce al solo termine P(E1 ). Passo dell’induzione: Si noti che non stiamo fissando gli insiemi Ei , ma piuttosto verificando l’identità per ogni scelta degli Ei . Dato n ≥ 2 dobbiamo mostrare 32 3. COMBINATORIA E PROBABILITÀ che (3.3) (con n cambiato in n + 1) è vera, sapendo che (3.3) è vera non solo per E1 , . . . , En , ma per ogni scelta di m ≤ n eventi in S. Dal Corollario 2.3-(f) applicato ai due insiemi En+1 e ∪ni=1 Ei n P ∪n+1 i=1 Ei = P En+1 ∪ ∪i=1 Ei = P(En+1 ) + P ∪ni=1 Ei − P En+1 ∩ ∪ni=1 Ei = P(En+1 ) + P ∪ni=1 Ei − P ∪ni=1 (En+1 ∩ Ei ) Applicando l’ipotesi induttiva al secondo e terzo termine sopra n X P ∪n+1 E =P(E ) + (−1)r+1 i n+1 i=1 r=1 r=1 P ∩rj=1 Eij (i1 ,i2 ,...,ir ): 1≤i1 <i2 <···<ir ≤n n X (−1)r+1 − X X P En+1 ∩ (∩rj=1 Eij ) (i1 ,i2 ,...,ir ): 1≤i1 <i2 <···<ir ≤n È facile convincersi che quest’identità è quella voluta. In effetti, nel membro di destra si trovano tutti i termini del tipo P(Ei ), i = 1, . . . , n + 1; vi si trovano poi tutti i termini del tipo P(Ei ∩ Ej ) (intersezioni a due insiemi) col segno meno (le intersezioni di insiemi che non coinvolgono En+1 si trovano nel secondo addendo a destra, le intersezioni che coinvolgono En+1 nel terzo addendo); e così via per tutte le intersezioni a r insiemi, r = 1, . . . , n + 1. Dimostrazione III del Teorema 3.2 per spazi campionari numerabili. Assumiamo S numerabile. Allora dalla (2.8) X P(E1 ∪ E2 ∪ · · · ∪ En ) = P({s})1Ei1 ∪Ei2 ∪···∪Ein (s) s∈S P(Ei1 ∩ Ei2 ∩ · · · ∩ Eir ) = X P({s})1Ei1 ∩Ei2 ∩···∩Eir (s) s∈S L’identità (3.3) da mostrare può essere quindi riscritta come X P({s})1Ei1 ∪Ei2 ∪···∪Ein (s) = s∈S X n hX P({s}) (−1)r+1 s∈S r=1 X i 1Ei1 ∩Ei2 ∩···∩Eir (s) (i1 ,i2 ,...,ir ): 1≤i1 <i2 <···<ir ≤n Per verificare (1) ci basta provare che per ogni s ∈ S 1Ei1 ∪Ei2 ∪···∪Ein (s) = n X (−1)r+1 r=1 X 1Ei1 ∩Ei2 ∩···∩Eir (s) (3.4) (i1 ,i2 ,...,ir ): 1≤i1 <i2 <···<ir ≤n Se s 6∈ E1 ∪ E2 ∪ · · · ∪ En la suddetta identità è banalmente vera dato che si riduce a 0 = 0. Sia s ∈ E1 ∪ E2 ∪ · · · ∪ En . Supponiamo che s appartenga ad esattamente m insiemi del tipo Ei . Allora X 1Ei1 ∩Ei2 ∩···∩Eir (s) (i1 ,i2 ,...,ir ): 1≤i1 <i2 <···<ir ≤n 2. COMBINATORIA DEGLI SPAZI FUNZIONALI FINITI 33 corrisponde a quanti modi possiamo scegliere r indici tra gli m indici i per cui d ∈ Ei , e quindi vale m r . Ne deriva che (3.4) equivale a m X m 1= (−1)r+1 r r=1 Pm ovvero r=0 (−1)r m r = 0. Quest’ultima è vera poichè il lato sinistro è lo sviluppo del binomio (−1 + 1)m . 2. Combinatoria degli spazi funzionali finiti Un’applicazione del Teorema 3.1 è data di seguito. Teorema 3.3. Siano E, F due insiemi finiti con m = |E| ed n = |F |. Allora (a) Ci sono nm funzioni distinte u : E → F . (b) Se m = n, ci sono n! funzioni biiettive distinte u : E → F (e nessuna se m 6= n). n! funzioni iniettive distinte u : E → F (e nessuna (c) Se m ≤ n, ci sono (n−m)! se m > n). (d) Se m ≥ n, ci sono n X n (−1)n−k k m k k=0 funzioni suriettive distinte u : E → F (e nessuna se m < n). (e) Se l ≤ min(m, n), ci sono l X n (−1)n−k k m k, l − k, n − l k=0 funzioni distinte u : E → F tali che l’immagine di u ha cardinalità l. Dimostrazione. I punti (a), (b) e (c) sono più semplici e già discussi a lezione: la prova è data rapidamente. Per contro, per i punti (d) ed (e) (che generalizza (d)), utilizzeremo il principio di inclusione-esclusione. (a) Per ogni x ∈ E possiamo scegliere u(x) in n modi diversi, dando origine a nm funzioni distinte. (b) Le funzioni biiettive da E ad F sono tante quante le permutazioni di n oggetti: n!. (c) Le funzioni iniettive da E ad F hanno la stessa cardinalità dell’insieme quoziente delle permutazioni di n oggetti, sotto l’equivalenza π ∼ π 0 se π(i) = π 0 (i) per i = 1, . . . , m. Poichè ogni classe di equivalenza ha cardinalità (n − m)!, l’insieme quoziente ha cardinalità n!/(n − m)!. (d) La (d) è un caso particolare di (e) per l = m, tuttavia ne diamo una dimostrazione separata. Siano f, g : 2S → N f (A) := numero di funzioni da E in F la cui immagine è contenuta in A (3.5) g(A) := numero di funzioni da E in F la cui immagine coincide con A (3.6) o più formalmente f (A) := {f ∈ F E : f (E) ⊂ A} = |A||E| = |A|m g(A) := {f ∈ F E : f (E) = A} 34 3. COMBINATORIA E PROBABILITÀ g(F ) rappresenta proprio il numero Pdi funzioni suriettive da E ad F , da determinare. Chiaramente f (A) = B⊂A g(B). Possiamo perciò applicare il Teorema 3.1 ed ottenere n X X X n m g(F ) = (−1)|F |−|A| f (A) = (−1)|F |−|A| |A|m = (−1)n−k k k A⊂F A⊂F k=0 dove nell’ultima uguaglianza abbiamo usato il fatto che ci sono esattamente nk parti A di F tali che |A| = k. (e) Definiamo f e g come in (d) e sia B ⊂ F con l = |B|. Vi sono tante funzioni da E in F la cui immagine coincide con B quante sono le funzioni suriettive da E in B, ossia dal punto (d) l X l−k l g(B) = (−1) km k k=0 Poichè vi sono nl sottoinsiemi di cardinalità l in F , si ha che l’intero cercato è uguale a X l l X X n n l−k l−k l m (−1) km (−1) k = g(B) = k, l − k, n − l k l B⊂F : |B|=l k=0 k=0 EsercizioRisolto 3.2 (Generalizzazione dell’esercizio II.40 del Ross). A Roma vi sono n pianoforti da accordare e m accordatori. Per ogni pianoforte viene chiamato un accordatore a caso fra gli m disponibili. Calcolare la probabilità che esattamente l accordatori distinti vengano chiamati per 1 ≤ l ≤ min(n, m). Soluzione. Identifichiamo A = {1, . . . , m} con l’insieme degli accordatori, e consideriamo lo spazio campionario S = An con misura di probabilità P uniforme. Se Fl è l’evento corrispondente all’aver chiamato esattamente l accordatori distinti, avremo |Fl | |Fl | P(Fl ) = = n |S| m Per calcolare la cardinalità di Fl , notiamo che essa corrisponde al numero di funzioni dall’insieme {1, . . . , n} di pianoforti da accordare nell’insieme A degli accordatori, la cui immagine ha cardinalità l. Dal punto (e) del Teorema 3.3 abbiamo pertanto l X n −n l−k P(Fl ) = m (−1) km k, l − k, n − l k=0 Ad esempio per m = n = 4 come nell’esercizio II.40 si ha P(F1 ) = P(F3 ) = 1 64 9 16 = 0.015625 P(F2 ) = = 0.5625 P(F4 ) = 21 64 3 32 = 0.328125 = 0.09375 EsercizioRisolto 3.3. Un album per figurine è composto da m caselle numerate. Quando si acquista una figurina, si trova quella associata alla casella i con probabilità pi , i = 1, . . . , m e p1 + . . . + pm = 1. Si acquistano N figurine. Calcolare (a) la probabilità che l’album sia completato (tutte le caselle riempite). (b) la probabilità che la N -esima figurina non sia un doppione. 2. COMBINATORIA DEGLI SPAZI FUNZIONALI FINITI 35 Carlo abita molto lontano dall’edicola, ha un album con 100 caselle e vuole acquistare N figurine in modo tale che la probabilità di completare l’album senza dover tornare all’edicola sia almeno 0.98. Calcolare il numero minimo di figurine che Carlo deve acquistare se (c) ogni figurina può andare in ciascuna casella con uguale probabilità (p1 = p2 = . . . = p100 ). (d) la probabilità che una figurina vada in una delle prime 50 caselle è il doppio della probabilità che vada in una delle seconde 50 caselle (pi = 2 pj , i = 1, . . . , 50, j = 51, . . . , 100). (e) tutte le prime 99 caselle hanno la stessa probabilità, ma l’ultima casella è rara ed ha probabilità 0.001 (p1 = p2 = . . . = p99 e p100 = 10−3 ). Soluzione. Possiamo pensare che le figurine acquistate siano numerate (ad esempio in ordine di acquisto), ed assumiamo che le caselle associate a figurine distinte siano indipendenti. Possiamo formalizzare il problema prendendo S = {1, 2, . . . , m}N , e pensando che se si è realizzato s = (s1 , . . . , sN ) se la n-esima figurina va nella casella sn ∈ {1, . . . , m}, n = 1, . . . , N . Per n ≤ N sia Bin := {s ∈ S : sn = i} ossia Bin è l’evento su cui l’n-esima figurina va nella casella i. L’ipotesi di indipendenza caratterizza P come P({s}) = n P(∩N n=1 Bsn ) = N Y P(Bsnn ) N Y = n=1 psn n=1 Per I ⊂ {1, . . . , m} un insieme di caselle ed n ≤ N definiamo pI ∈ [0, 1] e gli eventi EIn , FIn come X pI = pi i∈I EIn := {s ∈ S : sk ∈ I, ∀k ≤ n} FIn := {s ∈ S : ∪k≤n {sk } = I} ossia EIn è l’evento su cui le prime n figurine occupano solamente caselle in I, mentre FIn è l’evento su cui le prime n figurine occupano tutte e sole le caselle in I. pI è invece la probabilità che una figurina vada in una delle caselle in I. Poiché EIn = ∪J⊂I FJn e tale unione è disgiunta: X P(EIn ) = P(FJn ) J⊂I Allora, dal principio di inclusione-esclusione nel Teorema 3.1 (applicato con f (I) = P(EIn ) e g(J) = P(FJn )) X P(FIn ) = (−1)|I|−|J| P(EJn ) (3.7) J⊂I Per indipendenza P(EJn ) = pnJ e quindi X P(FIn ) = (−1)|I|−|J| pnJ J⊂I (3.8) 36 3. COMBINATORIA E PROBABILITÀ (a) L’evento che corrisponde ad avere l’album completato dopo al più N acquisti N coincide con F{1,...,m} . Pertanto dalla (3.8) abbiamo che tale probabilità vale X N X (−1)m−|J| pj j∈J J⊂{1,..., m} (b) Sia ora A l’evento su cui l’N -esima figurina è diversa da tutte le precedenti ossia A = {s ∈ S : sN 6= si , ∀i < N } Allora m m X X P(A) = P(A|BiN )P(Bi )N = (1 − pi )N −1 pi i=1 i=1 dove abbiamo usato il fatto che la probabilità che l’ultima figurina non sia un doppione sapendo che essa va nella casella i, corrisponde alla probabilità che le prime N − 1 figurine non vadano nella casella i. (c) Si ha in questo caso pi = 1/m = 1/100. Dal punto (a) , la probabilità che acquistando N figurine si completi l’album vale in questo caso m X k N m−k m (−1) m k k=1 ossia per m = 100 100 X (−1) k=1 k 100 k N k 100 che supera la soglia di 0.98 per N = 847. (d) Abbiamo p1 = . . . = p50 = 1/75 e p51 = . . . = p100 = 1/150. Se J ⊂ {1, . . . , 100} ha h elementi in {1, . . . , 50} ek elementi in {51, . . . , 100}, allora 50 sottoinsiemi J di {1, . . . , 100} pJ = (2h + k)/150. Vi sono esattamente 50 k h con tale proprietà. Dal punto (a) , la probabilità che acquistando N figurine si completi l’album vale in questo caso 50 X 50 2h + k N h+k 50 (−1) h k 150 h,k=0 che supera la soglia di 0.98 per N = 1169. (e) Abbiamo p = pm = 10−3 e p1 = . . . = pm−1 = (1 − p)/(m − 1). Vi sono m−1 insiemi J ⊂ {1, . . . , 100} di cardinalità k che non contengono m, e per k essi pJ = k(1 − p)/(m − 1). Vi sono poi m−1 k−1 insiemi J ⊂ {1, . . . , 100} di cardinalità k che contengono m, e per essi pJ = p + (k − 1)(1 − p)/(m − 1). Dal punto (a) , la probabilità che acquistando N figurine si completi l’album vale in questo caso " # m X m − 1 k(1 − p) N m − 1 k(1 − p) − (1 − pm) N m−k + (−1) k m−1 k−1 m−1 k=1 100 99 99 X 100 N = (111/11000)N (−1)k k N + 1− k k−1 111k k=1 che supera la soglia di 0.98 per N = 3911. 3. CAMPIONAMENTI 37 Figura 2. La probabilità di completare l’album acquistando N figurine, nei casi (c), (d), (e). 3. Campionamenti Il campionamento di palle colorate da un’urna è stato uno degli esempi che ci ha spinto a dare diversi definizioni e risultati a lezione. Cerchiamo di dare una trattazione sistematica di un esempio abbastanza generale. In questa sezione dati tre interi l, m, n con l, n ≥ 0 (mentre m può essere negativo) e l ≥ −n m introduciamo la notazione l(m,n) = n−1 Y (l + i m) = l(l + m) = l(l + m) · · · (l + (n − 1)m) i=0 dove al solito l(0,n) = 1. Ad esempio l(−1,l) = 1(1,l) = l! Esempio 3.4. Un’urna contiene u palle blu e v palle verdi. Si effettuano n estrazioni successive. Ogni volta, si estrae una palla a caso tra quelle nell’urna, e si reintroducono nell’urna la palla estratta ed altre m palle dello stesso colore. Qui m è un intero m ≥ −1, dove per m = 0 si intende che la sola palla estratta viene reintrodotta (n estrazioni con rimescolamento); per m = −1 si intende che la palla estratta non viene reintrodotta (n estrazioni senza rimescolamento, in questo caso necessariamente n ≤ u + v); mentre ad esempio per m = 1, ad ogni estrazione in cui è uscita una palla blu reintroduciamo immediatamente (=prima della prossima estrazione) nell’urna la palla stessa ed un’altra blu. Determinare uno spazio di probabilità (S, P) che modellizzi questo metodo aleatorio di campionamento dei colori blu e verde. 38 3. COMBINATORIA E PROBABILITÀ Soluzione dell’Esempio 3.4. Associamo al colore blu il numero 1 ed al verde lo 0. Ci interessiamo al solo colore delle palle estratte, ed è conveniente prendere S = {0, 1}n come spazio campionario. Un elemento x = (x1 , . . . , xn ) corrisponde alla successione di colori campionati in una realizzazione del nostro metodo (ad esempio se n = 3 e x = (1, 0, 1) abbiamo estratto blu, poi verde, poi blu). Naturalmente la misura di probabilità P associata a questa procedura di campionamento non sarà uniforme su S (a meno di casi particolari, come: u = v e k = 0). Dal Teorema 2.10, per caratterizzare P è sufficiente dare P({x}) per ogni x ∈ S, ossia per ogni successione x di colori estratti. Dato σ ∈ {0, 1} e i ∈ {1, . . . , n} sia Ei,σ l’evento ""l’i-esima estrazione ha colore σ”, ossia Ei,σ := {x ∈ S : xi = σ} Pn Sia ora j ≡ j(x) = i=1 xi il numero di palle blu estratte in x. Poichè {x} = ∩ni=1 Ei,xi , dalla regola del prodotto P({x}) = P(∩ni=1 Ei,xi ) = P(E1,x1 )P(E2,x2 |E1,x1 ) · · · P(En,xn | ∩n−1 i=1 Ei,xi ) = u(m,j) v (m,n−j) (u + v)(m,n) j ≡ j(x) = n X (3.9) xi i=1 L’ultima uguaglianza segue dal fatto che, se prima di un’estrazione vi sono U palle U blu e V palle verdi, la probabilità di prendere una palla blu è U +V e di prenderne V una verde è U +V . Pertanto, quale che sia x, al denominatore nella (3.9) troveremo il prodotto degli n fattori (u + v)(u + v + m) · · · (u + v + (n − 1) m) = (u + v)(m,n) Il numeratore dipende naturalmente da x in generale. Tuttavia se in x vi sono esattamente j componenti uguali a 1 (j estrazioni di blu), e quindi n − j componenti uguali a 0, indipendentemente dall’ordine di tali componenti troveremo al numeratore i fattori u(u + m) · · · (u + (j − 1) m) = u(m,j) v(v + m) · · · (v + (n − j − 1) m) = v da cui la (3.9). (m,n−j) per le j estrazioni di blu per le n − j estrazioni di verdi Esempio 3.5. Si consideri la stessa procedura e la stessa notazione dell’Esempio 3.4. (i) Calcolare per i = 1, . . . , n la probabilità che la i-esima estrazione dia una palla blu. (ii) Calcolare per j = 0, 1, . . . , n la probabilità di estrarre esattamente j palle blu in n estrazioni. Dopo n estrazioni nell’urna vi saranno esattamente u + v + n m palle. Si calcoli la probabilità che esattamente k di queste u + v + n m siano blu. Soluzione dell’Esempio 3.5. Utilizziamo la notazione e lo spazio (S, P) introdotti nella soluzione dell’Esempio 3.4. (i) Dalla (3.9) dell’Esempio 3.4, segue che la probabiità di estrarre la successione di colori x, dipende solo dal numero di blu e verdi (o 1 e 0) in x e non dal loro ordine. Vediamo come ciò implichi che la probabilità di 3. CAMPIONAMENTI 39 avere un blu alla i-esima estrazione non dipenda da i, e sia quindi uguale a u/(u + v) come nella prima estrazione. Per x ∈ S e π una permutazione su {1, . . . , n}, definiamo xπ ∈ S mediante xπi = xπ(i) , i = 1, . . . , n. Dalla (3.9) P({xπ }) = P({x}) per ogni permutazione π (appunto, la probabilità di x non dipende dall’ordine ma solo dal numero di verde e blu estratti). Fissiamo i = 1, . . . , n. L’evento ""la i-esima palla estratta ha colore blu” corrisponde a Ei,1 e per π una qualunque permutazione con π(i) = 1 P(Ei,1 ) = P({x ∈ S : xi = σ}) = P({xπ ∈ S : xπi = σ}) u = P({x ∈ S : xπ(i) = σ}) = P(E1,1 ) = u+v (ii) Poichè vi sono esattamente nj successioni di colore x distinte con esattamente j ""verde” (o j componenti uguali a 1), dalla (3.9) la probabilità di estrarre esattamente j palle verdi è (m,j) (m,n−j) n X n u v xi = j = P x∈S : (3.10) j (u + v)(m,n) i=1 Se si sono avute j palle blu nelle n estrazioni, troveremo alla fine nell’urna u + j m palle blu. Pertanto la probabilità di trovare k palle blu è nulla se k non è della forma k = u + j m per qualche j = 0, 1, . . . , n ed è data dalla (3.10) altrimenti. Osservazione 3.6. Gli stessi ragionamenti fatti sopra si generalizzano immediatamente al seguente caso. In un’urna vi sono u1 palle del colore 1, u2 palle del colore 2, . . . , uR palle del colore R. Si effettuano n estrazioni aleatorie, ed immediatamente dopo ogni estrazione si rimette nell’urna la palla estratta, insieme con altre m palle dello stesso colore, m ≥ −1 (e n ≤ u1 + u2 + . . . + uR se m = −1). Allora: (a) La probabilità che alla i-esima estrazione si prenda una palla di colore r vale ur r = 1, . . . , R u1 + u2 + . . . + uR (b) La probabilità che una certa successione di colori sia estratta, non dipende dall’ordine dei colori ma solo dai numeri di volte j1 , . . . , jR che si sono avuti i colori 1, . . . , R rispettivamente (quindi n = j1 + . . . + jn ) e vale (m,j ) (m,j ) u1 1 · · · uR R (u1 + . . . + uR )(m,n) (c) La probabilità di avere, in n = j1 + . . . + jR estrazioni, j1 volte il colore 1, . . . , jR volte il colore R vale (m,j1 ) (m,j ) u1 · · · uR R n (3.11) j1 , . . . , jR (u1 + . . . + uR )(m,n) Osservazione 3.7. Siano n ≥ 1 e siano j1 , . . . jR interi con j1 + . . . + jR = n, jr ≥ 0. Indichiamo con pj1 ,...,jR la probabilità di avere j1 palle di colore 1, . . . jR palle di colore R (come sopra). Consideriamo qualche caso particolare. 40 3. COMBINATORIA E PROBABILITÀ (a) Se m = −1, la procedura descritta corrisponde al campionamento senza rimescolamento. Poiché u−1,n = u!/(u − n)!, otteniamo dalla (3.11) in questo caso u1 uR j1 · · · jR pj1 ,...,jR = u1 +...+uR n come facile dedurre con gli usuali argomenti di combinatoria degli insiemi. (b) Se m = 0, la procedura descritta corrisponde al campionamento con rimescolamento (estrazioni indipendenti). Poichè u(0,n) = un per la medesima probabilità si ha in questo caso n jR pj1 ,...,jR = v j1 · · · vR j1 , . . . , j R 1 con vr = ur /(u1 + . . . + uR ) la frazione di palle di colore r. (c) Se u1 = u2 = . . . = uR = m si ha un risultato sorprendente. Poichè n u(u,n) = n!un e (Ru)(u,n) = (R+n−1)! (R−1)! u si ha in questo caso pj1 ,...,jR = 1 R+n−1 n Ad esempio se partiamo con una palla blu ed una verde, ed ogni volta aggiungiamo una palla dello stesso colore di quella estratta, dopo n estrazioni avremo una probabilità 1/(n + 1) di aver estratto esattamente k palle blu, indipendentemente da k. (d) Se mandiamo m all’infinito, si ottiene pn, 0,..., 0 → v1 , p0, n, 0,..., 0 → v2 ... p0, 0, 0,..., n → vR ossia quando m → +∞, con probabilità che converge a 1 si estraggono sempre palle dello stesso colore. 4. ?Cardinalità dell’insieme quoziente Sia S un insieme finito e non vuoto, diciamo |S| = n, e sia Φ un gruppo di bijezioni su S. Φ induce una relazione ∼Φ su S data da s ∼Φ s0 sse ∃ϕ ∈ Φ : s = ϕ(s0 ) (3.12) Poichè Φ è un gruppo, si ha che ∼Φ è una relazione di equivalenza. Supponiamo dapprima che tutte le classi di equivalenza abbiamo la stessa cardinalità m. È allora chiaro che m divide n, e che l’insieme quoziente S/ ∼ ha cardinalità n/m. Vogliamo vedere cosa accade quando le classi di equivalenza non hanno tutte la stessa cardinalità. Un esempio che abbiamo già incontrato è il seguente. Prendiamo S = {1, . . . , k}n . Possiamo pensare S come lo spazio campionario associato al lancio ripetuto n volte di un dado con k facce. Se ora non siamo interessati all’ordine con cui ciascuna faccia si presenta negli n lanci, ma solo al numero di volte che ciascuna faccia si è presentata, possiamo definire Φ come il gruppo delle permutazioni su n elementi, che agisce su S permutando l’ordine delle componenti della stringa (i1 , . . . , in ). Si noti che le classi di equivalenza non hanno tutte la stessa cardinalità. Se s è una stringa con tutte le componenti uguali, la sua classe di equivalenza ha cardinalità 1; se invece s ha tutte le componenti diverse, la cardinalità della sua classe di equivalenza vale n!. 5. IL PRINCIPIO DEI CASSETTI 41 Cerchiamo allora di dare una procedura generale per calcolare la cardinalità di un insieme quoziente. Lemma 3.8. Sia S un insieme non vuoto di cardinalità finita. Sia Φ un insieme di bijezioni di S in S, chiuso per composizione, ossia tale che se ϕ, ψ ∈ Φ, allora ϕ ◦ ψ ∈ Φ. Allora Φ è un gruppo, in particolare ∼Φ , definita dalla (3.12) è una relazione di equivalenza. Dimostrazione. Poichè Φ è chiuso per composizione, e la composizione di funzioni è associativa, dobbiamo solo mostrare che l’identità è in Φ e che se ϕ ∈ Φ allora ϕ−1 ∈ Φ. Si noti che, essendo S finito, Φ è esso stesso finito poichè sottoinsieme delle permutazioni su S. k volte z }| { Fissato ora ϕ ∈ Φ, definiamo una successione (ϕk )k≥1 ponendo ϕk = ϕ ◦ . . . ◦ ϕ. Dall’ipotesi di chiusura per composizione ϕk ∈ Φ per ogni k, ed essendo Φ finito esistono i > j ≥ 1 tali che ϕi = ϕj . Ma allora ϕi−j è l’identità. Inoltre se i − j = 1 si ottiene ϕ = id = ϕ−1 , mentre se i − j > 1 allora ϕi−j−1 = ϕ−1 . In ogni caso, ogni ϕ ∈ Φ ammette inverso. Teorema 3.9 (Lemma di Burnside). Siano dati S e Φ come nel Lemma 3.8. Allora la cardinalità dell’insieme quoziente S/ ∼Φ è data da P ϕ∈Φ rϕ |S/ ∼Φ | = |Φ| dove rϕ è il numero di punti fissi della bijezione ϕ rϕ := |{s ∈ S : ϕ(s) = s}| Dimostrazione. EsercizioRisolto 3.4. Per comporre una collana abbiamo a disposizione 5 perline bianche, 5 nere e 5 rosse. Quante collane diverse si possono comporre? Soluzione. EsercizioRisolto 3.5. Possiamo colorare ciascuna faccia di un cubo di bianco o di nero. Quanti cubi distinti possiamo ottenere? Soluzione. 5. Il principio dei cassetti Il principio dei cassetti afferma che, se si partizione un insieme di n k+1 elementi in k parti, almeno una delle parti contiene almeno n + 1 elementi. Tale principio è elementare, e segue direttamente dalla definizione di cardanilità. Tuttavia, a volte ammette delle applicazioni non banali. EsercizioRisolto 3.6. Sul piano sono dati 25 punti, disposti in modo tale da avere la seguente proprietà. Comunque siano presi 3 punti tra i 25, almeno 2 di tali 3 punti sono a distanza minore di 1. Mostrare che esiste un disco di raggio 1 che copra almeno 13 dei 25 punti. Soluzione. 42 3. COMBINATORIA E PROBABILITÀ 6. Esercizi Capitolo 3 Esercizio 3.1. Sia S un insieme non vuoto e finito, ed f, g : 2S → R. Ragionando come nel Teorema 3.1 mostrare che X f (E) = g(F ) ∀E ∈ 2S (3.13) F : F ⊃E sse g(E) = X (−1)|F |−|E| f (F ) ∀E ∈ 2S (3.14) F : F ⊃E Esercizio 3.2. Nel contesto dell’EsercizioRisolto 3.3, mostrare che la probabilità di completare l’album avendo acquistato N figurine è massima quando p1 = p2 = . . . = pm = 1/m. [ Suggerimento: Dimostrare prima che cambiando 2 la probabilità cercata aumenta.] solamente p1 e p2 con p01 = p02 = p1 +p 2 Esercizio 3.3. Ripetere i ragionamenti del Capitolo 3 per provare in dettaglio le Osservazioni 3.6-3.7. CAPITOLO 4 Operazioni su spazi di probabilità In questo capitolo S ed S 0 saranno degli insiemi non vuoti. 1. Condizionamento Per questa parte facciamo riferimento al III capitolo del Ross. Qui ricordiamo qualche nozione per completezza. Proposizione 4.1. Sia (S, P) uno spazio di probabilità, ed E ⊂ S un evento di probabilità strettamente positiva P(E) > 0. Definiamo PE : 2S → [0, 1] come PE (F ) := P(F |E) := P(E ∩ F ) P(E) F ⊂S Allora (a) (b) (c) (d) PE è una misura di probabilità su S. La restrizione di PE a 2E è una misura di probabilità su E. PE = P sse P(E) = 1. Se E 0 ⊂ S è tale che P(E ∩ E 0 ) > 0 allora per ogni F ⊂ S PE (F |E 0 ) = PE∩E 0 (F ) Nota. A volte è naturale definire PE anche quando P(E) = 0. Supponiamo di andare a pranzo da un amico, di iniziare il nostro viaggio al tempo t = 0, e di essere attesi a tavola al tempo t = 1. Diciamo che dobbiamo prendere un autobus, e che arriveremo puntuali se la somma del tempo di attesa alla fermata e del tempo di percorrenza del tragitto è minore di 1. Per t ≥ 0, siano Et l’evento su cui il tempo di attesa alla fermata sia uguale a t, ed Ft l’evento su cui il tempo di percorrenza del tragitto sia uguale a t. È ragionevole pensare che P(Et ) = P(Ft ) = 0 per ogni t ≥ 0. Tuttavia è altrettanto intuitivo calcolare P(arrivare in tempo|Et ) = P(∪s≤1−t Fs ) Da un punto di vista matematico, la procedura di condizionare su un evento di probabilità 0 è piuttosto delicata, ma possibile con una certa generalità. Per molti aspetti, questa è una procedura inversa a quella di integrazione (perchè?), ed è quindi nota come disintegrazione. 2. Combinazioni convesse Sia Proba(S) l’insieme delle misure di probabilità su S, ossia l’insieme delle funzioni P : 2S → [0, 1] tali che valgano le condizioni (a), (b) della Definizione 2.1. 43 44 4. OPERAZIONI SU SPAZI DI PROBABILITÀ Definizione 4.2. Siano α ∈ [0, 1], P0 , P1 ∈ Proba(S). La combinazione convessa di P0 e P1 con coefficiente α è la misura di probabilità Pα := αP1 + (1 − α)P0 , intesa come uguaglianza di funzioni si 2S , ossia Pα : 2S → [0, 1] E 7→ Pα (E) = α P1 (E) + (1 − α) P0 (E) È immediato verificare che la notazione è consistente (Pα = P0 e Pα = P1 per α = 0, 1 rispettivamente), e che Pα ∈ Proba(S) (Pα soddisfa (a) e (b) nella Definizione 2.1). Esempio 4.3. Si lancia una moneta onesta. Se esce ’testa’, si lancia un dado a 6 facce, e si scrive il risultato su un foglio. Se esce croce, si lancia un dado a 12 facce e si scrive un risultato sul foglio. Determinare la probabilità che il numero sul foglio sia uguale ad i, per i = 1, 2, . . . , 12. Soluzione. Siano P e Q le probabilità su S := {1, . . . , 12} relative al risultato del lancio di un dado a 6 e 12 facce rispettivamente, ossia P({i}) = 1/6 per i ≤ 6, P(({i}) = 0 per i > 6 e Q({i}) = 1/12 per ogni i. La probabilità richiesta è ( 21 P + 12 Q)(i). 3. Indipendenza e spazi prodotto Per l’indipendenza ci riferiamo al Capitolo 3 del Ross. Qui sviluppiamo in dettaglio la costruzione di spazi prodotto di spazi di probabilità discreti. Iniziamo la nostra discussione con un esempio: vogliamo modelizzare con uno spazio di probabilità l’esperimento che consiste nel lanciare prima un dado e poi una moneta truccata, dove la probabilità di avere testa è 1/3. I due lanci sono considerati operativamente indipendenti, cioè l’uno non puo’ influenzare il risultato dell’altro. Lo spazio campionario S, dato dall’insieme dei possibili esiti, è S = { (x1 , x2 ) : x1 ∈ {1, 2, . . . , 6}, x2 ∈ {T, C}} = S1 × S2 dove S1 = {1, 2, . . . , 6} e S2 = {T, C}. Qui x1 è da pensare come l’esito del lancio del dado e x2 come l’esito del lancio della moneta. Poiché la moneta è truccata, non possiamo definire una probabilità P su S invocando la simmetria e concludere che gli esiti di S sono equiprobabili. Invece, essendo gli esperimenti operativamente indipendenti, è naturale richiedere che, fissati x1 ∈ S1 ed x2 ∈ S2 , i due eventi E1 = {x1 } × S2 e E2 = S1 × {x2 } (interpretati come: E1 =”il lancio del dado ha dato x1 ” e E2 =”il lancio della moneta ha dato x2 ”), siano eventi indipendenti. Quindi P deve essere tale che P {(x1 , x2 )} = P (E1 ∩ E2 ) = P (E1 )P (E2 ) . È naturale porre P(E1 ) = 1/6 e P(E2 ) = 1/3 se x2 = T oppure P(E2 ) = 2/3 se x2 = C. Quindi possiamo definire P sui singleton come ( 11 1 = 18 se x2 = T, P {(x1 , x2 )} = 61 32 2 se x2 = C, 6 3 = 18 Ricordiamo che, essendo S numerabile, la funzione di probabilità P è univocamente determinata P una volta assegnata sui singleton di S, purché P({s}) ≥ 0 per ogni s ∈ S e s∈S P({s}) = 1. Queste verifiche sono elementari e lasciate al lettore. Il precedente esempio può essere facilmente generalizzato per modellizzare un esperimento che consiste di n sotto–esperimenti indipendenti. 3. INDIPENDENZA E SPAZI PRODOTTO 45 Definizione 4.4. Sia n ∈ N+ e per i = 1, . . . , n siano (Si , Pi ) degli spazi di probabilità discreti, ossia per cui esiste Ei ⊂ Si finito o numerabile tale che Pi (Ei ) = 1. Si definisce spazio di probabilità prodotto degli (Si , Pi ) lo spazio di probabilità (S, P) definito come segue • Lo spazio campionario S è il prodotto cartesiano S = S1 × · · · × Sn . • La probabilità P è definita da P({(x1 , . . . , xn )}) = P1 ({x1 }) · · · Pn ({xn }) =: p(x1 ,...,xn ) Tale relazione identifica P sui singleton di S. Ora E := E1 × · · · × En è finito o numerabile e soddisfa P(E) = 1. Le condizioni X px ≥ 0, px = 1 x∈E sono verificate e, per il Teorema 2.15, resta univocamente identificata una probabilità P su S (e concentrata su E). Proposizione 4.5. Utilizziamo la stessa notazione della Definizione 4.4, e per x ∈ S, scriviamo xi ∈ Si come la coordinata i-esima di x, ossia x = (x1 , . . . , xn ). Per degli arbitrari Fi ⊂ Si definiamo F¯i ⊂ S come F¯i = {x ∈ S : xi ∈ Fi } = S1 × · · · × Si−1 × Fi × Si+1 × · · · × Sn Allora (a) Gli eventi F¯1 , . . . , F¯n sono indipendenti in (S, P). Ossia eventi che dipendono da sotto–esperimenti distinti sono indipendenti. (b) Se per ogni i = 1, . . . , n, Si è finito e Pi è uniforme su Si , allora P è uniforme su S. Ossia un esperimento che consiste di sotto–esperimenti con esiti equiprobabilii ha esiti equiprobabili. Dimostrazione. (a) Per provare che F¯1 , F¯2 , . . . , F¯n sono indipendenti dobbiamo provare che, dati 1 ≤ i1 < i2 < · · · < ir ≤ n, vale r Y P(F¯ij ) P ∩nj=1 F¯ij = (4.1) j=1 Tuttavia ci basterà provare il risultato per r = n. Infatti notiamo S¯i = S e dunque ∩rj=1 F¯ij = S¯1 ∩ · · · ∩ F¯i1 ∩ S¯i1 +1 · · · ∩ S¯i2 −1 ∩ F¯i2 ∩ · · · ∩ F¯ir ∩ · · · ∩ S¯n ed ottenere dunque la (4.1) dal caso r = n grazie all’arbitrarietà degli Fi . Proviamo dunque n Y P ∩ni=1 F¯i = P(F¯i ) (4.2) i=1 Usiamo la stessa notazione della Definizione 4.4 per gli Ei ed E. Dal Teorema 2.15 n X X Y X Y X P(F¯i ) = P({x}) = Pj ({xj }) = P({xi }) P({xj }) x∈E∩F¯i x∈E∩F¯i j=1 = P(Fi ) · 1 · · · · 1 = Pi (Fi ) xi ∈Ei ∩Fi j6=i xj ∈Ej 46 4. OPERAZIONI SU SPAZI DI PROBABILITÀ Analogamente P(∩ni=1 F¯j ) = P( n Y Fi ) = i=1 = X x1 ∈F1 ··· X ··· x1 ∈F1 n X Y X P({(x1 , . . . , xn )}) xn ∈Fn Pi ({xi }) = xn ∈Fn i=1 n Y Pi (Fi ) i=1 Le ultime due formule implicano la (4.2). (b) Per ipotesi, Pi ({xi }) = 1/|Si | per ogni xi ∈ Si e per ogni i. Dunque P({(x1 , x2 · · · , xn )}) = P1 ({x1 })P2 ({x2 }) · · · Pn ({xn }) 1 1 1 1 = · ··· = |S1 | |S2 | |Sn | |S| Osserviamo che la proprietà (a) della precedente proposizione conferma che lo spazio prodotto è il giusto spazio di probabilità per modellizzare un esperimento composto da n sotto-esperimenti elementari indipendenti. Esempio 4.6. Consideriamo n prove indipendenti, dove ogni prova ha due esiti che chiamiamo ”successo” e ”insuccesso”, per cui il successo si verifica con probabilità p ∈ [0, 1]. Codificando ”successo” e ”insuccesso” rispettivamente con le cifre ”1” e ”0”, la singola prova i-esima è modellizzata dallo spazio di probabilità (Si , Pi ), dove Si = {0, 1} e Pi ({1}) = p, Pi ({0}) = 1 − p. Lo spazio prodotto che modellizza l’esperimento globale dato dalle n prove, detto schema di Bernoulli di parametro p, è quindi (S, P) dove S = {0, 1}n = {(x1 , x2 , . . . , xn ) : xi ∈ {0, 1} ∀i : 1 ≤ i ≤ n} P({(x1 , x2 , . . . , xn )}) = pk (1 − p)n−k , k ≡ k(x) = n X xi i=1 Esempio 4.7. Si lanciano 2 monete truccate per cui testa esce rispettivamente con con probabilità 1/3 e 1/4. Vogliamo determinare la probabilità che escano due facce uguali. Considerando S = {(T, T, ), (C, C), (T, C), (C, T )}, dobbiamo calcolare P(E) dove E = {(T, T ), (C, C)}. Allora P(E) = P({(T, T )}) + P({(C, C)}) = (1/3)(1/4) + (2/3)(3/4) = 7/12 4. Trasporto 0 Sia ora π : S → S una funzione data. Ci si chiede se sia possibile trasportare la funzione π ad una funzione Tπ : Proba(S) → Proba(S 0 ). La risposta affermativa è data dalla seguente proposizione Proposizione 4.8 (Trasporto di probabilità). Sia (S, P) uno spazio di proba0 bilità, S 0 un insieme non vuoto e π : S → S 0 . Definiamo Q : 2S → [0, 1] come −1 Q := P ◦ π ossia Q(E) := P({x ∈ S : π(x) ∈ E}) 0 Allora (S , Q) è uno spazio di probabilità. E ⊂ S0 (4.3) 5. ?UN ESEMPIO DI TRASPORTO 47 Dimostrazione. È chiaro che Q prende valori in [0, 1] restano pertanto da mostrare le proprietà (a) e (b) della Definizione 2.1. Si ha Q(S 0 ) = P({x ∈ S : π(x) ∈ S 0 }) = P(S) = 1 e quindi vale (a). Data una famiglia numerabile E1 , E2 , . . . di eventi a due a due disgiunti in S 0 , dall’Osservazione 1.2 si ha che π −1 (∪i∈N+ Ei ) = ∪i∈N+ π −1 (Ei ) e che gli π −1 (Ei ) sono a due a due disgiunti. Dunque (P ◦ π −1 )(∪i∈N+ Ei ) =P(π −1 (∪i∈N+ Ei )) = P(∪i∈N+ π −1 (Ei )) X X (P ◦ π −1 )(Ei ) P(π −1 (Ei )) = = i∈N+ i∈N+ ossia (b). Nota. Nella precedente proposizione abbiamo utilizzato il fatto che π −1 sia una funzione di insieme inversa di una funzione π data. Se (S, P) è uno spazio di 0 probabilità e π ˜ : S 0 → S, possiamo sollevare π ˜ : 2S → 2S ponendo π ˜ (E) = {y ∈ S : ∃x ∈ E, y = π ˜ (x)} Tuttavia in generale P ◦ π ˜ non è una probabilità su S 0 , come segue dall’Esercizio 1.1 5. ?Un esempio di trasporto Si ricordi la Definizione 2.22. Definizione 4.9. Siano (S, F) e (S 0 , F0 ) due spazi misurabili. Una funzione π : S → S 0 si dice (F, F0 )-misurabile (o semplicemente misurabile se le σ-algebre sono intese) se π −1 (F0 ) ⊂ F, ossia quando π −1 (F 0 ) ∈ F per ogni F 0 ∈ F0 . Ad esempio, se S = S 0 e F ⊃ F0 l’identità su S è misurabile, mentre se F ( F0 essa non sarà misurabile. Se (S, F, P) è uno spazio di probabilità, (S 0 , F0 ) uno spazio misurabile e π : S → S 0 una funzione misurabile, definendo Q su F0 come nella (4.3), si ha che Q = P ◦ π −1 è una probabilità su (S 0 , F0 ) (la dimostrazione è identica a quella della Proposizione 4.8). Nel seguito sviluppiamo un esempio interessante di trasporto da + uno schema di Bernoulli su S = {0, 1}N alla misura piatta su [0, 1]. + Ricordiamo l’Esempio 2.17 in cui avevamo preso S = {0, 1}N , per a ∈ S e + n n ∈ N , avevamo definito l’evento Ea ⊂ S come Ean := {x ∈ S : xi = ai , ∀i = 1, . . . , n} e posto P(Ean ) = 2−n (4.4) Non è difficile verificare che gli insieme della forma Ean al variare di a ∈ S ed n ∈ N+ formano un π-sistema (vedere Definizione 2.32), e dunque la (4.4) identifica P sulla σ-algebra F generata dagli Ean . Consideriamo allora la mappa π : S → R definita da ∞ X π(x) = xk 2−k (4.5) k=1 π associa ad una stringa di 0 ed 1 il numero reale in [0, 1] di cui tale stringa è una rappresentazione in base 2. 48 4. OPERAZIONI SU SPAZI DI PROBABILITÀ Nota. π non è invertibile, in quanto la rappresentazione in base 2 non è unica. Ad esempio 1/2 = 0 + 1/4 + 1/8 + . . ., proprio come 1 = 0.99999 . . .. Teorema 4.10. La funzione π è (F, B)-misurabile, dove F è la σ-algebra generata dagli Ean ed B la σ-algebra di Borel su R. Inoltre vale P({x ∈ S : π(x) ∈ [u, v]}) = v − u, ∀0 ≤ u ≤ v ≤ 1 (4.6) −1 ossia P ◦ π è la misura piatta su [0, 1]. Dunque π induce una corrispondenza tra gli spazi di probabilità degli Esempi 2.17 e 2.18. Prima di dimostrare il teorema, proviamo un lemma preliminare. Lemma 4.11. Dati n ∈ N+ e 0 ≤ i ≤ j ≤ 2n , si ha P({x ∈ S : π(x) ∈ [i 2−n , j 2−n ]}) = (j − i)2−n Dimostrazione. Per ogni x ∈ S, {x} = ∩n≥1 Exn , per cui i singleton sono eventi di S, e dunque anche gli insiemi numerabili di S sono eventi. Come nell’Esempio 2.17, per ogni x ∈ S ed n ∈ N+ P(Exn ) = 2−n e P({x}) = 0 Dunque, dalla σ-additività, P(E) = 0 per ogni E ⊂ S numerabile. Sia ora S¯ = {x ∈ S : esistono un numero infinito di k per cui xk = 1} ∪ {(0, 0, 0, . . .)} ¯ = 1. In particolare se E ∈ F, dal Corollario 2.3-(e), S¯c è numerabile, e pertanto P(S) ¯ P(E) = P(E ∩ S). Dato n ∈ N+ ed h ∈ {0, . . . , 2n − 1} esistono unici y1 ≡ y1 (h, n), y2 ≡ y2 (h, n), . . . , yn ≡ yn (h, n) ∈ {0, 1} tali che n X 2−k yk = h 2−n k=1 Per x ∈ S¯ si ha π(x) ∈ [h2−n , (h + 1)2−n ) se e solo se xk = yk per k = 1, . . . , n. Fissato pertanto un qualunque y ∈ S¯ con tale proprietà P({x ∈ S : π(x) ∈ [h 2−n , (h + 1) 2−n )}) = P({x ∈ S¯ : π(x) ∈ [h 2−n , (h + 1) 2−n )}) = P(Eyn (4.7) ¯ = P(Eyn ) = 2−n ∩ S) Poiché |{x ∈ S¯ : π(x) = h 2−n }| = 1, tale evento ha probabilità nulla per ogni h e P({x ∈ S : π(x) ∈ [i 2−n , j 2−n ]}) = j−1 X P({x ∈ S : π(x) ∈ [h 2−n , (h + 1) 2−n )}) h=i = (j − i)2−n dalla (4.7). Dimostrazione del Teorema 4.10. Gli intervalli della forma Ih,k,n := (h2−n , k2−n ], con h, k ∈ Z ed n ∈ N+ generano la σ-algebra di Borel e sono un π-sistema. È immediato verificare che π −1 (Ih,k,n ∈ F per ogni h, k, n. Dunque D := {E ⊂ B : π −1 (E) ∈ F} è un λ-sistema che contiene il π-sistema degli Ih,k,n . Dunque D contiene l’intera σ-algebra generata dagli Ih,k,n , ossia B. Vale a dire, π è (F − B)-misurabile. 6. ?STRUTTURA SIMPLETTICA 49 Per provare la (4.6), siano dati u, v come in (4.6). Per n ∈ N+ siano in , jn ∈ {0, 1, . . . , 2n − 1} con in ≤ jn tali che in 2−n ≤ u ≤ (in + 1)2−n jn 2−n ≤ v ≤ (jn + 1)2−n In particolare (jn − in )2−n − 2−n ≤ v − u ≤ (jn − in )2−n + 2−n (4.8) Dal Lemma 4.11 P({x ∈ S : π(x) ∈ [u, v]}) ≤ P({x ∈ S : π(x) ∈ [in 2−n , (jn + 1)2−n ]}) = (jn + 1 − in )2−n P({x ∈ S : π(x) ∈ [u, v]}) ≥ P({x ∈ S : π(x) ∈ [(in + 1)2−n , jn )2−n ]}) = (jn − in − 1)2−n e da (4.8) ambo i membri di destra delle due precedenti formule convergono a v − u quando n → +∞. 6. ?Struttura simplettica Come notato nell’Esempio 2.12, esiste un’immersione canonica ı di S in Proba(S) ı : S → Proba(S) x 7→ ı(x) = δx (4.9) (in questo contesto, un’immersione è semplicemente una funzione iniettiva). La Proposizione 4.8 lascia definita una mappa Tπ : Proba(S) → Proba(S 0 ) P 7→ Tπ P ≡ P ◦ π −1 (4.10) le cui proprietà sono date nel seguente teorema riassuntivo di questa sezione. La prova del teorema è un esercizio formale lasciato al lettore, vedi Esercizio 4.1. Teorema 4.12. Siano S, S 0 due insiemi non vuoti, e ı, ı0 le immersioni canoniche di S ed S 0 in Proba(S) e Proba(S 0 ) rispettivamente, definite come in (4.9). Sia π : S → S 0 e Tπ definita in (4.10). Allora (a) Tπ è lineare su Proba(S), ossia per ogni α ∈ [0, 1], P1 , P2 ∈ Proba(S) Tπ (αP1 + (1 − α)P2 ) = αTπ P1 + (1 − α)Tπ P2 (b) Vale Tπ ◦ ı = ı0 ◦ π. Ossia per ogni x ∈ S, Tπ δx = δπ(x) . O equivalentemente, il seguente diagramma è commutativo Proba(S) ∧ ı S Tπ > Proba(S 0 ) ∧0 ı π > S0 Si può mostrare che se S è numerabile, allora le proprietà (a) e (b) del Teorema 4.12 identificano Tπ tra tutte le applicazioni da Proba(S) a Proba(S 0 ). In generale, un’ulteriore proprietà di continuità è necessaria per caratterizzare Tπ . 50 4. OPERAZIONI SU SPAZI DI PROBABILITÀ Definizione 4.13. Una combinazione convessa di due misure di probabilità P0 e P1 di coefficiente α si dice banale se P1 = P0 oppure se α = 0 oppure se α = 1. In altre parole, se Pα coincide con uno tra P1 o P0 . L’insieme estremale di Proba(S) è l’insieme di tutti gli elementi di Proba(S) che non possono essere scritti come una combinazione banale non convessa. Proposizione 4.14. Una misura di probabilità P ∈ Proba(S) è estremale sse P(E) ∈ {0, 1} per ogni evento E. Dimostrazione. (⇐) Dapprima proviamo che se P(E) = 0 o P(E) = 1 per ogni E ⊂ S, allora P è estremale. Supponiamo che P = αP1 + (1 − α)P0 per qualche α ∈ (0, 1). Dobbiamo mostrare che P1 = P0 = P. In effetti per ogni evento E tale che P(E) = 0 0 = α P1 (E) + (1 − α)P0 (E) ed essendo i termini della somma a destra positivi, e α, 1 − α > 0, si deve aver per forza P1 (E) = P0 (E) = 0 = P(E). D’altra parte per ogni evento E tale che P(E) = 1 0 = α(1 − P1 (E)) + (1 − α)(1 − P0 (E)) da cui ragionando come sopra P1 (E) = P0 (E) = 1 = P(E). Quindi P1 (E) = P2 (E) = P(E) per ogni E ⊂ S, ossia P1 = P0 = P. (⇒) Mostriamo che se esiste un evento E ⊂ S tale che P(E) ∈ (0, 1), allora P può essere scritta come combinazione convessa non banale. In effetti per ogni F ⊂ S possiamo scrivere P(F ) = α P(F |E) + (1 − α)P(F |E c ) dove α = P(E). Abbiamo visto a lezione che P(·|E), P(·|E c ) sono delle probabilità su S, ed esse sono distinte da P poichè P(E) ∈ (0, 1) mentre P(E|E) = 1 e P(E|E c ) = 0. Nota. Si noti in particolare che le delta di Dirac sono sempre estremali. Sotto ipotesi abbastanza generali sullo spazio campionario (ad esempio se S è numerabile oppure S = Rn con σ-algebra di Borel), si ha che una misura di probabilità prende valori in {0, 1} se e solo se è una delta di Dirac. Quindi nei casi più comuni l’insieme delle probabilità estremali coincide con le delta di Dirac. 7. Esercizi Capitolo 4 ?Esercizio 4.1. Dimostrare il Teorema 4.12. CAPITOLO 5 Variabili aleatorie Possiamo pensare una variabile aleatoria come un numero reale casuale. Ci riferiamo ai Capitoli 4, 5, 6 del Ross. 1. Definizioni ingenue Definizione 5.1. Sia (S, P) uno spazio di probabilità. Una funzione X : S → R si dice una variabile aleatoria, e la misura di probabiltà PX su R data da PX := P ◦ X −1 è detta legge di X. Osservazione 5.2. Data una misura di probabilità Q su R, esistono sempre uno spazio di probabilità (S, P) ed una funzione X : S → R tale che PX = Q. Ad esempio è sufficiente prendere (S, P) = (R, Q) ed X(s) = s. Nel seguito, assumeremo di aver fissato uno spazio di probabilità (S, P) su cui sono definite le nostre variabili aleatorie. Come nell’osservazione precedente, prenderemo cura di mostrare che possiamo definire spazi campionari con opportune proprietà quando necessario. Nota. Spesso lo spazio campionario S su cui una variabile aleatoria è definita è irrilevante, e ci si interessa solo alla legge di X (ossia, in ultima analisi, ad una misura di probabilità sullo spazio campionario R). In tale caso, faremo ampiamente uso di una notazione abbreviata che ’nasconde’ lo spazio S. Scriveremo infatti, per E⊂R P(X ∈ E) := P({s ∈ S : X(s) ∈ E) = P ◦ X −1 (E) e per gli eventi intenderemo {X ∈ E} := {s ∈ S : X(s) ∈ E}. Tale notazione viene estesa a varie espressioni che si ottengono per scelte particolari di E. Ad esempio per E un intervallo abbiamo P(X ≤ x) := P({s ∈ S : X(s) ≤ x) = P ◦ X −1 ((−∞, x]) P(X = x) := P({s ∈ S : X(s) = x) = P ◦ X −1 ([x, x]) P(x1 < X ≤ x2 ) := P({s ∈ S : x1 < X(s) ≤ x2 ) = P ◦ X −1 ((x1 , x2 ]) e così via. Analogamente, se si hanno due o più variabili aleatorie definite sullo stesso spazio, si denota P(X ∈ E, Y ∈ F ) = P({X ∈ E} ∩ {Y ∈ F }) = P({s ∈ S : X(s) ∈ E, Y (s) ∈ F ) Tale notazione sottolinea l’interpretazione di una variabile aleatoria come ’numero reale random’. Definizione 5.3. Sia X una variabile aleatoria. La funzione FX : R → [0, 1] definita da FX (x) = P(X ≤ x) si dice funzione di ripartizione di X. 51 52 5. VARIABILI ALEATORIE Si ricordi la Definizione 2.37. Teorema 5.4. Sia X una variabile aleatoria reale. Allora FX ha le seguenti proprietà (a) F è crescente. (b) F è cadlag. (c) limx→−∞ F (x) = 0 e limx→+∞ F (x) = 1. Viceversa, data una F : R → [0, 1] con tali proprietà, esiste una variabile aleatoria X tale che F = FX . Dimostrazione. Naturalmente FX prende valori in [0, 1]. Mostriamo dapprima che FX soddisfa le proprietà elencate. (a) Se x ≤ y, FX (x) = P(X ≤ x) ≤ P(X ≤ y) = FX (y). (b) Poichè FX è crescente e limitata, i limiti di FX da destra e sinistra esistono, denotiamoli con FX (x± ). Dobbiamo allora solo provare che la funzione è continua da destra, ossia FX (x+ ) = FX (x). Poichè il limite da destra esiste, possiamo calcolarlo lungo una qualunque successione xn ↓ x, prendiamo dunque xn = x + n1 . Poichè (−∞, x] = ∩n (−∞, x + 1/n], abbiamo che {X ≤ x} = ∪n {X ≤ x + n1 }. Essendo la successione di insiemi ({X ≤ x + n1 })n monotona decrescente in n, per il Teorema 2.5 FX (x+ ) = lim FX (x + n1 ) = lim P(X ≤ x + n1 ) = P(X ≤ x) = FX (x) n n (c) Analogamente, sempre per la monotonia di FX , possiamo calcolare il limite limx→−∞ lungo una qualunque successione xn ↓ −∞. Prendiamo ad esempio xn = −n, e notiamo che ∩n (−∞, −n] = ∅, da cui ∩n {X ≤ −n} = ∅. Dunque, ancora dal Teorema 2.5 lim FX (x) = lim FX (−n) = lim P(X ≤ −n) = P(∅) = 0 x→−∞ n→+∞ n→+∞ (5.1) Per calcolare limx→+∞ FX (x) ragioniamo allora allo stesso modo, usando la successione di insiemi {X ≤ n}. Oppure notiamo che FX (x) = P(X ≤ x) = 1 − P(X ≥ x) = 1 − P(−X ≤ −x) = 1 − FY (−x) dove la variabile aleatoria Y è definita come Y (s) = −X(s). Da cui lim FX (x) = 1 − lim FY (x) = 1 x→+∞ x→−∞ dove nell’ultima uguaglianza abbiamo usato la (5.1) applicata alla variabile aleatoria Y . Per le implicazioni inverse, data F come nell’enunciato, dal Teorema 2.38 esiste una misura di probabilità P su R tale che P((−∞, x]) = F (x). E dall’Osservazione 5.2 esiste una variabile aleatoria X di cui P è la legge. Definizione 5.5. Sia X una variabile aleatoria. L’insieme EX := {x ∈ R : P(X = x) > 0} si dice insieme dei valori discreti di X. Corollario 5.6. Sia X una variabile aleatoria reale. L’insieme EX dei valori discreti di X è finito (possibilmente vuoto) o numerabile, e dunque X è discreta sse P(X ∈ EX ) = 1. Inoltre valgono FX (x− ) = P(X < x) − FX (x) − FX (x ) = P(X = x) ∀x ∈ R ∀x ∈ R (5.2) (5.3) 2. VARIABILI ALEATORIE DISCRETE E CONTINUE 53 ossia EX è l’insieme di discontinuità di FX (FX è continua su R \ EX ) ed il salto di FX su un punto x ∈ EX è proprio la probabilità P(X = x). n Dimostrazione. Dato n ∈ N+ , sia EX = {x ∈ R : P(X = x) ≥ n1 }. La n n n cardinalità di EX è al più n (poichè P(EX ) ≤ 1), e dunque EX = ∪n EX è unione numerabile di insiemi finiti. Ora, come nel Teorema 5.4 FX (x− ) = lim F (x − n1 ) = lim PX ((−∞, x − n1 ]) = PX ((−∞, x)) = P(X < x) n n 2. Variabili aleatorie discrete e continue Si ricordi la Definizione 2.11. Definizione 5.7. Una variabile aleatoria X si dice discreta se la sua legge PX è discreta (sullo spazio campionario R), ossia se esiste un sottoinsieme finito o numerabile E ⊂ R tale che P(X ∈ E) = 1. O equivalentemente se P(X ∈ EX ) = 1. O ancora equivalentemente se la legge di X è concentrata su EX . Si ricordi la Definizione 2.19. Definizione 5.8. Una variabile aleatoria X si dice continua se la sua legge PX è continua, ossia se esiste una funzione % integrabile, positiva, e di integrale pari ad 1, tale che Z P(X ∈ I) = %(x) dx per ogni intervallo I ⊂ R I Si noti che se una variabile aleatoria è continua, per ogni si ha Z P(X = x) = %(y) dy = 0 ∀x ∈ R [x,x] Dunque, dalla σ-additività, per ogni E ⊂ R numerabile si ha P(X ∈ E) = 0. Dunque, se una variabile aleatoria è continua, essa non è discreta. Proposizione 5.9. Sia X una variabile aleatoria. Allora (a) Se X è discreta, FX è costante su ciascun intervallo connesso di R\EX , mentre soddisfa (5.3) su EX . Ossia X FX (x) = P(X = y) y∈EX , y≤x (b) Se X è continua, allora per ogni densità % di PX si ha Z x FX (x) = %(y) dy (5.4) −∞ in particolare tale integrale non dipende dalla scelta della densità % tra tutte le possibili densità di PX . Inoltre FX è continua e detto NX := {x ∈ R : FX non è derivabile in x} si ha P(X ∈ NX ) = 0. Infine ogni funzione % positiva e che convida con la derivata di FX su R \ NX è una densità di PX . 54 5. VARIABILI ALEATORIE Dimostrazione. (a) Sia X discreta, e siano x ∈ R ∪ {−∞}, y ∈ R tali che x ≤ y e (x, y] ∩ EX = ∅. Allora X FX (y) − FX (x) = P((x, y]) = P(X = z) = 0 z∈EX , z∈(x,y] dove nella penultima uguaglianza abbiamo usato il Teorema 2.15. (b) Se X è continua, esiste una densità % tale che Z PX ((−∞, x]) = %(y) dy (−∞,x] per ogni x ∈ R, da cui la (5.4) e la continuità di FX . Definiamo ora per x ∈ R e k ∈ N+ FX (y) − FX (x) = y−x FX (y) − FX (x) %(x) := lim y−x y→x %(x) := lim y→x k NX := {x ∈ R : %(x) − %(x) > k1 } k k Poichè NX = ∪k≥1 NX , dal Teorema 2.5, P(X ∈ NX ) = limk P(X ∈ NX ). + Dunque per concludere basta mostrare che per ogni k ∈ N Z %(x) dx = 0 k NX Ma questo è un risultato noto per ogni funzione integrabile % (teorema di Lebesgue), la cui prova è omessa in queste note. Le seguenti osservazioni si dimostrano facilmente. Osservazione 5.10. Sia X una variabile aleatoria sullo spazio di probabilità (S, P), e sia f : R → R. Allora Y = f (X) (definita come la composizione Y (s) = f (X(s))) è una variabile aleatoria su (S, P) con legge PY = PX ◦f −1 e EY = f (EX ). In P particolare se X è discreta anche Y è discreta, e per y ∈ EY , P(Y = y) = x∈f −1 ({y}) P(X = x). Osservazione 5.11. Siano X ed Y due variabili aleatorie sul medesimo spazio di probabilità (S, P), e sia f : R2 → R. Allora Z = f (X, Y ) (definita come Z(s) = f (X(s), Y (s))) è una variabile aleatoria su (S, P). Inoltre EZ = f (EX , EY ) = {z ∈ R : ∃(x, y) ∈ EX × EY e z = f (x,P y)}. Inoltre se X ed Y sono discrete, Z è discreta e e per z ∈ EZ , P(Z = z) = x EX , y∈EY : z=f (x,y) P(X = x, Y = y). 3. Esempi di variabili aleatorie discrete e continue Si veda il Ross, capitoli 4 e 5. 4. Condizionamento ed indipendenza di variabili aleatorie Si veda il Ross, capitolo 6. 4. CONDIZIONAMENTO ED INDIPENDENZA DI VARIABILI ALEATORIE 55 Definizione 5.12. Due variabili aleatorie X ed Y definite sullo stesso spazio di probabilità si dicono indipendenti se per ogni A, B ⊂ R gli eventi {X ∈ A} ed {Y ∈ B} sono indipendenti, ovvero se P(X ∈ A, Y ∈ B) = P(X ∈ A)P(Y ∈ B) (5.5) Una famiglia {Xi }i∈I di variabili aleatorie (definite sullo stesso spazio di probabilità) si dice indipendente se per ogni famiglia {Ai }i∈I di insiemi Ai ⊂ R, gli eventi {Xi ∈ Ai }i∈I sono indipendenti, ovvero se per ogni n ∈ N+ ed ogni collezione collezione finita i1 , i2 , . . . , in di indici in I P(Xi1 ∈ Ai1 , Xi2 ∈ Ai2 , . . . , Xin ∈ Ain ) = n Y P(Xij ∈ Aij ) (5.6) j=1 Proposizione 5.13. Siano X, Y due variabili aleatorie discrete definite sullo stesso spazio di probabilità, e siano E, F ⊂ R tali che P(X ∈ E) = P(Y ∈ F ) = 1. Allora X ed Y sono indipendenti se e solo se P(X = x, Y = y) = P(X = x) P(Y = y) ∀x ∈ E, y ∈ F (5.7) Ovverosia, per mostrare che due variabili aleatorie discrete sono indipendenti, è sufficiente mostrare la (5.5) per A e B dei singleton A = {x}, B = {y} con P(X = x), P(Y = y) > 0. Più in generale, per mostrare che una famiglia di variabili aleatorie discrete è indipendente, è sufficiente mostrare che la (5.6) è valida quando gli Aij = {xij } dove gli xi sono tali che P(Xi = xi ) > 0. Dimostrazione. Mostriamolo per due variabili aleatorie. La dimostrazione generale è del tutto analoga. Naturalmente se X ed Y sono indipendenti, possiamo prendere A = {x} e B = {y} nella (5.5) ed ottenere la (5.7) al variare di x ∈ E ed y ∈ F . Supponiamo allora che la (5.7) sia valida e mostriamo la (5.5). Dal Teorema 2.15, per ogni A, B ∈ R X X P(X ∈ A) = P({x}) P(X ∈ B) = P({y}) x∈A∩E B∈A∩F Come per gli eventi, data una famiglia di variabili aleatorie non è sufficiente sapere che tutte le coppie di variabili di tale famiglia sono mutualmente indipendenti per avere indipendenza della famiglia stessa, come mostrato nel seguente esempio. Esempio 5.14. Alla tavola rotonda della corte di Camelot sono seduti n ≥ 3 cavalieri, incluso Re Artù. Numeriamo Artù con 1, il cavaliere alla sua destra con 2, e così via fino al cavaliere n alla sinistra di Artù. Ogni cavaliere può scegliere se bere acqua o sidro durante la discussione, ed assumiamo che ciascuno decida per il sidro con probabilità 1/2 indipendentemente dagli altri. Definiamo per i = 1, . . . , n le variabili aleatorie ( 1 se il cavaliere alla destra di i ha la stessa bevanda di i. Xi = −1 altrimenti. Abbiamo che P(Xi = ±1) = 41 + 14 = 1/2 e si verifica facilmente che dati i 6= j, P(Xi = ±1, Xj = ±1) = 1/4 = P(Xi = ±1)P(Xj = ±1). Dalla Proposizione 5.13 56 5. VARIABILI ALEATORIE si ha che per i 6= j, Xi ed Xj sono indipendenti. Tuttavia P( n Y Xi = 1) = 1 i=1 poichè deve esserci un numero pari di ""cambi di bevanda” partendo da Artù e compiendo l’intero giro della tavola. In particolare la famiglia {Xi } non può essere indipendente: ad esempio Y P(X1 = −1, Xi = 1 ∀i ≥ 2) = 0 6= P(X1 = 1) P(Xi = 1) = 2−n i≥2 Proposizione 5.15. Siano X ed Y due variabili aleatorie indipendenti, ed f, g : R → R due funzioni. Allora f (X) e g(Y ) sono delle variabili aleatorie indipendenti. Dimostrazione. Per ogni A, B ⊂ R si ha P(f (X) ∈ A, g(Y ) ∈ B) = P(X ∈ f −1 (A), Y ∈ g −1 (B)) = P(X ∈ f −1 (A))P(Y ∈ g −1 (B)) = P(f (X) ∈ A)P(g(Y ) ∈ B) CAPITOLO 6 Valore di attesa 1. Attesa di variabili aleatorie discrete Sia X una variabile aleatoria discreta, e per x ∈ R sia px = P(X = x). Allora px > 0 sse x ∈ EX . Possiamo immaginare la legge di X come la distribuzione di massa sulla retta reale R, che corrisponde a mettere un peso di massa px sul punto x, per ogni x ∈ R. Ad esempio, se lanciamo una moneta ed otteniamo con probabilità 1/2 il risultato 0, e con probabilità 1/2 il risultato 1, possiamo pensare di mettere un peso 1/2 sul punto 0 ed un peso 1/2 sul punto 1. P In generale, il baricentro di tale distribuzione di massa sarà dato da x∈EX x px , ammesso chePtale serie sia P ben definita. Inoltre, se E ⊃ EX è finito o numerabile, avremo che x∈E x px = x∈EX x px , poichè nella prima somma abbiamo semplicemente aggiunto degli addendi nulli. Ciò motiva le definizioni date in questa sezione. Data una variabile aleatoria X possiamo considerare le due variabili aleatorie X + = max(X, 0), X − = max(−X, 0), da cui X = X + − X − e |X| = X + + X − . Dall’Osservazione 5.10, se X è discreta allora |X| e X ± sono variabili aleatorie positive discrete. Definizione 6.1. Sia X una variabile aleatoria discreta positiva ed E ⊂ R finito o numerabile tale che P(X ∈ E) = 1, ossia E ⊃ EX . Si definisce valore atteso di X o attesa di X o ancora speranza matematica di X il valore (indipendente dalla scelta di E tale che P(X ∈ E) = 1) X E[X] := x P(X = x) ∈ [0, +∞] (6.1) x∈E Sia ora X è una variabile aleatoria discreta (non necessariamente positiva). Restano sempre ben definiti in [0, +∞] i valori attesi E[|X|], E[X + ] ed E[X − ] dalla (6.1). Se E[|X|] < +∞, allora E[X + ] < +∞ e E[X − ] < +∞; in tal caso si dice che X è integrabile o di attesa finita e si pone X E[X] := E[X + ] − E[X − ] = x P(X = x) ∈ R x∈E Altrimenti, se E[X + ] = +∞ e E[X − ] < ∞ si pone E[X] = +∞, se E[X − ] = +∞ e E[X + ] < ∞ si pone E[X] = −∞. Infine, se E[X + ] = E[X − ] = +∞, diremo che E[X] non è ben definito. EsercizioRisolto 6.1. Nello stesso contesto dell’EsercizioRisolto 3.3, calcolare il valore atteso del numero di figurine da acquistare per completare l’album. Soluzione. Assumiamo m > 1, poichè X è costante ed uguale ad 1 se m = 1. 57 58 6. VALORE DI ATTESA Sia X la variable aleatoria corrispondente al numero di acquisto della figurina che completa l’album. Con la notazione dell’EsercizioRisolto 3.3, X(s) = n sse n−1 n c s ∈ F{1,..., m} ∩ (F{1,..., m} ) . Quindi il valore atteso richiesto vale EX = ∞ X n−1 n c n P(F{1,..., m} ∩ (F{1,..., m} ) ) n=1 n−1 n Poiché F{1,..., m} ⊃ F{1,..., m} abbiamo dall’EsercizioRisolto 3.3-(a) n−1 n−1 n c n P(F{1,..., m} ∩ (F{1,..., m} ) ) =P(F{1,..., m} ) − P(F{1,..., m} ) X n−1 X X = (−1)m−|J|+1 pj (1 − pj ) j∈J J⊂{1,..., m} j∈J da cui E[X] = X ∅(J({1,..., m} (−1)m−|J|+1 P = 1 − j∈J pj X ∅(J({1,..., m} (−1)|J|−1 P j∈J pj Ad esempio se tutte le caselle sono equiprobabili m−1 X (−1)k−1 m E[X] = m := e(m) k k k=1 Si può mostrare (si veda l’Esercizio 3.2) che il caso in cui tutte le caselle sono Figura 1. Il rapporto E[X]/(m log(1 + m)) per m ∈ {2, . . . , 200}. equiprobabili minimizza, ad m fissato, il valore E[X]. Sulla funzione e(m) sappiamo a priori che e(m) ≥ m, poichè P(X < m) = 0. Con qualche accortezza si ottiene, 2. ATTESA DI VARIABILI ALEATORIE ARBITRARIE 59 per m ≥ 2 e(m) ≥ m log(1 + m) lim m→+∞ e(m) =1 m log(1 + m) In particolare, anche nel caso non-equiprobabile abbiamo E[X] ≥ m log(1 + m). 2. Attesa di variabili aleatorie arbitrarie In questa sezione costruiamo una definizione di valore atteso per variabili arbitrarie, in diversi passi a partire dalla definizione di valore atteso di variabili discrete positive. Si ricordi che dato x ∈ R, bxc denota il più piccolo intero minore di x. Ad esempio bπc = 3, b5c = 5 e b−πc = −4. Data una variabile aleatoria X, introduciamo (nel resto di questo capitolo) per n ∈ N+ le variabili aleatorie X n := 2−n b2n Xc X n := 2−n b2n X + 1c (6.2) La seguente osservazione si dimostra senza difficoltà. Osservazione 6.2. Le variabili aleatorie X n ed X n sono discrete poichè P(X n ∈ Z/2n ) = P(X n ∈ Z/2n ) = 1, dove Z/2n := {y ∈ R : 2n y ∈ Z}. Inoltre X n è crescente, X n è decrescente e per ogni n ∈ N+ e k ∈ Z valgono X n − 2−n ≤ X n ≤ X ≤ X n ≤ X n + 2−n P(X n = k 2−n ) = P(X ∈ [k 2−n , (k + 1)2−n )) P(X n = k 2−n ) = P(X ∈ [(k − 1) 2−n , k 2−n )) (6.3) (6.4) Osservazione 6.3. Sia X una variabile aleatoria positiva. Allora lim EX n = sup E[Y ] = lim EX n = inf E[Z] n n Y Z (6.5) dove l’estremo superiore è preso su tutte la variabili aleatorie discrete Y di attesa ben definita e tali che Y ≤ X (ossia Y (s) ≤ X(s) per ogni s ∈ S), e l’estremo inferiore è preso su tutte la variabili aleatorie discrete Z di attesa ben definita tali che Z ≥ X. Dimostrazione. Essendo X positiva, le attese di X n e X n sono ben definite dalla (6.3), ed i limiti in n dell’enunciato esistono per la monotonia notata nell’Osservazione 6.2. Per ogni Y e Z, come nell’enunciato, Y ≤ X ≤ Z, e pertanto per ogni n ∈ N+ (essendo X n una di tali Y e X n una di tali Z) E[X n ] ≤ sup E[Y ] ≤ inf E[Z] ≤ E[X]n ≤ E[X n ] + 2−n Y Z dove abbiamo utilizzato la (6.3) per l’ultima disuguaglianza. Passando al limite in n si ha la tesi. Definizione 6.4. Sia X una variabile aleatoria reale positiva sullo spazio di probabilità (S, P). La quantità identificata dall’uguaglianza (6.5) si dice attesa di X. Come nella Definizione 6.1 si definisce poi l’attesa di una variabile reale (non necessariamente positiva) se almeno uno tra E[X + ] o E[X − ] è finito, ed X si dice integrabile o di attesa finita se E[|X|] < +∞. 60 6. VALORE DI ATTESA È immediato verificare che tale definizione è consistente con la Definizione 6.1 poichè il superiore sulle Y e l’inferiore sulle Z è raggiunto per X = Y = Z se X è discreta. Lemma 6.5. Siano X ed Y due variabili aleatorie discrete definite sullo stesso spazio di probabilità (S, P). Per x, y ∈ R definiamo px = P(X = x) qy = P(Y = y) rx,y := P(X = x, Y = y) = P({s ∈ S : X(s) = s, Y (s) = y) Allora si ha X X rx,y = px y∈EY rx,y = qy x∈EX Dimostrazione. Mostriamo la prima affermazione, la seconda essendo simmetrica per scambio di X con Y . Possiamo assumere x ∈ EX , l’uguaglianza riducendosi a 0 = 0 altrimenti. Sia allora S¯ := {s ∈ S : Y (s) ∈ EY }. Poichè Y è ¯ = P(Y ∈ EY ) = 1 e dunque discreta, P(S) X X rx,y = P({X = x} ∩ {y = Y }) y∈EY y∈EY ¯ = P(X = x) = px = P ∪y∈EY ({X = x} ∩ {Y = y}) = P({X = x} ∩ S) Lemma 6.6. Siano X ed Y due variabili aleatorie discrete di attesa finita definite sullo stesso spazio campionario. Allora la variabile aleatoria Z = X + Y è discreta, ha attesa finita e E[X + Y ] = E[X] + E[Y ]. Dimostrazione. Dall’Osservazione 5.11 Z è discreta e EZ := {z ∈ R : ∃x ∈ EX , y ∈ EY tali che z = x + y} e per z ∈ EZ X P(Z = z) = P(X = x, Y = y) = x,y : x+y=z X rx,y x,y : x+y=z dove abbiamo usato la notazione del Lemma 6.5, ed in questa dimostrazione le somme sulle x ed y sono ristrette rispettivamente ad EX ed EY . Usando il Lemma 6.5 X X X E[Z] = zP(Z = z) = z rx,y z∈EZ x,y : x+y=z z∈EZ X = X (x + y) rx,y = z∈EZ x,y : x+y=z X x,y x rx,y + X x,y y rx,y = X (x + y) rx,y = x,y X x x px + X y qy = E[X] + E[Y ] y Teorema 6.7. Siano X ed Y due variabili aleatorie di attesa finita definite sullo stesso spazio campionario (S, P), e siano α β, γ ∈ R. Allora (a) La variabile αX ha attesa finita e E[αX] = αE[X]. (b) La variabile X + Y ha attesa finita e E[X + Y ] = E[X] + E[Y ]. (c) Se P(X = γ) = 1 allora E[X] = γ. (d) Se P(X ≥ Y ) = 1, allora E[X] ≥ E[Y ]. 3. IL VALORE D’ATTESA DI VARIABILI ALEATORIE CONTINUE 61 Ne segue in particolare che E[α X + β Y + γ] = αE[X] + βE[Y ] + γ Dimostrazione. (a) L’identità è immediata per variabili aleatorie discrete. Sia allora X arbitraria. Se Z è una variabile aleatoria discreta che minora X, allora αZ maggiora (minora) αX se α ≥ 0 (se α ≤ 0). Se Z 0 è una variabile aleatoria che maggiora X, allora αZ 0 minora (maggiora) αX se α ≥ 0 (se α ≤ 0). Ottimizzando su Z e Z 0 si ottiene l’uguaglianza. (b) Si noti che X n + Y n e X n + Y n sono delle variabili aleatorie discrete, che rispettivamente maggiorano e minorano X + Y . Dal Lemma 6.6 segue allora E[X n ] + E[Y n ] = E[X n + Y n ] ≤ E[X + Y ] ≤ E[X n + Y n ] = E[X n ] + E[Y n ] e passando al limite in n si ottiene la tesi. (c) X è discreta, e l’uguaglianza segue immediatamente dalla definizione. (d) Sia Z = −(X − Y )− . Allora Z ≤ X − Y e P(Z = 0) = P(X − Y ≥ 0) = 1. In particolare Z è discreta, e dunque E[X − Y ] ≥ E[Z] = 0, dove l’ultima uguaglianza segue dal punto (c). Dal punto (b) segue allora la tesi. 3. Il valore d’attesa di variabili aleatorie continue Teorema 6.8. Sia X una variabile aleatoria continua e sia % una densità della legge di X. Allora vale Z E[|X|] = |x|%(x) dx e se X ha attesa finita allora Z E[X] = x%(x) dx Dimostrazione. Dalla (6.4) e dalla Definizione 6.1 si ha k+1 X X Z 2n −n k k+1 kP(X ∈ [ 2n , 2n )) = k 2−n %(x) dx E[X n ] = 2 k∈Z Da cui k∈Z Z 0≤ k 2n x%(x)dx − EX n ≤ 2−n e la tesi segue dalla Definizione 6.4, se si passa al limite in n. Il precedente teorema si generalizza come segue. Teorema 6.9. Sia X una variabile aleatoria continua di densità %, sia f : R → R, e supponiamo che la variabile aleatoria Y = f (X) abbia attesa ben definita. Allora Z E[Y ] = f (x)%(x) dx Dimostrazione. Dalla (6.4) otteniamo −1 P(Y n = k) = P(Y ∈ [ 2kn , k+1 ([ 2kn , k+1 2n )) = P(X ∈ f 2n ))) e come nella dimostrazione del Teorema 6.8 XZ E[Y n ] = k∈Z k k+1 f −1 ([ 2n , 2n )) k 2−n %(x) dx 62 6. VALORE DI ATTESA −n Ma per x ∈ f −1 ([ 2kn , k+1 ≤ f (x) ≤ (k + 1)2−n da cui 2n )) si ha appunto k2 Z 0 ≤ f (x)%(x) dx − E[Y n ] ≤ 2−n e si ottiene la tesi passando al limite. 4. Prodotti e somme di variabili aleatorie indipendenti Si veda anche il Ross, capitolo 6. Teorema 6.10. Siano X ed Y due variabili aleatorie indipendenti e di attesa finita. Allora la variabile aleatoria X Y ha attesa finita e E X Y = E[X] E[Y ] (6.6) Dimostrazione. Sia Z = X Y . Dividiamo la dimostrazione in due passi. Dapprima mostriamo l’identità per X ed Y discrete. Poi, mediante approssimazione, per X ed Y arbitrarie. Passo1. Siano allora X ed Y discrete, e siano E, F ⊂ R numerabili tali che P(X ∈ E) = P(Y ∈ F ) = 1. Per x ∈ E e y ∈ F definiamo px = P(X = x), qy = P(Y = y) e dall’indipendenza di X ed Y , P(X = x, Y = y) = px qy . Sia ora G = E + F := {z ∈ R : ∃ (x, y) ∈ E × F tali che z = xy}. Notiamo che P(Z ∈ G) = 1, e che G è numerabile, pertanto Z e discreta. Inoltre per z ∈ G (in effetti per ogni z ∈ R) X X P(Z = z) = P(X = x, Y = x) = px qy (x,y)∈E×F : xy=z (x,y)∈E×F : xy=z e pertanto E[Z] = X P(Z = z) = z∈G = X X z px qy z∈G (x,y)∈E×F : xy=z X (x,y)∈E×F xy px qy = X x∈E x px X y qy = E[X] E[Y ] y∈F Passo2. Siano ora X ed Y delle variabili aleatorie (non necessariamente discrete). Si ricordi la (6.2). Dalla Proposizione 5.15 e dall’Osservazione 6.2, X n ed Y n sono delle variabili aleatorie discrete ed indipendenti. Allora Zn := X n Y n è una variabile aleatoria discreta e dal Passo1 EZn = E[X n ]E[Y n ] (6.7) D’altra parte |EX n − EX| ≤ E|X n − X| ≤ 2−n |EY n − EY | ≤ E|X n − X| ≤ 2−n |EZn − EZ| = E[(X n − X)Y ] + E[X n (Yn − Y )] ≤ E[|X n − X| |Y |] + E[|X n | |Yn − Y |] ≤ 2−n (E[|Y |] + E[X n ]) ≤ 2−n (E[|Y |] + E[|X|] + 2−n ) Pertanto passando al limite n → +∞ nella (6.7) si ottiene l’uguaglianza desiderata. 4. PRODOTTI E SOMME DI VARIABILI ALEATORIE INDIPENDENTI 63 Proposizione 6.11. Siano X ed Y due variabili aleatorie indipendenti e sia Z = X + Y . Allora (a) Se X ed Y sono discrete, con E ed F numerabili tali che P(X ∈ E) = P(Y ∈ F ) = 1, allora Z è discreta con P(Z ∈ E + F ) = 1 e X X P(Z = z) = px qz−x = pz−y qy x∈E y∈F dove px = P(X = x) e qy = P(Y = y). (b) Se X ed Y sono continue con densità %X e %Y rispettivamente, allora Z è continua con densità Z Z %Z (z) = %X (x)%Y (z − x) dx = %X (z − y)%Y (y) dy R R Dimostrazione. (a) Sia G = E + F . Allora per ogni z ∈ G abbiamo X P(X + Y = z) = P(X + Y = z|X = x)P(X = x) x∈E = X P(Y = z − x|X = x)P(X = x) = x∈E X qz−x px x∈E (b) Si ricordi la (6.2). Per n ∈ N+ sia allora Zn = X n + Y n e per k ∈ Z sia Ik,n l’intervallo [k2−n , (k + 1)2−n ). Dal punto (a) e dall’Osservazione 6.2 X P(Zn = k2−n ) = P(Xn = h2−n )P(Yn = (k − h)2−n ) h∈Z = X P(X ∈ Ih,n )P(Y ∈ Ih−k,n ) = h∈Z −n =2 XZ h∈Z X 2−n %¯X h,n X % (x)dx Ih,n Z %Y (y)dy Ik−h,n %¯Yk−h,n h∈Z dove %¯X ¯Yj,n sono rispettivamente le medie di %X e %Y sull’intervallo Ij,n . j,n e % Riconosciamo pertanto nell’ultima riga della formula precedente una somma di Riemann, ed otteniamo quindi hZ i P(Zn = k2−n ) = 2−n %X (x)%Y (k2−n − x) dx + rn (k) R = 2−n %Z (k2−n ) + rn (k)2−n dove per ogni c > 0, limn→+∞ supk∈Z : |k2n |≤c |rn (k)| = 0. Dati α, β ∈ R con α < β sia abbiamo pertanto X P(Zn ∈ (α, β]) = P(Zn = k2−n ) k : k2−n ∈(α,β] = X 2−n %Z (k2−n ) + rn (k)2−n k∈(2n α, 2n β]∩Z Si verifica facilmente che la somma dei resti rn (k)2−n converge a 0 quando n → +∞, mentre nel primo termine della somma riconosciamo di nuovo una somma di Riemann. Pertanto Z β (6.8) lim P(Zn ∈ (α, β]) = %Z (z) dz n→+∞ α 64 6. VALORE DI ATTESA D’altra parte, per ogni a < b, ε > 0 tale che a + ε < b − ε ed n abbastanza grande in modo che 2−n ≤ ε, poichè |Z − Zn | ≤ ε, si ha che P(Zn ∈ [a + ε, b − ε]) ≤ P(Z ∈ (a, b]) ≤ P(Zn ∈ [a − ε, b + ε]) Passando al limite n → +∞ ed usando (6.8) Z b−ε Z Z % (z) dz ≤ P(Z ∈ (a, b]) ≤ a+ε b+ε %Z (z) dz a−ε Passando al limite ε ↓ 0 abbiamo che %Z è proprio la densità di Z. 5. Varianza, covarianza e correlazione Osservazione 6.12. Siano X ed Y due variabili aleatorie, tali che E[X 2 ] < +∞ e E[Y 2 ] < +∞. Allora E[|X Y |]2 ≤ E[X 2 ] E[Y 2 ]. Dimostrazione. Assumiamo E[X 2 ] > 0, poichè se E[X 2 ] = 0 allora P(X = ` 0) = 1 e dunque la disuguaglianza banalmente verificata. Per ogni c > 0 is ha |X Y | = (c |X|) |Yc | ≤ 2 c2 2 X + 2 1 2c2 Y Per il Teorema 6.7-(d), la disuguaglianza passa alle attese E[|X Y |] ≤ 2 c2 2 E[X ] + 2 1 2c2 E[Y ] 1 1 che rende la disuguaglianza voluta per c2 = E[X 2 ]− 2 E[Y 2 ] 2 Definizione 6.13. Sia X ed Y due variabili aleatorie tali che E[X 2 ] < +∞ e E[Y ] < +∞. Si definisce covarianza di X ed Y la quantintià 2 Cov[X, Y ] := E[X Y ] − E[X] E[Y ] che è ben definita per via dell’Osservazione 6.12. La quantità Var[X] := Cov[X, X] = E[X 2 ] − E[X]2 = E (X − E[X])2 si dice varianza di X. Se Var[X], Var[Y ] > 0 la quantità Cov[X, Y ] Corr[X, Y ] := p Var[X] Var[Y ] si dice correlazione di X ed Y . Se Cov[X, Y ] = 0 diremo che X ed Y sono decorrelate. Per linearità dell’attesa, si ha che Cov[·, ·] è una forma quadratica (simmetrica) sullo spazio vettoriale delle variabili aleatorie. In particolare date α e β due costanti reali Cov[α X, β Y ] = α β Cov[X, Y ] Var[α X] = α2 Var[X] La seguenti osservazioni hanno una dimostrazione immediata. Osservazione 6.14. Siano X ed Y come nella Definizione 6.13. Allora (a) Var[X] ≥ 0 e Var[X] = 0 sse esiste una costante c ∈ R tale che P(X = c) = 1. 6. LA FUNZIONE CARATTERISTICA 65 (b) Corr[X, Y ] ∈ [−1, 1], e Corr[X, X] = 1, Corr[X, −X] = −1 e Corr[X, Y ] = 0 se X ed Y sono indipendenti. Nota. La condizione Corr[X, Y ] = 1 non implica X = Y , così come Corr[X, Y ] = −1 non implica X = −Y e Corr[X, Y ] = 0 non implica che X ed Y sono indipendenti. Ossia, la decorrelazione è una proprietà strettamente più debole dell’indipendenza. Osservazione 6.15. Sia X1 , X2 , . . . , Xn delle variabili aleatorie decorrelate e tali che E[Xi2 ] < +∞ per i = 1, . . . , n. Allora n n X X Var Xi = Var[Xi ] i=1 i=1 6. La funzione caratteristica Definizione 6.16. Sia X una variabile aleatoria. La funzione θ : R → C definita da θ(λ) := EeiλX := E cos(λX) + iE sin(λX) è detta funzione caratteristica di X. Nota. Attenzione a non confondere la funzione caratteristica di una variabile aleatoria con la funzioni indicatrice di un insieme, che a volte (non in queste note) è detta, appunto ""funzione caratteristica” dell’insieme stesso. Data la linearità del valore d’attesa, è naturale definire il valore d’attesa di una funzione complessa di X come l’attesa della sua parte reale più i volte l’attesa della parte immaginaria. La definizione precedente di EeiλX è pertanto canonica. D’altra parte, è conveniente pensare direttamente in termini di funzioni a valori complessi, poichè appunto le funzioni esponenziali sono più maneggevoli (ed in qualche modo intrinseche) di quelle trigonometriche. Si può ad esempio verificare il seguente fatto che segue dal Teorema 6.10 e dalla definizione precedente. Osservazione 6.17. Se X1 , X2 , . . . , Xn sono delle variabili aleatorie indipendenti, allora n Pn Y Eeiλ( j=1 Xj ) = EeiλXj j=1 Altrimenti detto, la funzione caratteristica della somma di variabili aleatorie indipendenti è uguale al prodotto delle funzioni caratteristiche. ?Proposizione 6.18. Sia X una variabile aleatoria e θ la sua funzione caratteristica. Allora (a) (b) (c) (d) θ(0) = 1. θ è uniformemente continua. Se E[|X|] < +∞, allora θ è derivabile e θ0 (0) = iE[X]. Più in generale, se E[|X|k ] < +∞, allora θ è derivabile k volte, e θ0 (0) = ik E[X k ] Dimostrazione. (a) θ(0) = E[1] = 1. 66 6. VALORE DI ATTESA (b) Dati λ, µ ∈ R, si ha per linearità dell’attesa θ(λ) − θ(µ) = E eiλX − eiµX = E (ei(λ−µ)X − 1)eiµX Dunque per ogni L > 0 θ(λ) − θ(µ) ≤ E ei(λ−µ)X − 1 eiµX = E ei(λ−µ)X − 1 ≤ E ei(λ−µ)X − 11[−L,L] (X) + 2 P(|X| > L) Da cui per ogni ε, L > 0 θ(λ) − θ(µ) ≤ 2 P(|X| > L) + sup sup sup iδx e − 1 (6.9) δ∈(0,ε] x∈[−L,L] λ, µ :|λ−µ|≤ε Ora si noti che lim sup sup |eiδ x − 1| = 0 ε↓0 δ :|δ|≤ε x |x|≤L ∀L > 0 lim P(|X| > L) = lim 1 − FX (L) = 0 L→+∞ L→+∞ che con la (6.9) implicano l’uniforme continuità. (c) Questa dimostrazione è un po’ più complessa e non sarà utilizzata nel seguito. (d) Questa dimostrazione è un po’ più complessa e non sarà utilizzata nel seguito. 7. ?Definizioni nel contesto della teoria della misura Si ricordi la Definizione 4.9. Nella teoria (non-ingenua) della probabilità una variabile aleatoria reale si definisce come segue. Definizione 6.19. Sia (S, F, P) uno spazio di probabilità. Una funzione X : S → R è una variabile aleatoria se essa è F-Borel misurabile. La legge di X, è la misura di probabilità su (R, B) data da PX := P ◦ X −1 . Le nozioni di variabili discrete e continue si estendono naturalmente a questo contesto, restringendo gli insiemi su cui si valutano le probabilità ai boreliani. Per estendere tutte le prove date in questo capitolo, bisogna solo notare che la somma e il prodotto di funzioni misurabili sono misurabili, così come il superiore e l’inferiore di famiglie di funzioni misurabili sono funzioni misurabili, così come il limite superiore ed il limite inferiore di successioni misurabili sono funzioni misurabili. In questo contesto, l’attesa di una variabile aleatoria (che si può costruire come sopra) si denota anche Z E[X] = X(s) dP(s) S essendo essa una generalizzazione dell’integrale. Le identità sull’attesa si leggono in questo contesto come Z Z X(s) dP(s) = x d(P ◦ X −1 )(x) S R E più in generale, se f è Borel-Borel misurabile Z Z f (X(s)) dP(s) = f (x) d(P ◦ X −1 )(x) S R che altri non è che la formula di cambio di variabile nell’integrale. 8. ESERCIZI CAPITOLO 6 67 Nota. Tutte queste nozioni si possono modificare per fornire R di una σ-algebra più fine di quella di Borel, quella di Lebesgue (traendone alcuni vantaggi ed alcuni svantaggi). Tale approccio è sviluppato (forse) nel corso di Analisi Reale. 8. Esercizi Capitolo 6 Esercizio 6.1. Fare un esempio di due variabili aleatorie decorrelate ma non indipendenti. CAPITOLO 7 Limiti di variabili aleatorie 1. Alcune nozioni di convergenza Definizione 7.1. Sia (S, P) uno spazio di probabilità ed (Xn )n∈N+ una successione di variabili aleatorie, ed X una variabile aleatoria. Diremo che (a) (Xn ) converge ad X con probabilità 1 (o quasi-certamente) se P(lim Xn = X) = 1 n (b) (Xn ) converge ad X in probabilità se per ogni ε > 0 lim P(|Xn − X| > ε) = 1 n→+∞ (c) (Xn ) converge ad X in legge (o in distribuzione) se per ogni f ∈ Cb (R) lim Ef (Xn ) = Ef (X) n→+∞ Il seguente lemma ci sarà utile in diverse occasioni. Ricordiamo che Cc (R) denote l’insieme delle funzioni continue a supporto compatto su R, e che Cc (R) è un ideale in Cb (R): moltiplicando una funzione continua per una funzione continua a supporto compatto, si ottiene una funzione continua a supporto compatto. Lemma 7.2. Sia (Xn )n∈N+ una successione di variabili aleatorie, ed X una variabile aleatoria. Allora (Xn ) converge ad X in legge se e solo se lim Ef (Xn ) = Ef (X) n ∀f ∈ Cc (R) (7.1) Dimostrazione. Se Xn → X in legge, allora per definizione sappiamo che limn EF (Xn ) = EF (X) per ogni F continua e limitata. Poichè ogni funzione continua a supporto compatto è anche limitata, segue (7.1). Supponiamo ora (7.1), dobbiamo mostrare che lim EF (Xn ) = EF (X) n per ogni funzione F continua e limitata. Fissiamo una tale F e per L > 0 sia ϕL una funzione continua tale che • ϕL (x) = 1 per |x| ≤ L. • ϕL (x) = 0 per |x| ≥ L + 1 • |ϕL (x)| ≤ 1 per ogni x ∈ R. In particolare ϕL ∈ Cc (R) e 1[−L,L] ≤ ϕL ≤ 1[−L−1,L+1] 69 70 7. LIMITI DI VARIABILI ALEATORIE Ora, posto C = supx∈R |F (x)|, per ogni L > 0 si ha E F (Xn ) − F (X) ≤E F (Xn )ϕL (Xn ) − F (X)ϕL (X) + E F (Xn )(1 − ϕL (Xn )) + E F (X)(1 − ϕL (X)) ≤E (F ϕL )(Xn ) − (F ϕL )(X) + C 1 − EϕL (Xn ) + C 1 − E[ϕL (X)] Poichè ϕL , F ϕL ∈ Cc (R) possiamo passare al limite n → +∞ ed applicare la (7.1) con f = F ϕL ed f = ϕL , per ottenere lim E F (Xn ) − F (X) ≤ lim E (F ϕL )(Xn ) − (F ϕL )(X) n n + C 1 − EϕL (Xn ) + C 1 − EϕL (X) =0 + 2CE(1 − ϕL (X)) ≤ 2 CE1[−L,L]c (X) =2 C P(|X| ≥ L) Poichè L è arbitrario, possiamo prendere il limite L → +∞ nella disuguaglianza precedente. Per il Teorema 2.5 di convergenza monotona lim P(|X| ≥ L) = P(X ∈ ∩L>0 [−L, L]c ) = P(X ∈ ∅) = 0 L→+∞ da cui limn |E[F (Xn ) − F (X)]| = 0. Teorema 7.3. La convergenza con probabilità 1 implica la convergenza in probabilità, che implica la convergenza in legge. Dimostrazione. (a)⇒(b) Per k, n ∈ N+ En,k := {s ∈ S : |Xn (s) − X(s)| < k1 } Ek := lim En,k = {s ∈ S : lim |Xn (s) − X(s)| < k1 } n n E := ∩k≥1 Ek = {s ∈ S : lim |Xn (s) − X(s)| = 0} n Con questa notazione, la prima implicazione del teorema afferma che se limn P(En,k ) = 1 per ogni k ∈ N+ , allora P(E) = 1. In effetti, poichè la successione degli Ek è decrescente, usando i Teoremi 2.5-2.6 P(E) = lim P(Ek ) = lim P(lim En,k ) ≥ lim lim P(En,k ) = 1 k k n k n (b)⇒(c) Per il Lemma 7.2 è sufficiente mostrare che se Xn converge ad X in probabilità, allora per ogni funzione continua a supporto compatto f lim E[f (Xn ) − f (X)] = 0 n Una funzione continua a supporto compatto è limitata ed uniformemente continua. Dunque se definiamo ω : R+ → R+ 0 come ω(δ) := sup |f (x) − f (y)| x,y∈R, |x−y|≤δ si ha che Cf := sup ω(δ) < +∞ e δ>0 lim ω(δ) = 0 δ↓0 Dunque per ogni δ > 0, x, y ∈ R si ha |f (x) − f (y)| ≤ ω(δ) + Cf 1[δ,+∞) (|x − y|) 2. DISUGUAGLIANZE NOTEVOLI 71 da cui lim E f (Xn ) − f (X) ≤ E[ω(δ)] + lim E Cf 1[δ,+∞) (|Xn − X|) n n = ω(δ) + Cf lim P(|Xn − X| ≥ δ) = ω(δ) n Poichè tale disuguaglianza è vera per ogni δ > 0, possiamo prenderne il limite δ ↓ 0 ed ottenere la tesi. Questo esempio mostra che la convergenza in probabilità non implica quella con probabilità 1. Esempio 7.4. Sia S = [0, 1], P la misura piatta su [0, 1] caratterizzata da P((a, b]) = b − a per b ≥ a con a, b ∈ [0, 1]. Per n ∈ N+ , siano hn , kn ∈ N, gli unici naturali tali che n = 2hn + kn con kn < 2hn . In altre parole, hn è il più grande intero tale che 2hn ≤ n, mentre kn è il resto della divisione di n per 2hn . Sia Xn : S → R la variabile aleatoria definita da ( 1 se s ∈ [2−hn kn , 2−hn (kn + 1)] Xn (s) = 0 altrimenti Sia poi X la variabile aleatoria costante nulla, X(s) ≡ 0. Per ogni s ∈ S si ha limn Xn (s) = 1 e dunque P(limn Xn = X) = P(∅) = 0. Dunque (Xn ) non converge ad X con probabilità 1. Tuttavia per ε ∈ (0, 1) abbiamo P(|Xn − X| > ε) = P(Xn = 1) = 2−hn . Poichè limn hn = +∞, Xn → X in probabilità. È molto più semplice convincersi che la convergenza in legge non implica quella in probabilità, come si può vedere dal seguente esempio. Esempio 7.5. Siano X ed Y due variabili aleatorie con la stessa legge. Prendiamo (Xn ) come la successione data da Xn (s) = Y (s). Evidentemente (Xn ) converge ad X in legge, visto che per ogni f ∈ Cb (R), Ef (Xn ) = Ef (Y ) = Ef (X). Tuttavia limn P(|Xn − X| > ε) = P(|Y − X| > ε) si annulla per ogni ε > 0 sse X = Y con probabilità 1. Dunque nel caso considerato Xn → X in probabilità sse X = Y con probabilità 1. Ad esempio, se X ed Y sono due variabili aleatorie indipendenti, non costanti e con la stessa legge, avremo Xn → X in legge ma non in probabilità. 2. Disuguaglianze notevoli Si ricordi la Proposizione 1.11. Teorema 7.6 (Disuguaglianza di Jensen). Sia X una variabile aleatoria di attesa finita, ed f : R → R una funzione convessa. Allora E[f (X)] è ben definito (ma non necessariamente finito) e E[f (X)] ≥ f (E[X]) 2 2 ad esempio E[X ] ≥ E[X] e E[eX ] ≥ eE[X] . Dimostrazione I. Per a, b ∈ R sia `a,b come nella Proposizione 1.11. Allora, dalla medesima proposizione, si ha che esistono a, b ∈ R tali che f ≥ `a,b , da cui f (X) ≥ `a,b (X) e f (X)− ≤ |a||X| + |b|. Ne risulta E[f (X)− ] < +∞. Siano ora a, b tali che `a,b ≤ f . Allora E[f (X)] ≥ E[aX + b] = aE[X] + b 72 7. LIMITI DI VARIABILI ALEATORIE Passando al superiore su a, b tali che `a,b ≤ f si ottiene il teorema grazie alla Proposizione 1.11. Dimostrazione II per funzioni regolari. Supponiamo che f sia regolare, diciamo di classe C 2 . La convessità allora equivale a f 00 ≥ 0, e quindi f (x) ≥ f (y) + f 0 (y)(x − y) ∀x, y ∈ R poichè il resto nell’espansione di Taylor è positivo (per esempio usando la forma di Lagrange). Ma allora scrivendo la precedente disuguaglianza per x = X(s) e y = E[X] otteniamo f (X(s)) ≥ f (E[X]) + f 0 (E[X]) X(s) − E[X]) Si noti ora che l’attesa dell’ultimo termina a destra è nulla (f 0 (E[X]) è un numero reale, che esce dall’attesa). Pertanto passando al valore atteso otteniamo la disuguaglianza. Proposizione 7.7 (Disuguaglianza di Markov). Sia X una variabile aleatoria di attesa finita. Allora per ogni M > 0 E|X| P(X ≥ M ) ≤ M Dimostrazione. Abbiamo |X| P(X ≥ M ) = E[1[M,+∞) (X)] ≤ E |X| M 1[M,+∞) (X) ≤ E M Corollario 7.8 (Disuguaglianze di Chebyshev). Sia X una variabile aleatoria ed f : R → R una funzione crescente e strettamente positiva. Allora per ogni x ∈ R E[f (X)] P(X ≥ x) ≤ f (x) In particolare Var[X] P X − E[X] ≥ x) ≤ x2 Dimostrazione. Poichè f è crescente, X ≥ x implica f (X) ≥ f (x). Allora, dalla disuguaglianza di Markov per la variabile f (X) P(X ≥ x) ≤ P(f (X) ≥ f (x)) ≤ E[f (X)] f (x) La seconda disuguaglianza segue prendendo f (x) = x2 e come variabile aleatoria |X − E[X]|. Corollario 7.9 (Disuguaglianza di Cramer). Sia X una variabile aleatoria. Definiamo la funzione convessa q : R → R+ come q(x) := sup λ x − log E[eλ X ] λ≥0 Allora P(X ≥ x) ≤ e −q(x) . Dimostrazione. Utilizzando la disuguaglianza di Chebyshev con f (x) = eλx , per ogni λ ≥ 0 abbiamo P(X ≥ x) ≤ e−λx E[eλX ] = e−λx−log E[e ed ottimizzando su λ ≥ 0 si ottiene il risultato. λX ] 4. ESERCIZI CAPITOLO 7 73 3. La legge dei grandi numeri Vedi Ross. Teorema 7.10 (Legge forte dei grandi numeri). Sia (Xn ) una successione di variabili aleatorie i.i.d. e diPattesa finita E[X1 ] = E[X2 ] = . . . = m ∈ R. Allora la n variabile aleatoria Sn := n1 k=1 Xk converge con probabilità 1 alla costante m. 4. Esercizi Capitolo 7 Esercizio 7.1. Siano dati a ≥ σ > 0. Trovare una variabile aleatoria X tale che Var(X) = σ 2 e P(|X − EX| ≥ a) = σ 2 /a2 . CAPITOLO 8 Applicazioni 75 CAPITOLO 9 Teorema del limite centrale In questo capitolo vogliamo mostrare la versione più semplice del teorema del limite centrale. Si intende assegnato uno spazio di probabilità (S, P), su cui sono definite tutte le variabili aleatorie di cui si tratta in questo capitolo. Vogliamo utilizzare il Corollario 1.10 per provare la seguente affermazione informale, il cui significato sarà chiarito in seguito: Xn converge in legge ad X se e solo se per ogni λ ∈ R lim EeiλXn = EeiλX n→+∞ Lemma 9.1. Sia (Xn )n∈N+ una successione arbitraria di variabili aleatorie, e sia X una variabile aleatoria. Siano θn e θ le funzioni caratteristiche di Xn ed X rispettivamente. Assumiamo che θn converga puntualmente a θ quando n → +∞. Allora per ogni funzione f ∈ Cc (R) lim Ef (Xn ) − f (X) ≤ C lim sup P(|Xn | > L) (9.1) n→+∞ L→+∞ n dove C ≡ Cf = supx∈R |f (x)|. Dimostrazione. Fissiamo ε ∈ (0, 1) e sia L > 0 abbastanza grande in modo tale che f (x) = 0 per |x| ≥ L. Applichiamo il Corollario 1.10. Siano N , (αi )i=0,...,N ed fε come in tale corollario. Si noti che sup x∈[−L,L] |fε (x)| ≤ sup |fε (x) − f (x)| + x∈[−L,L] sup |f (x)| ≤ C + ε x∈[−L,L] e dunque ricordando che |f (x) − fε (x)|1[−L,L] (x) ≤ ε per ogni x ∈ R abbiamo |f (x) − fε (x)| ≤ ε1[−L,L] (x) + (C + ε)1[L,L]c (x) = ε + C1[L,L]c (x) da cui Ef (Xn ) − fε (Xn ) ≤ ε + C P(|Xn | ≥ L) Ef (X) − fε (X) ≤ ε + C P(|X| ≥ L) (9.2) Inoltre ricordando la definizione di fε e per linearità dell’attesa N X kπ kπ ¯ k θn (− kπ E fε (Xn ) − fε (X) = αk θn ( kπ L ) − θ( L ) + α L ) − θ(− L ) k=1 da cui per ipotesi sulla convergenza puntuale delle θn , per ogni ε > 0 ed L abbastanza grande lim E fε (Xn ) − fε (X) = 0 (9.3) n→+∞ 77 78 9. TEOREMA DEL LIMITE CENTRALE Infine, usando (9.2) e (9.3) (attenzione a dove i moduli vengono portati dentro o lasciati fuori le attese) lim E f (Xn ) − f (X) ≤ lim Ef (Xn ) − fε (Xn ) n→+∞ n→∞ + E fε (Xn ) − fε (X) + Efε (X) − f (X) ≤ 2ε + C P(|X| > L) + C lim P(|Xn | > L) n→+∞ che, essendo valida per ogni ε > 0 ed L abbastanza grande, rende la tesi prendendo il limite ε ↓ 0 ed L → +∞. Teorema 9.2. Sia (Xn )n∈N+ una successione arbitraria di variabili aleatorie tali che lim sup P(|Xn | > L) = 0 (9.4) L→+∞ n Siano θn e θ le funzioni caratteristiche di Xn ed X rispettivamente. Allora (Xn ) converge ad X in legge se e solo se θn converge puntualmente a θ. Dimostrazione. Poichè x 7→ sin(λx) e x 7→ cos(λx) sono funzioni continue e limitate, se Xn → X in legge deve accadere che θn (λ) → θ(λ) per ogni λ ∈ R. Mostriamo l’implicazione inversa. È sufficiente provare che per ogni f ∈ Cc (R) si ha limn Ef (Xn ) = Ef (X). In tal caso, infatti abbiamo la tesi grazie al Lemma 7.2. Ma questa segue immediatamente dal Lemma 9.1 sotto le ipotesi del teorema. Si noti che se Xn ≡ X per ogni n, evidentemente Xn → X in legge. Il precedente teorema ci dice pertanto che la funzione caratteristica di una variabile aleatoria ne identifica la legge. O, più propriamente, la caratterizza, da cui il nome di una tale funzione. Lemma 9.3. Sia X una variabile aleatoria tale che E(|X|3 ) < +∞, e sia θ la sua funzione caratteristica. Allora θ(λ) = 1 + i λ E[X] − λ2 E[X 2 ] + o(|λ|2 ) 2 dove limλ→0 |λ|−2 o(|λ|2 ) = 0. Dimostrazione. Poichè la funzione x 7→ ei x ha tutte le derivate limitate possiamo scrivere λ2 x2 + r(λ x) (λ x)3 eiλ x = 1 + iλ x − 2 con la funzione r(·) limitata uniformemente, ossia R := supy |r(y)| < +∞. Ne segue λ2 E[X 2 ] + λ3 E r(λ X) X 3 2 e l’ultimo termine è limitato da λ3 R E[|X|3 ]. θ(λ) = Eeiλ X = 1 + iλ EX − Teorema 9.4 (Teorema del limite centrale). Sia (Xj )j∈N+ una successione di variabili aleatorie indipendenti, tutte con la stessa legge, e tali che E[|Xj |2 ] < +∞. Siano m e σ 2 l’attesa e la varianza di tali variabili aleatorie (avendo tutte la stessa legge, esse hanno tutte le stesse attesa e varianza). Definiamo n 1 X Xj − m Sn = √ σ n j=1 Allora Sn converge in legge ad una variabile aleatoria normale standard Z. 1. ESERCIZI CAPITOLO 9 79 Mostriamo il teorema sotto l’ipotesi aggiuntiva E[|Xj |3 ] < +∞. Dimostrazione. Dall’ipotesi E[|Xj |2 ] < +∞ e la disuguaglianza di Chebyshev, segue immediatamente che la (9.4) è valida. Per concludere basta verificare che la funzione caratteristica di Sn converge puntualmente a (si veda l’Osservazione 1.13) Z z2 λ2 1 iλZ Ee =√ e− 2 +iλ z dz = e− 2 2π R X −m Sia ora Yj = jσ , e sia θ la funzione caratteristica di Yi (tali funzioni sono tutte uguali poichè le Xi hanno tutte la stessa legge). Si noti che le (Yj ) sono indipendenti in quanto funzioni di variabili aleatorie indipendenti, e dall’Osservazione 6.17 n Pn Y √ Y i √λ Y i √λ Ee n j = θ(λ/ n)n EeiλSn = Ee n j=1 j = j=1 Dal Lemma 9.3, notando che EYj = 0 e E[Yj2 ] = 1 n √ λ λ2 EeiλSn = θ(λ/ n)n = 1 + i √ 0 − 1 + o(λ3 n−3/2 ) 2n n 2 che per il limite notevole dell’Osservazione 1.12 converge proprio a e−λ n → +∞. /2 quando 1. Esercizi Capitolo 9 Esercizio 9.1. Sia (Xi ) una successione di variabili aleatorie di Poisson indipendenti, tutte di parametro t > 0. (a) Calcolare la caratteristica di X1 . Pfunzione n (b) Sia Sn = i=1 Xi . Calcolare la funzione caratteristica di Sn . Che possiamo dedurne? (c) Utilizzare la legge dei grandi numeri per calcolare lim e−nt n→+∞ quando 0 < s < t e quando s > t. [ns] k k X n t k=0 k! Bibliografia commentata I libri elencati sono tutti disponibili in biblioteca. • S. Ross, Calcolo delle probabilità, III ed., Apogeo 2013 : è il testo di riferimento del corso. Oltre ad essere accessibile alla lettura, il libro di Ross è molto ricco di esempi, esercizi, osservazioni e note. Tuttavia è assente un punto di vista superiore sulla teoria della probabilità, e solo raramente utilizza l’esposizione classica della matematica enunciatodimostrazione. Ottimo per acquisire manualità, sia negli esercizi che negli schemi di ragionamento. Sufficiente per il corso se integrato con queste note. • W. Feller, An Introduction to Probability Theory and Its Applications, Vol. 1, III ed., Springer 1968 : Un ottimo testo, divenuto un classico della didattica della probabilità. Studiarlo è forse il modo migliore per capire a fondo i contenuti del corso, inclusi nei primi undici capitoli della III edizione del libro. • Y. Sinai, Probability theory, An Introductory Course, Springer Textbook 1992 : Alcune parti sono un po’ difficili per uno studente del I anno. Le prime otto lezioni sono comunque leggibili. Si possono tralasciare i passaggi troppo duri, e cercare di comprendere le idee dietro le parti più tecniche. • M. Piccioni, Probabilità di base, Aracne 2010 : un testo specificamente pensato per gli studenti di Matematica del I anno. Contiene esercizi, ma copre solo la parte di probabilità discreta. • L. Koralov, Y. Sinai, Theory of Probability and Random Processes: un testo decisamente più avanzato per gli studenti interessati. 81
© Copyright 2024 Paperzz