Calcolo delle Probabilit`a Alfredo Pulvirenti November 3, 2014 Concetti di Base Eventi Assiomi Probabilit`a condizionata Teorema di Bayes Variabili aleatorie Discrete Varianza e deviazione standard Distribuzioni discrete notevoli Distribuzione di Bernoulli Distribuzione Binomiale Distribuzione Uniforme Distribuzione Geometrica Distribuzione Binomiale negativa Distribuzione di Poisson Variabili aleatorie continue Distribuzione uniforme Distribuzione Normale Distribuzione Esponenziale Variabili Aleatorie Congiunte Distribuzione Marginale Distribuzioni multivariate distribuzione Normale Multivariata Gli Eventi I EVENTI: entit`a caratterizzate da aleatoriet`a, qualcosa che pu`o verificarsi oppure no La Juventus vincer`a il campionato anche quest’anno? Gli Eventi I EVENTI: entit`a caratterizzate da aleatoriet`a, qualcosa che pu`o verificarsi oppure no La Juventus vincer`a il campionato anche quest’anno? I Gli eventi si indicano con le lettere maiuscole dell’alfabeto latino E1 = “La Juventus vincer`a il campionato anche quest’anno” E¯1 = “La Juventus non vince`a il campionato quest’anno” Gli Eventi I EVENTI: entit`a caratterizzate da aleatoriet`a, qualcosa che pu`o verificarsi oppure no La Juventus vincer`a il campionato anche quest’anno? I Gli eventi si indicano con le lettere maiuscole dell’alfabeto latino E1 = “La Juventus vincer`a il campionato anche quest’anno” E¯1 = “La Juventus non vince`a il campionato quest’anno” I Si chiama evento complementare ad E il verificarsi di tutto ci`o che non `e E e si indica con E¯ I Si indica con la lettera dell’alfabeto greco Ω l’insieme di tutti i possibili risultati di un esperimento, per esperimento si intende una prova il cui esito `e incerto. Viene anche chiamato evento certo o spazio campionario E1 =Vince la Juve, E2 =Vince l’Inter, E3 =Vince il Napoli, E4 = Vince il Milan . . . Ω `e l’insieme di tutti gli eventi Ei , peri = 1, . . . ., 20 Eventi ` Al verificarsi di un evento viene associata una PROBABILITA P(E1 ) = Probabilit`a che la Juventus vinca il campionato Se chiedessimo di assegnare questa probabilit`a a un tifoso della Juve, a un tifoso dell’Inter (che pensa sempre che quest’anno sia quello buono), a un tifoso del Torino, o a una persona oggettiva, tecnicamente preparata a livello calcistico otterremmo 4 valori diversi di probabilit`a Come `e possibile assegnare correttamente la probabilit`a agli eventi? PROPRIETA’ FORMALI La probabilit`a non `e mai un numero negativo, verr`a assegnata probabilit`a 0 agli eventi che ci si aspetta che non si verifichino (evento quasi impossibile) e probabilit`a 1 all’eventi che ci si aspetta che si verifichino (evento certo) Siccome ogni evento Ei `e contenuto in Ω 0 < P(Ei ) < P(Ω) = 1 P(Ω) = P(“tutto quello che pu` o accadere”) = P(“evento certo”) = 1 PROPRIETA’ FORMALI Se due eventi E1 e E2 non possono verificarsi contemporaneamente (la loro intersezione coincide con l’insieme vuoto) diremo che sono incompatibili, E1 ∩ E2 = ∅ ⇐⇒ P(E1 ∩ E2 ) = 0 Se si vuole calcolare la probabilit`a che si verifichi l’evento E1 oppure l’evento E2 (E1 unito E2 ) e i due eventi sono incompatibili allora la probabilit`a dell’unione `e uguale alla somma delle probabilit`a P(E1 ∪ E2 ) = P(E1 ) + P(E2 ) ASSIOMI E’ possibile riassumere quanto visto fino ad ora negli assiomi di Kolmogorov 1.∀E ⊂ Ω, P(E ) > 0 2.P(Ω) = 1 3.Se E1 ∩ E2 = ∅ allora P(E1 ∪ E2 ) = P(E1 ) + P(E2 ) Alcune regole E ∪ E¯ = Ω Quindi P(E ) + P(E¯) = 1 ne segue P(E ) = 1 − P(E¯) Se E1 ∩ E2 6= ∅ si ha P(E1 ∪ E2 ) = P(E1 ) + P(E2 ) − P(E1 ∩ E2 ) Eventi elementari Insiemi contenenti un solo elemento. In generale possiamo partizione lo spazio degli eventi in Ω = {ω1 , ω2 , . . . , ωn } Se gli eventi elementari sono tutti equiprobabili P({ω1 }) = P({ω2 }) = . . . = P({ωn }) Possiamo definire la probabilit`a di un qualsiasi evento E composto da pi` u eventi elementari come P(E ) = # casi favorevoli (all’evento) # casi possibili (all’esperimento) Probabilit`a condizionata Se abbiamo due eventi E1 ed E2 e ne conosciamo le probabilit`a P(E1 ) e P(E2 ). Possiamo chiederci il verificarsi di un evento varia la probabilit`a di verificarsi dell’altro P(E1 |E2 ) = P(E1 ∩ E2 ) P(E2 ) dato P(E2 ) > 0. Esempio. E1 = ‘estrarre un numero pari’ ; E2 = ‘estrarre un numero ≥ 4’ P(E1 ) = 3/6 ; P(E2 ) = 3/6 La probabilit`a di estrarre un numero pari cambia se si sa che il numero estratto `e ≥ 4? P(E1 |E2 ) = P({4, 6}) 2/6 2 P(E1 ∩ E2 ) = = = P(E2 ) P({4, 5, 6}) 3/6 3 Eventi indipendenti Dati due eventi E1 ed E2 si dicono indipendenti se la probabilit`a di verificarsi dell’uno rimane invariata quando si `e verificato l’altro. P(E1 |E2 ) = P(E1 ) e P(E2 |E1 ) = P(E2 ) Ne segue che P(E1 ∩ E2 ) = P(E1 )P(E2 ) Principio delle probabilit`a totali Se A1 , A2 , . . . , Ak sono una partizione di Ω (Ai ∩ Aj = ∅, ∪ki Ai = Ω) ed E `e un qualsiasi altro evento definiamo l’operazione di marginalizzazione P(E ) = k X i=1 P(E ∩ Ai ) = k X i=1 P(E |Ai )P(Ai ) Teorema di Bayes Se A1 , A2 , . . . , Ak sono una partizione di Ω ed E `e un qualsiasi altro evento P(E |Ai )P(Ai ) P(Ai |E ) = Pk i=1 P(E |Ai )P(Ai ) Se si sa che si `e verificato l’evento E si `e in grado di calcolare la probabilit`a che si sia verificato l’evento Ai . Dato l’effetto `e possibile calcolare la probabilit`a della causa che lo ha generato (probabilit`a a posteriori). E’ come se le conoscenze a priori su Ai a seguito del verificarsi dell’evento E venissero aggiornate. La probabilit`a a priori P(Ai ) diventa una probabilit`a a posteriori P(Ai |E ) Esempio Un nuovo farmaco funziona nel 60% dei pazienti con una particolare patologia. Nel 40% dei pazienti con la medesima patologia il farmaco non funziona. Tra i pazienti in cui il farmaco funziona il 50% ha un particolare marcatore positivo. Tra i pazienti in cui il farmaco non funziona, il marcatore `e sempre negativo. Dato un paziente con il marcatore negativo, qual `e la probabilit`a che sia un paziente in cui il farmaco funziona? Variabile Aleatoria Una variabile aleatoria o variabile casuale o variabile random associa un valore numerico unico ad ogni possibile risultato nello spazio di campionamento. Formalmente una variabile aleatoria `e una funzione reale dallo spazio di campionamento che chiameremo S verso i numeri reali. Le variabili aleatorie vengono denotate con lettere maiuscole (es. X o Y ) ed il valore assunto ad una variabile aleatoria viene indicato lettere minuscole dell’alfabeto (es. x o y ). Le variabili aleatorie possono essere continue o discrete. Variabili aleatorie discrete Una variabile aleatoria `e discreta se i valori che pu´o assumere sono finiti (o numerabili). I possibili valori assunti dalla variabile possono essere elencati come x1 , x2 , · · · . Supponiamo di voler calcolare la probabilit`a P(X = x) per ogni valore x. La collezione di queste probabilit`a pu´ o essere vista come una funzione di X . La funzione massa di probabilit`a di X `e definita come: fX (x) = P(X = x) fX gode delle seguenti propriet`a: 1. fX (xi ) ≥ 0 per i = 1, · · · , n Pn 2. i=1 fX (xi ) = 1 ∀ x Esempio Distribuzione di una variabile aleatoria ottenuta dal lancio di due dadi. Assumiamo che vengano lanciati due dati. Qual `e la distribuzione della somma? Sia X la somma dei due numeri ottenuti dal lancio dei due dadi. La funzione di massa di probabilit`a si deriva elencando tutti i possibile 36 risultati che risultano ugualmente probabili e contando i risultati tali che X = x per x = 2, 3, · · · , 12. Ne segue che: f (x) = P(X = x) = num volte che X = x 36 Si ottiene quindi: X f (x) 2 3 4 5 6 7 8 9 10 11 12 1 36 2 36 3 36 4 36 5 36 6 36 5 36 4 36 3 36 2 36 1 36 Valore atteso di una variabile aleatoria discreta Il valore atteso o media di una variabile aleatoria discreta X si denota con E (X ), o con µX o semplicemente µ ed ´e definito come: X E (X ) = µ = xf (x) = x1 f (x1 ) + x2 f (x2 ) + · · · x La varianza di una variabile casuale si denota con Var (X ), σX2 o σ 2 ed ´e definita come: Var (X ) = E (X − µ)2 La varianza ´e il quadrato della somma delle differenze tra ogni possibile valore e µ pesati con le rispettive probaiblit´a. Rappresenta la dispersione della variabile aleatoria attorno al valore medio. E (X − µ)2 = E (X 2 + 2µX + µ2 ) = E (X 2 ) − 2µE (X ) + µ2 = E (X 2 ) − 2µ2 + µ2 = E (X 2 ) − µ2 La deviazione standard: SD(X ) = p Var (X ) La covarianza: Cov (X , Y ) = E [(X − µx )(Y − µy )] = E (XY ) − µx µy = E (XY ) − E (X )E (Y ) Distribuzioni discrete notevoli: Distribuzione di Bernoulli I Variabile aleatoria che assume solo due valori, es. 0 e 1, viene chiamata variabile aleatoria di Bernoulli. I Utile per modellare situazioni dicotomiche. I Un esperimento con un risultato dicotomico `e chiamato Bernoulli trial. Supponiamo che un prodotto di un processo di produzione possa essere normale o difettoso. Sia p la frazione di prodotti difettosi. Quindi la probabilit`a che preso un prodotto casualmente dal processo di produzione sia difettoso `e P(X = ”Difettoso”) = p. Conseguentemente P(X = ”Normale”) = 1 − p. Quindi una variabile casuale di Bernoulli pu` o essere definita come X = 1 se il prodotto `e difettoso, X = 0 se il prodotto `e normale con la seguente funzione massa di probabilit`a: p se x = 1 f (x) = P(X = x) = q = 1 − p se x = 0 La media e la varianza sono calcolate come segue: E (X ) = 0 × P(X = 0) + 1 × P(X = 1) = 0(1 − p) + 1(p) = p Var (X ) = E (X 2 ) − E (X )2 = p(1 − p) Distribuzione Binomiale I Alcuni esperimenti possono essere visti come una sequenza di Bernoulli trial indipendenti e distribuiti in modo identico, dove ogni risultato `e ”successo” o ”fallimento”. I Il numero totale di successi da questo esperimento `e pi` u interessante del risultato individuale. I Se fissiamo n prove indipendenti, dove ogni prova ha la stessa probabilit`a di successo p allora la somma di queste Bernulli trial danno luogo alla distribuzione di probabilit`a Binomiale. I I I La forma generale di una distribuzione Binomiale di una variabile aleatoria X con parametri n e p denotata con X ∼ Bin(n, p). La probabilit`a di ottenere x successi e n − x fallimenti in una particolare sequenza `e p x (1 − p)n−x poich`e i tentativi sono indipendenti. I possibili modi in cui otteniamo x successi su n prove sono ottenuti dalle combinazioni di questi. Quindi la distribuzione Binomiale `e data da n f (x) = P(X = x) = p x (1 − p)n−x x Notiamo che f (0) = P(X = 0) = (1 − p)n ed f (n) = P(X = n) = p n . La media e la varianza E (X ) = E [Y1 ] + E [Y2 ] + · · · + E [Yn ] = np Var (X ) = Var [Y1 ] + Var [Y2 ] + · · · + Var [Yn ] = np(1 − p) Figure : Distribuzione binomiale. (a) n = 20, p = 0.5. (b) n = 20, p = 0.25. Distribuzione Ipergeometrica I Supponiamo che un contenga N palline, delle quali n sono rose e N − n sono bianche. I Supponiamo di estrarre m palline dall’urna in modo casuale e senza reimmissione. I Definiamo una variabile aleatoria X come numero di palline rosse estratte dall’urna. n N −n x m−x x = A, A + 1, . . . , B P(X = x) = N m Dove A = max(0, n + m − N) e B = min(n, m) Distribuzione Uniforme I La pi` u semplice distribuzione di probabilit`a discreta `e la distribuzione uniforme. I X ha una distribuzione uniforme se tutti i valori di X sono a, a + 1, · · · , a + b − 1, per due costanti intere a e b e la probabilit`a che X assuma uno di questi possibili b valori `e 1/b. Quindi la distribuzione uniforme `e data da: f (x) = P(X = x) = E [X ] = a + b−1 2 2 −1 VAR[X ] = b 12 1 per x = a, a + 1, · · · , a + b − 1 b Distribuzione Geometrica I Supponiamo di lanciare una monetina fino a quando non otteniamo per la prima volta testa. I Assumiamo che i tentativi siano indipendenti ed ogni lancio ha una distribuzione di Bernoulli con parametro p. I La variabile X definita come il numero totale di lanci della monetina ha una distribuzione geometrica con parametro p. f (x) = P(X = x) = P(T ) × P(T ) × P(T ) × · · · × P(T ) × P(H) = = (1 − p)x−1 p E (X ) = 1/p Var (X ) = 1−p p2 Figure : Distribuzione geometrica Memoeryless property Una variabile aleatoria geometrica X ha la propriet`a di ”dimenticarsi” del passato. Se il primo successo non `e arrivato dopo il tentativo s-esimo, la probabilit`a che non accadr`a per almeno altri t tentativi `e la stessa di quella che parte da zero. Ovvero ottenere il primo successo dopo t tentativi. P(X = s + t|X > s) = P(X = t) Distribuzione Binomiale negativa I I I La distribuzione Binomiale negativa calcola il numero di successi in un prefissato numero di Bernoulli trial con probabilit`a p. Definiamo una variabile aleatoria X come il numero di lanci di una moneta per ottenere m volte testa. P(X = x) `e la probabilit`a che i primi x − 1 tentativi risultino in m − 1 successi e x − m fallimenti in un qualche ordine ed il trial x-esimo sia successo x −1 f (x) = P(X = x) = p m (1 − p)x−m m−1 per x = m, m + 1, m + 2, · · · . E (X ) = Var (X ) = m p m(1 − p) p2 Figure : Distribuzione binomiale negativa, m = 10, p = 0.75 Distribuzione di Poisson I La distribuzione di Poisson `e adatta a descrivere un’importante classe di fenomeni in cui: I I I n grande; p probabilit`a di successo piccola; si verificano mediamente λ successi. Una variabile causale X che ha questa distribuzione `e chiamata di Poisson con parametro λ. X ∼ Pois(λ) `e data da: f (x) = P(X = x) = e −λ λx per x = 0, 1, 2, . . . x! La distribuzione di Poisson `e una buona approssimazione della distribuzione binomiale quando n −→ ∞, p −→ 0, np −→ λ . E [X ] = Var [X ] = λ. Figure : Distribuzione di Poisson, λ = 5 Figure : Riepilogo distribuzioni discrete Variabili aleatorie continue I Una variabile aleatoria continua pu` o assumere valori da uno o pi` u intervalli di numeri reali. I Per essa non pu`o definirsi una funzione di massa di probaiblit`a poich`e i valori sono non numerabili (infiniti). I Viene definito il concetto di densit`a di probaiblit`a tale che l’area sotto la curva della funzione f (x) rappresenta la probaiblit`a. Variabili aleatorie continue La densit`a di probabilit`a di una variabile aleatoria X continua `e una funzione che soddisfa: Z x FX (x) = fX (t)dt ∀ x −∞ dove FX (x) `e chiamata funzione cumulativa di probabilit`a di una variabile aleatoria ed `e definita da FX (x) = PX (X ≤ x) ∀ x Il valore atteso di una variabile aleatoria continua `e Z E (X ) = µ = xf (x)dx x E (X ) ´e definita come il baricentro di X . Figure : Funzione cumulativa di probabilit`a, ottenuta come area sotto la curva Distribuzione uniforme X ha una distribuzione uniforme sull’intervallo [a, b] (X U[a, b]) ha la funzione densit`a: 1 a≤x ≤b b−a f (X ) = 0 altrimenti E (X ) = a+b 2 Var (X ) = (b−a)2 12 Distribuzione Normale (Gaussiana) I La pi` u importante distribuzione continua `e la distribuzione Normale o Gaussiana. I La distribuzione normale `e utilizzata per modellare diversi fenomeni reali. I Spesso si assume che i dati in esame abbiano una distribuzione normale. Ovvero che questi assumono un andamento riconducibile ad una Gaussiana. Una variabile aleatoria X ha una distribuzione normale con parametri µ e σ 2 , denotata con X ∼ N(µ, σ 2 ) `e una funzione di densit`a di probabilit`a definita come segue: (x−µ)2 1 f (x) = √ e − 2σ2 σ 2π con −∞ < x < ∞, −∞ < µ < ∞ e σ > 0. Figure : Distribuzione Gaussiana Una distribuzione normale particolarmente importante `e la distribuzione normale standard. Per questa distribuzione abbiamo che µ = 0 e σ 2 = 1. Una qualsiasi distribuzione normale pu`o essere ricondotta ad una normale standard, sottraendo la media e dividendo per la deviazione standard Se X ∼ N(µ, σ 2 ), allora Z = X σ−µ ∼ N(0, 1). Il valore osservato z di Z `e chiamato spesso score. z2 1 φ(z) = √ e − 2 2π La normale standard `e simmetrica rispetto all’origine. La funzione di ripartizione Z z Φ(z) = P(Z ≤ z) = φ(y )dy −∞ Distribuzione Esponenziale La distribuzione esponenziale `e una distribuzione di probabilit`a che si pu`o incontrare spesso con dati di varia natura. La distribuzione esponenziale usata per modellare il tempo di vita p analoga alla distribuzione geometrica nel caso discreto. X ∼ exp(λ) f (x) = λe −λx La funzione cumulativa di probabilit`a `e FX (x) = 1 − e −λx E (X ) = 1 λ Var (X ) = 1 λ2 Figure : Distribuzione Esponenziale Anche la distribuzione esponenziale presenta la caratteristica memory less. P(X > s + t|X > s) = P(X > t) Distribuzione Chi-quadro Siano Xi , i = 1, 2, · · · , n variabili aleatorie con distribuzione normale N(0, 1) stocasticamente indipendenti tra loro. La variabile aleatoria: X = X12 + X22 + X32 + X42 + . . . , +Xn2 `e detta χ2 con n gradi di liberata. Si prova che X `e ( 0, se t < 0 n fX (t) = 1 2 n2 −1 1 1 t exp − 2 t , se t ≥ 0 Γ( n2 ) 2 R +∞ Con Γ(α) = 0 e −x x α−1 dx funzione Gamma di Eulero. Si dimostra che E [X ] = n Var [X ] = 2n. Figure : Chi-quadro T di Student I siano Z ∼ N(0, 1) e Y ∼ χ2n due variabili aletorie indipendenti. I La variabile aleatoria Z X =q Y n `e distribuita secondo la distribuzione T di Student con n gradi di libert`a. I si dimostra che X ha la seguente densit`a di probabilit`a − 21 (n+1) Γ n+1 t2 2 √1 1+ fX (t) = n nπ Γ n2 con E [X ] = 0 se n > 1 n Var [X ] = n−1 se n > 2. Variabili Aleatorie Congiunte I Nella maggior parte delle situazioni sperimentali e reali non si osserver`a solo l’andamento di una variabile casuale. I Ad esempio consideriamo un esperimento creato per ottenere informazioni riguardo le caratteristiche di salute di una popolazione. I Saranno quindi rilevate diverse caratteristiche per ogni individuo e sar`a usato un campione di individui. I Ogni singola osservazione di una caratteristica sar`a modellata come l’osservazione di una particolare variabile aleatoria. I Quindi nasce l’esigenza di modellare pi` u variabili aleatorie contemporaneamente. I Solitamente viene associata pi` u di una variabile aleatoria ad un particolare risultato. Ricordiamo l’esempio della banca dove la solvibilit`a era espressa in funzione degli introiti mensili e dei risparmi posseduti dal richiedente. Se X e Y sono variabili aleatorie discrete la loro distribuzione di probabilit`a congiunta `e f (x, y ) = P(X = x, Y = y ) questa distribuzione di probabilit`a soddisfa: fP (x,P y) ≥ 0 x y f (x, y ) = 1 Analogamente il caso continuo Rf (x, R y) ≥ 0 x y f (x, y )dxdy = 1 Distribuzione Marginale I Una distribuzione congiunta pu` o dare informazioni sul comportamento di un vettore causale (X , Y ). I Inoltre da informazioni riguardo l’andamento separato delle variabili individuali. Definiamo fX (x) distribuzione di probabilit`a marginale di X per enfatizzare il fatto che `e una distribuzione di X ma nel contesto di una distribuzione di probabilit`a congiunta (X , Y ). Definiamo quindi due distribuzioni marginali X g (x) = P(X = x) = f (x, y ) y h(y ) = P(Y = y ) = X f (x, y ) x Analogamente nel caso continuo con l’integrazione. Distribuzioni multivariate I Quando si hanno pi` u di due variabili aleatorie si parla di distribuzione multivariata. I Abbiamo X1 , X2 , · · · , Xn variabili casuali. f (x1 , x2 , · · · , xn ) I Le distribuzioni multivariate sono una naturale estensione delle distribuzioni bivariate. I Se X = (X1 , · · · , Xn ) `e un vettore casuale la distribuzione congiunta di X `e data dalla seguente funzione fX (x) = fX (x1, · · · , xn ) = P(X1 = x1 , · · · , Xn = xn ). Per un qualsiasi insieme A P(X ∈ A) = X f (X ) x∈A Nel caso di vettori continui analogo con l’integrazione su tutte le dimensioni Xi . La marginalizzazione `e analoga al caso bivariato, sommando su tutte le variabili eccetto quella sulla quale si intente marginalizzare. Si effettua analogamente la proabilit`a condizionata di (Xk+1 , . . . , Xn ) dati (X1 , · · · Xk ) f (xk+1 , · · · , xn |x1 , · · · , xk ) = f (x1 , · · · , xn ) f (x1 , · · · , xk ) L’indipendenza delle variabili f (x1 , · · · , xn ) = f (x1 ) × f (x2 ) × · · · f (xn ). Supponiamo di avere delle variabili casuali X1 , · · · Xn con varianza σ12 , · · · , σn2 e supponiamo che la covarianza a delle coppie sia σij = Cov (Xi , Xj ) per 1 ≤ i 6= j ≤ k. Definiamo la matrice di covarianza 2 σ1 σ12 · · · σ1n σ21 σ 2 · · · σ2n 2 Σ= . .. .. . . . . . . . σn1 σn2 · · · σn2 Σ e’ una matrice simmetrica. Se Σ `e definita positiva esistono due matrici ortogonali U e V tali che UΣV = D = diag (λ1 , λ2 , · · · , λn ) con λi chiamati autovalori i quali rappresentano la dispersione corrispondente ad ogni direzione degli autovettori. Analogamente possiamo definire la matrice di correlazione. ρij = Corr (Xi , Xj ) per 1 ≤ i 6= j ≤ k. Definiamo la matrice di covarianza 1 ρ12 · · · ρ1n ρ21 1 · · · ρ2n R= . .. .. .. .. . . . ρn1 ρn2 · · · 1 distribuzione Normale Multivariata fX (x1 , · · · , xN ) = 1 1 exp(− (x − µ)T Σ−1 (x − µ)) 2 2π N/2 |Σ| 1 2
© Copyright 2024 Paperzz