Statistica Applicata Parte 2 - Calcolo delle Probabilit` a Paolo Vidoni Dipartimento di Scienze Economiche e Statistiche Universit`a di Udine via Tomadini 30/a - Udine [email protected] www.dies.uniud.it/vidoni.it.html Per alcuni argomenti si ` e preso spunto da materiale didattico di R. Bellio, G. Masarotto, C. Romualdi, N. Sartori e L. Ventura. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 1/ 154 Calcolo delle probabilit`a • Strumenti matematici per lo studio degli esperimenti (fenomeni) casuali (aleatori), tra cui l’esperimento di campionamento. • Costituisce il fondamento teorico e il presupposto formale della Statistica inferenziale. • Tecniche per utilizzare le informazioni contenute in un campione allo scopo di studiare le caratteristiche di interesse nella popolazione di riferimento. • Definizione classica: la probabilit`a di un evento `e data dal rapporto tra il numero di casi ad esso favorevoli e il numero di casi possibili, supposti tutti egualmente probabili. • Non si analizzano le varie definizioni di probabilit`a, si segue l’approccio assiomatico proposto da Kolmogorov nel 1933. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 2/ 154 Probabilit`a elementare: eventi Un esperimento o fenomeno casuale (aleatorio) `e un fenomeno (esperimento) in riferimento al quale le conoscenze inducono a ritenere possibile una pluralit`a di esiti. Prima di eseguire l’esperimento, o di osservare il fenomeno, non `e possibile individuare quale dei risultati ammissibili si realizzer`a. Sono esperimenti (fenomeni) aleatori: a) il lancio di un dado; b) il numero di giocate al lotto prima di vincere per la prima volta; c) la misurazione della lunghezza di una barra d’acciaio di lunghezza nominale 20 cm con uno strumento affetto da errore; d) il rendimento di un titolo azionario; e) l’estrazione di un campione casuale. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 3/ 154 L’insieme di tutti i possibili risultati di un esperimento aleatorio, indicato con Ω, `e chiamato spazio fondamentale (spazio degli eventi elementari o spazio campionario) `e l’insieme di tutti i possibili risultati di un esperimento aleatorio. I singoli risultati vengono chiamati eventi elementari e sono supposti disgiunti in senso insiemistico. Nonostante lo spazio fondamentale sia noto, non si pu`o individuare con certezza quale evento elementare si realizzer`a. Una volta osservato il fenomeno, o effettuato l’esperimento, uno e un solo evento elementare si sar`a realizzato. Ω `e discreto se costituito da un numero finito o da un’infinit`a ` invece detto continuo se `e costituito da un numerabile di punti. E insieme continuo di punti. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 4/ 154 Esempio. Sono discreti gli spazi fondamentali generati dagli esperimenti a) e b), che corrispondono rispettivamente a Ω = {1, 2, 3, 4, 5, 6} e Ω = {1, 2, 3, . . .} = N+ . Sono continui gli spazi fondamentali generati dagli esperimenti c) ed d), che corrispondono rispettivamente a Ω = R+ e Ω = R. ♦ Un evento `e un sottoinsieme dello spazio fondamentale Ω, cio`e ogni elemento dell’insieme delle parti (insieme di tutti i sottoinsiemi) di Ω, ovvero di P(Ω). Un evento si realizza se e solo se si realizza uno degli eventi elementari che lo definiscono. Esempio. Nel caso del lancio del dado Ω = {1, 2, 3, 4, 5, 6} e sono eventi, ad esempio, A = “Esce un numero dispari” = {1, 3, 5}, B = {1, 3, 6}, C = “Esce il numero 5” = {5}, se interpretato come sottoinsieme di Ω e non come elemento di Ω. ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 5/ 154 C’`e una evidente analogia tra eventi di uno spazio fondamentale e ` quindi possibile, come per sottoinsiemi di un dato insieme. E questi ultimi, definire alcune operazioni logiche sugli eventi. Dati due eventi A, B ⊆ Ω • Ac indica l’evento complementare ad A e contiene tutti gli eventi elementari che non appartengono ad A; • A ∪ B indica l’evento unione tra A e B e contiene tutti gli eventi elementari che appartengono o ad A o a B; • A ∩ B indica l’evento intersezione tra A e B e contiene tutti gli eventi elementari che appartengono sia ad A che a B; • A \ B indica l’evento differenza tra A e B e contiene tutti gli eventi elementari che appartengono ad A ma non a B. Ω `e detto anche evento certo, mentre con il simbolo ∅ si indica l’evento impossibile. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 6/ 154 Se A ∩ B = ∅, gli eventi A e B si dicono incompatibili (disgiunti), poich´e non hanno eventi elementari in comune e quindi non si realizzano contemporaneamente. Se A ⊆ B, allora A implica B, poich´e tutti gli eventi elementari di A cadono anche in B (il viceversa non `e necessariamente vero), quindi la realizzazione di A implica la realizzazione di B. Se A ⊆ B e B ⊆ A, gli eventi A e B vengono detti equivalenti. Esempio. Nel caso del lancio del dado, se A = {1, 3, 5}, B = {1, 3, 6} e C = {5}, allora Ac = {2, 4, 6}, A ∩ B = {1, 3}, A ∪ B = {1, 3, 5, 6}, A \ C = {1, 3}, C ⊆ A, B ∩ C = ∅. ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 7/ 154 Probabilit`a elementare: assiomi Dato uno spazio fondamentale Ω, si considerano tutti gli eventi di interesse: Ω, ∅, A, B, C, ecc. In alcuni casi si considerano tutti i possibili eventi. La probabilit`a `e una misura che associa ad ogni evento A ⊆ Ω un numero reale, che indica la sua possibilit`a di realizzazione. Seguendo l’impostazione assiomatica di Kolmogorov, una misura di probabilit`a P deve essere tale che: A1. per ogni evento A, P (A) ≥ 0 (assioma di non negativit`a); A2. P (Ω) = 1 (assioma di normalizzazione); A3. per ogni collezione finita o al pi` u numerabile di eventi Ai , i ∈SI ⊆ N, taliP che Ai ∩ Aj = ∅, i 6= j, si ha che P ( i∈I Ai ) = i∈I P (Ai ) (assioma di σ-additivit`a). Dall’assioma A3. discende che, se A ∩ B = ∅, allora P (A ∪ B) = P (A) + P (B). Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 8/ 154 Un evento A tale che P (A) = 0 `e detto trascurabile. Un evento A tale che P (A) = 1 `e detto quasi certo. Esempio. Nel caso del lancio di un dado regolare, lo spazio fondamentale `e Ω = {i : i = 1, . . . , 6} e ogni faccia ha la stessa probabilit`a di uscire. In accordo con tale congettura, si associa ad ogni evento elementare i un peso Ppi = 1/6, i = 1, . . . , 6, e, dato un generico evento A, P (A) = i∈A pi . Se A = {1, 3, 5}, allora P (A) = 1/6 + 1/6 + 1/6 = 1/2, che corrisponde alla somma dei pesi degli eventi elementari che compongono A. ♦ Esempio. Si consideri l’esperimento che consiste nel lanciare un dato regolare. Si `e interessati al numero di lanci necessari per ottenere l’esito 6 per la prima volta. In questo caso Ω = N+ . Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 9/ 154 Si pu`o pensare di associare ad ogni evento elementare i ∈ N+ , “l’esito 6 si verifica per la prima volta al lancio i-esimo”, il peso pi = (5/6)i−1 (1/6), che traduce il fatto che ci sono i − 1 insuccessi prima di osservare l’esito 6 per la prima volta. P Anche in questo caso, dato un evento A, P (A) = i∈A pi . Se si ha l’evento A = {2, 4, 6, . . .}, “l’esito 6 si verifica P+∞ per la prima volta in un numero pari di lanci”, allora P (A) = i=1 p2i . ♦ Questi due esempi suggeriscono il seguente criterio costruttivo per definire misure di probabilit`a che soddisfano ai tre assiomi di Kolmogorov, nel caso di esperimenti con Ω finito o numerabile. Ad ogni evento elementare ωi ∈ Ω si associa un peso pi tale che P pi > 0 e i pi = 1 e si definisce P la misura di probabilit`a P tale che, per ogni evento A, P (A) = i∈A pi . In entrambi gli esempi vengono soddisfatte le condizioni sui pesi pi . Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 10/ 154 Se Ω `e finito e gli eventi elementari sono equiprobabili, come ad esempio nel caso del singolo lancio di un dado regolare, il criterio evidenziato in precedenza corrisponde alla definizione classica di probabilit`a. Infatti, se Ω `e costituito da n eventi elementari equiprobabili e A = {ωi , i ∈ I}, con I ⊆ {1, . . . , n}, allora pi = 1/n, i = 1, . . . , n, e X1 no. casi favorevoli ad A P (A) = = . n no. casi possibili i∈I Quando si parla di “scelta a caso di un elemento da un insieme” Ω finito, si intende implicitamente che tutti gli eventi elementari sono ugualmente probabili. In molti casi bisogna fare attenzione a definire in modo corretto gli eventi elementari. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 11/ 154 Si presentano alcuni risultati che sono conseguenze immediate degli assiomi di Kolmogorov. 1) P (∅) = 0. Infatti, per il secondo e il terzo assioma, 1 = P (Ω) = P (Ω ∪ ∅) = P (Ω) + P (∅) = 1 + P (∅), da cui P (∅) = 0. 2) Per ogni evento A, P (Ac ) = 1 − P (A). Infatti, per il secondo e il terzo assioma, 1 = P (Ω) = P (A ∪ Ac ) = P (A) + P (Ac ), da cui P (Ac ) = 1 − P (A). Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 12/ 154 3) Se A ⊆ B, allora P (A) ≤ P (B) e P (B \ A) = P (B) − P (A). Infatti, per il terzo assioma P (B) = P ((B \ A) ∪ A) = P (B \ A) + P (A), da cui si ottengono entrambi i risultati. 4) Dati gli eventi A e B, P (A ∪ B) = P (A) + P (B) − P (A ∩ B). Poich´e A ∪ B = (A ∩ B) ∪ [B \ (A ∩ B)] ∪ [A \ (A ∩ B)], il risultato si ottiene dalla seguente relazione P (A ∪ B) = P (A ∩ B) + P (B) − P (A ∩ B) + P (A) − P (A ∩ B). B A B A B/A Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 13/ 154 5) Dato un P evento B e una partizione Ai , i ∈ I ⊆ N, di Ω, allora P (B) = i∈I P (B ∩ Ai ) (formula di addizione). Poich´e gli eventi Ai , i ∈ I, sono incompatibili e la loro unione d`a Ω, anche gli eventi B ∩ Ai , i ∈ I, sono incompatibili e, per il terzo assioma, si ha che ! [ Ai P (B) = P (B ∩ Ω) = P B ∩ i∈I ! [ = P B ∩ Ai = i∈I A2 A7 Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni P (B ∩ Ai ) . i∈I A4 A1 B X A3 A6 A5 14/ 154 Esempio. Una lotteria `e costituita 1000 biglietti, di cui 5 vincenti. Si scelgono a caso 10 biglietti. Si vuole determinare la probabilit`a di A = “un biglietto `e vincente”. Tutti i gruppi di dieci biglietti hanno la stessa probabilit`a di venire estratti. Quindi, utilizzando la definizione classica di probabilit`a, 5 995 1 9 . P (A) = = 0.048. 1000 10 Per B = “almeno un biglietto `e vincente”, conviene determinare la probabilit`a dell’evento complementare “nessun biglietto vincente” 5 995 0 10 . = 0.951, P (B c ) = 1000 10 da cui si ricava che P (B) = 1 − 0.951 = 0.049. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni ♦ 15/ 154 Esempio. Una rete aziendale `e costituita da un server e da dieci PC. Quando un PC accede alla rete, riceve un indirizzo IP scelto in modo casuale tra 200 disponibili. Nell’ipotesi che tutti e dieci i PC accedano insieme alla rete, quale `e la probabilit`a che il server abbia assegnato almeno due indirizzi IP identici? I casi elementari equiprobabili sono le sequenze ordinate di 10 indirizzi scelti tra i 200 disponibili e corrispondono alle disposizioni con ripetizione di 200 elementi in gruppi di 10, cio`e 20010 . Poich´e le configurazioni favorevoli all’evento complementare “tutti i PC hanno indirizzo diverso” sono date dalle disposizioni semplici di 200 elementi in gruppi di 10, si conclude che . 1 − (200!/190!)/(20010 ) = 0.204 `e la probabilit`a dell’evento cercato. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni ♦ 16/ 154 Probabilit`a elementare: probabilit`a condizionata Dati due eventi A e B, con P (A) > 0, pu` o essere interessante specificare la probabilit`a di B nel caso sia noto il realizzarsi di A, ossia la probabilit`a dell’evento condizionato B | A. La probabilit`a di B|A, chiamata probabilit`a condizionata di B dato A, `e definita ponendo P (B|A) = P (B ∩ A) . P (A) Intuitivamente, se A si realizzato, l’unica parte di B che pu`o ancora verificarsi `e quella comune anche ad A. La quantit`a P (A) al denominatore permette di ristabilire le proporzioni, assicurando la normalizzazione. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 17/ 154 Esempio. Si giocano alla roulette i numeri 7, 23 e 32. Poich´e la roulette `e suddivisa in 37 settori, numerati da 0 a 36, la probabilit`a . di vincere `e P (B) = 3/37 = 0.081, con B = {7, 23, 32}. Se la roulette fosse truccata di modo che possano uscire soltanto i numeri compresi tra 0 e 15, posto A = {0, . . . , 15}, la probabilit`a di vincita corrisponderebbe a P (B|A) = 1/37 1 . P (B ∩ A) = = = 0.062. P (A) 16/37 16 ♦ Dalla definizione di probabilit`a condizionata si ottiene la formula della probabilit`a composta (formula di moltiplicazione) P (B ∩ A) = P (A)P (B|A), con A, B eventi tali che P (A) > 0. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 18/ 154 La formula di moltiplicazione si pu` o estendere anche al caso di tre o pi` u eventi. Ad esempio, dati A1 , A2 , A3 , tali che P (A1 ∩ A2 ) > 0, P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ). Esempio. Si consideri l’estrazione, senza reinserimento, di due palline da un’urna contenente dieci palline nere e cinque bianche. Si vuole calcolare la probabilit`a che esca pallina nera in entrambe le estrazioni. Indicati con A1 e A2 gli eventi “esce una pallina nera”, rispettivamente, alla prima e alla seconda estrazione, si ha che P (A1 ) = 10/15 e P (A2 |A1 ) = 9/14. Utilizzando la formula di moltiplicazione, la probabilit`a cercata `e P (A1 ∩ A2 ) = P (A1 )P (A2 |A1 ) = 6/14. Se le singole estrazioni avvengono con reinserimento, si ha che P (A2 |A1 ) = 10/15 = P (A1 ) e quindi P (A1 ∩ A2 ) = 4/9. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni ♦ 19/ 154 Utilizzando alcune relazioni considerante in precedenza, si ottiene il seguente risultato, che risulta molto utile nelle applicazioni. Dato un evento B e una partizione Ai , i ∈ I ⊆ N, di Ω, con P (Ai ) > 0, vale la formula della probabilit`a totale X P (Ai )P (B | Ai ). P (B) = i∈I Infatti, considerando la formula di addizione, dal momento che, per la formula di moltiplicazione, P (B ∩ Ai ) = P (Ai )P (B|Ai ), i ∈ I, si ottiene immediatamente il risultato. Esempio. Spam. Si suppone di possedere tre caselle di posta ` noto che il 70% della posta proviene dalla prima elettronica. E casella, il 20% dalla seconda e il 10% dalla terza Dalla prima casella si riceve abitualmente l’1% di messaggi spam, mentre dalle altre due si riceve il 2% e il 5% di messaggi spam, rispettivamente. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 20/ 154 Si vuole calcolare la probabilit`a di riceve un messaggio spam. Si considerino gli eventi B = “ricevere un messaggio spam” e Ai = “ricevere posta dalla casella i”, con i = 1, 2, 3. Evidentemente {A1 , A2 , A3 } `e una partizione di Ω costituita da eventi di probabilit`a 0.7, 0.2 e 0.1, rispettivamente. Poich´e P (B|A1 ) = 0.01, P (B|A2 ) = 0.02, P (B|A3 ) = 0.05, utilizzando la formula della probabilit`a totale, si ottiene che P (B) = 3 X P (Ai )P (B|Ai ) i=1 . = 0.7 · 0.01 + 0.2 · 0.02 + 0.1 · 0.05 = 0.016. ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 21/ 154 Probabilit`a elementare: indipendenza stocastica Intuitivamente, due eventi si dicono indipendenti se il realizzarsi o meno di uno dei due non modifica la probabilit`a di realizzazione dell’altro. Formalmente, due eventi A e B si dicono (stocasticamente) indipendenti, se P (A ∩ B) = P (A)P (B). Se, invece, P (A ∩ B) 6= P (A)P (B), A e B sono detti dipendenti. Si verifica che: • se A e B sono non trascurabili, la definizione di indipendenza `e equivalente a P (B|A) = P (B) oppure P (A|B) = P (A); • se A e B sono indipendenti, allora lo sono anche A e B c , Ac e B, Ac e B c ; • Ω, ∅, ed anche ogni evento trascurabile, sono indipendenti da qualsiasi evento. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 22/ 154 Esempio. Si suppone di lanciare un dado equilibrato e si vuole verificare l’indipendenza tra A = {1, 2, 6} e B = {3, 6}. Nonostante, A e B sembrino, a prima vista, dipendenti, si ha che P (A ∩ B) = 1/6, P (A) = 3/6 e P (B) = 2/6, da cui segue invece l’indipendenza stocastica. ♦ L’indipendenza `e un concetto diverso dall’incompatibilit`a. Ad esempio, se due eventi non trascurabili A e B sono incompatibili, allora P (A ∩ B) = 0 e quindi necessariamente sono dipendenti, poich´e P (A ∩ B) 6= P (A)P (B) > 0. La definizione di indipendenza pu` o venire estesa al caso di pi` u di due eventi. In particolare, A1 , A2 , A3 sono indipendenti se P (A1 ∩A2 ∩A3 ) = P (A1 )P (A2 )P (A3 ), P (A2 ∩ A3 ) = P (A2 )P (A3 ), Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni P (A1 ∩A2 ) = P (A1 )P (A2 ), P (A1 ∩ A3 ) = P (A1 )P (A3 ). 23/ 154 Esempio. Si consideri un circuito con sei componenti dal funzionamento indipendente. La probabilit`a di rottura, in un certo intervallo di tempo, `e 0.5 per il primo componente, 0.2 per il secondo e 0.1 per i rimanenti quattro. Si determini la probabilit`a che il circuito si blocchi nell’intervallo di tempo prefissato, nel caso in cui i componenti siano in serie e nel caso siano in parallelo Sia Ai = “il componente i-esimo si rompe”, i = 1, . . . , 6, e B = “il circuito si interrompe”. Poich´e gli eventi Ai sono indipendenti, lo sono anche i corrispondenti complementari. Se i componenti sono in serie, il circuito si interrompe se almeno un componente si rompe, quindi c P (B) = 1−P (B ) = 1−P (Ac1 ∩. . .∩Ac6 ) = 1− 6 Y . P (Aci ) = 0.738. i=1 Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 24/ 154 Se i componenti sono in parallelo, il circuito si interrompe se tutti i componenti si rompono, quindi P (B) = P (A1 ∩ . . . ∩ A6 ) = 6 Y P (Ai ) = 0.00001. i=1 ♦ Esempio. In una stanza ci sono 5 uomini e 5 donne. Si scelgono a caso due persone (senza reinserimento). Quale `e la probabilit`a che siano entrambe donne? Sia Ai = “l’i-esima persona scelta `e donna”, i = 1, 2. Visto che P (A1 ) = 5/10 e P (A2 | A1 ) = 4/9, la probabilit`a cercata `e . P (A1 ∩ A2 ) = P (A1 )P (A2 | A1 ) = 0.22. Gli eventi non trascurabili A1 e A2 sono dipendenti poich´e P (A2 ) = 1/2 e P (A2 | A1 ) = 4/9. ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 25/ 154 Esempio. Una filiale di un istituto bancario ha 1210 clienti titolari di conto corrente. L’ufficio crediti distingue tra buoni e cattivi clienti, tenendo conto delle eventuali insolvenze. Inoltre, sono noti i dati sull’eventuale possesso della carta di credito. Le informazioni disponibili vengono sintetizzate nella seguente tabella con carta di credito senza carta di credito cattivo cliente 60 21 81 buon cliente 520 609 1129 580 630 1210 Si sceglie casualmente un cliente e si vuole valutare l’eventuale indipendenza tra gli eventi A = “si sceglie un buon cliente” e B = “si sceglie un possessore di carta di credito”. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 26/ 154 Dalla tabella si ricava che P (A) = 1129 . = 0.933, 1210 P (A ∩ B) = P (B) = 580 . = 0.479, 1210 520 . = 0.430. 1210 Poich´e P (A ∩ B) = 0.43 6= P (A)P (B) = 0.45, si conclude che i due eventi sono dipendenti. Inoltre, la probabilit`a condizionata P (A|B) = 520/1210 520 . P (A ∩ B = = = 0.897 P (B) 580/1210 580 risulta diversa da P (A) = 0.933. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni ♦ 27/ 154 Probabilit`a elementare: teorema di Bayes Si considera la situazione in cui, noto il risultato di un qualche esperimento, si vuole determinare la probabilit`a che esso sia dovuto ad una certa causa, o condizione sperimentale. Ci`o accade, ad esempio, quando l’esperimento avviene in due stadi e, pur essendo noto il risultato finale, non si `e a conoscenza del risultato ottenuto al primo stadio. Esempio. Si considerino due urne indistinguibili. La prima contiene quattro palline bianche e sei nere, la seconda tre palline bianche e cinque nere. Si sceglie a caso un’urna, senza sapere quale delle due, e si estrae da essa una pallina. Se la pallina `e bianca, ci si chiede quale `e la probabilit`a che essa provenga dalla prima urna. Sia B = “la pallina estratta bianca” e Ai = “si sceglie l’urna i”, i = 1, 2, si cerca P (A1 | B). Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 28/ 154 Utilizzando la formula di moltiplicazione, si si ottiene P (A1 ∩ B) = P (A1 )P (B | A1 ) = (1/2)(4/10) = 1/5. Per la formula delle probabilit`a totali ha che P (B) = P (A1 )P (B | A1 ) + P (A2 )P (B | A2 ) = (1/2)(4/10) + (1/2)(3/8) = 31/80. Quindi, per la definizione di probabilit`a condizionata, P (A1 | B) = 1/5 . P (A1 ∩ B) = = 0.516. P (B) 31/80 Si noti che P (A1 | B) > P (A1 ) e questo trova una giustificazione nel fatto che la prima urna contiene una porzione maggiore di palline bianche ed inoltre si suppone di avere estratto pallina bianca. ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 29/ 154 Il teorema di Bayes afferma che: dato un evento B non trascurabile e una partizione Ai , i ∈ I ⊆ N, di Ω costituita da eventi non trascurabili, si ha che, per ogni i ∈ I, P (Ai |B) = P (Ai )P (B|Ai ) . P (B) Se P (B) non `eP nota, si pu` o utilizzare la formula delle probabilit`a totali P (B) = j∈I P (Aj )P (B|Aj ). Infatti, per la definizione di probabilit`a condizionata, applicando la formula di moltiplicazione, si ha che, per ogni i ∈ I, P (Ai |B) = P (Ai )P (B|Ai ) P (B ∩ Ai ) = , P (B) P (B) che `e il risultato cercato. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 30/ 154 Si possono fare le seguenti considerazioni: • le probabilit`a P (Ai ), i ∈ I, vengono chiamate probabilit`a a priori (iniziali) della condizione sperimentale i-esima e riflettono quelle che sono le conoscenze disponibili prima della realizzazione dell’esperimento; • le probabilit`a P (Ai |B), i ∈ I, vengono chiamate probabilit`a a posteriori (finali) e tengono conto del fatto che l’esperimento si `e concluso e l’evento B si `e realizzato; • il teorema di Bayes esprime formalmente una procedura coerente di apprendimento dall’esperienza; • P (Ai |B) risulta proporzionale a P (Ai )P (B|Ai ), mentre la quantit`a P (B), presente al denominatore, `e un fattore di normalizzazione; • P (B|Ai ) `e chiamata la verosimiglianza di Ai ; si pu`o interpretare concettualmente come la verosimiglianza che il verificarsi di B ha attribuito alla condizione sperimentale Ai . Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 31/ 154 Esempio. Un’azienda produce il 30% dei suoi articoli con una prima linea di produzione, che fornisce 8 pezzi difettosi su 100, mentre il restante 70% con una seconda linea, che fornisce 5 pezzi difettosi su 100. Si sceglie a caso un articolo, senza sapere da quale linea provenga, e viene scartato perch´e difettoso. Si vuole calcolare la probabilit`a che provenga dalla prima linea di produzione. Indicato con B = “l’articolo selezionato `e difettoso” e con Ai = “l’articolo selezionato proviene dall’i-esima linea”, i = 1, 2, si ha che P (B|A1 ) = 8/100, P (B|A2 ) = 5/100, P (A1 ) = 3/10, P (A2 ) = 7/10. Per il teorema di Bayes, la probabilit`a cercata `e P (A1 |B) = 24 . P (A1 )P (B|A1 ) = = 0.407. P (A1 )P (B|A1 ) + P (A2 )P (B|A2 ) 59 ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 32/ 154 Esempio. La probabilit`a che nevichi in un generico giorno invernale, in un dato comune, `e 0.2. Inoltre, in caso di neve, la probabilit`a che il giorno dopo le strade siano impraticabili `e 0.6. Tale probabilit`a scende a 0.1 se non ha nevicato il giorno prima. Indicato con B = “le strade sono impraticabili” e con A1 = “nevica in un giorno qualunque”, posto A2 = Ac1 , si ha che P (B|A1 ) = 0.6, P (B|A2 ) = 0.1, P (A1 ) = 0.2 e P (A2 ) = 0.8. Dalla formula della probabilit`a totale si ottiene la probabilit`a che, in un generico giorno invernale, le strade siano impraticabili P (B) = 0.2 · 0.6 + 0.8 · 0.1 = 0.2. Utilizzando il teorema di Bayes, si determina la probabilit`a che, essendo le strade impraticabili, ieri abbia nevicato P (A1 |B) = 0.2 · 0.6 = 0.6. 0.2 ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 33/ 154 Variabili casuali: funzione di ripartizione Per descrivere fenomeni o esperimenti aleatori si considera la nozione di variabile casuale, che fornisce un modello matematico utile anche per le applicazioni statistiche. Lo spazio fondamentale Ω potrebbe non essere un insieme numerico oppure potrebbe non rappresentare in modo chiaro gli aspetti dell’esperimento a cui si `e interessati. In alcuni casi Ω potrebbe essere astratto e molto complesso da specificare. Le variabili casuali permettono di svincolarsi dallo spazio Ω e di operare in insiemi numerici dove le probabilit`a si calcolano mediante somme o integrali. Esempio. L’esperimento del lancio di una moneta non da luogo ad un risultato numerico, poich´e Ω = {T, C}. Se si considera il numero di esiti “Testa” in n = 1 lanci, si ottiene una descrizione numerica del fenomeno in esame. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 34/ 154 In una procedura di controllo della qualit`a si pu` o non essere interessati all’esito completo dell’esperimento ma soltanto al numero di oggetti che soddisfano ad opportuni standard di qualit`a, tra quelli selezionati. Nel lancio di due dadi, si pu` o prestare attenzione non tanto alla coppia di valori che appaiono sulle facce superiori dei singoli dadi, ma alla somma di tali valori numerici. ♦ Dato un esperimento (fenomeno) aleatorio descritto da uno spazio fondamentale Ω e una probabilit`a P , si definisce variabile casuale (aleatoria) X una applicazione da Ω in R misurabile, cio`e tale che sia possibile “probabilizzare” gli eventi ad essa riferiti. Quindi una variabile casuale `e una funzione che, a seconda del risultato dell’esperimento in esame, assume valori numerici a cui possibile attribuire una certa probabilit`a di realizzazione coerente con P . Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 35/ 154 Esempio. Moneta. Si consideri l’esperimento che consiste nel lanciare tre volte una moneta regolare e si supponga di essere interessati al numero totale degli esiti testa. Quindi Ω = {CCC, CCT, CT C, T CC, CT T, T CT, T T C, T T T } e la variabile casuale X : Ω → R associa ad ogni evento elementare di Ω il numero di esiti T . Ad esempio, X(T T C) = 2. X assume valori in {0, 1, 2, 3} e tali valori corrispondono a veri e propri eventi elementari, indicati con la scrittura simbolica X = i, i = 0, 1, 2, 3. ` immediato concludere che X = i ha probabilit`a 1/8, se i = 0, 3, E e 3/8, se i = 1, 2. Si noti che la somma delle probabilit`a riferite agli esiti di X `e pari a 1. ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 36/ 154 La misura di probabilit`a riferita agli eventi X ∈ B, B ⊆ R, associati alla variabile casuale X, soddisfa gli assiomi di Kolmogorov ed `e detta distribuzione (legge) di probabilit`a di X. In genere, non si fa menzione dello spazio di partenza e si identifica una variabile casuale X con la sua distribuzione di probabilit`a. Due variabili casuali X e Y sono dette identicamente distribuite, in simboli X ∼ Y , se P (X ∈ B) = P (Y ∈ B), per ogni B ⊆ R. Per specificare la distribuzione di probabilit`a di una variabile casuale X si considera la nozione di funzione di ripartizione, intesa come un’applicazione FX : R → [0, 1], tale che FX (x) = P (X ≤ x), x ∈ R. La conoscenza di FX permette di calcolare, eventualmente con procedimenti di limite, tutte le probabilit`a P (X ∈ B), B ⊆ R. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 37/ 154 In particolare, per ogni a, b ∈ R, a < b, P (a < X ≤ b) = FX (b) − FX (a), P (X > a) = 1 − FX (a), P (X = b) = FX (b) − lim FX (x). x→b− La funzione di ripartizione verifica le tre seguenti propriet`a caratterizzanti: • FX `e monotona non decrescente; • FX `e continua da destra; • FX `e tale che limx→−∞ FX (x) = 0 e limx→+∞ FX (x) = 1. Perci`o, FX non `e necessariamente continua anche da sinistra e quindi continua in ogni punto. Si pu`o dimostrare che FX `e continua nei punti in cui P (X = x) = 0 e discontinua nei punti in cui P (X = x) > 0, che sono al pi` u un’infinit`a numerabile. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 38/ 154 0.8 0.4 0.0 0.0 0.4 0.8 Vengono riportati due esempi di funzioni di ripartizione. −1 1 2 3 4 5 6 −1 1 2 3 4 5 6 L’insieme di tutti i possibili valori della variabile casuale X corrisponde usualmente alla nozione di supporto. Il supporto di X, indicato con SX , `e l’insieme dei punti x ∈ R i cui intorni sono eventi di probabilit`a strettamente positiva, cio`e SX = {x ∈ R : ∀ε > 0, P (x − ε < X < x + ε) > 0}. Esempio. Moneta (continua). Si considera il lancio della moneta ripetuto per tre volte. In questo caso, SX = {0, 1, 2, 3} e P (X = 0) = P (X = 3) = 1/8, P (X = 1) = P (X = 2) = 3/8. ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 39/ 154 Variabili casuali discrete Tra le varie tipologie di variabili casuali si considerano quelle discrete, che possono assumere un numero finito o al pi` u numerabile di valori, e quelle continue, che assumono valori in un insieme continuo. Pi` u precisamente, una variabile casuale X `e discreta se esiste un insieme di numeri reali P {xi }i∈I , finito o al pi` u numerabile, tale che P (X = xi ) = pi > 0 e i∈I pi = 1; usualmente, SX = {xi , i ∈ I}. La corrispondenza tra i possibili valori di X e le rispettive probabilit`a individua la funzione di probabilit`a (massa) P (X = xi ) = pi se x = xi , ∀i ∈ I, fX (x) = 0 altrimenti. Dalla conoscenza di fX si risale facilmente alla funzione di ripartizione FX e viceversa, quindi fX caratterizza la variabile casuale X. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 40/ 154 Infatti, per ogni x ∈ R, FX (x) = P (X ≤ x) = X pi . i: xi ≤x Il grafico di FX (x) `e una funzione a gradini, continua da destra, con salti in corrispondenza degli elementi del supporto xi ∈ SX e ampiezza del salto data da pi = fX (xi ) = FX (xi ) − FX (xi−1 ). La conoscenza di fX permette spesso una notevole semplificazione nel calcolo di probabilit`a di eventi relativi a X, dal momento che, per ogni B ⊆ R, X P (X ∈ B) = fX (xi ). i : xi ∈B Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 41/ 154 0.8 0.4 0.0 0.0 0.4 0.8 Esempio. Moneta (continua). Si considera la variabile casuale X che conta il numero di esiti testa in tre lanci di una moneta regolare. In questo caso, la funzione di probabilit`a e la funzione di ripartizione corrispondono rispettivamente a −1 0 1 2 Inoltre, P (X ≥ 1) = P 3 4 i : xi ≥1 P (X Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni −1 0 1 = xi ) = 7/8. 2 3 4 ♦ 42/ 154 Esempio. Variabile casuale degenere. Una variabile casuale X `e degenere nel punto c ∈ R, in simboli X ∼ D(c), se P (X = c) = 1. In questo caso SX = {c} e la funzione di ripartizione `e 0 se x < c FX (x) = 1 se x ≥ c, 0.0 0.2 0.4 0.6 0.8 1.0 con grafico, per il caso c = 1, −1 0 1 2 3 4 Una variabile casuale degenere descrive un esperimento non aleatorio. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni ♦ 43/ 154 Esempio. Variabile casuale Bernoulliana. Una variabile casuale X `e Bernoulliana, in simboli X ∼ Ber(p), con p ∈ (0, 1), se SX = {0, 1} e P (X = 1) = p, P (X = 0) = 1 − p. Si ha che se x < 0 0 1 − p se x = 0 1 − p se 0 ≤ x < 1 p se x = 1 FX (x) = fX (x) = 1 se x ≥ 1, 0 altrimenti, con grafico, per il caso p = 2/3, rispettivamente 0.8 0.8 ● 0.4 0.4 ● ● 0.0 0.0 ● −0.5 0.0 0.5 1.0 1.5 −1 0 1 2 3 4 Esperimento aleatorio dicotomico, cio`e con due possibili esiti, ad esempio, successo e insuccesso, quantificati in 1 e 0. ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 44/ 154 0.0 0.1 0.2 0.3 0.4 0.5 0.6 Esempio. Tetano. Sia X una variabile casuale discreta che descrive il numero di casi di tetano registrati nel comune di Padova in una settimana. La sua funzione di densit`a `e 0.4 se x = 0 0.2 se x = 1 0.1 se x = 2 fX (x) = 0.05 se x = 3 0.25 se x = 4 0 altrimenti. 0 Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 1 2 3 4 45/ 154 Variabili casuali continue Una variabile casuale X `e continua se la sua funzione di ripartizione FX `e continua ed `e tale che esiste una funzione fX , definita su R, tale che Z x FX (x) = fX (t)dt, ∀x ∈ R. −∞ La fX `e chiamata funzione di densit`a probabilit`a ed `e tale che • fX (x) ≥ 0, per ogni x ∈ R; R +∞ • −∞ fX (x)dx = 1; • fX (x) = d dx FX (x), per ogni x ∈ R in cui fX (x) continua. Quindi dalla conoscenza di fX si ottiene FX e viceversa; fX caratterizza la variabile casuale X. Il supporto SX `e un insieme continuo, ad esempio R o un intervallo o una semiretta di R. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 46/ 154 Invece che assegnare probabilit`a a valori puntuali (si ricordi che, essendo FX continua, P (X = x) = 0, per ogni x ∈ R), si assegna probabilit`a agli intervalli, semirette, ecc. di R. Gli eventi (X < a) e (x ≤ a), a ∈ R, hanno la stessa probabilit`a. 0.8 0.4 0.0 0.0 0.4 0.8 Il valore della funzione di ripartizione in x = 1, FX (1), (grafico di sinistra) corrisponde all’area sottesa dalla funzione di densit`a con riferimento a (−∞, 1] (grafico di destra). −1 1 2 3 4 5 6 −1 1 2 3 4 5 6 Inoltre, come conseguenza dei risultati di probabilit`a elementare, P (X > a) = 1 − P (X ≤ a) = 1 − FX (a), per ogni a ∈ R. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 47/ 154 Vale il seguente risultato: per ogni a, b ∈ R, a < b, Z P (a < X ≤ b) = FX (b) − FX (a) = b fX (x)dx, a 0.8 0.4 0.0 0.0 0.4 0.8 che corrisponde all’area sottesa dalla funzione di densit`a con riferimento all’intervallo [a, b]. Graficamente, se [a, b] = [1, 2], −1 1 2 3 4 5 6 −1 1 2 3 4 5 6 In generale, la probabilit`a associata all’evento X ∈ B corrisponde a Z P (X ∈ B) = fX (x)dx. B Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 48/ 154 Si noti che fX non definisce la probabilit`a associata all’evento X = x, che risulta essere nulla, ma `e direttamente proporzionale alla probabilit`a che X assuma valori in un intorno di x. 0.0 0.5 1.0 1.5 Esempio. Internet. Una compagnia telefonica ha riscontrato che la durata, in un’ora, dei collegamenti internet dei propri utenti `e descritta da una variabile casuale continua X con funzione di densit`a fX (x) = 6x(1 − x), se x ∈ [0, 1], e nulla altrove −0.5 0.0 0.5 1.0 1.5 Si verifica facilmente che fX `e non negativa e tale che R +∞ −∞ fX (x)dx = 1. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 49/ 154 Inoltre, la funzione di ripartizione `e tale che per x ∈ [0, 1], FX (x) = 3x2 − 2x3 , mentre, se x < 0, FX (x) = 0 e, se x > 1, FX (x) = 1. La probabilit`a che X assuma valori in [0.5, 0.7] `e Z 0.7 P (0.5 ≤ X ≤ 0.7) = FX (0.7)−FX (0.5) = 6x(1−x)dx = 0.284 0.5 0.0 0.5 1.0 1.5 e corrisponde all’area evidenziata nel grafico sottostante −0.5 0.0 0.5 1.0 1.5 ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 50/ 154 Esempio. Variabile casuale esponenziale. Una variabile casuale X `e esponenziale, in simboli X ∼ Esp(λ), con λ > 0, se SX = [0, +∞) e λe−λx se x ∈ SX fX (x) = 0 altrimenti. La funzione di ripartizione `e Z x Z −λt λe dt = FX (x) = −∞ x λe−λt dt = 1 − e−λx , 0 se x ∈ SX , mentre FX (x) = 0, se x ∈ / SX . Si calcolano le probabilit`a P (X > 1) = 1 − FX (1) = e−λ , P (1 ≤ X ≤ 3) = FX (3) − FX (1) = e−λ − e−3λ , che, se λ = 1, corrispondono rispettivamente a e−1 e e−1 − e−3 . Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 51/ 154 1.2 0.6 0.0 0.0 0.6 1.2 La variabile casuale esponenziale viene utilizzata soprattutto per rappresentare durate e tempi di vita o di funzionamento, nel caso in cui si ipotizza assenza di memoria o di usura. −1 1 2 3 4 5 −1 1 2 3 4 5 Si presentano i grafici della funzione di ripartizione e della funzione di densit`a nel caso λ = 1. ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 52/ 154 Esempio. Variabile casuale uniforme. Una variabile casuale continua X `e uniforme in [0, 1], in simboli X ∼ U (0, 1), se SX = [0, 1] e 1 se x ∈ SX fX (x) = 0 altrimenti. La funzione di ripartizione `e 0 se x < 0 x se 0 ≤ x < 1 FX (x) = 1 se x ≥ 1, Si noti che, se gli intervalli [a, b] e [c, d] del supporto, con a < b e c < d, hanno uguale ampiezza h, allora P (a ≤ X ≤ b) = P (c ≤ X ≤ d) = h · 1 = h. Dunque, tutti gli intervalli del supporto di uguale lunghezza hanno la stessa probabilit`a di contenere un valore di X. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 53/ 154 La variabile casuale uniforme continua viene utilizzata per esperimenti aleatori che possono essere rappresentati come un’estrazione casuale di un numero da un certo intervallo di R. 1.0 0.0 0.0 1.0 ` un modello che descrive l’equiprobabilit`a nel continuo. E −0.5 0.5 1.5 −0.5 0.5 1.5 Si presentano i grafici della funzione di ripartizione e della funzione di densit`a. ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 54/ 154 Variabili casuali: indici sintetici La distribuzione di probabilit`a di una variabile casuale X viene descritta in modo completo dalla associata funzione di ripartizione o dalla corrispondente funzione (di densit`a) di probabilit`a. Nonostante ci`o, spesso si interessati a conoscere soltanto alcuni aspetti parziali della distribuzione di probabilit`a di X, quali • la posizione, cio`e il centro della distribuzione di probabilit`a; • la variabilit` a, cio`e la dispersione della distribuzione di probabilit`a attorno ad un centro; • la forma della distribuzione di probabilit`a, considerando la simmetria e la curtosi (pesantezza delle code). Si riprendono sostanzialmente gli stessi concetti presentati in Statistica descrittiva, modificando il contesto di applicazione e gli elementi interpretativi. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 55/ 154 Data una variabile casuale discreta o continua X, con supporto SX e funzione (di densit`a) di probabilit`a fX , si chiama valore atteso (medio) o media di X, in simboli E(X), la media dei suoi possibili valori ponderati con le relative probabilit`a (la relativa funzione di densit`a di probabilit`a), ovvero X X E(X) = xfX (x) = xP (X = x), se X `e discreta, x∈SX x∈SX Z +∞ E(X) = xfX (x)dx, se X `e continua, −∞ purch´e la serie o l’integrale siano convergenti. ` l’indice di posizione pi` E u noto. Usualmente si pone E(X) = µ e si intende tacitamente che tale valore atteso esista finito. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 56/ 154 Esempio. La seguente tabella di frequenza sintetizza i voti ottenuti da 30 alunni in un compito in classe. voto no. alunni 4 2 5 3 6 10 7 11 8 4 Si pu`o calcolare la media aritmetica (Statistica descrittiva) che corrisponde a 6.4. Si supponga di avere un’urna con 30 palline, ciascuna contenente il voto di un alunno, e si estragga a caso una pallina. La variabile casuale X, che indica il voto ottenuto con l’estrazione, ha distribuzione di probabilit`a x P (X = x) 4 2/30 5 3/30 6 10/30 7 11/30 8 4/30 e valore atteso E(X) = 6.4 (Calcolo delle probabilit`a). Il valore `e lo stesso, ma l’interpretazione `e evidentemente diversa. ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 57/ 154 Esempio. Si lancia una moneta che da testa con probabilit`a p ∈ (0, 1); se esce testa Tizio paga a Caio un euro, se esce croce `e Caio a dover dare a Tizio la stessa somma. Indicata con X la variabile casuale che descrive il guadagno di Tizio, si ha che E(X) = (−1)p + 1(1 − p) = 1 − 2p. Quindi, E(X) `e positivo, nullo o negativo se, rispettivamente, p < 1/2, p = 1/2 (moneta regolare) o p > 1/2. ♦ Esempio. Variabile casuale esponenziale (continua). Si consideri la variabile casuale X ∼ Esp(λ). Poich´e la funzione di densit`a `e nulla fuori dal supporto SX = [0, +∞), Z +∞ Z +∞ Z 1 +∞ −t 1 E(X) = xfX (x)dx = xλe−λx dx = te dt = , λ 0 λ −∞ 0 avendo operato il cambio di variabile t = λx e poi integrato per parti. ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 58/ 154 Esempio. Internet (continua). Si considera la variabile casuale X che misura la durata, in un’ora, dei collegamenti internet degli utenti di una certa compagnia telefonica. La funzione di densit`a di X `e pari a fX (x) = 6x(1 − x), se x ∈ [0, 1], e nulla altrove. Poich´e la funzione di densit`a `e nulla fuori dal supporto SX = [0, 1], Z 1 Z x6x(1 − x)dx = E(X) = 0 0 1 1 6x2 − 6x3 dx = . 2 ♦ Esempio. Variabile casuale uniforme (continua). Si consideri la variabile casuale X ∼ U (0, 1). Poich´e la funzione di densit`a `e nulla fuori dal supporto SX = [0, 1], Z E(X) = 0 1 1 x · 1 dx = . 2 ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 59/ 154 Sia X una variabile casuale e Y = g(X) una variabile casuale ottenuta come trasformata della X, tramite l’applicazione g(·). Nota la distribuzione di probabilit`a di X, si pu` o calcolare il valore atteso di Y , ovvero E(Y ) = E(g(X)), senza conoscere la legge di Y ; infatti, X E(Y ) = g(x)fX (x), se X e Y sono discrete, x∈SX Z +∞ E(Y ) = g(x)fX (x)dx, se X e Y sono continue. −∞ Sulla nozione di valore atteso si possono fare considerazioni analoghe a quelle fatte in Statistica descrittiva con riferimento alla media aritmetica. Valgono inoltre le seguenti propriet`a, per le quali si omettono le dimostrazioni essendo sostanzialmente analoghe, per lo meno con riferimento al caso discreto, a quelle viste per la media aritmetica: Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 60/ 154 1) Propriet`a di Cauchy: inf{x ∈ SX } ≤ E(X) ≤ sup{x ∈ SX }. 2) Propriet`a di baricentro: E(X − E(X)) = 0. 3) Propriet`a di linearit`a: E(aX + b) = aE(X) + b, per ogni a, b ∈ R. Inoltre, si pu`o dimostrare che vale la seguente estensione della propriet`a di linearit`a: date due variabili casuali X e Y , per ogni a, b ∈ R E(aX + bY ) = aE(X) + bE(Y ); tale propriet`a si pu`o estendere anche al caso di combinazioni lineari di pi` u di due variabili casuali. Oltre al valore atteso esistono altri indici di posizione. Tra questi verranno ricordati la mediana e la moda. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 61/ 154 La mediana della distribuzione di probabilit`a di X, o pi` u semplicemente la mediana di X, indicata con x0.5 , `e quel valore x0.5 ∈ R tale che P (X ≤ x0.5 ) ≥ 1/2 e P (X ≥ x0.5 ) ≥ 1/2. Quindi, x0.5 ripartisce la massa unitaria di probabilit`a, di modo che gli eventi X ≤ x0.5 e X ≥ x0.5 abbiano probabilit`a pari a 1/2, o anche maggiore di 1/2 se P (X = x0.5 ) > 0. Pu`o non essere unica e, in alcuni casi, pu` o corrispondere anche ad un intervallo di valori reali. Se X `e una variabile casuale continua, la mediana x0.5 `e tale che FX (x0.5 ) = 1/2; `e il valore dove la funzione di ripartizione vale 1/2 e che ripartisce a met`a l’area unitaria sottesa dalla funzione di densit`a. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 62/ 154 Esempio. Moneta (continua). Si consideri la variabile casuale X che conta gli esiti testa in tre lanci di una moneta regolare. Le condizioni P (X ≤ x0.5 ) ≥ 1/2 e P (X ≥ x0.5 ) ≥ 1/2 risultano verificate per x0.5 = 1, x0.5 = 2 e per ogni valore reale in (1, 2). La variabile casuale X presenta come mediana tutti i valori dell’intervallo [1, 2]. La mediana convenzionale `e 1.5. ♦ Esempio. Sia X una variabile casuale tale che SX = {−2, 0, 1, 2}, P (X = −2) = P (X = 2) = 1/4, P (X = 0) = 1/6 e P (X = 1) = 1/3. Si ha allora che P (X ≤ 1) = P (X = −2) + P (X = 0) + P (X = 1) > 1/2, P (X ≥ 1) = P (X = 1) + P (X = 2) > 1/2. Soltanto il valore x0.5 = 1 soddisfa le due condizioni della definizione ed `e quindi la mediana di X. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni ♦ 63/ 154 Esempio. Variabile casuale esponenziale (continua). Si considera la variabile casuale X ∼ Esp(λ), che ha funzione di ripartizione FX (x) = 1 − e−λx , per x ≥ 0, e nulla altrove, con λ > 0. La mediana di X si ottiene risolvendo l’equazione 1 − e−λx0.5 = 1/2. In particolare, si ha che x0.5 = λ−1 log 2. ♦ 0.0 0.5 1.0 1.5 Esempio. Internet (continua). Si considera la variabile casuale X che misura la durata, in un’ora, dei collegamenti internet degli utenti di una certa compagnia telefonica. La funzione di densit`a di X `e rappresentata nella figura sottostante. −0.5 0.0 0.5 1.0 1.5 Poich´e `e simmetrica rispetto a x = 1/2, si ha che x0.5 = 1/2. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni ♦ 64/ 154 La moda della distribuzione di probabilit`a di X, o pi` u semplicemente la moda di X, indicata con xmo , `e quel valore xmo ∈ R per cui `e massima la funzione (di densit`a) di probabilit`a. La moda non `e necessariamente unica e pu` o anche non esistere. Se esiste, appartiene al supporto SX e individua i valori pi` u probabili, se X discreta, o i cui intorni sono gli eventi pi` u probabili, se X continua. Nel caso in cui fX (x) ha un unico massimo, la distribuzione di probabilit`a di X `e detta unimodale; se ci sono due o pi` u punti di massimo, si parla di distribuzioni bimodali o multimodali. Esempio. Internet (continua). Si considera la variabile casuale X che misura la durata, in un’ora, dei collegamenti internet degli utenti di una certa compagnia telefonica. Dalla analisi del grafico della funzione di densit`a si conclude che xmo = 1/2. ♦ Esempio. Tetano (continua). Sia X una variabile casuale discreta che descrive il numero di casi di tetano registrati nel comune di Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 65/ 154 0.0 0.1 0.2 0.3 0.4 0.5 0.6 Padova in una settimana. Dalla analisi della funzione di massa 0 si conclude che xmo = 0. 1 2 3 4 ♦ Esempio. Variabile casuale esponenziale (continua). Si considera la variabile casuale X ∼ Esp(λ). Dalla analisi del grafico della funzione di densit`a si conclude che xmo = 0. ♦ Esempio. Variabile casuale uniforme (continua). Si consideri la variabile casuale X ∼ U (0, 1). Dalla analisi del grafico della funzione di densit`a si conclude che la moda xmo corrisponde ad ogni punto dell’intervallo SX = [0, 1]. ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 66/ 154 Sia α ∈ (0, 1), si chiama quantile di livello α della distribuzione di probabilit`a di X, o pi` u semplicemente quantile di livello α di X, indicato con xα , quel valore xα ∈ R tale che P (X ≤ xα ) ≥ α e P (X ≥ xα ) ≥ 1 − α. Quindi, a meno di effetti legati alla discretezza, xα ripartisce la massa unitaria di probabilit`a lasciando una porzione pari ad α alla propria sinistra e pari a 1 − α alla propria destra. Pu`o non essere unico e, in alcuni casi, pu` o corrispondere anche ad un intervallo di valori reali. Se X `e una variabile casuale continua, xα `e tale che FX (xα ) = α; `e il valore dove la funzione di ripartizione vale α e che ripartisce in due porzioni pari ad α e 1 − α l’area unitaria sottesa dalla funzione di densit`a. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 67/ 154 Quindi la mediana corrisponde al quantile di livello α = 1/2. Se α `e espresso in termini decimali o percentuali e si parla allora di decili o di percentili. Se α = 1/4, 1/2, 3/4, si hanno i quartili. Esempio. Sia X una variabile casuale tale che SX = {−2, 0, 1, 2}, P (X = −2) = P (X = 2) = 1/4, P (X = 0) = 1/6 e P (X = 1) = 1/3. Si cerca il quantile di livello α = 0.4. Si ha che P (X ≤ 0) = P (X = −2) + P (X = 0) > 0.4, P (X ≥ 1) = P (X = 0) + P (X = 1) + P (X = 2) > 0.6. Poich´e soltanto il valore 0 soddisfa le due condizioni della definizione, si conclude che x0.4 = 0. ♦ Esempio. Variabile casuale esponenziale (continua). Si considera la variabile casuale X ∼ Esp(λ), che ha funzione di ripartizione FX (x) = 1 − e−λx , per x ≥ 0, e nulla altrove, con λ > 0. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 68/ 154 Il quantile xα si ottiene risolvendo l’equazione 1 − e−λxα = α. In particolare, si ha che c = −λ−1 log(1 − α). ♦ 0.0 0.5 1.0 1.5 Esempio. Internet (continua). Si considera la variabile casuale X che misura la durata, in un’ora, dei collegamenti internet degli utenti di una certa compagnia telefonica. La funzione di densit`a di X `e rappresentata nella figura sottostante. −0.5 0.0 0.5 1.0 1.5 Poich´e `e simmetrica rispetto a x = 1/2, si si pu` o concludere che, per ogni α ∈ (0, 0.5), l’area della coda alla sinistra di xα coincide con l’area della coda alla destra di x1−α . ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 69/ 154 Data una variabile casuale discreta o continua X, con supporto SX e funzione (di densit`a) di probabilit`a fX , si chiama varianza di X, in simboli V (X), la quantit`a V (X) = E((X − E(X))2 ), se esiste finita, ovvero X (x − E(X))2 fX (x), V (X) = se X `e discreta, x∈SX Z +∞ V (X) = (x − E(X))2 fX (x)dx, se X `e continua, −∞ purch´e la serie o l’integrale siano convergenti. ` l’indice di variabilit`a pi` E u noto. Usualmente si pone V (X) = σ 2 e si intende tacitamente che il valore atteso della definizione esista finito. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 70/ 154 La varianza `e il valore atteso della variabile casuale scarto X − E(X) elevata al quadrato e misura la dispersione distribuzione di probabilit`a attorno alla media. Lo scarto quadratico medio di X, indicato con σ, `e la radice p quadrata aritmetica (l’unica positiva) della varianza, σ = V (X). Valgono inoltre le seguenti propriet`a, per le quali si omettono le dimostrazioni essendo sostanzialmente analoghe a quelle viste per la varianza in Statistica descrittiva: 1) Propriet`a di non negativit`a: V (X) ≥ 0, con V (X) = 0 se e solo se X `e degenere. 2) Formula per il calcolo: V (X) = E(X 2 ) − (E(X))2 . 3) Propriet`a di invarianza per traslazioni: V (X + b) = V (X), b ∈ R. 4) Propriet`a di omogeneit`a di secondo grado: V (aX) = a2 V (X), a ∈ R. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 71/ 154 Dalle propriet`a 3) e 4) discende che V (aX + b) = a2 V (X), con a, b ∈ R. Inoltre, data una variabile casuale X, con media µ = E(X) e varianza σ 2 = V (X), la variabile casuale trasformata Y = X −µ σ `e tale che E(Y ) = 0 e V (Y ) = 1 ed `e detta variabile casuale standardizzata. Viceversa, a partire da una variabile casuale Y con E(Y ) = 0 e V (Y ) = 1, si pu`o ottenere una variabile casuale X, con valor medio µ e varianza σ 2 prefissati, utilizzando la trasformata X = σY + µ. Oltre alla varianza esistono altri indici di variabilit`a. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 72/ 154 Se X `e positiva, pi` u precisamente se P (X > 0) = 1, si pu`o definire la quantit`a σ/µ, chiamata coefficiente di variazione. Poich´e non dipende dalla unit`a di misura con cui viene studiato il fenomeno, pu`o risultare utile per confrontare la dispersione di due o pi` u variabili casuali. Lo scarto medio assoluto dalla mediana, definito come E(|X − x0.5 |), se esiste finito, esprime la distanza attesa tra i valori di X e la mediana x0.5 . Lo scarto interquartilico SI = x3/4 − x1/4 , corrisponde alla differenza tra il terzo e il primo quartile. Il campo di variazione (range) R = sup{x ∈ SX } − inf{x ∈ SX }, corrisponde sostanzialmente alla differenza tra il valore pi` u grande e pi` u piccolo del supporto. Per quanto riguarda lo studio della simmetria e della curtosi (pesantezza delle code) di una distribuzione di probabilit`a si possono riprendere le considerazioni fatte in Statistica descrittiva. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 73/ 154 Esempio. Moneta (continua). Si considera la variabile casuale X che conta il numero di esiti testa in tre lanci di una moneta regolare. In questo caso, SX = {0, 1, 2, 3} e P (X = 0) = P (X = 3) = 1/8, P (X = 1) = P (X = 2) = 3/8 ed `e facile verificare che 3 3 1 3 E(X) = 0 + 1 + 2 + 3 = , 8 8 8 2 3 1 3 E(X 2 ) = 0 + 1 + 4 + 9 = 3. 8 8 8 Con la regola per il calcolo, si ha V (X) = 3 − (3/2)2 = 3/4. ♦ Esempio. Variabile casuale uniforme (continua). Si consideri la variabile casuale X ∼ U (0, 1). Poich´e E(X) = 1/2 e E(X 2 ) = Z 0 1 1 x2 · 1 dx = , 3 si conclude che V (X) = 1/3 − (1/2)2 = 1/12. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni ♦ 74/ 154 Esempio. Variabile casuale esponenziale (continua). Si consideri la variabile casuale X ∼ Esp(λ). Poich´e E(X) = 1/λ e, integrando per parti, Z Z +∞ 2 2 +∞ 2 2 −λx λxe−λx dx = 2 , E(X ) = λx e dx = λ 0 λ 0 si conclude che V (X) = 2/λ2 − (1/λ)2 = 1/λ2 . ♦ Esempio. Internet (continua). Si considera la variabile casuale X che misura la durata, in un’ora, dei collegamenti internet degli utenti di una certa compagnia telefonica. Poich´e E(X) = 1/2 e 2 Z 1 2 Z x 6x(1 − x)dx = E(X ) = 0 1 6x3 − 6x2 dx = 0 si conclude che V (X) = 3/10 − (1/2)2 = 1/20. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 3 , 10 ♦ 75/ 154 Modello uniforme discreto Il modello uniforme discreto descrive esperimenti con un numero finito di esiti equiprobabili. Una variabile casuale X ha distribuzione uniforme discreta con possibili valori x1 , . . . , xn ∈ R, n ∈ N+ fissato, in simboli X ∼ U d(x1 , . . . , xn ), se SX = {x1 , . . . , xn } e 1/n se x = x1 , . . . , xn fX (x; x1 , . . . , xn ) = 0 altrimenti Inoltre, E(X) = Pn i=1 xi /n, V (X) = Pn i=1 (xi − E(X))2 /n. Se xi = i, i = 1, . . . , n, si scrive X ∼ U d(n) e E(X) = n+1 , 2 V (X) = n2 − 1 . 12 Se, in particolare, n = 1, si ottiene la distribuzione degenere in x1 , in simboli X ∼ D(x1 ). In questo caso, E(X) = x1 e V (X) = 0. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 76/ 154 0.8 0.4 0.0 0.0 0.4 0.8 Esempio. Si consideri il lancio di un dado regolare. La variabile casuale X, che indica la faccia uscita dopo il lancio, ha distribuzione di probabilit`a U d(6). 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 Le figure rappresentano le associate funzioni di probabilit`a e di ripartizione di X. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni ♦ 77/ 154 Modello binomiale Si considerano esperimenti che possono essere rappresentati come estrazioni con reinserimento da un’urna di composizione nota. Ogni estrazione pu`o essere classificata in due categorie incompatibili ed esaustive chiamate, in modo convenzionale, successo e insuccesso (osservazioni dicotomiche dove, in genere, 1 indica il successo e 0 l’insuccesso): esperimento bernoulliano. Ogni estrazione `e indipendente dalle altre e presenta la stessa probabilit`a p ∈ (0, 1) di successo. Il modello binomiale descrive il numero di successi in n ≥ 1 esperimenti bernoulliani indipendenti con la stessa probabilit`a di successo p ∈ (0, 1). Una applicazione possibile `e al controllo di qualit`a: si `e interessati al numero di elementi difettosi in un campione casuale di dimensione n ≥ 1, con p ∈ (0, 1) la porzione di elementi difettosi. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 78/ 154 Un’altra applicazione `e al contesto delle indagini di mercato: si `e interessati al numero di consumatori che apprezzano un certo prodotto in un campione casuale di dimensione n ≥ 1, con p ∈ (0, 1) la porzione di individui che apprezzano il prodotto. Una ulteriore applicazione `e allo studio delle popolazioni: si `e interessati al numero di individui che presentano un certa caratteristica in un campione casuale di dimensione n ≥ 1, con p ∈ (0, 1) la porzione di individui portatori della caratteristica. Se, come spesso accade nel campionamento da popolazione finita, si effettuano estrazioni senza reinserimento (estrazione in blocco), si pu`o comunque utilizzare il modello binomiale se la popolazione `e cos`ı elevata da essere considerata quasi infinita. In questo caso, ha poca importanza se l’estrazione `e fatta con o senza reinserimento. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 79/ 154 Una variabile casuale X ha distribuzione binomiale di parametri n ≥ 1 e p ∈ (0, 1), in simboli X ∼ Bi(n, p), se SX = {0, . . . , n} e n px (1 − p)n−x se x ∈ SX x fX (x; n, p) = 0 altrimenti dove n indica il numero di prove (esperimenti bernoulliani) indipendenti e p la comune probabilit`a di successo. ` chiaro che px (1 − p)n−x indica la probabilit`a di osservare x E successi e n − x insuccessi, in una specifica configurazione, e il coefficiente binomiale individua il numero di possibili configurazioni con x successi. Se n = 1 si ha una variabile casuale bernoulliana, o binomiale elementare, in simboli Ber(p) o Bi(1, p). Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 80/ 154 Si considerano i grafici delle funzioni di massa nel caso in cui n = 10 e p = 0.2, 0.5, 0.8 e n = 20 e p = 0.5. 0.2 0.0 0.0 0.2 0.4 n=10, p=0.5 0.4 n=10, p=0.2 0 2 4 6 8 10 0 2 6 8 10 15 20 0.2 0.0 0.0 0.2 0.4 n=20, p=0.5 0.4 n=10, p=0.8 4 0 2 4 6 8 Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 10 0 5 10 81/ 154 Se le variabili casuali Xi ∼ Ber(p), i = 1, . . . , n, descrivono n esperimenti bernoulliani indipendenti, si pu` o concludere che la Pn variabile casuale somma X = i=1 Xi ∼ Bi(n, p). Si verifica facilmente che, per ogni i = 1, . . . , n, E(Xi ) = 1 · p + 0 · (1 − p) = p, V (Xi ) = E(Xi2 ) − (E(Xi ))2 = p(1 − p). Quindi, n n X X Xi ) = E(Xi ) = np, E(X) = E( i=1 n X V (X) = V ( Xi ) = i=1 i=1 n X V (Xi ) = np(1 − p). i=1 Infine, `e facile verificare che la frequenza campionaria di successo (media campionaria di bernoulliane) Y = X/n `e tale che E(Y ) = p e V (Y ) = p(1 − p)/n. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 82/ 154 Esempio. Tra i 100 iscritti ad una associazione sportiva ci sono 30 pi` u alti di 180 cm. Si estrae casualmente un campione di n = 10 atleti con reinserimento. La variabile casuale X che definisce il numero di atleti che, tra i 10 considerati, `e pi` u alto di 180 cm (successo) ha distribuzione Bi(10, 0.3). Ci si attende di osservare E(X) = 3 atleti con altezza superiore a 180 cm ed inoltre V (X) = 2.1 La probabilit`a di estrarre almeno un atleta pi` u alto di 180 cm `e P (X ≥ 1) = 1−P (X = 0) = 1−[10!/(0!10!)]0.30 (1−0.3)10 = 0.97. La probabilit`a di estrarre due atleti pi` u alti di 180 cm `e P (X = 2) = [10!/(2!8!)]0.32 (1 − 0.3)8 = 0.23. Infine, la probabilit`a di estrarne meno di 4 `e Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 83/ 154 P (X < 4) = 3 X P (X = xi ) = 0.27 + 0.23 + 0.12 + 0.03 = 0.65. i=0 ♦ Esempio. Per un inconveniente nella linea di produzione, su 100 monitor prodotti da una certa azienda 10 risultano difettosi. Un rivenditore ha, recentemente, acquistato cinquanta monitor da questa azienda. La variabile casuale X che descrive il numero di monitor che, tra i cinquanta venduti, verranno resi alla casa produttrice perch´e difettosi `e una Bi(50, 0.1). Il numero atteso di monitor difettosi `e E(X) = 5, mentre V (X) = 4.5. Inoltre, la probabilit`a che nessun monitor sia difettoso `e P (X = 0) = [50!/(0!50!)]0.10 (1 − 0.1)50 = 0.005 ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 84/ 154 Modello Poisson Il modello Poisson descrive problemi di conteggio quando non c’`e una limitazione superiore per il supporto o problemi in cui tale limitazione `e praticamente irrilevante. Sotto alcune ipotesi, descrive il numero di arrivi o accadimenti di un evento di interesse (successo) in un intervallo di tempo (o anche su una superficie) di dimensione fissata. Una variabile casuale X ha distribuzione Poisson con parametro λ > 0, in simboli X ∼ P (λ), se SX = N e x −λ λ e /x! se x ∈ SX fX (x; λ) = 0 altrimenti Si dimostra che E(X) = λ e E(X 2 ) = λ2 + λ, da cui si ottiene che V (X) = E(X 2 ) − (E(X))2 = λ2 + λ − λ2 = λ. Quindi, media e varianza coincidono e corrispondono al parametro λ. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 85/ 154 Se il numero medio di successi in una unit`a di tempo `e ν, la variabile casuale che rappresenta il numero di successi in un intervallo di tempo t ha distribuzione P (λ), con λ = νt. La distribuzione Poisson pu` o venire interpretata come caso limite della distribuzione binomiale. Se n `e elevato e p `e piccola, la distribuzione Bi(n, p) viene approssimata da una P (λ), con λ = np. Per quanto riguarda le applicazioni, l’approssimazione `e efficace se n ≥ 50 e p ≤ 1/25. L’approssimazione risulta pressoch´e esatta quando si considerano fenomeni come, ad esempio, il numero di cittadini americani coinvolti in incidenti stradali in un anno, dove n = 303824646 (luglio 2008, stima) e p = 0.00024. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 86/ 154 Si considerano i grafici delle funzioni di massa nel caso in cui λ = 0.5, 2, 5, 15. 0.3 0.0 0.0 0.3 0.6 lambda=2 0.6 lambda=0.5 0 5 15 25 0 5 25 0.3 0.0 0.0 0.3 0.6 lambda=15 0.6 lambda=5 15 0 5 15 25 Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 0 5 15 25 87/ 154 Esempio. Al Pronto Soccorso di un piccolo ospedale si presentano in media 3 pazienti ogni ora. Per predisporre il personale medico necessario, si vuole calcolare la probabilit`a che in un’ora arrivino esattamente 2 pazienti e la probabilit`a che in un’ora arrivino pi` u di 2 pazienti. Indicata con X ∼ P (3) la variabile casuale che descrive il numero di arrivi in un’ora al Pronto Soccorso, la probabilit`a che arrivino 2 pazienti in un’ora `e P (X = 2) = e−3 32 = 0.224, 2! mentre la probabilit`a che arrivino pi` u di 2 pazienti in un’ora `e 2 X P (X > 2) = 1−P (X ≤ 2) = 1− P (X = i) = 1−0.423 = 0.577. i=0 ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 88/ 154 Modello geometrico Il modello geometrico descrive il tempo di attesa, espresso come numero di replicazioni indipendenti di un esperimento bernoulliano, con probabilit`a di successo p, per osservare per la prima volta un successo. Una variabile casuale X ha distribuzione geometrica con parametro p ∈ (0, 1), in simboli X ∼ Ge(p), se SX = N+ e (1 − p)x−1 p se x ∈ SX fX (x; λ) = 0 altrimenti Si dimostra che E(X) = 1/p e V (X) = (1 − p)/p2 . Il modello geometrico `e caratterizzato dalla propriet`a di assenza di memoria, che viene specificata dalla seguente condizione P (X > s + t|X > s) = P (X > t), per ogni s, t ∈ SX . Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 89/ 154 Quindi la probabilit`a che il successo avvenga dopo s + t prove bernoulliane, sotto la condizione che non sia avvenuto nelle prime s prove, pari alla probabilit`a non condizionata che il successo avvenga dopo t prove. Si considerano i grafici delle funzioni di massa nel caso in cui p = 0.25, 0.5. 0.3 0.0 0.0 0.3 0.6 p=0.5 0.6 p=0.25 2 6 10 14 Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 2 6 10 14 90/ 154 Esempio. Si consideri il gioco del lotto. La probabilit`a che esca il tre in una singola estrazione su una ruota prefissata 1/18. La variabile casuale X, che indica il numero di settimane necessarie affinch´e esca il numero tre sulla ruota di Napoli, ha distribuzione Ge(1/18). Si calcola la probabilit`a che il tre esca alla trentesima settimana, se si `e a conoscenza che non `e uscito nelle prime dieci settimane (17/18)29 (1/18) P (X = 30) = = P (X = 30|X > 10) = P (X > 10) (17/18)10 17 18 19 1 . 18 La probabilit`a cercata corrisponde a P (X = 20), cio`e alla probabilit`a non condizionata che il tre esca alla ventesima settimana. Questo risultato conferma la totale infondatezza dell’uso dei ritardi per congetturare una modificazione delle probabilit`a di successo nel gioco del lotto. ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 91/ 154 Modello uniforme continuo Il modello uniforme continuo descrive esperimenti aleatori che possono essere rappresentati come un’estrazione casuale di un numero dall’intervallo [a, b]. Il concetto di equiprobabilit`a viene trasferito all’ambito continuo richiedendo che tutti i sottointervalli del supporto di uguale lunghezza abbiano la stessa probabilit`a di contenere il risultato sperimentale. Una variabile casuale X ha distribuzione uniforme continua (rettangolare) con parametri a, b ∈ R, a < b, in simboli X ∼ U (a, b), se SX = [a, b] e 1/(b − a) se a ≤ x ≤ b fX (x; a, b) = 0 altrimenti se x < a 0 (x − a)/(b − a) se a ≤ x < b FX (x; a, b) = 1 se x ≥ b. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 92/ 154 Si verifica facilmente che Z b b2 − a2 1 b+a 1 E(X) = dx = = , x b − a 2 b − a 2 a 2 Z 2 b V (X) = E(X ) − (E(X)) = a = b3 − a3 − 3(b − a) b+a 2 2 = 1 x dx − b−a 2 b+a 2 2 (b − a)2 . 12 Per il grafico delle funzioni di densit`a e di ripartizione si rimanda all’esempio presentato in precedenza, dove si `e considerata una variabile casuale U (0, 1). Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 93/ 154 Esempio. Si predispone un esperimento per valutare il senso di orientamento dei criceti. Gli animali vengono posti al centro un contenitore circolare con un’unica via di uscita. Dopo averli bendati e disorientati, si osserva la direzione scelta da ciascun criceto. Sia X ∼ U (−π, π) la variabile casuale che esprime l’ampiezza in radianti dell’angolo tra la direzione scelta dall’animale e la direzione che porta all’uscita. Si ha che E(X) = 0 e V (X) = π 2 /3. Si consideri la variabile casuale Y , che esprime l’ampiezza dell’angolo in gradi. Poich´e Y = 180X/π, si ha che Y ∼ U (−180, 180). Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni ♦ 94/ 154 Modello esponenziale Il modello esponenziale viene utilizzato soprattutto per rappresentare durate e tempi di vita o di funzionamento (ad esempio negli studi di affidabilit`a), nel caso in cui sia plausibile assumere la propriet`a di assenza di memoria o di usura. Una variabile casuale X ha distribuzione esponenziale con parametro λ > 0, detto tasso di guasto, in simboli X ∼ Esp(λ), se SX = [0, +∞) e λe−λx se x ∈ SX fX (x; λ) = 0 altrimenti FX (x; λ) = 1 − e−λx se x > 0 0 se x ≤ 0. In alcuni casi si utilizza la parametrizzazione alternativa con θ = 1/λ, che corrisponde al valor medio di X. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 95/ 154 Nell’esempio presentato in precedenza si `e considerato il grafico delle funzioni di densit`a e di ripartizione per il caso λ = 1 e si `e dimostrato che 1 1 E(X) = , V (X) = 2 . λ λ La propriet`a di assenza di memoria (usura) caratterizza la distribuzione esponenziale ed `e specificata dalla relazione P (X > s + t|X > t) = P (X > s), per ogni s, t > 0, che l’analogo nel continuo della condizione specificata, nel caso discreto, per la distribuzione geometrica. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 96/ 154 Esempio. Un circuito `e costituito da due componenti dal funzionamento indipendente la cui vita operativa, misurata in anni, `e descritta rispettivamente dalle variabili casuali X1 ∼ Esp(0.2) e X2 ∼ Esp(0.3). Si cerca la probabilit`a che funzionamento del circuito sia non superiore a 10 anni. Se i componenti sono in parallelo, si ha P (X1 ≤ 10 ∩ X2 ≤ 10) = P (X1 ≤ 10)P (X2 ≤ 10) = (1 − e−0.2·10 )(1 − e−0.3·10 ) = 0.822. Se i componenti sono in serie, si ha 1 − P (X1 > 10 ∩ X2 > 10) = 1 − P (X1 > 10)P (X2 > 10) = 1 − e−0.2·10 e−0.3·10 = 0.993. In entrambi i casi si `e tenuto conto che gli eventi riferiti a X1 sono indipendenti da quelli riferiti a X2 . ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 97/ 154 Modello normale Il modello normale o gaussiano `e il modello pi` u importante ed `e anche il pi` u utilizzato nelle applicazioni della Statistica inferenziale. ` stato studiato, in particolare, da K. F. Gauss, da cui il termine E gaussiano, che nel 1809 lo utilizz` o per descrivere gli errori accidentali (non sistematici), nel caso di misurazioni strumentali ripetute di una grandezza incognita. Viene utilizzato in vari contesti di applicazione. In particolare risulta utile per descrivere, oltre agli errori accidentali, la presenza di caratteri antropometrici, come la statura e il peso, in popolazioni umane omogenee, oppure per studiare alcuni particolari fenomeni sociali o naturali. Infine, viene utilizzato in molte applicazione come modello per approssimare, con buona accuratezza, diverse distribuzioni di probabilit`a, discrete e continue, e permette quindi di agevolare i calcoli. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 98/ 154 Una variabile casuale X ha distribuzione normale o gaussiana con parametri µ ∈ R e σ 2 > 0, in simboli X ∼ N (µ, σ 2 ), se SX = R e, per ogni x ∈ R, (x − µ)2 1 exp − fX (x; µ, σ) = √ . 2σ 2 2πσ La corrispondente funzione di ripartizione non ha una forma esplicita e viene definita implicitamente utilizzando la definizione di funzione di ripartizione. Come risulta chiaro dai grafici presentati nel seguito, la funzione fX (x; µ, σ) ha un massimo assoluto nel punto µ e punti di flesso nei punti µ − σ e µ + σ. Inoltre, risulta simmetrica rispetto alla retta x = µ. Quindi, il parametro µ `e sia la moda che la mediana. Inoltre, si verifica che E(X) = µ e V (X) = σ 2 . Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 99/ 154 Se µ = 0 e σ 2 = 1 si ottiene la distribuzione normale standard, in simboli N (0, 1). 0.0 0.4 0.8 0.0 0.2 0.4 0.6 Si riporta il grafico della funzione di densit`a della variabile casuale X ∼ N (µ, σ 2 ) per µ = 0, σ 2 = 1 (—), µ = 1, σ 2 = 1 (– –), µ = 0, σ 2 = 2 (· · · ), µ = 0, σ 2 = 1/2 (- · -). −4 −2 0 2 4 −4 −2 0 2 4 La distribuzione normale `e chiusa rispetto alle trasformazioni lineari. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 100/ 154 Infatti, si pu`o verificare che, se X ∼ N (µ, σ 2 ) e Y = aX + b, con a, b ∈ R, a 6= 0, allora Y ∼ N (aµ + b, a2 σ 2 ). In particolare, se X ∼ N (µ, σ 2 ), si ottiene una Z ∼ N (0, 1) con l’operazione di standardizzazione Z = (X − µ)/σ. Viceversa, se Z ∼ N (0, 1), allora X = σX + µ ∼ N (µ, σ 2 ). La funzione di ripartizione e la funzione di densit`a di una Z ∼ N (0, 1) si indicano con Φ(z) e φ(z), rispettivamente. Poich´e φ(x) `e simmetrica rispetto all’origine, si ha che ∀z ≥ 0. 0.0 0.1 0.2 0.3 0.4 0.5 Φ(−z) = 1 − Φ(z), −4 Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni −2 0 2 4 101/ 154 Inoltre, dalla analisi del grafico si conclude che P (| Z |< z) = Φ(z) − Φ(−z), P (| Z |> z) = 2(1 − Φ(z)). Con la standardizzazione si elimina la dipendenza da particolari valori di µ e σ 2 e ci si riconduce ad una normale standard. Quindi, il calcolo di probabilit`a riferite ad una X ∼ N (µ, σ 2 ) si traduce nel calcolo di probabilit`a di opportuni eventi associati a Z ∼ N (0, 1). In particolare, per ogni a, b ∈ R, a < b, a−µ X −µ b−µ P (a ≤ X ≤ b) = P ≤ ≤ σ σ σ a−µ b−µ = Φ −Φ , σ σ X −µ b−µ b−µ ≤ P (X ≤ b) = FX (b; µ, σ) = P =Φ . σ σ σ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 102/ 154 Con una semplice applicazione dei risultati esposti, si ha che . P (µ − σ < X < µ + σ) = 0.68, . P (µ − 2σ < X < µ + 2σ) = 0.95, . P (µ − 3σ < X < µ + 3σ) = 0.997. La maggior parte della massa di probabilit`a si trova entro i limiti definiti dalla media pi` u o meno 3σ (regola dei 6 sigma). Utilizzando le tavole statistiche si ottengono facilmente i valori della funzione di ripartizione Φ(z) di una N (0, 1) al variare di z. Per le applicazioni statistiche, `e utile fornire i valori critici di una N (0, 1), cio`e i valori zα tali che P (Z > zα ) = α, con α ∈ (0, 0.5). α zα 0.10 1.28 0.05 1.65 0.025 1.96 0.01 2.33 0.005 2.58 0.001 3.09 0.0005 3.29 zα individua una coda destra della distribuzione di probabilit`a di peso α, mentre −zα individua una coda sinistra di peso α. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 103/ 154 Esempio. La variabile casuale X rappresenta la pressione sistolica, in mm di mercurio, di un generico individuo. Per la popolazione maschile italiana adulta si assume che X ∼ N (129, 392.04) Supponendo di scegliere a caso un individuo, si pu`o calcolare P (X < 135) = Φ((135 − 129)/19.8) = Φ(0.303) = 0.619. P (120 < X < 130) = Φ(0.051) − Φ(−0.455) = 0.195. La probabilit`a di selezionare un individuo con pressione compresa tra 120 e 150 mm, tra quelli con pressione superiore alla media, `e P (120 < X < 150 ∩ X > 129) P (X > 129) P (129 < X < 150) Φ(1.061) − Φ(0) = = = 0.711 1 − P (X ≤ 129) 1 − Φ(0) P (120 < X < 150 | X > 129) = ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 104/ 154 Esempio. Per tagliare delle barre d’acciaio alla lunghezza nominale di 5 cm si utilizza un macchinario che fornisce barre con lunghezza X ∼ N (5.05, 0.01). Ad un successivo controllo di qualit`a, si scartano le barre che differiscono dalla lunghezza nominale per pi` u di un mm. La probabilit`a che una generica barra soddisfi ai requisiti `e P (4.9 ≤ X ≤ 5.1) = Φ(0.5) − Φ(−1.5) = 0.625. Se fosse possibile ricalibrare la procedura di taglio in modo da avere µ = 5, si avrebbe P (4.9 ≤ X ≤ 5.1) = Φ(1) − Φ(−1) = 0.683. Infine, se si aumenta anche la precisione dello strumento di modo che σ = 0.05, si ha P (4.9 ≤ X ≤ 5.1) = Φ(2) − Φ(−2) = 0.954. ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 105/ 154 Esempio. Un’industria alimentare confeziona pacchi di riso, con peso dichiarato pari a 500 gr, utilizzando un macchinario che fornisce pacchi con peso X ∼ N (500, 5). Si scelgono a caso 5 confezioni di riso e si vuole calcolare la probabilit`a che non ci siano pacchi con peso inferiore a quello dichiarato. La distribuzione di probabilit`a della variabile casuale Y , che conta il numero di pacchi di riso con peso inferiore √ a 500 gr, `e Bi(5, p), con p = P (X ≤ 500) = Φ((500 − 500)/ 5) = Φ(0) = 0.5. Quindi la probabilit`a cercata `e 5 . P (Y = 0) = 0.55 (1 − 0.5)0 = 0.03. 0 Inoltre, E(Y ) = 2.5 e V (Y ) = 1.25. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni ♦ 106/ 154 In molte applicazioni `e utile un’analisi preliminare dei dati per verificare se il fenomeno che si sta studiando pu` o essere descritto da un modello normale. Si considerano i dati x1 , . . . , xn e si vuole valutare se possono essere interpretati come osservazioni ripetute e indipendenti di una variabile casuale X ∼ N (µ, σ 2 ). Tra le varie procedure per la verifica di normalit`a si presentano due metodi grafici: • confronto tra l’istogramma basato sui dati e la funzione di densit` a di una variabile casuale gaussiana con media P P µ ˆ = ni=1 xi /n e varianza σ ˆ 2 = ni=1 (xi − µ ˆ)2 /n (media e varianza calcolate sui dati); • rappresentazione dei quantili calcolati sui dati (in ordinata) e di quelli della distribuzione normale (in ascissa), detta q-q plot; se il modello normale `e corretto i punti si trovano allineati su una linea retta. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 107/ 154 Esempio. Si considerano n = 84 misurazioni sulla produzione (grammi per pianta) di una specie di cipolle bianche coltivate in Australia. 0.000 50 100 0.010 Dai dati si ricava che µ ˆ = 73.33 e σ ˆ 2 = 1704.28. Si rappresenta l’istogramma delle frequenze relative e si disegna sovrapposta la densit`a di una N (ˆ µ, σ ˆ 2 ). Inoltre, si confrontano quantili osservati e teorici utilizzando il q-q plot. 0 50 150 Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni −2 −1 0 1 2 108/ 154 L’adattamento al modello normale non `e soddisfacente. L’istogramma presenta una evidente asimmetria mentre il q-q plot evidenzia una notevole differenza sulle code della distribuzione. 0.0 3.0 4.0 0.4 5.0 0.8 Se si considera la trasformata logaritmica dei dati, yi = log(xi ), i = 1, . . . , n, si ottiene un adattamento pi` u soddisfacente alla distribuzione normale, come viene evidenziato nei grafici seguenti. 2 3 4 5 6 −2 −1 0 1 2 Soltanto sulle code la distribuzione normale non si adatta ancora bene ai dati. ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 109/ 154 Modello chi-quadrato Date le variabili casuali Z1 , . . . , Zn , n ≥ 1, indipendenti (gli eventi associati a una generica variabile sono indipendenti dagli eventi associati alle altre) con distribuzione N (0, 1), allora la variabile casuale n X Y = Zi2 i=1 ha distribuzione chi-quadrato con n gradi di libert`a, in simboli Y ∼ χ2 (n). ` una variabile casuale continua con supporto `e SY = [0, +∞) e E E(Y ) = n, V (Y ) = 2n. Se Y1 ∼ χ2 (n1 ) e Y2 ∼ χ2 (n2 ) sono indipendenti, la loro somma Y1 + Y2 ∼ χ2 (n1 + n2 ). Per n → +∞, la distribuzione di probabilit`a della variabile casuale Y ∼ χ2 (n) tende alla distribuzione normale (l’approssimazione `e buona per n > 80). Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 110/ 154 0.0 0.1 0.2 0.3 0.4 Grafico della funzione di densit`a della variabile casuale Y ∼ χ2 (n) per n = 1 (—), n = 3 (– –), n = 6 (· · · ), n = 10 (- · -). 0 5 10 15 20 25 Utilizzando le tavole statistiche si ottengono i valori critici di una Y ∼ χ2 (n), cio`e i valori χ2α,n tali che P (Y > χ2α,n ) = α, con α ∈ (0, 1), n ≥ 1. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 111/ 154 Modello t di Student Date le variabili casuali Z ∼ N (0, 1) e Y ∼ χ2 (n) indipendenti, la variabile casuale Z T =p Y /n ha distribuzione t di Student con n gradi di libert`a, in simboli T ∼ t(n). ` una variabile casuale continua con supporto `e ST = R e E E(T ) = 0, se n > 1, V (T ) = n/(n − 2), se n > 2. La funzione di densit`a `e simmetrica rispetto alla retta x = 0 ed ha code pi` u pesanti di quelle della normale standard. Per n → +∞, la distribuzione di probabilit`a della variabile casuale T ∼ t(n) tende alla distribuzione normale (l’approssimazione `e buona per n > 30). Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 112/ 154 0.0 0.1 0.2 0.3 0.4 0.5 Grafico della funzione di densit`a della variabile casuale T ∼ t(n) per n = 1 (—), n = 3 (– –), n = 10 (- · -). −6 −4 −2 0 2 4 6 Utilizzando le tavole statistiche si ottengono i valori critici di una T ∼ t(n), cio`e i valori tα,n tali che P (T > tα,n ) = α, con α ∈ (0, 0.5), n ≥ 1. Per la simmetria, t1−α,n = −tα,n . Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 113/ 154 Modello F di Fisher Date le variabili casuali X ∼ χ2 (n) e Y ∼ χ2 (m), n, m ≥ 1, indipendenti, la variabile casuale F = X/n Y /m ha distribuzione F di Fisher con n e m gradi di libert`a, in simboli F ∼ F (n, m). ` una variabile casuale continua con supporto `e SF = [0, +∞) e E E(F ) = m/(m − 2), se m > 2. Se F ∼ F (n, m), allora F −1 ∼ F (m, n). Se T ∼ t(n), allora T 2 ∼ F (1, n). Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 114/ 154 0.0 0.2 0.4 0.6 0.8 1.0 Grafico della funzione di densit`a della variabile casuale F ∼ F (n, m) per n = 5, m = 5 (—), n = 5, m = 25 (– –), n = 25, m = 25 (· · · ), n = 25, m = 25 (- · -). 0 1 2 3 4 5 6 Utilizzando le tavole statistiche si ottengono i valori critici di una F ∼ F (n, m), cio`e i valori Fα,n,m tali che P (F > Fα,n,m ) = α, con α ∈ (0, 1), n, m ≥ 1. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 115/ 154 Variabili casuali bivariate Nelle applicazioni, `e assai frequente dover prendere in considerazione pi` u di una variabile casuale contemporaneamente. Dal punto di vista concettuale la trattazione `e molto simile al caso univariato, tuttavia dal punto di vista matematico vi sono delle difficolt`a aggiuntive, basti pensare che sia la funzione di ripartizione che quella di densit`a (di massa) sono funzioni di pi` u variabili. Esempio. Si lanciano contemporaneamente due dadi regolari e si `e interessati alla somma e alla differenza dei risultati ottenuti. In questo caso l’esperimento `e descritto da una opportuna variabile casuale bivariata (X, Y ). Si svolgono n esperimenti bernoulliani indipendenti con la stessa probabilit`a di successo p. L’esperimento nel suo complesso `e descritto da una variabile casuale multivariata (X1 , . . . , Xn ), dove Xi ∼ Ber(p), i = 1, . . . , n. Questa `e la situazione che si presenta tipicamente nella Statistica inferenziale. ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 116/ 154 Si limita la trattazione alle variabili casuali bivariate, che tuttavia risulta sufficiente per introdurre tutti i concetti che sono importanti per il caso generale. Una variabile casuale bivariata (X, Y ) risulta specificata dalla sua funzione di ripartizione congiunta FX,Y (x, y) = P (X ≤ x, Y ≤ y), (x, y) ∈ R2 . Inoltre, il supporto congiunto SX,Y `e dato dall’insieme dei punti (x, y) ∈ R2 nei cui intorni si possono osservare valori per (X, Y ) con probabilit`a strettamente positiva. Dalla conoscenza della funzione di ripartizione congiunta si ottiene la funzione di ripartizione marginale delle due componenti X e Y ; ad esempio, per la componente marginale X FX (x) = lim FX,Y (x, y), y→+∞ x ∈ R. Si considera il caso discreto; quanto presentato si pu`o estendere al caso continuo con opportune attenzioni. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 117/ 154 Una variabile casuale bivariata (X, Y ) `e discreta se esiste un insieme di coppie di numeri reali {(xi , yj )}(i,j)∈I×J , finito u P o al pi` numerabile, tale che P (X = xi , Y = yj ) = pij > 0 e i,j pij = 1; usualmente, SX,Y = {(xi , yj ), (i, j) ∈ I × J}. La corrispondenza tra i possibili valori di (X, Y ) e le rispettive probabilit`a individua la funzione di probabilit`a (massa) congiunta pij se (x, y) = (xi , yj ), ∀(i, j) ∈ I × J, fX,Y (x, y) = 0 altrimenti. Dalla conoscenza di fX,Y si risale facilmente alla funzione di ripartizione congiunta FX,Y e viceversa. Quindi anche fX,Y caratterizza la variabile casuale bivariata (X, Y ) e permette il calcolo delle probabilit`a di eventi ad essa associati. fX,Y pu`o essere rappresentata mediante una tabella a doppia entrata, analoga alle tabelle di contingenza, che fornisce le probabilit`a pij riferite alle coppie (xi , yj ), (i, j) ∈ I × J. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 118/ 154 Esempio. Si consideri la variabile casuale bivariata discreta (X, Y ), con distribuzione di probabilit`a congiunta specificata dalla seguente tabella a doppia entrata Y X 1 2 3 1 2 3 4 1/10 0 2/10 0 1/10 0 0 1/10 1/10 3/10 0 1/10 Si ha che SX,Y = {(1, 1), (1, 4), (2, 2), (2, 3), (3, 1), (3, 3), (3, 4)}, poich´e i punti di probabilit`a nulla non appartengono al supporto. Si osservi che 3 X 4 X i=1 j=1 pij = 1 3 1 1 2 1 1 +0+0+ +0+ + +0+ +0+ + = 1. 10 10 10 10 10 10 10 ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 119/ 154 Una variabile casuale bivariata (X, Y ) `e un vettore che ha, come componenti marginali, le variabili casuali univariate X e Y . In precedenza si `e visto come determinare la funzione di ripartizione marginale di X e di Y a partire dalla funzione di ripartizione congiunta. Il supporto marginale SX corrisponde, intuitivamente, a tutti i possibili valori della componente X; analogamente per SY . Data una variabile casuale bivariata discreta (X, Y ), con funzione di probabilit`a congiunta fX,Y , si pu` o ricavare facilmente la funzione di probabilit`a marginale di X, poich´e per ogni xi ∈ SX X X P (X = xi ) = P (X = xi , Y = yj ) = pij = pi+ . j∈J j∈J Analogamente, per la componente Y X P (Y = yj ) = pij = p+j , yj ∈ SY . i∈I Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 120/ 154 Se si considera la rappresentazione di fX,Y mediante una tabella a doppia entrata, la funzione di probabilit`a marginale di X (di Y ) si ottiene calcolando i totali di riga (di colonna). A partire dalla distribuzione marginale delle due componenti si possono calcolare valore atteso e varianza, che vengono chiamati valore atteso marginale e varianza marginale di X e di Y . Esempio. Se si considera la variabile casuale bivariata discreta (X, Y ) definita in precedenza, si conclude che SX = {1, 2, 3} e SY = {1, 2, 3, 4}. Inoltre, si riporta la tabella a doppia entrata integrata con le probabilit`a marginali Y X 1 2 3 p+j 1 2 3 4 pi+ 1/10 0 2/10 3/10 0 1/10 0 1/10 0 1/10 1/10 2/10 3/10 0 1/10 4/10 4/10 2/10 4/10 ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 121/ 154 Condizionamento e indipendenza Le componenti marginali X e Y sono indipendenti se ogni evento associato a X `e indipendente da ogni evento associato a Y . Formalmente, X e Y sono (stocasticamente) indipendenti se FX,Y (x, y) = FX (x)FY (y), per ogni (x, y) ∈ R2 . Se, invece, esiste almeno un punto (x, y) per cui questo non vale, X e Y vengono dette dipendenti. Se X e Y sono indipendenti, il supporto congiunto `e il prodotto cartesiano dei supporti marginali, cio`e SX,Y = SX × SY . Se (X, Y ) `e discreta, la definizione di indipendenza `e equivalente a chiedere che, per ogni (xi , yj ) ∈ SX,Y , fX,Y (xi , yj ) = fX (xi )fY (yj ). Utilizzando la notazione introdotta in precedenza, ci`o corrisponde a chiedere che, per ogni (xi , yj ) ∈ SX,Y , pij = pi+ p+j . Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 122/ 154 Se si considera la rappresentazione di fX,Y mediante una tabella a doppia entrata, si evidenzia una forte analogia con la nozione di indipendenza definita per tabelle di contingenza. Pi` u precisamente, X e Y sono indipendenti se tutte le probabilit`a congiunte presenti all’interno della tabella coincidono con il prodotto dei corrispondenti totali di riga e di colonna. Esempio. Data la variabile casuale bivariata discreta (X, Y ) definita in precedenza, `e immediato concludere che X e Y sono dipendenti. Infatti, si riesce ad individuare in modo agevole almeno una coppia di possibili valori (xi , yj ) tali che pij 6= pi+ p+j . Ad esempio, se si considera (xi , yj ) = (1, 1), p11 = 4 3 1 6= = p1+ p+1 . 10 10 10 Si noti che, in questo caso, SX,Y 6= SX × SY . Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni ♦ 123/ 154 Data una variabile casuale bivariata (X, Y ), pu` o essere interessante determinare la distribuzione di probabilit`a di una componente condizionatamente ai valori assunti dall’altra. Se (X, Y ) `e discreta, in accordo con la definizione di probabilit`a condizionata, si ottiene la funzione di probabilit`a della variabile casuale X condizionata a (dato) Y = yj , dove P (Y = yj ) > 0, in simboli X | Y = yj . In particolare, per ogni xi ∈ SX|Y =yj , si ha fX|Y =yj (xi ) = P (X = xi |Y = yj ) = pij P (X = xi , Y = yj ) = , P (Y = yj ) p+j mentre la funzione `e nulla altrove. SX|Y =yj `e il supporto della variabile casuale condizionata, definito come l’insieme dei valori che X pu`o assumere se Y = yj . Si ottengono definizioni analoghe per Y | X = xi . Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 124/ 154 Se X e Y sono indipendenti, tutte le distribuzioni condizionate di X | Y = yj , al variare di yj sono uguali e coincidono con la distribuzione marginale di X; analogamente per Y | X = xi . A partire dalla distribuzione di probabilit`a della variabile casuale condizionata X | Y = yj , `e possibile determinare, con le formule usuali, il valore atteso condizionato X E(X|Y = yj ) = xi fX|Y =yj (xi ) xi e la varianza condizionata X V (X|Y = yj ) = (xi − E(X|Y = yj ))2 fX|Y =yj (xi ). xi Se X e Y sono indipendenti, valore atteso e varianza condizionati sono costanti e coincidono con E(X) e V (X). Si ottengono definizioni analoghe per Y | X = xi . Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 125/ 154 Esempio. Si consideri la variabile casuale bivariata discreta (X, Y ) con funzioni di probabilit`a congiunta e marginali specificate da Y X 1 2 3 p+j 1 2 pi+ 1/10 2/10 3/10 6/10 0 4/10 0 4/10 1/10 6/10 3/10 Le componenti X e Y sono dipendenti, infatti, esiste un elemento (xi , yj ), ad esempio (2, 1), tale che pij 6= pi+ p+j . Inoltre, le distribuzioni di probabilit`a di Y |X = 1 e di Y |X = 2 sono diverse. Con riferimento a Y |X = 2, si ha che E(Y |X = 2) = 1 p21 p22 5 +2 = p2+ p2+ 3 e E(Y 2 |X = 2) = 3, da cui si ricava che V (Y |X = 2) = 2/9. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni ♦ 126/ 154 Covarianza e correlazione Sia (X, Y ) una variabile casuale bivariata discreta e g(·, ·) una opportuna funzione di due variabili, vale che XX E[g(X, Y )] = g(xi , yj )fX,Y (xi , yj ). xi yj Da questo risultato si conclude che, sia per il caso discreto che per il caso continuo, valgono le seguenti propriet`a: • E(aX + bY ) = aE(X) + bE(Y ), con a, b ∈ R; • se X e Y sono indipendenti, allora E(XY ) = E(X)E(Y ); un risultato analogo vale anche per u(X) e v(Y ), con u(·) e v(·) due funzioni a valori reali. Si vuole introdurre opportuni indicatori che misurino l’intensit`a del legame di dipendenza lineare tra due variabili casuali e la direzione della relazione. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 127/ 154 Una misura della dipendenza lineare fra due variabili casuali X e Y , con media E(X) e E(Y ), `e data dalla covarianza Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))]. Nel caso di variabili casuali discrete XX Cov(X, Y ) = (xi − E(X))(yj − E(Y ))fX,Y (xi , yj ). xi yj In alternativa, si pu`o calcolare utilizzando la formula per il calcolo Cov(X, Y ) = E(XY ) − E(X)E(Y ), P P dove, nel caso discreto, E(XY ) = xi yj xi yj fX,Y (xi , yj ). Spesso si indica con σXY , che ne richiama il legame con la 2 =σ varianza che corrisponde a V (X) = σX XX = Cov(X, X). Inoltre, `e banale concludere che Cov(X, Y ) = Cov(Y, X). Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 128/ 154 Vale la diseguaglianza di Cauchy-Schwarz: −σX σY ≤ σXY ≤ σX σY . Vale l’uguaglianza σXY = σX σY (σXY = −σX σY ) se esistono due numeri reali a > 0 (a < 0) e b tali che P (Y = aX + b) = 1, cio`e se la relazione tra X e Y `e lineare crescente (decrescente) con probabilit`a 1. Una misura normalizzata della dipendenza lineare `e il coefficiente di correlazione lineare definito da ρXY = Cor(X, Y ) = σXY . σX σY Dalla diseguaglianza di Cauchy-Schwarz si ha che −1 ≤ ρXY ≤ 1. Per quanto detto in precedenza, si conclude che se X e Y sono indipendenti, allora Cov(X, Y ) = 0 e quindi ρXY = 0, mentre il viceversa non `e necessariamente vero. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 129/ 154 L’assenza di legame lineare non assicura l’indipendenza tra le variabili. Tuttavia esisto alcune eccezioni a quanto ora affermato. Nei casi elencati di seguito, se Cov(X, Y ) = 0 si ha che X e Y sono anche indipendenti: • (X, Y ) con componenti X ∼ Ber(p), Y ∼ Ber(p); • (X, Y ) variabile casuale Gaussiana bivariata con componenti 2 ), Y ∼ N (µ , σ 2 ). X ∼ N (µX , σX Y Y Se Cov(X, Y ), e quindi ρXY , ha segno positivo (negativo), allora c’`e, in media, una concordanza (discordanza) di segno tra gli scarti X − E(X) e Y − E(Y ). Se ρXY = 0, c’`e assenza di legame lineare tra X e Y , che sono dette incorrelate (ma non necessariamente indipendenti). Se ρXY > 0 c’`e relazione lineare crescente fra X e Y ; nel caso in cui ρXY = 1 la relazione `e esattamente lineare crescente con probabilit`a 1. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 130/ 154 Se ρXY < 0 c’`e relazione lineare decrescente fra X e Y ; nel caso in cui ρXY = −1 la relazione `e esattamente lineare decrescente con probabilit`a 1. Il valore assoluto |ρXY | indica la forza del legame lineare. La covarianza `e coinvolta nell’espressione della varianza di una combinazione lineare di X e Y . Infatti, per ogni a, b ∈ R, V (aX + bY ) = a2 V (X) + b2 V (Y ) + 2ab Cov(X, Y ). Casi particolari sono V (X + Y ) = V (X) + V (Y ) + 2Cov(X, Y ), V (X − Y ) = V (X) + V (Y ) − 2Cov(X, Y ). Se X e Y sono incorrelate, o a maggior ragione indipendenti, le relazioni presentate continuano a valere con Cov(X, Y ) = 0. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 131/ 154 Si rappresentano graficamente osservazioni da variabili casuali X e Y correlate positivamente ● ● −2 ● ● −2 3 1 y −1 −3 0 1 ● 2 −2 −1 0 1 x x r=0.51 r=0.21 ● ● ●● ● ● ● ● ●● ● ●● ●● ● ● ● ●● ● ● ● ●● ● ●● ●●●● ●●● ● ● ●● ● ● ● ●●●●●●● ● ●●●● ●● ●● ●● ●●●●●● ● ●●● ●● ● ●●●● ● ●● ● ●●●● ● ● ●●●●●● ● ● ● ● ● ● ● ●● ●● ● ● ●●● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ●●● ● ●● ● ● ● ●● ● ● ● ●●● ● ● ●● ●● ●● ●●● ● ● ●●● ● ● ● ●● ●●● ●● ● ● ● ● ●● ● ● ● −1 ● ● ● ● ● ● ●●●● ● ● ●●●● ●● ●● ●●● ● ●●● ●● ●●● ● ●● ●● ●●●●●●● ● ● ● ●● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ●●●● ● ●● ● ●● ●● ●● ● ●● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ●●● ● ●● ●● ●● ●● ●● ● ●●●●● ● ● ●● ●●● ●● ● ● ●● ● ●● ●● ● ● ● ●● ●● ●● ●●●● ●● ●● ● 0 1 2 x Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 2 3 ● ●● ● ●● ●● ● ●● ● ● ●● ●●● ● ● ● ● ● ● ● ●●● ● ● ● ● ●● ● ●●●● ● ● ● ● ● ●● ● ●●●● ● ●● ●● ● ●●●● ● ● ●● ●● ● ● ●● ● ● ● ●●●●●● ● ●●●●● ● ● ●● ●● ● ●● ● ● ● ●● ● ● ● ●●● ●●● ●● ● ● ● ●● ● ●● ●●●● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●●● ●● ● ● ● ● ●● ●● ● ●● ● ●● ● ● ●●● ● ● ●● ● ●● ●●● ● ● ● ● ● ● ●● ● ● ● ● 2 −1 ● y 0 y 1 2 −2 ●● ●●● ●●● ●●● ● ●● ● ● ●● ●●● ● ●● ● ● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ●●● 0 ● ●●● ● ●●● r=0.88 ●● ● −2 y −2 0 1 2 r=1 −3 −2 −1 0 1 2 3 x 132/ 154 e correlate negativamente r=−0.0024 r=−0.49 −1 0 1 −1 1 y −1 −2 0 x r=−0.84 r=−1 0 1 2 x Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 3 3 ● ● −1 x ● ●●● ● ●●● ●●●● ● ●●●● ● ● ●● ● ● ● ● ●●●●● ●● ●●● ●● ●●●● ● ●● ● ●●●●●● ● ● ●● ● ● ● ● ●● ● ●●●● ● ● ●●● ● ●● ●● ● ●● ● ●●●● ● ● ● ● ● ●● ●● ● ● ●●● ●● ● ● ● ●●● ●●● ● ● ●● ● ●●●●●●● ● ● ● ● ● ●● ● ●● ● ●● ● ●● ●● ●● ●● ● ●● ● ●●●● ●● ●●●●●● ●● ● ● ● ● ● ●● ●●● ●● ● ●● ● −2 −3 ● ● ● ●●●● ●● ● ● ●● ●●●● ●●●● ● ● ● ● ●●● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ●●● ● ●● ●●●● ● ●●●● ●●●●● ●● ● ● ● ●● ●● ●●● ● ● ●●● ●● ● ● ● ● ●● ● ●● ●●●● ●●●● ● ● ●● ●●● ●● ● ●● ● ●● ●● ● ●● ●● ●● ●● ●● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●●●● ●● ● ● ● ● ● ● ● ●● ● ● ● −3 2 ●●●● 1 ● −2 ●● ●● ● y 0 −2 y 2 −3 ● ● −1 −2 ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ●●● ●● ● ●●●● ●● ● ● ● ●●● ● ●● ●● ● ●● ● ●●● ●● ● ● ● ● ● ●● ● ● ●● ● ● ●●●●● ●● ● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●●● ●●● ● ● ● ●● ● ● ● ●●● ● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ●●●●●●●● ● ● ● ● ● ● ● ● ● ●● ●●● ● ● ●● ● ● ●● ● ● ● ● ●● ●●●● ● ● ●● ● ● ● −3 y ● 0 2 ●● −3 1 2 3 ● ● ●● ● ●● ● ● ● ●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ●● ● ●● ● ● ●● ●● ● ● ●● ●● ●●● ●● −2 −1 0 1 2 3 x 133/ 154 Esempio. Si consideri la variabile casuale bivariata discreta (X, Y ) con funzioni di probabilit`a congiunta e marginali specificate da Y X 1 2 3 p+j 0 1 2 3 pi+ 1/8 0 0 1/8 0 1/8 1/4 3/8 0 1/8 1/4 3/8 1/8 0 0 1/8 1/4 1/4 1/2 Dal momento che E(X) = 9/4, E(Y ) = 3/2 e 1 1 1 1 1 1 27 E(XY ) = 0 + 2 + 3 + +4 +6 = , 8 8 4 8 8 4 8 si ha che Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 0. Dunque, le variabili casuali X e Y sono incorrelate, ma si verifica facilmente che non sono indipendenti. Inoltre, si ottiene che E(X + Y ) = 15/4 e E(X − Y ) = 3/4, mentre V (X + Y ) = V (X − Y ) = 14/4. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni ♦ 134/ 154 Somma e media campionaria Nelle applicazioni, `e assai frequente studiare fenomeni casuali che forniscono come possibili osservazioni vettori numerici di dimensione n ≥ 1. In questo caso, conviene considerare la nozione di variabile casuale multivariata (vettore casuale) X = (X1 , . . . , Xn ), che generalizza quella di variabile casuale bivariata e univariata. In particolare, nel contesto della Statistica inferenziale, si hanno a disposizione dati che sono interpretabili come osservazioni ripetute di un determinato fenomeno con riferimento a unit`a statistiche selezionate mediante campionamento. Oppure, come osservazioni di un certo fenomeno aleatorio ripetute in una serie di istanti temporali o in varie localizzazioni spaziali. Dato X = (X1 , . . . , Xn ), si `e spesso interessati alla variabile casuale univariata ottenuta sommando le componenti X1 , . . . , Xn , oppure facendo la loro la media o la loro varianza. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 135/ 154 Siano X1 , . . . , Xn , n ≥ 1, variabili casuali univariate, componenti marginali del vettore casuale X, si definiscono somma campionaria e media campionaria, rispettivamente, le variabili casuali Sn = n X n Xi , i=1 X Sn ¯n = 1 Xi = . X n n i=1 Se le X1 , . . . , Xn sono indipendenti (basterebbe incorrelate) e identicamente distribuite (basterebbe che avessero stessa media e stessa varianza) con E(Xi ) = µ e V (X) = σ 2 , i = 1, . . . , n, allora E(Sn ) = n X E(Xi ) = nµ, V (Sn ) = i=1 ¯n) = E(X n X V (Xi ) = nσ 2 , i=1 E(Sn ) = µ, n Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni ¯n) = V (X V (Sn ) σ2 = . n2 n 136/ 154 Se le variabili casuali indipendenti X1 , . . . , Xn sono tali che Xi ∼ N (µ, σ 2 ), i = 1, . . . , n, allora anche somma e media campionaria sono variabili casuali Gaussiane, pi` u precisamente, Sn ∼ N (nµ, nσ 2 ), ¯ n ∼ N (µ, σ 2 /n). X Valgono, inoltre, i seguenti risultati con riferimento a variabili casuali X1 , . . . , Xn indipendenti: P • se Xi ∼ Bi(ki , p), i = 1, . . . , n, allora Sn ∼ Bi( ni=1 ki , p); P • se Xi ∼ P (λi ), i = 1, . . . , n, allora Sn ∼ P ( ni=1 λi ); P • se Xi ∼ χ2 (ri ), i = 1, . . . , n, allora Sn ∼ χ2 ( ni=1 ri ). In generale, non `e detto che, date n ≥ 1 variabili casuali indipendenti con distribuzione di probabilit`a definita nell’ambito di un determinato modello, le associate variabili casuali somma e media campionaria mantengano lo stesso modello. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 137/ 154 Se si considera una successione di variabili casuali Xi , i ≥ 1, indipendenti e identicamente distribuite, con media µ finita e varianza σ 2 6= 0 finita, si nota che la successione delle variabili ¯ n , n ≥ 1, `e tale che casuali media campionaria X ¯ n ) = µ, lim E(X n→+∞ ¯ n ) = 0. lim V (X n→+∞ Al crescere di n, la variabile casuale media campionaria ha una distribuzione di probabilit`a sempre pi` u concentrata attorno al valor medio comune µ delle variabili casuali Xi , i ≥ 1. Formalmente, si afferma che vale la legge debole dei grandi numeri, cio`e che, nelle condizioni poste in precedenza, se n → +∞, p ¯n → X − µ. p La scrittura → − indica la convergenza in probabilit`a: la probabilit`a ¯ n e µ sia maggiore di un qualsiasi > 0 tende che la distanza tra X a zero per n → +∞. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 138/ 154 Formalmente, per ogni ε > 0, si ha che ¯ n − µ| ≥ ε) = 0. lim P (|X n→∞ 4.0 4.5 5.0 5.5 6.0 Esempio. Si consideri la sequenza dei valori osservati delle medie campionarie di n = 1, . . . , 100 variabili casuali indipendenti con distribuzione P (5). 0 200 400 600 800 1000 Si noti che al crescere di n i valori osservati della media campionaria tendono ad essere sempre pi` u concentrati attorno a µ = λ = 5. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 139/ 154 ¯ n per n = 5, 10, 25, 50. Si considerano la funzioni di massa di X n=10 0.00 0.00 0.02 0.04 0.04 0.08 n=5 0 2 4 6 8 10 0 2 2 4 6 8 10 0.000 0.010 0.020 0.015 0.000 0 6 8 10 8 10 n=50 0.030 n=25 4 0 2 4 6 Al crescere di n le distribuzioni di probabilit`a sono sempre pi` u concentrate attorno a 5. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni ♦ 140/ 154 Per la le variabili casuali somma e media campionaria vale un importante risultato, che `e anche molto utile nelle applicazioni: il teorema limite centrale. Data una successione di variabili casuali Xi , i ≥ 1, indipendenti e identicamente distribuite, con media µ e varianza σ 2 6= 0 finite, allora la somma standardizzata e la media campionaria standardizzata coincidono e sono tali che, per n → +∞, ¯ −µ Sn − nµ d X pn = √ − → Z ∼ N (0, 1). 2 σ /n nσ 2 d La scrittura − → indica la convergenza in distribuzione: al crescere di n la distribuzione di probabilit`a `e sempre pi` u simile a quella di Z. Per n fissato sufficientemente elevato (almeno n > 30), valgono le seguenti utili approssimazioni: ¯ n ∼N X ˙ (µ, σ 2 /n), Sn ∼N ˙ (nµ, nσ 2 ), dove ∼ ˙ indica la distribuzione approssimata. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 141/ 154 ` noto che, se le variabili casuali X1 , . . . , Xn hanno distribuzione E N (µ, σ 2 ), allora la somma campionaria Sn e la media campionaria ¯ n sono Gaussiane. X Per il teorema limite centrale, se n `e sufficientemente elevato, si possono ancora utilizzare tali distribuzioni Gaussiane ¯ n , anche se le variabili casuali (approssimate) per Sn e X X1 , . . . , Xn non hanno distribuzione Gaussiana. In particolare, per n fissato sufficientemente elevato, valgono le seguenti relazioni approssimate: per ogni a, b ∈ R, a < b, a − µ b − µ . ¯ n ≤ b) = Φ √ √ −Φ , P (a < X σ/ n σ/ n b − nµ a − nµ . √ √ P (a < Sn ≤ b) = Φ −Φ . σ n σ n Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 142/ 154 Si possono evidenziare, a questo proposito, i seguenti casi di interesse per le applicazioni: · • se Xi ∼ Ber(p), i = 1, . . . , n, allora Sn ∼ N (np, np(1 − p)) e ¯ n ∼· N (p, p(1 − p)/n) (si ottengono buone approssimazioni X per n tale che np ≥ 5 e n(1 − p) ≥ 5); · • se Xi ∼ P (λ), i = 1, . . . , n, allora Sn ∼ N (nλ, nλ) e ¯ n ∼· N (λ, λ/n) (si ottengono buone approssimazioni per n X tale che nλ > 10). Esempio. Si consideri una successione {Xn }n≥1 di variabili casuali Xn , n ≥ 1, indipendenti con distribuzione P (λ). ` noto che Sn ∼ P (nλ); inoltre, dal Teorema limite centrale, si E conclude che, se n `e elevato, Sn ∼N ˙ (nλ, nλ). Si confrontano le distribuzioni di probabilit`a esatte e Gaussiane approssimate per Sn , con n = 1, 5, 30, 100 e λ = 0.5. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 143/ 154 n=5 0.0 0.00 0.2 0.10 0.4 0.20 0.6 n=1 −2 0 2 4 6 8 0 5 n=100 0.00 0.00 0.02 0.04 0.04 0.08 n=30 10 0 5 10 20 30 20 40 60 80 Al crescere di n le funzioni di probabilit`a esatte sono sempre pi` u simili a funzioni di densit`a di una opportuna legge Gaussiana (linea continua). L’approssimazione `e gi`a accettabile per n = 30. ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 144/ 154 Esempio. Si `e verificato un inconveniente su una linea di produzione che determina la presenza di 1/10 di pezzi difettosi. La procedura di controllo della qualit`a prevede che, se si individuano almeno 5 pezzi difettosi su n ≥ 1 scelti a caso, il processo viene posto in revisione. Sia Sn la somma di n ≥ 1 variabili casuali Ber(1/10) indipendenti. Si cerca il valore per n tale che ci sia una probabilit`a pari a 0.9 di porre il processo in revisione. Quindi, n ≥ 1 deve essere tale che ! ! Sn −(n/10) 5−(n/10) . 5−(n/10) p P (Sn ≥ 5) = P ≥ p =P Z ≥ p n9/100 n9/100 n9/100 sia 0.9, con Z ∼ N (0, 1). Poich´ pe il valore. critico z0.9 = −1.282, si cerca n tale che [5 − (n/10)]/ n9/100 = −1.282, con n ≥ 50. Si ottiene come soluzione il valore 85.58, quindi n = 86 pu`o essere una scelta ragionevole. ♦ Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 145/ 154 Varianza campionaria Siano X1 , . . . , Xn , n ≥ 1, variabili casuali univariate, componenti marginali del vettore casuale X, si definisce varianza campionaria la variabile casuale n 1X 2 ¯ n )2 . (Xi − X S = n i=1 La varianza campionaria pu` o venire calcolata utilizzando la seguente regola di calcolo n 1X 2 ¯ n2 , S2 = Xi − X n i=1 che ricorda la regola per il calcolo definita per la varianza. Se le Xi , i = 1, . . . , n, sono indipendenti e identicamente distribuite, con media µ e varianza σ 2 finita, si ha che 1 n−1 2 E(S 2 ) = σ = σ2 − σ2. n n Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 146/ 154 Quindi la variabile casuale S 2 presenta valore medio inferiore a σ 2 . Si noti che al crescere di n tale differenza diventa trascurabile. La variabile casuale n Sc2 = n 1 X ¯ n )2 , S2 = (Xi − X n−1 n−1 i=1 ottenuta modificando opportunamente S 2 , `e chiamata varianza campionaria corretta, ed `e tale che E(Sc2 ) = n n−1 2 n E(S 2 ) = σ = σ2. n−1 n−1 n Se valgono le ipotesi della legge debole dei grandi numeri, si conclude che, per n → +∞, p S 2 → σ2, Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni p Sc2 → σ 2 . 147/ 154 Quindi, al crescere di n, le distribuzioni di probabilit`a della varianza campionaria e della varianza campionaria corretta sono sempre pi` u concentrate attorno alla varianza comune σ 2 delle variabili casuali Xi , i = 1, . . . , n. Se le variabili casuali indipendenti X1 , . . . , Xn sono tali che Xi ∼ N (µ, σ 2 ), i = 1, . . . , n, allora la varianza campionaria e la varianza campionaria corretta hanno legge di probabilit`a legata alla χ2 , pi` u precisamente, Pn ¯ 2 n 2 n−1 2 i=1 (Xi − Xn ) S = S = ∼ χ2 (n − 1). σ2 σ2 c σ2 Inoltre, le variabili casuali media campionaria e varianza campionaria (corretta) sono indipendenti. Sempre nel caso di variabili casuali indipendenti X1 , . . . , Xn con distribuzione N (µ, σ 2 ), valgono i seguenti risultati che risultano utili per la Statistica inferenziale. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 148/ 154 Se si standardizza la variabile casuale media campionaria si ha che ¯n − µ X √ ∼ N (0, 1), σ/ n che `e chiamata media campionaria standardizzata. p Se al posto di σ si considera Sc = Sc2 , si ha la variabile casuale ¯ n e Sc2 sono chiamata media campionaria studentizzata. Poich´e X 2 2 2 indipendenti e (n − 1)Sc /σ ∼ χ (n − 1), si ha che ¯n − µ X √ ∼ t(n − 1), Sc / n dove t(n − 1) indica una variabile casuale t di Student con n − 1 gradi di libert`a. Il risultato `e una conseguenza del fatto che la t di Student si ottiene come rapporto tra una variabile casuale N (0, 1) e una variabile casuale χ2 indipendente, diviso i suoi gradi di libert`a. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 149/ 154 2 ) e Siano X1 , . . . , Xn variabili casuali con distribuzione N (µX , σX 2 Y1 , . . . , Ym variabili casuali con distribuzione N (µY , σY ); tutte le variabili casuali sono indipendenti. Indicate con 2 SX =n −1 n X ¯ n ), (Xi − X i=1 SY2 −1 =m m X (Yi − Y¯m ) i=1 le associate varianze campionarie, che risultano indipendenti, si ha 2 /σ 2 ∼ χ2 (n − 1) e mS 2 /σ 2 ∼ χ2 (m − 1). che nSX Y X Y Quindi, si pu`o verificare che 2 /σ 2 ]/(n − 1) [nSX X ∼ F (n − 1, m − 1), [mSY2 /σY2 ]/(m − 1) dove F (n − 1, m − 1) indica una variabile casuale F di Fisher con n − 1 e m − 1 gradi di libert`a. Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 150/ 154 Appendice: tavole statistiche Tavola 1: Funzione di ripartizione della Variabile Casuale Normale Standardizzata (z ) = P (Z z ) = Z z p1 e 1 2 (z ) z2 =2 dz 0 z -3.4 -3.3 -3.2 -3.1 -3.0 -2.9 -2.8 -2.7 -2.6 -2.5 -2.4 -2.3 -2.2 -2.1 -2.0 -1.9 -1.8 -1.7 -1.6 -1.5 -1.4 -1.3 -1.2 -1.1 -1.0 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 -0.0 0.00 0.0003 0.0005 0.0007 0.0010 0.0013 0.0019 0.0026 0.0035 0.0047 0.0062 0.0082 0.0107 0.0139 0.0179 0.0228 0.0287 0.0359 0.0446 0.0548 0.0668 0.0808 0.0968 0.1151 0.1357 0.1587 0.1841 0.2119 0.2420 0.2743 0.3085 0.3446 0.3821 0.4207 0.4602 0.5000 0.01 0.0003 0.0005 0.0007 0.0009 0.0013 0.0018 0.0025 0.0034 0.0045 0.0060 0.0080 0.0104 0.0136 0.0174 0.0222 0.0281 0.0351 0.0436 0.0537 0.0655 0.0793 0.0951 0.1131 0.1335 0.1562 0.1814 0.2090 0.2389 0.2709 0.3050 0.3409 0.3783 0.4168 0.4562 0.4960 0.02 0.0003 0.0005 0.0006 0.0009 0.0013 0.0018 0.0024 0.0033 0.0044 0.0059 0.0078 0.0102 0.0132 0.0170 0.0217 0.0274 0.0344 0.0427 0.0526 0.0643 0.0778 0.0934 0.1112 0.1314 0.1539 0.1788 0.2061 0.2358 0.2676 0.3015 0.3372 0.3745 0.4129 0.4522 0.4920 0.03 0.0003 0.0004 0.0006 0.0009 0.0012 0.0017 0.0023 0.0032 0.0043 0.0057 0.0075 0.0099 0.0129 0.0166 0.0212 0.0268 0.0336 0.0418 0.0516 0.0630 0.0764 0.0918 0.1093 0.1292 0.1515 0.1762 0.2033 0.2327 0.2643 0.2981 0.3336 0.3707 0.4090 0.4483 0.4880 Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 0.04 0.0003 0.0004 0.0006 0.0008 0.0012 0.0016 0.0023 0.0031 0.0041 0.0055 0.0073 0.0096 0.0125 0.0162 0.0207 0.0262 0.0329 0.0409 0.0505 0.0618 0.0749 0.0901 0.1075 0.1271 0.1492 0.1736 0.2005 0.2296 0.2611 0.2946 0.3300 0.3669 0.4052 0.4443 0.4840 0.05 0.0003 0.0004 0.0006 0.0008 0.0011 0.0016 0.0022 0.0030 0.0040 0.0054 0.0071 0.0094 0.0122 0.0158 0.0202 0.0256 0.0322 0.0401 0.0495 0.0606 0.0735 0.0885 0.1056 0.1251 0.1469 0.1711 0.1977 0.2266 0.2578 0.2912 0.3264 0.3632 0.4013 0.4404 0.4801 0.06 0.0003 0.0004 0.0006 0.0008 0.0011 0.0015 0.0021 0.0029 0.0039 0.0052 0.0069 0.0091 0.0119 0.0154 0.0197 0.0250 0.0314 0.0392 0.0485 0.0594 0.0721 0.0869 0.1038 0.1230 0.1446 0.1685 0.1949 0.2236 0.2546 0.2877 0.3228 0.3594 0.3974 0.4364 0.4761 z 0.07 0.0003 0.0004 0.0005 0.0008 0.0011 0.0015 0.0021 0.0028 0.0038 0.0051 0.0068 0.0089 0.0116 0.0150 0.0192 0.0244 0.0307 0.0384 0.0475 0.0582 0.0708 0.0853 0.1020 0.1210 0.1423 0.1660 0.1922 0.2206 0.2514 0.2843 0.3192 0.3557 0.3936 0.4325 0.4721 0.08 0.0003 0.0004 0.0005 0.0007 0.0010 0.0014 0.0020 0.0027 0.0037 0.0049 0.0066 0.0087 0.0113 0.0146 0.0188 0.0239 0.0301 0.0375 0.0465 0.0571 0.0694 0.0838 0.1003 0.1190 0.1401 0.1635 0.1894 0.2177 0.2483 0.2810 0.3156 0.3520 0.3897 0.4286 0.4681 0.09 0.0002 0.0003 0.0005 0.0007 0.0010 0.0014 0.0019 0.0026 0.0036 0.0048 0.0064 0.0084 0.0110 0.0143 0.0183 0.0233 0.0294 0.0367 0.0455 0.0559 0.0681 0.0823 0.0985 0.1170 0.1379 0.1611 0.1867 0.2148 0.2451 0.2776 0.3121 0.3483 0.3859 0.4247 0.4641 151/ 154 Tavola 1 (segue): Funzione di ripartizione della Variabile Casuale Normale Standardizzata z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 0.00 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9987 0.9990 0.9993 0.9995 0.9997 0.01 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.9987 0.9991 0.9993 0.9995 0.9997 0.02 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.9987 0.9991 0.9994 0.9995 0.9997 0.03 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.9988 0.9991 0.9994 0.9996 0.9997 0.04 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988 0.9992 0.9994 0.9996 0.9997 0.05 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.9989 0.9992 0.9994 0.9996 0.9997 0.06 0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.9989 0.9992 0.9994 0.9996 0.9997 0.07 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9989 0.9992 0.9995 0.9996 0.9997 0.08 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.9990 0.9993 0.9995 0.9996 0.9997 Tavola 1a: Valori critici della Variabile Casuale Normale Standardizzata. P (Z z z 0.10 1.2816 0.00009 3.7455 0.05 1.6449 0.00008 3.7750 0.025 1.9600 0.00007 3.8082 Statistica Applicata - Parte 2, a.a. 2013-2014 – P. Vidoni 0.01 2.3263 0.00006 3.8461 0.005 2.5758 0.00005 3.8906 0.001 3.0902 0.00004 3.9444 0.0005 3.2905 0.00003 4.0128 0.0001 3.7190 0.00002 4.1075 0.09 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990 0.9993 0.9995 0.9997 0.9998 z ) = . 0.00001 4.2649 152/ 154
© Copyright 2024 Paperzz