Rilevazione statistica e inferenza Censuaria (o esaustiva) Indagine statistica Campionaria L’inferenza è un insieme di metodologie statistiche che, attraverso l’analisi del campione, mirano ad ottenere la migliore conoscenza possibile della popolazione Calcolo delle probabilità ??? Procedimento deduttivo Popolazione Campione Inferenza Procedimento induttivo ??? Popolazione Campione Procedimento deduttivo Dal generale al particolare Esempi In generale: In particolare: I triangoli rettangoli hanno un angolo retto A è un triangolo rettangolo A ha un angolo retto I ragazzi iscritti all’università studiano Antonio è iscritto all’università Antonio studia Procedimento induttivo Dal particolare al generale 1) Si effettua un esperimento 2) Si generalizzano i risultati Esempio Esame universitario In particolare: Poche domande In generale: Livello di preparazione N.B.: nel procedimento induttivo vi è sempre la possibilità di errore!!! Popolazione e Campione POPOLAZIONE: Insieme di tutte le informazioni sul fenomeno oggetto di studio Viene descritta mediante una variabile casuale X: X ~ f x; ϑ θ = costante incognita ( ) • Qual è il valore di θ? • E’ verosimile un’ipotesi sul valore di θ? CAMPIONE: Sottoinsieme della popolazione Come devono essere scelte le unità appartenenti al campione? CAMPIONE CASUALE Ciascuna unità ha eguale probabilità di essere estratta Il campione casuale Campione casuale Non è un campione a casaccio!!! E’ un campione scelto da una popolazione in cui ciascuna unità ha una probabilità non nulla di essere estratta. Campione casuale semplice E’ un campione scelto da una popolazione in cui ciascuna unità ha la stessa probabilità di essere estratta. I 3 elementi dell’inferenza Popolazione Campione Campione osservato X ~ f ( x; ϑ ) (X 1 , X 2 , … , X n ) (x 1 , x 2 , … , xn ) Spazio campionario: insieme di tutti i possibili campioni Prima dell’estrazione, il campione è costituito da una n-pla di variabili casuali Se il campione è formato da n elementi, ogni suo elemento può essere considerato come la realizzazione della variabile casuale Xi, indicando con Xi la i-esima estrazione della v.c. X. Variabili casuali “osservazioni campionarie” X i ~ f ( x; ϑ ) i = 1, 2, … ,n Ciascuna variabile Xi ha la stessa distribuzione della variabile casuale che descrive la popolazione In pratica, data la popolazione: X~f(x, µ, σ2) µX=100 Se: σX=12 Min(Xi)=50 Max(Xi)=180 C = numero dei possibili campioni estraibili da X n = 8 = ampiezza di ogni campione Si avranno 8 v.c. Xi “osservazione campionaria”: X1 1a oss. X2 2a oss. X3 3a oss. X4 4a oss. X5 5a oss. X6 6a oss. X7 7a oss. X8 8a oss. 1° campione x11 x12 x13 x14 x15 x16 x17 x18 2° campione x21 x22 x23 x24 x25 x26 x27 x28 3° campione : x31 x32 x33 x34 x35 x36 x37 x38 C° campione xC1 xC2 xC3 xC4 xC5 xC6 xC7 xC8 In questo senso: Prima dell’estrazione il campione è una n-pla di variabili casuali (in questo caso n = 8): X1, …, X8 Ciascun campione x1, …, x8 ne costituisce una determinazione Le determinazioni di ogni Xi sono in totale C Ciascuna v.c. osservazione campionaria, Xi, ha la stessa distribuzione e gli stessi parametri della variabile X nella popolazione. Se: X~f(x, θ) µX=100 σX=12 Min(Xi)=50 Max(Xi)=180 ∀i si ha: Xi~f(x, θ) µXi=100 σXi=12 Min(Xi)=50 Max(Xi)=180 X~f(x, θ) X1 1a oss. 1° campione 2° campione 3° campione : C° campione X2 2a oss. X3 3a oss. X4 4a oss. X5 5a oss. X6 6a oss. X7 7a oss. X8 8a oss. Statistiche e parametri Poiché ciascuna osservazione campionaria Xi è una variabile casuale, ogni funzione f(X1, …, Xn) delle osservazioni campionarie sarà essa stessa una variabile casuale ed è detta statistica ( ) ∑ xi Esempi: f X1 , … , Xn = = x1 + x2 + + xn i f ( X1, … , Xn ) = ∏x i = x1 ⋅ x2 ⋅ … ⋅ xn i f ( X1, … , Xn ) = 1 1 xi = ( x1 + x2 + + xn ) ∑ n i n Quindi, i valori ottenuti attraverso una qualsiasi trasformazione dei valori osservati vengono chiamate statistiche, statistiche mentre i rispettivi valori della popolazione, che sono delle costanti, vengono definiti parametri. parametri Esempi: Media campionaria X = 1 (x1 + x 2 + + x n ) n Statistica Media della popolazione µ Parametro Statistiche e statistiche calcolate Si definisce statistica Tn = T(X1, X2, …, Xn) una qualsiasi funzione a valori reali del campione casuale (X1, X2, …, Xn) che non dipende da quantità incognite. Il valore della statistica Tn calcolata sul campione osservato (x1, x2, …, xn) costituisce la statistica calcolata tn = T(x1, x2, …, xn). Tn statistica Variabile casuale tn statistica calcolata Realizzazione della variabile casuale Tn La distribuzione campionaria Ogni statistica è, dunque, una sintesi delle variabili casuali campionarie media campionaria 1 n X = ∑ Xi n i=1 varianza campionaria 1 n S = ∑ Xi − Xn n i=1 varianza campionaria corretta 2 = S n 2 n ( 2 ) 1 n ∑ Xi − Xn n − 1 i=1 ( 2 ) Dato un campione casuale (X1, X2, …, Xn), definita la statistica Tn= T(X1, X2, …, Xn), funzione delle osservazioni campionarie, la distribuzione di probabilità della statistica T(X1, X2, …, Xn) viene definita distribuzione campionaria di Tn. La media campionaria La variabile casuale media campionaria, campionaria X , è una combinazione lineare delle variabili casuali “osservazioni campionarie” campionarie Xi , i=1,..,n. 1 n X = ∑ Xi n i=1 Le n variabili casuali X1, X2, …, Xn sono indipendenti e identicamente distribuite alla variabile X nella popolazione, con media µ e varianza σ2. E’ importante definire la distribuzione di X , ma prima ancora determinarne il valore atteso e la varianza. ( ) E X = ( ) Var X = Identificano il valore centrale e la variabilità di una variabile casuale In generale, data una v.c. X conoscere E(X) e Var(X) significa conoscere due parametri cruciali della distribuzione di X, ossia due caratteristiche fondamentali della v.c. Somma di n variabili casuali X1, X 2 ,… , Xn E Xi = µ, ∀i Var ( Xi ) = σ2 , n Sn = ∑ Xi = X1 + X2 + + Xn ∀i Xi indipendenti i=1 n E S n = ∑ E X i = nµ i=1 V a r (S n ) = n ∑ V a r (X i ) = n σ 2 i=1 Media di n variabili casuali 1 Xn = n n ∑ Xi = i =1 E X n = µ ( ) Var Xn σ2 = n 1 1 1 X1 + X 2 + + X n n n n E X = ( ) 1 1 1 1 E X 1 + E X 2 + ⋅ ⋅ ⋅ + E X n = n µ = µ n n n n 1 1 1 Var ( X 1 ) + 2 Var ( X 2 ) + ⋅ ⋅ ⋅ + 2 Var ( X n ) = 2 n n n 1 σ2 2 = 2 nσ = n n Var X = Un esempio Estrazione con reintroduzione Popolazione: 7 N=3 5 10 µ = 7,33 σ2 = 4,22 Campione: n=2 1 n X = ∑ Xi n i=1 campione 1° 2° 3° 4° 5° 6° 7° 8° 9° Media Varianza Media di n variabili casuali E X = ( ) 1 1 1 1 E X 1 + E X 2 + ⋅ ⋅ ⋅ + E X n = n µ = µ n n n n 1 1 1 Var X + Var X + ⋅ ⋅ ⋅ + Var ( X n ) = ( ) ( ) 1 2 2 2 2 n n n 2 1 σ = 2 n σ2 = n n Var X = X1 5 5 5 7 7 7 10 10 10 X2 5 7 10 5 7 10 5 7 10 5,0 6,0 7,5 6,0 7,0 8,5 7,5 8,5 10,0 7,33 4,22 7,33 4,22 7,33 2,11 X c ampione Un esempio 1° Estrazione senza reintroduzione 2° Popolazione: 7 5 3° 10 4° N=3 Campione: µ = 7,33 5° σ2 = 4,22 6° Media Varianza n=2 1 n X = ∑ Xi n i=1 Media di n variabili casuali ( ) σ N − n Var ( X ) = ⋅ n N −1 E X =µ 2 Ma quando N è grande: N−n →1 N−1 σ2 Var X → n ( ) X1 5 5 7 7 10 10 7,33 4,22 X2 7 10 5 10 5 7 6,0 7,5 6,0 8,5 7,5 8,5 7,33 4,22 7,33 1,06 X Qualche osservazione… Campionamento con reintroduzione (CCR) ( ) E X =µ ; 2 σ Var X = n ( ) Campionamento senza reintroduzione (CSR) ( ) E X =µ ; σ2 Var X = n ( ) N − n ⋅ N −1 n=1: i risultati ottenuti con lo schema di CCR coincidono con quelli ottenuti nel CSR; n=N: la varianza della media campionaria nello schema di CSR è nulla. In questo caso, infatti, il campione coincide con la popolazione e non si ha più alcuna incertezza legata al campionamento; n<N: il fattore di correzione utilizzato nello schema di CSR è <1. Questo vuol dire che la varianza della media campionaria nel CSR è minore di quella che si ottiene nel CCR; n molto piccola rispetto alla numerosità della popolazione N: il fattore di correzione per lo schema di CSR è prossimo a 1. La differenza tra i due schemi può quindi essere considerata trascurabile. La distribuzione della media campionaria !!! Se è noto che: X ~ N(µ, σ2) !!! Allora si sa anche: Xi ~ N(µ, σ2) Campionamento con reintroduzione ( ) E X =µ σ2 Var X = n ( ) X−µ ~ N ( 0, 1) σ n 1 n Xi = X ~ N (?, ? ) ∑ n i=1 ∀i Campionamento senza reintroduzione ( ) E X =µ σ2 Var X = n X−µ σ N−n ⋅ N −1 n Ma se non si conosce la distribuzione di X??? ( ) N − n ⋅ N −1 ~ N ( 0,1) Teorema limite centrale Lindeberg-Levy Data una successione Xn di variabili casuali X1, X2, …, Xn, indipendenti e identicamente distribuite con media µ e varianza σ2 costanti, definita la variabile casuale Xn = e la sua standardizzazione Zn = ( ) Var ( X ) Xn − E Xn X1 + X2 + … + Xn n , al crescere di n si ha che Zn → N(0, 1) (Zn tende n ad una Normale standardizzata) Lindeberg-Cramer Il teorema limite centrale resta valido anche quando la successione Xn è formata da variabili casuali che non sono identicamente distribuite, purché ciascuna v.c. Xi sia indipendente dalle altre e abbia momenti primi e secondi finiti (µ e σ2 non costanti). Inoltre: Sotto condizioni molto generali, la somma di n v.c. indipendenti è asintoticamente Normale, e questo è vero qualunque sia il tipo di distribuzione di ciascuna delle Xi. Zn = In altre parole… Sn − E ( Sn ) Var (Sn ) → N ( 0, 1) Tutte le volte che un fenomeno reale può essere interpretato come la somma, oppure la media, di un gran numero di cause indipendenti, indipendentemente dai modelli probabilistici che generano le singole variabili casuali è ragionevole attendersi che la distribuzione di probabilità di quel fenomeno possa essere approssimabile mediante la v.c. Normale. Esempio Un produttore di cosmetici ha 1500 venditori porta a porta che, mediamente, nell’ultimo mese hanno realizzato vendite per un valore pari a µ = 3100 $ e con s.q.m. σ = 450 $. Si estrae un campione di 64 venditori, senza reimmissione. Qual è la probabilità che questo gruppo abbia realizzato, in media nell’ultimo mese, vendite per un valore inferiore a 3000 $? Soluzione X = vendite individuali, distribuzione non nota µ = 3100 $ N = 1500 σ = 450 $ n = 64 Teorema limite centrale Zn = ( ) → N (0, 1) Var ( X ) Xn − E Xn n ( ) P X64 < 3000 = ? ( P X64 X64 − µ 3000 − 3100 < 3000 = P < σ2 N − n 4502 1500 − 64 × × 64 1500 − 1 n N −1 3000 − 3100 = P Z < = P ( Z < −1, 81) = 0, 0351 202500 1436 × 64 1499 ) Esempio Le funi di sostegno di un ponte sono formate da cavi di acciaio. La resistenza alla trazione di ogni cavo è una variabile casuale con media µ = 0,1 tonnellate e s.q.m. σ = 0,06 tonnellate. Assumendo che una fune abbia una resistenza alla trazione uguale alla somma delle resistenze dei cavi che la compongono, si calcoli: a)La probabilità che una fune costituita da 100 cavi sopporti una trazione di 9 tonnellate; b)Il numero di cavi necessario affinché una fune sopporti un carico di 10 tonnellate con probabilità 0,99. Soluzione Xi = resistenza del cavo i ∀Xi: µ = 0,1 σ = 0,06 Xi iid; distribuzione non nota Xn = resistenza della fune composta da n cavi 100 a) X100 = ∑X µ X100 = nµ = 100 × 0,1 = 10 1 =1 σ2X100 = nσ2 = 100 × 0, 0036 = 0,36 i P ( X100 > 9 ) = ? 9 − 10 P ( X100 > 9 ) = P Z100 > = P (Z100 > −1, 67 ) = 0, 9525 0, 6 Teorema limite centrale Zn = Sn − E ( Sn ) Var (Sn ) → N ( 0, 1) b) P ( Xn > 10 ) = 0, 99 Cerchiamo quel valore di n tale che: 10 − nµ P Z ≥ = 0,99 2 nσ 10 − nµ nσ2 = 10 − nµ σ n = 10 − n × 0,1 0, 06 × n = 10 n − 0,1 0, 06 n 10 n − 0,1 P Z ≥ = 0, 99 0,06 n 2,33 ⇒ 10 n − 0,1 ⋅ n + 2,33 = 0 0, 06 10 ⇒ − 0,1 ⋅ n + 2,33 ⋅ 0, 06 = 0 n 10 − 0,1 ⋅ n ⇒ 10 − 0,1 ⋅ n + 0,1398 ⋅ n = 0 y= n ⇒ −b ± b2 − 4ac y= 2a n y= + 0,1398 = 0 −0,1398 ± − 0,1 y2 + 0,1398 y + 10 = 0 - 9,325 2 (0,1398 ) − 4 ( −0,1) ⋅ 10 2 ( −0,1) 10 − 0,1 ⋅ n ⇒ ⋅ n + 0,1398 = 0 n = 2 + 10,723 ⇒ n = (10,723) = 115 Distribuzioni campionarie di uso frequente Distribuzione χ2 (chi quadro) (Somma di n v.c. Normali standardizzate al quadrato) Date n v.c. X1, X2, …, Xn indipendenti e ognuna distribuita secondo una 2 Normale di parametri µi e σ i, allora la variabile casuale definita come: 2 X − µi χ2(n) = ∑ i σ i =1 i n segue una distribuzione χ2 con g = n gradi di libertà. 0.5 f(x;g) = 0.4 0.3 x exp − x g 2 2 Γ 2 1 g 2 g −1 2 La variabile χ2 è continua, non può essere negativa e varia tra zero e infinito. La sua forma e il suo centro dipendono dal numero di gradi di libertà. g=2 Y~ χ(2n) E (Y) = g ; Var (Y) = 2g ; 0.2 g=4 Relazione tra χ2 e Normale: 0.1 se una v.c. Z segue una distribuzione Normale g=8 standardizzata, la trasformata Y=Z2 si distribuirà 0.0 5 10 15 20 secondo una v.c. χ2 con 1 grado di libertà. Distribuzione t di Student (Rapporto tra una v.c. Normale standardizzata e la radice quadrata di una v.c. c2 divisa per i suoi gradi di libertà) Data una v.c. Z, distribuita secondo la legge Normale standardizzata, e la v.c. Y, distribuita secondo un χ2 con n gradi di libertà, con Z e Y tra loro indipendenti, la variabile casuale t definita dal rapporto t = distribuzione denominata t di Student con n gradi di libertà: g + 1 g +1 − Γ 2 2 1 + x 2 f(x; g) = 0.5 g g πgΓ 2 g=∞ ∞ 0.4 Z Yn Z Y n segue una ~ t(n) La distribuzione t di Student ha una forma simmetrica che dipende dal valore di n, parametro che indica i gradi di libertà e che deriva dalla variabile χ2, al denominatore della formula. 0.3 Y~t E ( Y ) = 0 ; Var ( Y ) = 0.2 g=10 n ; n−2 Relazione con la Normale: 0.1 Quando n→∞, la v.c. t converge alla Normale. g=3 0.0 -6 -4 -2 0 2 g=1 4 Quindi, quando n è elevato, la f(t) può essere approssimata dalla N(0,1). Distribuzione F di Fisher (Rapporto di due v.c. χ2 indipendenti, ciascuna divisa per il proprio numero di gradi di libertà.) Date due v.c. X e Y tra loro indipendenti, ognuna delle quali distribuita secondo un χ2 rispettivamente con g1 e g2 gradi di libertà, il rapporto distribuzione F con g1 e g2 gradi di libertà. (g1 / g2 )g1 / 2 xg1 / 2 −1 f(x;g1 , g2 ) = (g1 + g2 ) / 2 B(g1 / 2, g2 / 2) g1 x 1 + g 2 X g1 segue la Y g2 X g1 ~ Fg1 ,g2 Y g2 La distribuzione F di Fisher è 1.0 continua e, essendo ottenuta come 0.8 rapporto tra due v.c. χ2, è definita g1=20, g2=10 nell’intervallo (0, +∞). Y~ F 0.6 n n−2 2 ⋅ n2 ⋅ ( m + n − 2 ) Var (Y ) = 2 m ⋅ ( n − 2) ⋅ ( n − 4) E (Y ) = g1=5, g2=5 0.4 0.2 g1=5, g2=1 0.0 1 2 3 4 5
© Copyright 2025 Paperzz