Elementi di statistica Argomenti: ¾ costruzione di modelli matematici di variabili casuali mediante i parametri stocastici; ¾ definizione della migliore stima di una misura; ¾ valutazione dell’incertezza della miglior stima di una misura; ¾ qualità delle stime e correzione per campioni con numero scarso di dati; ¾ rigetto dei dati. 1 Introduzione Abbiamo visto come, con la teoria della probabilità, sia possibile produrre modelli probabilistici (distribuzioni di probabilità) adattabili ai fenomeni aleatori reali. Accedere a tutta la p popolazione p è nella maggioranza gg dei casi impossibile p perché il numero di individui è troppo alto (es. interviste pre elettorali) e spesso, sebbene possibile, non conveniente economicamente (durata di una lampadina) o in termini di tempo. Acquisire sperimentalmente la distribuzione di probabilità è quindi, all’atto pratico, irragionevole Risulta conveniente adottare un modello che, sotto alcune ipotesi, potrà essere caratterizzato sulla base di un numero limitato, e tendenzialmente piccolo di informazioni piccolo, La statistica parte da un campione aleatorio per descrivere le sue proprietà statistiche oppure risalire o inferire al modello probabilistico sotteso e alla stima dei suoi parametri (media, varianza, deviazione standard, moda, mediana). 2 •1 Introduzione La media, m, e la deviazione standard, s, associate ad una funzione di densità di probabilità, sono parametri completamente descrittivi delle caratteristiche statistiche di una popolazione, a patto di elaborare le informazioni relative ad ogni singolo individuo di essa. I parametri del modello sono definiti, grazie alle tecniche statistiche, sulla scorta di un numero ridotto di informazioni desunte da indagini sperimentali spesso svolte su un numero ridotto di casi. Una caratterizzazione di questo tipo sarà inevitabilmente imprecisa. Nel caso di una grandezza discreta e finita, la popolazione (insieme di tutti gli individui) viene campionata: per limitare il numero di osservazioni si estrarrà un campione, sottoinsieme di n individui, di una popolazione di dimensione N. N Nel caso di una grandezza continua parlare di popolazione non ha senso in quanto sarebbe infinita. In questi casi avremo solo il campione dei dati a descrivere la grandezza stessa. In questo contesto, i termini «campione» e «campionare» hanno un significato diverso da quello dell’acquisizione dati 3 Media e varianza campionaria Nel caso di una misura la popolazione è infinita e il limite al numero di misure acquisibili è solo pratico e/o economico. In questi casi si ha a disposizione come estimatori della media e della varianza della grandezza in esame solo l’approssimazione costituita dalla media e dalla deviazione standard del campione fisicamente osservato. osservato μ≈x= 1 N N ∑x i =1 i σ ≈S= 1 N ( xi − x ) 2 ∑ N − 1 i =1 Cosa succede se non possiamo operare su tutta la popolazione e ci dobbiamo accontentare di un campione? I parametri statistici che abbiamo individuato analizzando il campione quanto sono rappresentativi di quelli dell’intera popolazione? Dato un campione come si stima il valore della misura e la sua variabilità? 4 •2 Media e varianza campionaria Analizziamo come variano i parametri statistici fondamentali all’aumentare della dimensione del campione per due diversi processi casuali. Al crescere del numero degli eventi la media e la deviazione del campione tendono a stabilizzarsi identificando i parametri dell’intera popolazione. Nel grafico si mostra il diagramma di stabilizzazione di media e dev. dev std. std per due tipologie di distribuzioni di probabilità: a sinistra distribuzione uniforme 0-1 (μ=0.5 , σ=0.5/sqrt(3)); a destra distribuzione gaussiana (μ=0,σ=1). (fig. da pr01.m) 5 Media e varianza campionaria Si noti come a partire da campioni di 20/30 individui i valori dei parametri statistici siano nell’intorno di quelli di convergenza. E’ spontaneo ora chiedersi quale sia l’effetto della scelta di un particolare campione e quindi cercare di capire come variano media e deviazione standard t d d se, fifissata t lla di dimensione i d dell campione, i sii considerano id campioni i i diversi. Campioni diversi di una popolazione, anche se di pari dimensione, forniranno ciascuno una propria media ed una propria deviazione standard, in generale differenti per ogni campione (la variabile è casuale). Analizziamo i risultati ottenuti da una serie di campioni di una variabile casuale a distribuzione gaussiana (μ=0,σ=1), campioni tutti di eguale numero di individui. 6 •3 Media e varianza campionaria Esaminiamo alcuni istogrammi che riportano le distribuzioni corrispondenti a 20 campioni di numero crescente di eventi eventi. Si nota che, anche quando gli istogrammi sono significativamente diversi, i valori medi e le deviazioni standard sono poco variabili. Si vede inoltre che all’aumentare del numero di eventi di ciascun campione i lla di dispersione i di media di e dev. std. diviene sempre più contenuta. Media e deviazione standard esibiscono anch’esse una distribuzione: sono delle variabili casuali caratterizzabili a loro volta tramite media e deviazione standard. 7 Media e varianza campionaria Media e deviazione standard di un campione caratterizzano i dati acquisiti in termini di valore atteso e dispersione, risentendo di tutti gli effetti mostrati. Applicati ad un processo di misura i parametri statistici campionari possono essere impiegati per prevedere prevedere, conoscendo la distribuzione distribuzione, la probabilità di rilevare ulteriori misure in un certo intervallo attraverso l’utilizzo della densità di probabilità. L’obiettivo di un’operazione di misura non è però questo. Il problema di misurare è stimare il misurando, depurando gli effetti del processo di misura, ovvero fornire il valore più probabile e un indicatore di incertezza di tale stima. Problema: possiamo utilizzare la media campionaria e la deviazione standard di un campione per fornire la migliore stima possibile della misura e della sua incertezza? 8 •4 Misura come parametro statistico Simuliamo un processo di misura. Esecuzione di un esperimento basato su N ripetizioni della valutazione della grandezza di interesse, invariante nel corso dell’esperimento. Poiché la misura è affetta da errore e può essere quindi vista come una variabile casuale l’esperimento evidenzierà una distribuzione e fornirà un valore di media e dev. std. x= S= 1 N N ∑x i =1 i 1 N ∑ ( xi − x )2 N − 1 i =1 Siccome siamo scettici... ripetiamo l’esperimento! 9 Misura come parametro statistico Esecuzione di M ripetizioni dell’esperimento precedente, ciascuna basata su N valutazioni della grandezza di interesse, sempre invariante. O i ripetizione Ogni i ti i evidenzierà id i à la l stessa t distribuzione e fornirà un valore medio ed una deviazione standard che saranno diversi in generale tra esperimento e esperimento. xk = Sk = 1 N N ∑x i =1 ki 1 N ∑ ( xki − xk )2 N − 1 i =1 10 •5 Misura come parametro statistico Valore medio e dev. std., come già mostrato, sono due variabili casuali: ognuna può essere descritta mediante il proprio valore medio e la propria deviazione standard. Trattazione valori medi Sx = xk = Sk = 1 N N i =1 ki 1 N ( xki − xk ) 2 ∑ N − 1 i =1 ∑x 1 M ∑ (x − x ) S Sk = ∑x ? k k =1 M 2 k k =1 1 M 1 M S Sk = M 1 M x= M ∑S k =1 k M ∑ (S k =1 Trattazione deviazione std. Sk − Sk )2 11 Misura come parametro statistico Per ogni esperimento, k, avremo : valor medio e deviazione standard. xk = Sk = 1 N N ∑x ki i =1 1 N ∑ ( xki − xk )2 N − 1 i =1 Quindi possiamo definire due nuove popolazioni, indipendenti, di grandezza M, pari al numero di esperimenti, alle quali afferiscono i valori assunti da media e deviazioni standard. A noi interessano in particolare: ¾ la media delle medie: ¾ la deviazione standard delle medie: x= Sx = M 1 M ∑x 1 M ∑ (x − x ) k =1 k M k =1 2 k 12 •6 Media e deviazione standard della media Data una popolazione a distribuzione gaussiana (μ=0,σ=1), si sono svolti 12 esperimenti basati su 500 campioni contenenti un numero di eventi via via crescente. crescente Distribuzioni delle medie: si vede una distribuzione centrata sul valore nullo, media di tutte le misure disponibili, con dispersione decrescente. Distribuzioni delle dev. std.: attestate sul valore unitario, con dispersione decrescente. Dev. std. delle medie: minore di quella dei dati e decrescente all’aumentare del campione. 13 Dimostrazione euristica All’aumentare del numero di misure: • La deviazione standard del campione rimane costante (linee verdi) • La deviazione standard delle medie diminuisce (tratti rossi). Vogliamo individuare, se esiste, una legge empirica che lega le due deviazioni standard. L’andamento suggerisce una diminuzione della deviazione all’aumentare della dimensione del campione Lecito supporre che il numero n di eventi compaia a denominatore del rapporto σdati/σmedia. 14 •7 Dimostrazione euristica Un coefficiente proporzionale all’inverso del numero di misure porta ad una eccessiva diminuzione (linea verde). Un coefficiente proporzionale all’inverso della radice quadrata porta ad una corretta interpretazione p dell’andamento della deviazione della media in funzione del numero di dati presenti nel campione. Per n sufficientemente grande la media ha distribuzione gaussiana con deviazione standard data da: σx = σ n ≈ S n 15 Dimostrazione euristica Non è necessario che la popolazione sia a distribuzione gaussiana per ottenere i risultati presentati relativi alla media di una popolazione: per una distribuzione uniforme gli andamenti sono analoghi. 16 •8 Dimostrazione rigorosa Esperimento singolo con N valutazioni: N 1 N x= ∑x i =1 S= i 1 N ( xi − x ) 2 ∑ N − 1 i =1 Ripetizione dell’esperimento M volte: k=1:M (Matrice dei valori xki: la riga k-esima contiene le i misure dell’esperimento k) 1 N xk = N ∑ xki Sk = i =1 1 M 1 = M xMN = Valutazione globale N x M misure: 2 S MN 1 N ∑ ( xki − xk )2 N − 1 i =1 1 M N ∑∑ xki N k =1 i =1 1 M N ( xki − xMN ) 2 ∑∑ N k =1 i =1 17 Dimostrazione rigorosa I valori medi xk costituiscono un insieme di variabili casuali indipendente che possiamo ipotizzare gaussiano, quindi caratterizzato da un valore medio e da una deviazione standard mx , S x Vogliamo identificare questi due parametri. L’operatore di media dei valori medi è lineare ovvero la media dei valori medi coincide con la media di tutte le valutazioni fatte in tutti gli esperimenti. xMN = 1 1 M N 1 xki = ∑∑ M N k =1 i =1 M M ∑x k =1 k = mx xMN = mx Se N è sufficientemente grande le deviazioni casuali della media sono già compensate in un singolo campione di dati, quindi: mx ≈ xk In particolare: mx ≈ x1 ∀k e non c’è necessità di ripetere l’esperimento! 18 •9 Dimostrazione rigorosa Cerchiamo un risultato analogo per la deviazione standard dei valori medi, S x ; cioè vogliamo metterla in relazione alla dev. std. totale e, possibilmente, con la dev. std. di una sola serie di dati. p , analogamente g al Abbiamo visto che anche la dev.std del campione, valore medio, si stabilizza con l’aumento del numero di dati. 2 S MN = Dev. std. di tutti i dati: M 1 1 M N ki k =1 i =1 1 M S x2 = Dev. std dei valori medi: N ∑∑ ( x − mx ) 2 S k2 M ∑ (x k k =1 − mx ) 2 Il termine quadratico della seconda relazione può essere sviluppato in termini di media delle deviazioni delle singole misure dalla media globale: xk − mx = 1 N N ∑ xki − i =1 N 1 mx = N N N ∑ xki − i =1 1 N N ∑ mx = i =1 1 N N ∑( x ki i =1 − mx ) 19 Dimostrazione rigorosa xk − mx = 1 N N ∑ ( xki − mx ) 1 M S x2 = i =1 M ∑ (x k k =1 − mx ) 2 Utilizzando questa relazione della dev. std. dei valori medi otteniamo: M ⎛1 ∑ ⎜ k =1 ⎝ N M 1 S = M 1 ( xk − mx ) = ∑ M k =1 1 1 = M N2 1 1 ⎛ N ⎞ ∑ ⎜ ∑ d ki ⎟ = M N 2 k =1 ⎝ i =1 ⎠ 2 x 2 2 M 2 ⎞ ( xki − mx ) ⎟ = ∑ i =1 ⎠ N ⎛ N 2 N N ⎞ ⎜ ∑ d ki + ∑ ∑ 2d kj d ki ⎟ ∑ k =1 ⎝ i =1 i =1 j =i i ≠ j ⎠ M Il secondo termine, p per N sufficientemente alto, tende a zero trattandosi di scostamenti casuali dotati di segno e a distribuzione simmetrica: la deviazione standard dei valori medi diventa: S x2 ≈ 1 1 M N2 M N ∑∑ d k =1 i =1 2 ki = 1 1 M N2 M N ∑∑ ( x k =1 i =1 ki − mx ) 2 20 •10 Dimostrazione rigorosa Caratterizzazione del processo di misura: deviazione standard dei valori medi. S x2 ≈ Ma poiché: M 1 1 M N2 2 S MN = ∑∑ ( x Assumendo S MN ≈ 1 M M 1 1 M N ∑S k =1 k − mx ) ki − mx ) 2 N ∑∑ ( x k =1 i =1 M 1 1 M N2 M ki k =1 i =1 Otteniamo: S x2 ≈ N N 2 1 2 S MN N ∑∑ ( x − xk ) 2 = ≈ S k ∀k abbiamo infine: k =1 i =1 ki Sx ≈ 1 S N 21 Dimostrazione rigorosa Per essere considerato grande N dovrebbe essere superiore a 30. P N che Per h ttende d ad d iinfinito fi it la l deviazione d i i standard t d dd della ll media di ttende d a zero. Riassumendo: ¾ se la popolazione è a distribuzione gaussiana, la distribuzione delle medie dei campioni è gaussiana; ¾ se la popolazione non è a distribuzione gaussiana ma N è grande (N > 30) la distribuzione delle medie è gaussiana; 30), ¾ se la popolazione non è gaussiana e N < 30, la media segue la distribuzione gaussiana solo approssimativamente e si discosta tanto più da questo andamento quanto minore è il numero di dati acquisiti. 22 •11 La stima del misurando, intesa come media dei valori medi, è quindi una grandezza per la quale si può adottare l’ipotesi di distribuzione casuale, caratterizzata da: valore medio deviazione standard x≅x 1 Sx ≈ S N La deviazione dal valore nominale della misura essere normalizzata con la deviazione standard e rientrando nello schema della Distribuzione Normale: z= x −μ σx Si potrà dunque utilizzare la tabella di integrazione della funzione di densità di probabilità normale, con le medesime procedure operative sviluppate per una distribuzione di valori, per stimare l’intervallo di confidenza sotteso dal parametro z. 24 Esempio 1 Si deve calcolare l’intervallo di confidenza della media di un certo numero di resistenze. Viene effettuata la misura di un campione composto da 36 resistenze; la resistenza media misurata, x , è pari a 25Ω e la deviazione standard (stimata dal campione), S, è pari a 0.5Ω. Determinare l’intervallo di confidenza della media per una probabilità pari al 90%. 25 •12 Esempio 1 Occorre trovare il valore di zα/2: cioè l’intervallo espresso in deviazioni standard che racchiude un’area del 90% (esclude un’area del 10%). Essendo la funzione densità simmetrica è sufficiente ricercare nella tabella 0 0.45=0.9/2. 45=0 9/2 Il valore di z corrispondente è circa z=1.645, circa a metà tra i valori della tabelle che limitano 0.45. ---------------------------------------------------------------0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 ---------------------------------------------------------------… 1.4 41924 42073 42220 42364 42507 42647 42786 42922 43056 43189 1.5 43319 43448 43574 43699 43822 43943 44062 44179 44295 44408 1.6 44520 44630 44738 44845 44950 45053 45154 45254 45352 45449 1.7 45543 45637 45728 45818 45907 45994 46080 46164 46246 46327 1.8 46407 46485 46562 46638 46712 46784 46856 46926 46995 47062 … ---------------------------------------------------------------26 Esempio 1 Assumendo una distribuzione di tipo gaussiano e utilizzando S come migliore stima della deviazione standard, tenendo conto dell’intervallo di confidenza e riferendo la deviazione alla media, otteniamo con n=36 : S S ≤ μ ≤ x + zα / 2 n n 0.5 0.5 ≤ μ ≤ 25 + 1.645 25 − 1.645 6 6 24.86 ≤ μ ≤ 25.14 x − zα / 2 In definitiva la resistenza media avrà un valore di: 25 ± 0.14Ω Con un livello di confidenza pari al 90%, cioè il valore medio della popolazione di resistenza avrà una probabilità del 90% di essere compreso nell’intervallo tra 24.86 e 25.14 Ω. 27 •13 Esempio 1 La misura della resistenza è data dal valore medio delle Ri ma sempre da intendersi come approssimazione del valore medio della popolazione. Variabile gaussiana: (media= mx , deviazione standard=S x ) mx ≈ x = R Misure individuali Mi i di id li resistenze S mx ≈ S x = R i ⇒ R,SR SR N z% ⋅ S x z P = 0.45 1−α 2 Livello di probabilità 90% Densità cumulativ gaussian 1 0.8 Probabilità Tipologia problema 1-α = 0.9 = 90% α/2 = 5% 1−α P= = 0.45 2 Intervallo di confidenza della media? 0.6 0.4 - z0 0.2 z0 0 -5 -4 -3 -2 -1 0 1 2 3 α / 2 (code) 4 5 28 Esempio 1 La misura della resistenza è data dal valore medio delle Ri ma sempre da intendersi come approssimazione del valore medio della popolazione. Variabile gaussiana: (media= Misure individuali resistenze i t R i ⇒ R,SR Livello di probabilità 90% Tipologia di problema 1-α = 0.9 = 90% α/2 = 5% 1−α P= = 0.45 2 mx , deviazione standard=S x ) mx x = R mx S x = Intervallo di confidenza della media? SR N z% ⋅ S x z P = 0.45 1−α 2 - z0 z0 Densità D ità cumulativa gaussiana α / 2 (code) 29 •14 Distribuzione t Student 30 Distribuzione t Student La distribuzione normale rappresenta uno schema corretto per la rappresentazione statistica della misura quando il numero di dati in un campione è elevato. Solo in questo caso la stima della deviazione a partire da quella campionaria costituisce una base valida per la definizione dell’intervallo di confidenza della misura. In caso si abbia un numero limitato di misure la deviazione standard della popolazione, σ, non sarà bene approssimata dalla deviazione del campione, i S e, a causa della S, d ll iincertezza t nella ll d deviazione i i standard t d dd dell campione, ci possiamo aspettare sia necessario garantirsi un intervallo di confidenza più ampio, a parità di livello di confidenza. 31 •15 Distribuzione t Student Nel caso di poche misure, viene utilizzato al posto della gaussiana un’altra distribuzione statistica, detta t-Student. La funzione di densità t-Student è g al simmetrica e si abbassa e si allarga diminuire del numero di misure nel campione. Graficamente, le distribuzioni t sono simili alla distribuzione normale, e diventano equivalenti ad essa al crescere del numero delle misure. La distribuzione t-Student, al contrario della distribuzione normale, dipende non solo da media e deviazione standard ma anche dal numero di gradi di libertà (ν=N-1). In analogia al parametro z della gaussiana normalizzata si definisce un parametro che prende (x − μ) = (x − μ) il nome di t. Esso è pari alla deviazione della media t = σx S/ n del campione da quella vera, divisa per la dev. std. 32 della media. Distribuzione t Student L’espressione analitica di queste distribuzione è definita a partire da un’altra distribuzione (Gamma function) e da un parametro v, che definisce il numero di gradi di libertà (numero di misure meno il numero minimo di misure necessarie a definire un indicatore statistico, N-1) ⎛ v +1 ⎞ Γ⎜ ⎟ ⎝ 2 ⎠ f (t , v) = 2 ( v +1) / 2 ⎛ v ⎞⎛ t ⎞ vπ Γ ⎜ ⎟⎜1 + ⎟ v⎠ ⎝ 2 ⎠⎝ Esempio: per definire il diametro di un tubo il numero minimo di misure necessarie per definire una stima statistica è 1 1. Se eseguiamo 10 misure, il numero di gradi di libertà è 9, cioè v=10-1. 33 •16 Distribuzione t Student La distribuzione t, può essere utilizzata, analogamente a quella normale, per stimare l’intervallo di confidenza della media a partire da un certo numero di misure, quando queste sono inferiori a 30. Il modo di procedere è del tutto analogo a quello utilizzato con la di t ib i distribuzione normale: l una volta lt scelta lt la l curva corrispondente i d t aii gradi di di libertà in questione (v), possiamo definire la probabilità che t cada nell’intervallo: −tα / 2 e + tα / 2 Ovvero: O eo P [ −tα / 2 ≤ t ≤ +tα / 2 ] = 1 − α 34 Distribuzione t Student Sostituendo l’espressione di t otteniamo: x −μ S S ⎤ ⎡ ⎤ ⎡ P ⎢ −tα / 2 ≤ ≤ +tα / 2 ⎥ = P ⎢ x − tα / 2 ≤ μ ≤ x + tα / 2 ⎥ =1−α S/ n n n⎦ ⎣ ⎦ ⎣ Che si può esprimere come: μ = x ± tα/ 2 S n con probabilità 1-α Dato che le tabelle complete che riportano i t le l di distribuzioni t ib i i t sono voluminose, vengono solitamente specificati solo alcuni valori di t funzioni di ν ed α. 35 •17 Distribuzione t Student Dal punto di vista operativo si tratta di introdurre un termine di amplificazione delle incertezze che permette di compensare una deficienza di attendibilità degli estimatori dovuta alla scarsa disponibilità di dati. Infatti con pochi dati si rischia di avere una non corretta stima delle code, vuoi perché siamo stati fortunati e i dati sono tutti nella zona centrale, vuoi perché siamo stati sfortunati e abbiamo troppi dati, statisticamente parlando, lontano dalla zona centrale. Con la deviazione standard determinata da questi dati e il numero di misure a disposizione (ridotto di 1), attraverso l’apposita tabella si ricava il coefficiente tα/2; che garantisce il livello di confidenza desiderato (1-α). In base a questo coefficiente si esprime l’incertezza: μ = x ± tα/ 2 S n 36 Distribuzione t Student 37 •18 La trattazione fornisce risultati praticamente sovrapponibili a quelli ottenuti con l’utilizzo della funzione di densità normale ( o ), quando si utilizzano numerosi eventi 2 coefficiente t-Student 10 50.0 50 0 70.0 90.0 98.0 99.5 99.9 1 10 Livello di confidenza 0 10 Numero di misure -1 10 0 1 10 2 10 3 10 10 30 100 1000 Andamento del coefficiente t-Student al variare del numero di gradi di libertà e del coefficiente di copertura α ( P=1- α ) confrontato con i valori asintotici di z 38 Esempio 2 Si vuole valutare il tempo medio di guasto di schermi VCR con un intervallo di confidenza del 95%, partendo da 6 misure del tempo di guasto, pari a ore: 1250,, 1320, 3 , 1542,, 1464,, 1275 e 1383 3 3 Si chiede di stimare la media e l’intervallo di confidenza della media per un livello di confidenza del 95%. Soluzione: Il valor medio e la deviazione del tempo di guasto valgono: x= 1250 + 1320 + 1542 + 1464 + 1275 + 1383 = 1372h 6 n S= ∑d i 2 i 1 n −1 = 114 h 39 •19 Esempio 2 I parametri sono intervallo di confidenza e numero di campioni: 95% ⇒ α = 0.05 ; v = n − 1 = 5 Dalla tabelle si ottiene: tν ,α/ 2 = t5,95% = 2.571 μ = x ± tα/ 2 S 114 = 1372 ± 2.571 = 1372 ± 120h n 6 Se non si fosse tenuto conto della correzione t-Student, ovvero si fosse applicata la distribuzione gaussiana il coefficiente, a parità di intervallo di confidenza, sarebbe stato 1.96 anziché 2.571. I due risultati sono alquanto differenti e quindi l’uso della gaussiana in queste situazioni è sbagliato! 40 Esempio 3 Se nell’esempio precedente si volesse limitare l’intervallo di confidenza sulla media a ±80 ore, sempre con un livello di confidenza pari al 95%, quante altre misure sono necessarie? Soluzione: L’intervallo di confidenza è dato da: IC = ±tν ,α / 2 S n Avendo eseguito 6 misure, dalla tabella di t-Student per v=6-1=5 e il 95% otteniamo t5,95% = 2.571 ; risolvendo rispetto al numero di misure avremo (quindi ipotizzando S e t costanti): 114 ±80 = ±2.571 n ⎛ 2.571 × 114 ⎞ n=⎜ ⎟ = 13.42 14 80 ⎝ ⎠ 2 Occorrerebbe quindi acquisire altre 8 misure e verificare che la nuova statistica rispetti il requisito IC ≤ 80 con probabilità del 95%. In realtà poiché con 14 misure la t si riduce, l’intervallo si riduce più del richiesto: necessario iterare per ottenere il numero di misure corretto. Si noti comunque che in tutto il procedimento il valore di S rimane costante per ipotesi. 41 •20 Esempio 3bis Soluzione: è necessario assumere costanti sia S che t ? S Abbiamo ottenuto t5,α /2 5 +1 = 120 Eseguendo il rapporto otteniamo: mentre vogliamo S tn ,α /2 n + 1 = 80 t 120 S 5,α /2 5 +1 S tn ,α /2 n +1 = 80 tn ,α /2 n + 1 = 0.667 t5,α /2 5 +1 La dipendenza da S è scomparsa e la divisione per la radice del numero di dati porta alla definizione di una prima colonna aggiuntiva contenente tν ,α / 2 ν +1 la normalizzazione per il coefficiente relativo alle misure iniziali ad una seconda colonna aggiuntiva che contiene le riduzioni degli intervalli di confidenza 42 Esempio 3bis ν tν … 5 6 7 8 9 10 11 12 13 14 t ν 95%/ rad(ν+1) 95% t ν 95%/ rad(ν+1) / t 5,95%/ rad(6) … 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.16 2.145 0.4285 0.349571 0.295625 0.256222 0.2262 0.202545 0.183417 0.167615 0.154286 0.143 1 0.815803 0.689907 0.597952 0.527888 0.472685 0.428044 0.391168 0.36006 0.333722 In questo modo la riduzione richiesta è ottenuta con 9 = 8+1 misurazioni in totale, q quindi solo 3 in più rispetto a quelle disponibili, contro le 8 previste con la prima soluzione In questo modo la sola ipotesi necessaria è che la deviazione standard dei dati, S , rimanga costante Ipotesi che andrà comunque verificata. 44 •21 χ2 distribution Anche la qualità della stima della varianza può risultare di interesse pratico. In questo caso vengono definiti due coefficienti moltiplicativi della deviazione standard calcolata sul campione, S, che permettono di stabilire t bili un valore l massimo i e minimo i i all’interno ll’i t d dell quale l d dovrebbe bb trovarsi la deviazione standard vera, σ, con un livello di confidenza, anche in questo caso, da esprimersi in termini tipo probabilistici, es. 95% ν S χν ,1−α/ 2 ≤σ ≤ ν S χν ,α/ 2 L’argomento non viene discusso se non per dire che si utilizza una distribuzione di densità di probabilità particolare, denominata χ2. Si rimanda chi fosse interessato alla bibliografia. 45 Da ricordare Problemi inerenti all’aleatorietà nelle misura. Come gestire la misura di una singola variabile a partire dai dati individuali di misura. Come definire il livello di aleatorietà da associare ad una misura intesa come valore medio di una serie di misure individuali. Come si capisce quando la definizione del modello è insufficiente. Come si correggere l’entità di aleatorietà della misura quando gli eventi disponibili sono pochi. 46 •22 Domande ? 47 •23
© Copyright 2024 Paperzz