Francesco Ciatara ELEMENTI di STATISTICA 2011 1 1 La distribuzione statistica Per illustrare e definire gli universi, per assemblare le unità in gruppi, sostituendo ai soggetti classi equivalenti, o meglio, costruire collettivi minori costituiti da unità omogenee rispetto alle modalità di uno o più caratteri, la statistica si serve di un particolare procedimento che è definito classificazione . Per ciò che concerne la misurazione dei caratteri, si possono distinguere quattro scale: 1. scala nominale , al posto delle unità si sostituiscono nomi o simboli; ci consente solamente di esprimere giudizi di uguaglianza o disuguaglianza . le modalità del carattere sono attributi non ordinabili se non in modo del tutto casuale (sesso, professione, etc.) 2. scala ordinale , si ha quando le modalità del carattere sono definite da attributi ordinabili in successioni non arbitrarie; essa ci permette di esprimere giudizi di uguaglianza o disuguaglianza, con l’opportunità di stabilire la maggioranza (>) o la minoranza (<) (titoli di studio, gradi militari, etc.) 3. scala intervallare , si ottiene se per ogni coppia di soggetti consecutivi disposti in scala ordinale, si può assegnare un numero idoneo a caratterizzare la loro distanza , senza però definire un’origine per il sistema di misura 4. scala proporzionale , è simile a quella intervallare, con la differenza che per essa è possibile stabilire un’origine oggettiva ; con questa scala ci si riferisce a dati quantitativi misurabili (numero vani abitazioni, età, reddito, etc.) e al contempo ci permette di utilizzare operazioni aritmetiche sia sulle differenze, che sulle stesse misure Per collocare i dati in tabelle (spoglio statistico) si usa la sistemazione: i principi che si devono seguire possono riguardare congiuntamente uno o più caratteri; per i caratteri qualitativi i principi si presentano in modalità di tipo ordinale o nominale,o in modalità temporali o spaziali; se si ha un solo carattere, sulla parte sinistra della tabella si sistema il criterio ordinatorio e nella parte destra le frequenze , ovvero il numero degli elementi che nella rilevazione hanno avuto la stessa modalità; certe volte, in questa colonna, si trovano le intensità totali o medie di uno specifico carattere. Per i caratteri quantitativi nella colonna di sinistra compare il cosiddetto criterio ordinatorio, che appunto è quantitativo ed è definito da singoli valori o classi di valori, nella colonna destra troviamo le frequenze. 2 Il valore centrale è dato dalla somma dei valori estremi di una classe diviso due. La dimensione del collettivo di studio è definita dalla somma delle frequenze assolute. Quando si voglia calcolare il numero delle classi in cui suddividere il campo di variazione (valore massimo – valore minimo) di un carattere quantitativo (generalmente continuo) si usa, a volte, la regola di Sturges : c = 1 + 3,3 lg N dove : N = numero delle osservazioni c = numero delle classi lg = logaritmo decimale In alcune situazioni interessa non tanto la frequenza assoluta di ogni singola modalità, quanto la frequenza cumulata dei casi che presentano una modalità minore di……. o minore o uguale a …… . Se le frequenze assolute o le frequenze cumulate vengono divise pe N, cioè il totale dei casi, ci troviamo di fronte alle frequenze relative che, per quanto riguarda le frequenze assolute,hanno per somma l’unità; se, infine, si moltiplicano le frequenze relative per 100 o per 1000, si ottengono le frequenze percentuali o per mille. Se un carattere, inoltre , è raggruppato in classi, queste possono avere ampiezze uguali o differenti; il rapporto tra la frequenza e l’ampiezza di una classe, ci offre la densità di frequenza . Volendo rappresentare graficamente una distribuzione di osservazioni raggruppate in classi, si ricorre all’istogramma che è formato da un insieme di rettangoli che hanno le basi uguali all’ampiezza delle classi e superfici uguali o proporzionali alle frequenze: da ciò, le altezze dei rettangoli sono uguali o proporzionali alla densità di frequenza. 3 2. Le medie Si possono distinguere due tipi di medie o indici di posizione: a – medie analitiche , se vengono presi in esame tutti i valori della variabile statistica (v.s.); b – medie lasche , se si scelgono valori particolari della successione. La media aritmetica ha come invariante la somma totale del carattere x1n1+ x2n2+ ….+ Xtnt che viene espressa come segue : x = ∑ x i ni N dove N = Σ ni Questa formula esprime la media aritmetica ponderata . Se le frequenze sono tutte uguali a 1, si ottiene la media aritmetica semplice : x = ∑ xi N La media aritmetica gode delle seguenti proprietà: 1 – La somma degli scarti dalla media aritmetica è uguale a 0, cioè: Σ ( xi - x ) = 0 2 - La somma dei quadrati degli scarti dalla media aritmetica risulta essere un minimo : Σ (xi - x )2 = minimo 4 3 - La media aritmetica, come tutte le medie analitiche, è interna (Cauchy), ossia il suo valore è sempre compreso tra l’intensità massima e l’intensità minima della successione, compresi gli estremi. 4 - La media aritmetica è omogenea , ovvero , se i termini di una v.s. vengono divisi o moltiplicati per una costante, anche la media risulta divisa o moltiplicata per quella costante. 5 - La media aritmetica è traslativa , cioè se i termini di una v.s. vengono aumentati o diminuiti di uno stesso numero, anche la media risulta aumentata o diminuita di quel numero; 6 - La media aritmetica è associativa : se i termini della v.s. vengono suddivisi in più insiemi, la media aritmetica totale della v.s. risulta essere uguale alla media aritmetica delle media parziali, pesate con la numerosità degli insiemi. Se i termini di una successione vengono espressi in classi, per il calcolo della media aritmetica si ricorre ai valori centrali di ciascuna classe. La media geometrica ha come invariante il prodotto dei termini di una distribuzione : x1n1 · x 2n2 · x 3n3 ·. . . . · x tnt ed è espressa da M g = N x1n1 x 2n2 . . . . x tnt dove N = Σni Anche essa è interna (Cauchy) , omogenea ed associativa , ma non è traslativa; risulta, inoltre, meno sensibile della media aritmetica alle variazioni delle intensità più elevate. 5 La media armonica ha come invariante la somma dei reciproci dei termini della successione : n n1 n2 ..... t x1 x 2 xt ed è espressa da : M ar = N n ∑ i xi dove N = Σni Anche questa media è interna, omogenea, associativa,ma non traslativa.. La media quadratica ha come invariante la somma dei quadrati della v.s. : x12 n1 + x 22 n2 + . . . . + x t2 nt ed è espressa da : 2 Mq = ∑ x i ni N dove N = Σni La media quadratica è interna, omogenea e associativa ma non è traslativa e risulta essere più sensibile della media aritmetica alle variazioni delle intensità più elevate. La moda è quella modalità del carattere cui corrisponde la frequenza ( o la densità di frequenza se le classi hanno ampiezza diversa) massima: è interna, omogenea e traslativa, ma non è associativa. 6 Un procedimento per determinare un valore approssimato della moda in una distribuzione secondo un carattere continuo, con classi di uguale ampiezza, è il seguente: si definisce subito la classe modale, con α si indica l’uguale ampiezza delle classi, con xc il valore centrale della classe modale e con FMo , F1 , F2 le frequenze rispettivamente della classe modale, della classe precedente e della classe seguente alla classe modale, ovvero: Mo = xc + F2 - F1 α 2 2FMo - F2 - F1 La mediana è un indice di posizione con il quale la distribuzione viene divisa in due parti uguali. Se il numero dei valori osservati è dispari , la mediana , come posizione, occupa il rango (posto) N +1 ; se il numero dei valori osservati, invece, è pari la posizione della 2 mediana corrisponde alla media aritmetica dei ranghi N N e ( + 1), ossia: 2 2 N N + + 1 2 2 Me = 2 In questo caso,la mediana risulta indeterminata, poiché si considera indeterminata la semisomma dell’intervallo mediano corrispondente ai due elementi di separazione. La mediana gode di una proprietà importante che viene così definita : la somma degli scarti assoluti dalla mediana risulta essere un minimo. I quantili ed i percentili sono indici di posizione simili alla mediana: 1 – terzili : sono in numero di due, corrispondono alle intensità che lasciano a sinistra 1 2 e dei casi ; 3 3 2 – quartili : in numero di tre,lasciano alla sinistra rispettivamente 1 2 3 , e dei casi ; 4 4 4 7 3 – decili: in numero di nove, lasciano alla sinistra , rispettivamente 1 2 9 dei , , .... 10 10 10 casi. 3. I rapporti statistici I rapporti statistici possono essere costruiti attraverso quozienti tra : - intensità totali o medie o tra frequenze di un unico fenomeno collettivo, relativamente a spazio e tempo; - intensità totali o medie o tra frequenze di due fenomeni diversi, di cui , almeno uno collettivo. Tali rapporti costituiscono un metodo di eliminazione , poiché fanno sì che il risultato prescinde dall’unità di misura del fenomeno posto al denominatore. Si possono avere : 1 – i rapporti di composizione, cioè rapporti tra valori parziali e valori totali; 2 – i rapporti di densità che confrontano un fenomeno ad una dimensione di spazio o di tempo (grado di affollamento nelle abitazioni,abitanti per km2, etc.) ; 3 – i rapporti di coesistenza , ovvero i rapporti tra due diversi fenomeni nello stesso posto o di un solo fenomeno in due differenti posti (rapporto import/ export, rapporto dei sessi alla data della nascita, etc.) ; 4- i rapporti di derivazione, ossia i rapporti che si hanno mettendo a confronto le intensità o frequenze di un fenomeno con le intensità o frequenze di un altro fenomeno che ne 8 costituisce il presupposto logico e necessario (rapporti di natalità, mortalità,, nuzialità, etc.). Possono essere generici o specifici: - generico,quando il fenomeno posto al denominatore può essere considerato un presupposto generico: es.: - specifico: 5 es; forza lavoro x100 = tasso generico di attività popolazion e forza lavoro in età tra 40 - 41 x 100 = tasso specifico di attività popolazion e in età tra 40 - 41 – i rapporti di durata , ovvero i rapporti tra la consistenza media di un fenomeno valutata in un determinato periodo e la media del relativo ammontare (entrate e uscite), sempre nello stesso periodo (durata media dei procedimenti giudiziari, durata media delle giacenze di depositi bancari) : (C0 + C1 ) consistenz a media del fenomeno = D= media dei flussi di Entrata e di Uscita 2 (E + U ) 2 dove: C0 = consistenza iniziale C1 = consistenza finale E = entrate U = uscite Si deve porre costante nel tempo, ed è questo il suo limite, considerata la consistenza del fenomeno, così come costanti per ogni giorno del periodo considerato devono essere i flussi in entrata. 6 – le variazioni percentuali : si ottengono rapportando l’incremento o decremento avuto in un determinato periodo all’intensità dello stesso fenomeno all’inizio del periodo; si moltiplicano, generalmente, per 100 o per 1000 (variazioni percentuali delle forze lavoro, della produzione, del reddito, etc.) Se si ipotizzano di conoscere per i territori A e B le seguenti informazioni statisticoeconomiche : 9 Territorio A Territorio B Arrivi 1.030 500 Presenze 9.250 6.000 di cui presenze straniere 5.000 4.000 Posti letto 120 80 Popolazione 530 300 Imprese 50 18 Possiamo chiederci: 1) in quale dei due territori l’offerta turistica è maggiore, 2) in quale la domanda, 3) dove tra A e B la presenza è più lunga, 4) dove è maggiore l’indice di imprenditorialità, 5) dove, maggiore, è la domanda straniera. Risposte: 1) In questo caso si utilizzerà un rapporto medio, ossia: ( Posti letto / Popolazione) · 1000 ovvero territorio A = (120/530) · 1000 = 226,4 territorio B = (80/300) · 1000 = 266,7 2) Anche qui, si usa un rapporto medio : 10 ( arrivi / popolazione ) ovvero territorio A = (1.030 / 530 ) = 1,94 territorio B = ( 500 /300 ) = 1,66 3) Il rapporto medio che qui si utilizza è del tipo (presenze / arrivi) ovvero territorio A = (9.250 /1.030) = 8,98 giorni = 9 giorni territorio B = (6.000 / 500 ) = 12 giorni 4) Qui dovrà essere usato un rapporto di derivazione, quale : ( imprese / popolazione ) · 10.000 ovvero territorio A = (50 / 530) · 10.000 = 943,39 territorio B = (18 / 300) · 10.000 = 600,0 5) si utilizzerà, in questo caso, un rapporto di composizione, cioè: ( presenze straniere /presenze totali) · 100 ovvero territorio A = (5.000 /9.250) = 54,05 % 11 territorio B = (4.000 / 6.000) = 66,7 % 7 – I numeri indici : possono essere temporali o spaziali, sono numeri puri, viene ovvero, annullato l’effetto dell’ordine di grandezza. Per fenomeni elementari, i numeri indici vengono costruiti dividendo la misura k1 di un fenomeno in un determinato tempo o luogo 1 , per la misura k0 dello stesso fenomeno in un altro tempo o luogo 0, scelto, questo, come base . Vengono, in generale, moltiplicati per 100 ( ma non sempre), ossia, come dire che il valore della base è uguale a 100 ( indice del prezzo dell’olio, indice della produzione del mais, etc.) I numeri indici possono essere a base fissa o a base mobile , se si concatenano (cioè, si moltiplicano successivamente) gli indici a base mobile, si ottengono gli indici a base fissa. 4. Variabilità, concentrazione La possibilità che un fenomeno possa assumere diverse modalità quantitative è chiamata variabilità , mentre con il termine mutabilità si indica l’attitudine di un carattere qualitativo ad assumere differenti modalità. Per quanto riguarda ,dunque, la variabilità, come per le medie, esistono due classi di misura: di posizione o analitiche ( o di calcolo) . Assumono, nelle prime, una certa importanza il campo di variazione e la differenza interquartilica : campo di variazione : differenza tra il valore massimo ed il valore minimo xmax - xmin differenza interquartilica : differenza tra il III˚ quartile ed il I˚ quartile Q3 – Q1 12 Per ciò che concerne la seconda classe (analitiche) , si distinguono anche qui due tipi di variabilità ; la dispersione e la disuguaglianza,cioè, - dispersione : identifica il maggiore o minore addensamento delle intensità osservate intorno ad un valore, quale la media; - disuguaglianza : caratterizza tra di loro la diversità delle differenti intensità, senza riferimento ad una media. In tale contesto si hanno due tipi di misure: - scostamenti medi - differenze medie 1 . Gi scostamenti medi vengono costruiti calcolando gli scarti Xi – M tra i valori della v.s., rapportati al totale delle frequenze, I più importanti sono: - scostamenti semplice medio dalla media aritmetica e dalla mediana Sx = ∑ x i - x ni N ; SMe = ∑ x i - M e ni N dove N = Σ ni - scostamento quadratico medio (dalla media aritmetica) (s.q.m.) s.q.m. = σ = 2 ∑ (x i - x ) n i N dove N = Σ ni 13 Il quadrato di questo ultimo costituisce la varianza (σ2).La somma dei quadrati degli scarti dalla media aritmetica,, o meglio, il numeratore della varianza, si chiama devianza. 2 . Le differenze medie si ottengono facendo le differenze in valore assoluto x i - x j delle intensità della v.s. prese due a due e sintetizzandole con la media aritmetica. Si hanno differenze medie senza ripetizione e differenze medie con ripetizione Tutte le misure precedentemente indicate vengono espresse in termini assoluti, ossia nella stessa unità di misura del fenomeno preso in considerazione. Per poter confrontare distribuzioni diverse, però, occorre ricorrere ad indici relativi di variabilità che costituiscono numeri puri. Se si divide, ad esempio, lo s.q,m, per la media aritmetica e lo moltiplichiamo per 100, si ottiene il coefficiente di variazione . C.V. = σ x ·100 Se si divide, inoltre, una misura assoluta per il suo massimo, si hanno misure relative che sono , anche loro, numeri puri e normalizzati ( valutati, cioè, tra 0 e 1). Un altro importante aspetto della variabilità, per caratteri trasferibili, è la concentrazione. Se si indicano le variabilità ausiliare - pi = frequenze cumulate relative; - qi = intensità cumulate relative al totale con esse si può costruire la curva di Lorenz . Per ciò che riguarda il calcolo della concentrazione, si possono usare : 14 a) l’indice o rapporto del Gini: N −1 ∑ (pi - q i ) R = i =1 N −1 ∑ pi i =1 b) la formula dei trapezi N −1 R * = 1 - ∑ (pi +1 - pi )(q i +1 + q i ) i =1 Entrambi variano tra 0 e 1. 5 L’interpolazione statistica N coppie di valori osservati (Xi ;Yi) esprimono una funzione statistica : dal punto di vista grafico, questa è espressa da una spezzata o da un istogramma; la corrispondenza tra X e Y può essere una distribuzione di frequenze, una serie cronologica, etc. L’interpolazione , in senso stretto, significa inserire uno o più dati tra gli altri già noti: i “buchi” nelle osservazioni vengono riempiti con il calcolo dei valori ignoti. Se siamo in presenza di una serie di dati privi di errore , si fa allora riferimento all’interpolazione per punti o interpolazione matematica , ovvero a) viene scelta una funzione teorica che meglio si adatti a descrivere il legame tra due variabili;in generale, si trova un polinomio di grado uguale al numero delle coppie meno 1; si può scegliere, comunque, una qualsiasi funzione, purché rispecchi l’andamento empirico espresso sul grafico; b) l’obbligo di far passare la funzione per quei punti (Xi ;Yi) e , dunque, nel comporre un sistema di tante equazioni quanti sono i parametri e i punti; nel risolvere tale sistema, si trovano i valori incogniti dei parametri. 15 Se, al contrario , almeno Y risulta affetta da errori con X predefinita siamo in presenza dell’interpolazione tra punti o interpolazione statistica : il numero dei parametri della funzione rappresentatrice è, in generale, inferiore a quello delle coppie disponibili dalle osservazioni. Per trovare i parametri, esistono diversi metodi, ma in questo contesto, si considerano solo i seguenti. In primo luogo,si fa riferimento ad un polinomio di grado x < s del tipo y* = β0 + β1x + β2x2 + . . . . . + βsxs dove y* sta ad indicare che il valore della intensità o frequenza che si ottiene sostituendo alla x la modalità osservata del carattere, è un valore teorico , ossia ottenuto approssimando la legge statistica con una legge matematica nota. 1 – metodo delle somme; si suddivide la distribuzione in tante subdistribuzioni quanti sono i parametri della funzione scelta ed imporre per ciascuna di esse, quanto segue somma dei valori teorici = somma dei valori osservati I valori teorici vengono trovati in funzione dei parametri, sostituendo,materialmente,nella funzione, al posto della variabile indipendente X, i valori del carattere presenti in successione nella tabella dei risultati dell’indagine in oggetto. Si ottiene un sistema di tante equazioni lineari quanti sono i parametri. 2 – metodo dei minimi quadrati : si pone la condizione che la somma dei quadrati degli scarti tra valori teorici dati dalla funzione scelta e i valori osservati sia minima. Se la funzione interpolatrice è y* = f (x; β0 , β1 , β2 , . . . . . ) il metodo dei minimi quadrati suggerisce che : G (β0 , β1 , β2 , . . . .) = Σ ( y *i - yi)2 = 16 2 n = ∑ [f (x i ; β 0 , β1 , β 2 , . . . ) - y i ] = minimo i =1 dove y* , i = 1,2, . . . n, sono i valori teorici, mentre yi , i = 1,2, . . .n , sono i valori osservati dalla variabile Y. Lo scopo dell’interpolazione statistica può essere perequativo (eliminazione o riduzione delle fluttuazioni dovute a errori di tipo casuale o ad altre cause di disturbo), extrapolativo (valutazione dell’ordine di grandezza della variabile Y anche fuori dal campo di osservazione della variabile X) e investigativo ( quando la funzione scelta sia sufficiente per esprimere, almeno in prima approssimazione, la legge statistica che governa il fenomeno oggetto di studio. 6. Relazioni statistiche Le relazioni statistiche sono lo studio di legami tra due o più fenomeni, di cui uno sia collettivo. Se siamo in presenza di due soli fenomeni X e Y, la rilevazione offre N coppie (xi , yi) di informazioni, di cui yi rappresenta le modalità del carattere statistico e Xi quelle della circostanza corrispondente. In generale,quando si è in questa situazione, i dati vengono presentati sotto forma di una tabella a doppia entrata. I caratteri che in una distribuzione doppia vengono distinti, sono quelli di indipendenza, dipendenza e interdipendenza che possono essere così descritti: 1) In una tabella a doppia entrata, si dice che tra due caratteri vi è indipendenza assoluta se per ogni determinazione di xi di X, le distribuzioni parziali e marginali di Y sono somiglianti (e viceversa), cioè se le frequenze relative non variano. Se, dunque, ni j , ni . , n . j , n sono rispettivamente le frequenze della generica combinazione ( xi , yi ) della colonna ima, della riga jma e la frequenza totale, deve essere 17 ni j = ni . n. j n Se ciò non si verifica per tutte le colonne della tabella a doppia entrata, il grado di dipendenza assoluta si ottiene calcolando, prima le frequenze teoriche ni' j di ciascuna casella nell’ipotesi di indipendenza, poi si ricavano le cosiddette contingenze , cioè la differenza ni j - n'i j , ossia tra le frequenze effettive e le frequenze teoriche, e, dunque, si possono utilizzare uno dei seguenti indici : χ Φ2 = 2 χ2 N (n =∑ ij - n'ij ) 2 (chi-quadrato) n'ij (indice di contingenza quadratico medio) = V= Φ2 = min [(r - 1); (c - 1)] χ2 n min [(r - 1); (c - 1)] (indice normalizzato di Cramer) (dove r e c indicano il numero delle colonne e delle righe) 2) Se Y è quantitativo e se si calcola, per ogni modalità xi, la media condizionata y , xi della relativa distribuzione parziale o condizionata, si ha indipendenza in media di Y su X, quando le medie parziali non variano. 3) Nelle variabili statistiche doppie, dove entrambi i caratteri sono quantitativi, o qualitativi, comunque riconducibili a caratteri quantitativi, l’analisi della dipendenza o dell’interdipendenza si ottiene attraverso la funzione di regressione e gli indici di correlazione. Se la funzione di regressione è lineare si ha la retta di regressione Y * = β0 + β yx X alla quale si associa, se anche X è un carattere statistico, una seconda retta 18 X * = β0' + β xy Y I parametri delle rette di regressione si ottengono con il metodo dei minimi quadrati. Se si utilizzano gli scarti dalla media aritmetica, xi = Xi - X e yi = Yi - Y , le equazioni delle rette di regressione, si riducono a : y i* = β yx x x *i = β xy y ; e con il metodo usato si giunge alla determinazione dei parametri : β yx = σ xy ∑ xi y i = 2 2 σx ∑ xi β xy = dove: ∑ x i y i = codevianza ; σ xy ∑ xi y i = 2 2 σy ∑yi e σxy = ∑ x i y i / N = covarianza L’interdipendenza fra i caratteri X e Y, che costituiscono la variabile doppia, si calcola con l’indice o coefficiente di correlazione di Bravais - Pearson che varia tra -1 e +1 : r = σ xy ∑ xi y i = 2 2 σx σy ∑ xi • ∑ y i 19 che può essere espresso, anche, come media geometrica dei due coefficienti di regressione lineare: r = ± β yx β xy Un indice, infine, che esprime la bontà dell’interpolazione lineare è l’indice di determinazione: R2 = devianza di regression e devianza totale = 1- devianza residua devianza totale Questo ultimo varia tra 0 e 1 e offre una misura di adattabilità del modello lineare ai dati osservati e, dunque, la frazione di variabilità di Y spiegata dall’effetto lineare della X; è uguale, in termini numerici, al quadrato del coefficiente di correlazione. Se, inoltre, due caratteri non sono rigorosamente quantitativi, ma sono ordinabili in senso crescente e ad ogni valore dell’uno e dell’altro si può attribuire un rango, ossia un numero d’ordine, si può allora verificare l’esistenza di una dipendenza dei ranghi ( o dipendenza monotòna) o correlazione tra ranghi usando l’indice di cograduazione di Spearman: rrango = 1 - dove 6∑ D2 ( N N2 -1 ) D = differenze tra i numeri d’ordine di corrispondenti valori di X e Y N = numero di coppie di valori (X,Y) formate con i dati. 20 7. Probabilità e variabili casuali In un esperimento aleatorio ( casuale) possono essere possibili diversi risultati (eventi) e, a “ priori” , il risultato è incerto. Un evento casuale che può essere distinto in eventi elementari (semplici) è un evento composto; due o più eventi si dicono incompatibili se il verificarsi di uno qualunque di essi, esclude il verificarsi degli altri nella stessa prova. Vengono detti necessari se in ogni prova almeno uno di essi deve verificarsi. Ovviamente , se gli eventi in esame sono incompatibili e necessari, allora in ogni prova uno ed uno solo di essi deve verificarsi, La maggiore o minore aspettativa che si possa verificare un evento aleatorio (E) ( il cui verificarsi è incerto) si dice probabilità e può essere indicata da un numero detto probabilità dell’evento E, espresso con p = P(E), variabile tra 0 e 1. Se l’evento è impossibile, allora p = 0, mentre se l’evento è certo p = 1. Gli eventi E1, E2, . . . En , si dicono indipendenti tra loro quando il verificarsi di uno di essi non ha alcuna influenza sulla probabilità di verificarsi degli altri e, viceversa, sono dipendenti quando il verificarsi di uno di essi influisce sulla probabilità di verificarsi degli altri.. La probabilità, dunque, è un numero che si attribuisce all’evento E per definire il grado di attesa circa il suo verificarsi. Secondo il tipo di approccio, esistono diverse definizioni di probabilità. 1) approccio classico ( o di Laplace) la probabilità è così definita: P(E) = n. dei casi favorevoli ad E n. dei casi possibili 2) approccio frequentistico o statistico ( von Mises) : la probabilità è legata alla legge dei grandi numeri o alla legge empirica del caso , dove si osserva che la frequenza relativa di un evento presenta, all’aumentare delle prove, con una regolarità statistica, una tendenza verso un valore costante che si identifica con la probabilità; 21 3)approccio soggettivo (de Finetti): la probabilità trae origine dal gioco d’azzardo ed esprime il grado di fiducia che un individuo coerente, sulla base delle informazioni di cui si dispone, attribuisce al verificarsi di un evento, Si hanno due principi fondamentali sulla probabilità degli eventi: a) principio delle probabilità totali, con il quale la probabilità dell’evento unione di due eventi E1U E2 ( dove U si legge o), è uguale alla somma delle loro probabilità, se sono eventi incompatibili; viceversa, se sono eventi compatibili, occorre sottrarre la probabilità dell’evento intersezione E1∩ E2 ( dove ∩ si legge e): P(E1U E2) = P(E1) + P(E2) ovvero P(E1U E2) = P(E1) + P(E2) - P(E1∩ E2) b) principio delle probabilità composte, in base al quale l’evento intersezione di due eventi E1∩ E2 è uguale al prodotto delle loro probabilità, se sono eventi indipendenti : P(E1∩ E2) = P(E1) · P(E2) Se sono dipendenti, si ha : P(E1∩ E2) = P(E1) · P(E2/ E1) 22 dove P(E2/ E1) è conosciuta come la probabilità di E2 condizionata al verificarsi di E1. Una variabile casuale discreta è una variabile X che assume determinati valori x1, x2, . . . xn, con probabilità rispettivamente p1, p2, . . . . pn, dove gli eventi associati ai risultati x1, x2, . . . xn sono necessari, per cui Σ pi = 1 La funzione p(xi) che fa corrispondere ad ogni xi la sua probabilità, si definisce funzione di massa o legge di probabilità della variabile casuale discreta, La funzione F(x), cioè F(x) = p(x1) + p(x2) + . . . . + p(xr) r≤n viene detta funzione di ripartizione che esprime la probabilità che la v.c. assuma valori inferiori o uguali ad un valore prefissato. Per una v.c. discreta si definiscono : 1) il valore medio E(X) = µ = Σ (xi) p(xi) 2) la varianza: E(X - µ)2 = σ2 = Σ (xi - µ)2 p(xi) 3) lo scarto quadratico medio (s.q.m) σ= ∑ (xi - µ)2 p(xi) La legge di probabilità di una variabile casuale continua è data da una funzione matematica p(xi), definita in un intervallo finito o infinito (a,b) detta funzione di densità di 23 probabilità, ovvero: p(x)dx esprime la probabilità che la variabile assuma un valore compreso tra x e x + dx : x2 P (x1 ≤ x ≤ x2 ) = ∫ p(x)dx x1 E’ naturale che per una v.c. continua si ha : 1) il valore medio ; b E(X) = µ = ∫ x p(x) dx a 2) la varianza : b ∫ E (X - µ )2 = σ2 = (X - µ )2 p(x) dx a Tra le v.c. occorre citare: a) la variabile di Bernoulli (discreta) che trae origine dal problema delle prove ripetute. Se si analizza un esperimento casuale dove l’evento E ha la probabilità p di verificarsi e la probabilità q = 1 – p di non verificarsi, effettuando n prove, possono aversi x = 1, 2, . . . . n successi le cui probabilità dipendono dai termini dello sviluppo del binomio di Newton : p(x) = p x (1 − p)n - x 24 Se interessa la probabilità di ottenere una sequenza di successi, indipendentemente dall’ordine con cui tali risultati si presentano, si dovrà calcolare la probabilità della coppia n = n (x, n-x) addizionando tutte le probabilità delle ( coefficiente binomiale) sequenze del tipo x considerato, ottenendo n P(x) = px (1 – p)n – x , x 0 < ns 0 ≤ x ≤ ns nota come la distribuzione bernoulliana binomiale Il valor medio e la varianza della distribuzione precedente sono dati da : E(X) = np Var.(X) = σ2 = np(1 – p) o = npq b) la variabile normale o gaussiana ( continua) ha la seguente funzione di densità : p(x) = 1 σ 2π e - (x - µ )2 2σ2 di parametri µ e σ2, che può essere ricondotta alla forma standardizzata (v.c. standardizzata) p(z) = 1 2π e - 1 2 z 2 di media µ = 0 e varianza σ2 = 1, ottenuta attraverso la trasformazione (scarto standardizzato) z= x− µ σ 25 8. Il campionamento e teoria della stima La forma più elementare di campionamento è rappresentata dal campione casuale semplice , dove la probabilità di estrazione è sempre la stessa per ogni elemento. Si può avere una estrazione con ripetizione (bernoulliana) e estrazione senza ripetizione (esaustiva). I campioni possono essere ordinati (quando l’ordine di estrazione è essenziale) e non ordinati. L’insieme di campioni di un’ampiezza data n che si possono estrarre da una determinata popolazione di numerosità N , attraverso una predeterminata procedura casuale, costituisce l’universo dei campioni . Un aspetto fondamentale dell’inferenza statistica è quello relativo alla teoria della stima statistica di un parametro ϑ della popolazione. La stima può essere effettuata : in modo puntuale, usando un opportuno stimatore o formula, il cui valore, ricavato dai dati del campione estratto, ci offre la stima di ϑˆ . A tale stimatore possibilmente si richiede di essere: 1) corretto ( il valor medio delle stime campionarie ottenute da tutti i possibili campioni dell’universo di partenza, deve coincidere con il valore del parametro da stimare); 2) efficiente (la distribuzione delle stime campionarie che ci fornisce, non deve avere una variabilità rilevante), 3) consistente (( al crescere di n , la stima del parametro deve tendere al valore del parametro nella popolazione), 4) sufficiente (deve utilizzare tutte le informazioni offerte dal campione. per intervallo, si fa riferimento a due valori come estremi di un intervallo entro il quale, con una certa probabilità (livello di confidenza), cade il valore del parametro incognito. 26 Se si vogliono ottenere stime per intervallo è necessario utilizzare la distribuzione campionaria delle stime: Se questa è conosciuta, una volta stabilita una probabilità α, è possibile scegliere in quale intervallo può verificarsi la doppia limitazione ϑ - t ≤ ϑˆ ≤ ϑ + t Se si sottrae ϑ + ϑˆ dai termini della disuguaglianza e cambiando il verso, si ottiene l’intervallo fiduciario ϑˆ - t ≤ ϑ ≤ ϑˆ + t che varia al variare del campione e, dunque, della stima ϑˆ ; una percentuale di intervalli pari ad α avranno al loro interno il parametro ϑ . Se si considera un solo parametro µ, media aritmetica della popolazione,, si ha: 1 ∑ x i (media aritmetica), esso è corretto, n 1) utilizzando lo stimatore 2) la varianza della distribuzione campionaria delle stime µˆ è: σ µ2ˆ = σ µ2ˆ = 3) σ2 n σ2 N - n n N -1 ipotesi di estrazione con ripetizione; ipotesi di estrazione senza ripetizione. se la popolazione è distribuita normalmente, la distribuzione campionaria delle stime è normale, 4) se la popolazione non è distribuita normalmente, la distribuzione campionaria delle stime non è normale, ma tende alla normalità al crescere dell’ampiezza del campione ( teorema del limite centrale) , 27 5) se la varianza della popolazione è nota, lo scarto standardizzato X -µ σ X -µ ovvero σ n n N-n N -1 si distribuisce secondo una normale standardizzata quando la popolazione originaria è distribuita normalmente; si distribuisce sostanzialmente secondo una normale standardizzata quando la popolazione originaria non è distribuita normalmente, ma il campione è sufficientemente numeroso (> 30 – 50 unità), 6) se la varianza della popolazione non è nota, usando la sua stima corretta (secondo Bessel) tratta dal campione, ∑ (xi - µˆ ) S = 2 2 n -1 lo scarto standardizzato X -µ S S n si distribuisce secondo una X -µ ovvero n N-n N -1 “ t “ di Student se la popolazione è distribuita normalmente e se il campione è piccolo; se il campione è grande, lo scarto si distribuisce sostanzialmente secondo una normale standardizzata anche se la popolazione non è distribuita normalmente. 28
© Copyright 2024 Paperzz