Lezione 6

9‐04‐2014
Mercoledi prossimo, 16.04, lezione 14-16 in aula
Mercoledi 23.04 non c’è lezione
A partire da mercoledi 30.04
scambio “tutorato fisica – laboratorio di PI”
Quindi mercoledi 30.04 fate il tutorato di fisica.
Siccome giovedì 1.5 è festivo, dopo il 16.04 ci vediamo l’8
maggio nel lab. P13.
Mercoledi prossimo, 16.04, lezione 14-16 in aula
Mercoledi 23.04 non c’è lezione
A partire da mercoledi 30.04
scambio “tutorato fisica – laboratorio di PI”
Quindi mercoledi 30.04 fate il tutorato di fisica.
Siccome giovedì 1.5 è festivo, dopo il 16.04 ci vediamo l’8
maggio nel lab. P13.
Il 15 maggio prima prova (fino al
riepilogo statistiche)
1
9‐04‐2014
  Abbiamo
ricordato alcuni concetti di
probabilità e distribuzioni
Variabile aleatoria (o casuale): quantità il cui
valore dipende dal risultato di un
esperimento (ad es., “numero delle volte in
cui esce testa”).
V.a. discrete = assume valori
in un insieme numerabile
(ad es., lancio del dado,
estrazione di una pallina da
un’urna)
V.a. continue= assume
un’infinità non numerabile di
valori (intervallo reale), ad
es. durata (peso, diametro…)
di un pezzo meccanico…
2
9‐04‐2014
  Quando
si fanno corrispondere ai valori
che X può assumere i rispettivi livelli di
probabilità, si ha la distribuzione di
probabilità
  Funzione di (massa o di) probabilità: il
legame di dipendenza tra i valori che la
variabile X può assumere (P(X=x)=1/2…)
  Funzione di ripartizione: associa ad ogni
valore x la probabilità che X assuma
valori ≤ x.
  Uniforme
discreta (ad es., estrazione
casuale di una pallina tra 1 e N, esiti di un
lancio del dado)
  Bernoulli (esperimento con due esiti
disgiunti)
  Binomiale (serie di prove di Bernoulli
indipendenti con la stessa probabilità di
successo)
3
9‐04‐2014
  A
partire dall’insieme dei valori reali che
X può assumere, la funzione densità di
probabilità descrive come la variabile di
distribuisce rispetto al supporto
  Modelli probabilistici nel continuo: uniforme,
normale (o gaussiana)
  Distribuzione
χ2
  Distribuzione t di Student
  Distribuzione F di Fisher (per la
regressione)
4
9‐04‐2014
Una macchina produce tondini metallici il cui diametro è
una variabile normalmente distribuita con media 6 cm e
deviazione standard 0,2 cm. Si vuole determinare la
probabilità che il diametro di un tondino differisca dal
valore medio, in più o in meno, di almeno 0,5 cm.
Una macchina produce tondini metallici il cui diametro è
una variabile normalmente distribuita con media 6 cm e
deviazione standard 0,2 cm. Si vuole determinare la
probabilità che il diametro di un tondino differisca dal
valore medio, in più o in meno, di almeno 0,5 cm.
…quello che quindi si vuole calcolare è
P(X≤5,5; X>6,5)=P(X≤5,5)+P(X>6,5)=
= P(X≤5,5)+[1-P(X ≤ 6,5)]
5
9‐04‐2014
In Excel occorre usare 2 volte la funzione, prima su 5,5 e
poi su 6,5
 
 
 
DISTRIB.NORM(5,5; 6;0,2;vero)
DISTRIB.NORM(6,5; 6;0,2;vero)
E poi alla prima aggiungere il risultato di 1- la seconda
PROVATE
Inferenza statistica
Indagine campionaria: indagine svolta su una parte
dell’intero collettivo da indagare (popolazione)
Estendere i risultati a tutta la popolazione: i risultati
ottenuti per il campione sono approssimativamente
validi per tutta la popolazione
6
9‐04‐2014
Inferenza statistica: insieme di metodi che consentono di
precisare
“a posteriori” i margini di tale approssimazione
oppure
“a priori” l’articolazione e il dimensionamento ottimale
del campione
  Stima dei parametri
  Verifica di ipotesi sui
parametri
Problemi
inferenziali
parametrici
sulla base dei risultati del campione, si valutano i parametri che
caratterizzano la distribuzione del carattere nella popolazione (a
posteriori) o se ne verificano le congetture (a priori) su tali parametri
  Verifica
di altre ipotesi
riguardano aspetti della distribuzione del carattere nella
popolazione non suscettibili di essere espressi dai parametri
che compaiono, che valgano per qualsiasi forma funzionale
di tale distribuzione
Problemi
inferenziali
nonparametrici
7
9‐04‐2014
 
Si distingue:
◦  Stima puntuale dei parametri (consiste nella migliore valutazione
di un parametro, ottenibile sulla base delle osservazioni
campionarie). Parametri: media, frequenza, differenze tra medie.
◦  Intervalli di confidenza (stima di un intervallo di confidenza in cui
si trova, con una prefissata probabilità, il vero e ignoto parametro
da stimare).
◦  Dimensione del campione
Nell’inferenza statistica parametrica si formulano ASSUNZIONI sui
valori di un parametro incognito (media, frequenza, etc.) di una
distribuzione di probabilità di funzione NOTA.
La verifica statistica delle ipotesi vaglia il grado di attendibilità che può
essere attribuito loro.
8
9‐04‐2014
Si tratta di usare metodi (detti non parametrici) che non
usano alcuna informazione sulla distribuzione di
probabilità.
Dunque sono utili quando non si conosce la distribuzione
di probabilità della popolazione e non è possibile usare
test che coinvolgono ipotesi sui parametri della
distribuzione.
Vedremo come realizzare un test con Excel per la “bontà
dell’adattamento”: il test del χ2.
 
I test di buon adattamento, in generale, hanno lo scopo di verificare
se una variabile in esame abbia o meno un certa distribuzione
ipotizzata sulla base, come al solito, di dati sperimentali.
 
Si usa per confrontare un insieme di frequenze osservate in un
campione, con le analoghe quantità teoriche ipotizzate per la
popolazione
9
9‐04‐2014
 
I test di buon adattamento, in generale, hanno lo scopo di verificare
se una variabile in esame abbia o meno un certa distribuzione
ipotizzata sulla base, come al solito, di dati sperimentali.
 
Si usa per confrontare un insieme di frequenze osservate in un
campione, con le analoghe quantità teoriche ipotizzate per la
popolazione
Confronto tra frequenze
empiriche e teoriche
Mediante il test è possibile misurare quantitativamente il grado
di deviazione tra i due insiemi di valori
I risultati ottenuti nei campioni non sempre concordano
esattamente con i risultati teorici attesi
secondo le regole di probabilità, anzi, è ben raro che
questo si verifichi.
Per esempio: benché considerazioni teoriche ci portino
ad attenderci 50 teste e 50 croci da 100 lanci di una
moneta, è raro che questi risultati siano ottenuti
esattamente, ma nonostante questo non si deve per
forza dedurre che la moneta sia truccata!
10
9‐04‐2014
 
Confrontiamo tra loro le frequenze empiriche e
quelle teoriche verificando l’ipotesi nulla H0 , ossia
che tra le probabilità teoriche e le frequenze relative
empiriche ci sia un buon accordo
 
L’ipotesi alternativa H1 è che la distribuzione teorica
non si adatta alla distribuzione empirica
Un amico vi dice:
Questa moneta è equa. Infatti su 1000 lanci ho
ottenuto 499 "testa" e 501 "croce".
Come possiamo valutare la verosimiglianza di
quanto raccontato dall'amico con la previsione
teorica?
Col test del χ2 vedremo quanto il dato
osservato concorda col dato teorico, e
potremo trarre le nostre conclusioni.
11
9‐04‐2014
E’ una distribuzione di probabilità continua, ottenuta come somma
dei quadrati di n variabili casuali indipendenti, con media 0 e varianza
1
La funzione DISTRIB.CHI viene calcolata
come DISTRIB.CHI = P(X>x), dove X è
una variabile casuale di χ2.
In Excel esistono le funzioni:
DISTRIB.CHI(x;gradi_libertà), dove x è il valore in cui
calcolare la distribuzione
E’ una distribuzione di probabilità continua, ottenuta come somma
dei quadrati di n variabili casuali indipendenti, con media 0 e varianza
1
La funzione DISTRIB.CHI viene calcolata
come DISTRIB.CHI = P(X>x), dove X è
una variabile casuale di χ2.
In Excel esistono le funzioni:
DISTRIB.CHI(x;gradi_libertà), dove x è il valore in cui
calcolare la distribuzione
INV.CHI(probabilità;gradi_libertà) che ne calcola la sua inversa.
Per esempio:
DISTRIB.CHI(0,004;1) = 0,950
INV.CHI(0,950;1) = 0,004
Se probabilità è =
DISTRIB.CHI(x;...), allora
INV.CHI(probabilità;...) sarà = x.
12
9‐04‐2014
Test del χ2
di Pearson:
Nell’esempio della moneta, prendiamo come
frequenza teorica quella della distribuzione
binomiale: si ottiene testa (o croce) con
probabilità p=1/2
α è fissato nell’esperimento.
Nel caso più semplice è definita come la probabilità di
accettare o rigettare l' ipotesi nulla.
Se il test di verifica d'ipotesi dà un valore p <α, l'ipotesi
nulla è rifiutata.
Per esempio, se si sostiene che c'è solo una possibilità su
mille “qualcosa” possa accadere per coincidenza, viene
usato un livello di significatività dello 0,1%. Più basso è il
livello di significatività, maggiore è l'evidenza.
13
9‐04‐2014
Confrontare
χ2 col valore
teorico nel
caso di moneta
non truccata
Il valore critico lo posso ottenere dalla tabella dei valori della distribuzione χ2,
in funzione di α e dei gradi di libertà, o calcolarlo direttamente con
INV.CHI(probabilità; gradi_libertà), dove
gradi di libertà = quantità delle frequenze sperimentali che devo conoscere
direttamente.
Nel nostro esempio:
α = 0,05 e gradi di libertà = 1 (perché basta conoscere p per ottenere q=1-p)
χ2 c = INV.CHI(0,05;1) = 3,841458821
14
9‐04‐2014
Come ottenere i valori in tabella con Excel?
χ20,950 = 0,004
DISTR.CHI(0,004;1) = 0,950
INV.CHI(0,950;1) = 0,004
χ20,050 = 3,841
DISTR.CHI(3,841;1) = 0,050
INV.CHI(0,050;1) = 3,841
χ20,050 corrisponde alla probabilità 5%
χ20,010 corrisponde alla probabilità 1%
χ20,950 corrisponde alla probabilità 95%
ACCETTO se χ2 < χ2C
Il valore della funzione test
Il valore critico
(come indica il libro di Excel)
χ2 = 0,004 = χ20,950
χ2C = 3,841 = χ20,050
0,004 < 3,841 quindi ACCETTO.
Equivalentemente:
ACCETTO se 0,95 > 0,05 = α livello di significatività scelto; ovvero
ACCETTO se 95% > 5%
15
9‐04‐2014
ACCETTO se χ2 < χ2C
Il valore della funzione test
Il valore critico
(come indica il libro di Excel)
χ2 = 0,004 = χ20,950
χ2C = 3,841 = χ20,050
0,004 < 3,841 quindi ACCETTO.
Equivalentemente:
ACCETTO se 0,95 > 0,05 = α livello di significatività scelto; ovvero
ACCETTO se 95% > 5%
In Excel la percentuale 0,950 la posso ottenere direttamente:
0,950 = TEST.CHI(int_effettivo; int_previsto)
dove int_effettivo e int_previsto sono rispettivamente le tabelle delle
frequenze empiriche e teoriche
Quindi più velocemente:
ACCETTO se TEST.CHI(int_effettivo; int_previsto) > α
TEST.CHI(B2:B3;D2:D3) = 0,950
Indica direttamente che il valore di χ2 (0,004) corrisponde a χ20,950
Dato che 0,950 > 0,05: ACCETTO!
16
9‐04‐2014
Abbiamo ottenuto:
χ2 = χ2 0, 950
In realtà ciò indica che la discordanza dal valore
teorico è addirittura un po’ «troppo bassa»: il
valore è piuttosto «anormale» e quindi improbabile
(è sensato supporre che … l’amico ci abbia detto una
frottola!).
Effettuando 50 lanci di un dado si sono ottenuti:
9
11
5
8
10
7
uno
due
tre
quattro
cinque
sei.
Vogliamo valutare se il dado è equo.
Confrontiamo le frequenze ottenute con quelle teoriche della
distribuzione uniforme, corrispondente ai dadi equi. Per valutarne
la discordanza, calcoliamo il relativo χ2.
17
9‐04‐2014
Cosa ci dice 2,8 sulla equità del dado?
Studiando la distribuzione χ 2 teorica, cioè come si distribuirebbe
il valore di χ2 se il dado fosse equo (per esempio su 5000 lanci) si
otterrebbe il seguente istogramma
Dove si colloca il nostro 2,8?
Si nota che 2,8 è un valore abbastanza centrale. Anzi studiando i percentili si trova
che 2,8 è il 25° percentile.
Quindi posso ACCETTARE l’ipotesi che il dado sia equo!
Per valutare ciò con Excel procediamo come segue.
18
9‐04‐2014
Confrontare
χ2 col valore
teorico nel
caso di dadi
equi
Nel nostro esempio (seguendo il libro di Excel che non usa la funzione TEST.CHI):
gradi di libertà = 5 (perché occorre conoscere 5 frequenze per ottenere anche la sesta)
INV.CHI(0,05;5) = 11,07049769
2,8 < 11,07049769 quindi ACCETTO
19
9‐04‐2014
TEST.CHI(B2:B7;D2:D7) = 0,731
Indica direttamente che il valore di χ2 corrisponde a χ20,731
Dato che 0,731 > 0,05: ACCETTO!
Uso la funzione: SE(D11>D10; "ACCETTO H0";"RIFIUTO H0")
Consideriamo una variabile X con distribuzione di
probabilità da verificare.
1. 
2. 
3. 
Effettuiamo n misurazioni della variabile.
Raggruppiamo i valori in k classi/modalità,
ottenendo una distribuzione empirica delle
frequenze.
Confrontiamola con una distribuzione teorica
ipotetica e valutiamo così il grado di
adattamento tra le due distribuzioni.
20
9‐04‐2014
 
Confrontiamo tra loro le frequenze empiriche e
quelle teoriche verificando l’ipotesi nulla H0 , ossia
che tra le probabilità teoriche e le frequenze relative
empiriche ci sia un buon accordo
 
L’ipotesi alternativa H1 è che la distribuzione teorica
non si adatta alla distribuzione empirica
Pearson ha individuato la funzione per effettuare il
test. Si tratta di considerare differenza fra i dati
osservati e quelli attesi
La differenza al
numeratore della frazione viene elevata al
quadrato: così elimino i numeri negativi.
Questo conto va fatto per tutti i dati osservati e i
valori vanno sommati.
21
9‐04‐2014
“Ingredienti” per il test (ogni ingrediente in una colonna)
  ai
modalità (classi) della distribuzione empirica (i=1,…,k)
  n
numero di elementi del campione
  fi
frequenza assoluta empirica dell’i-esima modalità
  fri=fi /n
frequenza relativa empirica dell’i-esima modalità
  pi
probabilità teorica dell’i-esima modalità
  n*pi
frequenza assoluta teorica dell’i-esima modalità
  Calcoliamo
  Calcoliamo il valore critico χ2c con INV.CHI(α ; gdl) dove
α = livello di significatività richiesto, e gdl=gradi di libertà;
gdl=k-1 se sono noti i parametri della distribuzione teorica;
gdl=k-1-r se sono r i parametri da stimare usando le osservazioni
 
Se χ2<χ2c «Accetta l’ipotesi nulla»; altrimenti «Rifiuta l’ipotesi nulla»
1. 
2. 
3. 
4. 
Inserire i dati
Calcolare le frequenze osservate (int_effettivo)
Calcolare le frequenze attese (int_previsto)
Usare la funzione
TEST.CHI(int_effettivo; int_previsto)
Il valore ottenuto è il valore della probabilità che la differenza tra i
valori osservati e quelli attesi, verificato con il test chi-quadro, sia
dovuto al caso, ovvero la probabilità che l’ipotesi nulla sia vera.
Infine valutare se accettare l’ipotesi oppure no.
Si accetta l’ipotesi nulla se tale valore è maggiore del
livello di significatività α voluto.
22
9‐04‐2014
Durante un certo periodo, un’apparecchiatura è stata
sottoposta a controllo: in 100 lotti è stata registrata la
seguente distribuzione di pezzi difettosi
Pezzi
difettosi
0
1
2
3
4
5
6
Lotti
11
32
26
14
12
4
1
Si vuole verificare, ad un livello del 5%, se è possibile adattare una
distribuzione binomiale a questa distribuzione empirica
 
 
 
Introdurre i dati (modalità=numero pezzi difettosi; frequenze
empiriche=lotti)
Calcolare la somma delle frequenze (n; sarà 100)
Per calcolare la probabilità teorica, in questo caso binomiale,
occorre usare 7 volte la funzione
DISTRIB.BINOM(num_successi;prove;probabilità_s;cu
mulativo)
◦ 
◦ 
◦ 
◦ 
Num_successi = numero di successi in prove = 0,1,…,6
Prove = numero di prove indipendenti = 100
Probabilità_s= probabilità di successo per ciascuna prova
Cumulativo = FALSO
Come calcolare la probabilità di successo?
23
9‐04‐2014
Per calcolare p ricordiamo che µ = n p, dove µ è il valor medio, da cui p = µ / n.
Occorre quindi: sommare i prodotti delle modalità per le rispettive frequenze
empiriche e dividere questa quantità per n per ottenere µ . Dividendo il
risultato per n si ottiene p. Avremo:
modalità
0
1
2
3
4
5
6
n=
frequenze
empiriche
11
32
26
14
12
4
1
100
k · fe
0
32
52
42
48
20
6
200
µ =
2
p=
0,02
Usando per 7 volte la funzione
DISTRIB.BINOM(num_successi;prove;probabilità_s;cum
ulativo) ottengo le probabilità teoriche; moltiplicandole per n
ottengo le frequenze teoriche.
24
9‐04‐2014
Senza la funzione TEST.CHI
◦  Valutare (fe - ft)2/ ft per ogni riga
◦  Calcolare la somma χ2 (funzione test)
◦  Calcolare esplicitamente χ2 c = INV.CHI(α;gdl)
◦  Poi valutare se si accetta l’ipotesi: accetto se χ2 c > χ2
6
12,592
25
9‐04‐2014
TEST.CHI restituisce la probabilità che un valore del dato statistico χ2 equivalente al
valore calcolato mediante la formula venga casualmente ottenuto in base al
presupposto di indipendenza.
Nel calcolo di tale probabilità, TEST.CHI utilizza la distribuzione χ2 con il numero
adeguato di gradi di libertà, gdl.
TEST.CHI(int_effettivo; int_previsto)
Se le tabelle int_effettivo e int_previsto hanno un diverso numero di dati, viene
restituito il valore di errore: #N/D.
Altrimenti, siano
r = numero di righe
c = numero di colonne
delle tabelle int_effettivo e int_previsto. Negli esempi precedenti c = 1.
Se r > 1 e c > 1, allora gdl = (r - 1)(c - 1).
Se r = 1 e c > 1, allora gdl = c - 1
Se r > 1 e c = 1, allora gdl = r - 1.
r = c= 1 non è consentito e viene restituito il valore di errore #N/D.
In una indagine epidemiologica si sono classificate 100 persone secondo i
seguenti caratteri:
A = influenzato durante l'inverno,
E = di norma usa l'autobus,
ottenendo la seguente tabella
Controllare con il test chi-quadro la dipendenza statistica tra A ed E
con un livello di fiducia del 95%.
Il livello di significatività è definito
come la probabilità di accettare o
rigettare l' ipotesi nulla.
26
9‐04‐2014
 
 
 
Il "test χ2" è usato per valutare l'adattamento di una certa
distribuzione teorica a una serie di dati sperimentali.
Se si assume come regione di non rifiuto (o, meglio, di coerenza o
conformità tra dati e teoria) il 95%, si dice anche che l'ipotesi viene
testata con un livello di confidenza (o di fiducia) del 95%: è la
probabilità che, se l'ipotesi fosse "vera", la regione di coerenza
contenga il valore di χ2, ovvero il test dia esito positivo.
Il complemento a 1 del livello di confidenza è l'ampiezza della
regione complementare, cioè della regione critica (o di incoerenza);
tale ampiezza viene invece chiamata livello di significatività (in
questo caso è: 1–95%=5%): è la probabilità che, se l'ipotesi fosse
"vera", la regione di incoerenza contenga il valore di χ2, ovvero il
test dia ("erroneamente") esito negativo.
 
 
Inseriamo i dati in una tabella Excel
Calcoliamo la tabella delle frequenze attese, cioè quelle
che avremmo se non ci fosse nessuna particolare
relazione fra “prendere l’autobus” e “essere influenzati”.
Si procede in questo modo:
Nota: in questo esempio la tabella delle frequenze empiriche ha r = 2 e c = 2.
27
9‐04‐2014
 
 
Inseriamo i dati in una tabella Excel
Calcoliamo la tabella delle frequenze attese, cioè quelle che avremmo se
non ci fosse nessuna particolare relazione fra “prendere l’autobus” e
“essere influenzati” (i due caratteri fossero indipendenti). Si procede in
questo modo:
totale riga1 * totale colonna1 /
totale generale
totale riga1 * totale colonna2 /
totale generale
totale riga2 * totale colonna1 /
totale generale
totale riga2 * totale colonna2 /
totale generale
Frequenze empiriche
 
 
Frequenze teoriche
Inseriamo i dati in una tabella Excel
Calcoliamo la tabella delle frequenze attese, cioè quelle che avremmo se
non ci fosse nessuna particolare relazione fra “prendere l’autobus” e
“essere influenzati” (i due caratteri fossero indipendenti). Si procede in
questo modo:
totale riga1 * totale colonna1 /
totale generale
totale riga1 * totale colonna2 /
totale generale
totale riga2 * totale colonna1 /
totale generale
totale riga2 * totale colonna2 /
totale generale
Frequenze empiriche
Frequenze teoriche
influenzato
non
influenzato
usa l'autobus
40,92
25,08
non usa l'autobus
21,08
12,92
Nota: 40,92 = 66%*62%*100 = frequenza teorica di A&B su 100 persone
28
9‐04‐2014
Siccome 15,59 > 3,84
allora rifiuto l’ipotesi nulla
Usando TEST.CHI:
Siccome 0.00007 < 0,05
allora rifiuto l’ipotesi nulla
29
9‐04‐2014
 
Se desideriamo controllare tutta la tabella insieme, cioè
confrontare l’eventuale effetto di variazione nelle frequenze
causato da tutte le situazioni insieme, inseriamo in una cella la
funzione:
= TEST.CHI(tabella frequenze osservate; tabella frequenze attese)
 
se vogliamo controllare una situazione alla volta, cioè verificare
l’effetto, la significatività di una situazione alla volta, inseriamo in una
cella la funzione:
= TEST.CHI(colonna frequenze osservate; colonna frequenze attese)
30