SISTEMA INFORMATICO DI TRACCIABILITÀ DELLE

ESERCIZIO
La tabella seguente riporta la distribuzione di 45 auto secondo la lunghezza e la dimensione del bagagliaio
Lunghezza auto (m)
Capacità bagagliaio
(dm3)
3-3,5
3,5-4
4-4,5
Totale
90-160
8
1
0
9
160-230
3
8
1
12
230-300
1
15
2
18
300-370
0
1
5
6
12
25
8
45
Totale
a) Determinare, per entrambe le variabili, il valore medio o i valori medi che si ritengono opportuni in relazione alla
tipologia di carattere.
b) Determinare, per entrambe le variabili, un opportuno indice di variabilità.
c) Valutare, attraverso un indice opportuno, se esiste associazione tra le variabili.
d) Verificare se le variabili sono tra loro correlate.
e) Determinare i parametri della retta di regressione.
f) Valutare la bontà di adattamento del modello.
1
SVOLGIMENTO
a) Entrambe le variabili sono quantitative, per cui per entrambe posso calcolare tutti i valori medi.
Capacità bagagliaio
- Moda
Essendo una distribuzione in classi, devo preliminarmente calcolare la densità di frequenza delle classi stesse. I risultati
dei calcoli sono riportati nella tabella successiva.
Capacità bagagliaio
n
Ampiezza
Densità
90-160
9
70
0,13
160-230
12
70
0,17
230-300
18
70
0,26
300-370
6
70
0,09
Totale
45
La classe modale è quella 230-300, perché è quella cui è associata la maggiore densità di frequenza.
2
- Mediana
Per ottenere il valore della mediana devo utilizzare, in questo caso, la formula interpolante. Devo quindi calcolare prima le
frequenze relative e le frequenze relative cumulate. I risultati dei calcoli sono riportati nella tabella successiva.
Capacità bagagliaio
n
fr
frc
90-160
9
0,2
0,2
160-230
12
0,27
0,47
230-300
18
0,4
0,87
300-370
6
0,13
1
45
1
Totale
Il valore della mediana è dunque
Me  l1 
3
0,5  FC 1
0,5  0,47
   230 
 70  235,25
FC  FC 1
0,87  0,47
- Media aritmetica
Per calcolare il valore della media aritmetica si fa riferimento alla formula ponderata, che richiede la conoscenza dei valori
centrali delle classi e dei prodotti di questi per le rispettive frequenze. I risultati dei calcoli sono riportati nella tabella
successiva.
Capacità bagagliaio
n
xi
xini
90-160
9
125
1125
160-230
12
195
2340
230-300
18
265
4770
300-370
6
335
2010
Totale
45
n

4
x n
i
i 1
n
i

10245
 227,67
45
10245
Lunghezza
Per determinare i valori medi della lunghezza delle auto si procede in maniera del tutto analoga a quanto fatto per la
capacità del bagagliaio
- Moda
Essendo una distribuzione in classi, devo preliminarmente calcolare la densità di frequenza delle classi stesse. I risultati
dei calcoli sono riportati nella tabella successiva.
Lunghezza
n
Ampiezza
Densità
3-3,5
12
0,5
24
3,5-4
25
0,5
50
4-4,5
8
0,5
16
Totale
45
La classe modale è quella 3,5-4, perché è quella cui è associata la maggiore densità di frequenza.
5
- Mediana
Per ottenere il valore della mediana devo utilizzare, in questo caso, la formula interpolante. Devo quindi calcolare prima le
frequenze relative e le frequenze relative cumulate. I risultati dei calcoli sono riportati nella tabella successiva.
Lunghezza
n
fr
frc
3-3,5
12
0,27
0,27
3,5-4
25
0,55
0,82
4-4,5
8
0,18
1
Totale
45
1
Il valore della mediana è dunque
Me  l1 
6
0,5  FC 1
0,5  0,27
   3,5 
 0,5  3,71
FC  FC 1
0,82  0,27
- Media aritmetica
Per calcolare il valore della media aritmetica si fa riferimento alla formula ponderata, che richiede la conoscenza dei valori
centrali delle classi e dei prodotti di questi per le rispettive frequenze. I risultati dei calcoli sono riportati nella tabella
successiva.
Lunghezza
n
xi
xini
3-3,5
12
3,25
39
3,5-4
25
3,75
93,75
4-4,5
8
4,25
34
Totale
45
n

7
x n
i
i 1
n
i

166,75
 3,71
45
166,75
b) Calcoliamo, per entrambe le variabili, il valore dello scarto quadratico medio e dello scarto quadratico medio relativo.
Lo scarto quadratico medio è la radice quadrata della sommatoria degli scarti dalla media al quadrato, fratto n. In questo
caso, poiché lavoriamo con una distribuzione in classi, gli scarti dalla media vanno ponderati per la numerosità delle
classi. In formula esso assume la forma
n

 x
i
i 1
   ni
2
n
Per semplicità di calcolo, lo scarto quadratico medio può essere calcolato anche come radice quadrata della differenza tra
il quadrato della media quadratica e il quadrato della media aritmetica. In formula
  Q2   2
Calcoliamo la media quadratica come
n
Q
8
x
i 1
2
i
n
ni
Capienza bagagliaio
Calcoliamo innanzitutto la media quadratica, che per la distribuzione in esame è pari a
125 2  9  195 2  12  265 2  18  335 2  6
140625  456300  1264050  673350
Q


45
45
2534325
45
Q  56318,33  237,31
Per cui lo scarto quadratico assume il valore di
  Q 2   2  56318,33  227,67 2  56318,33  51833,63  4484,7  66,97
Lunghezza
Procediamo in maniera analoga a quanto appena fatto per la capacità del bagagliaio. Calcoliamo quindi la media
quadratica, che è pari a
3,25 2  12  3,75 2  25  4,25 2  8
126,75  351,56  144,5
Q


45
45
Q  13,84  3,72
9
622,81
45
Per cui lo scarto quadratico assume il valore di
  Q 2   2  13,84  3,712  13,84  13,76  0,08  0,28
c) Per determinare se esiste associazione tra le variabili si usa l’indice chi-quadrato. A partire dalla tabella originaria,
quindi, devo calcolare innanzitutto i valori teorici e le contingenze. I risultati dei calcoli sono riportati nelle successive
tabelle di indipendenza e delle contingenze.
Tabella di indipendenza
Lunghezza auto (m)
Capacità bagagliaio
(dm3)
3-3,5
3,5-4
4-4,5
Totale
90-160
2,4
5
1,6
9
160-230
3,2
6,67
2,13
12
230-300
4,8
10
3,2
18
300-370
1,6
3,33
1,07
6
Totale
12
25
8
45
10
Tabella delle contingenze
Lunghezza auto (m)
Capacità bagagliaio
(dm3)
3-3,5
3,5-4
4-4,5
Totale
90-160
5,6
-4
-1,6
0
160-230
-0,2
1,33
-1,13
0
230-300
-3,8
5
-1,2
0
300-370
-1,6
-2,33
3,93
0
0
0
0
0
Totale
Calcolo quindi il chi-quadrato come
  i  j
2
11
cij2
f ij '
5,6 2  4 2  1,6 2  0,2 2 1,33 2  1,13 2  3,8 2 5 2  1,2 2  1,6 2  2,33 2 3,93 2
 











2,4
5
1,6
3,2
6,67
2,13
4,8
10
3,2
1,6
3,33
1,07
2
2 
31,36 16 2,56 0,04 1,77 1,28 14,44 25 1,44 2,56 5,43 15,44
 









2,4
5
1,6
3,2 6,67 2,13
4,8
10 3,2
1,6 3,33 1,07
 2  13,07  3,2  1,6  0,01  0,27  0,60  3,01  2,5  0,45  1,6  1,63  14,43
 2  42,37
Il valore ottenuto indica che c’è associazione tra le variabili. Volendo avere un’indicazione anche sull’intensità del legame
occorre relativizzare la misura ottenuta. In tal caso si utilizzano misure quali la V di Cramer.
V
12
2
f   min( r  1, c  1)

42,37
 0,47  0,69
45  2
d) Per valutare se esiste una relazione tra i caratteri si calcola il coefficiente di correlazione lineare. Poniamo l’ipotesi che
la variabile dipendente (Y) sia la lunghezza dell’auto e la variabile esplicativa (X) sia la capacità del bagagliaio. Riscriviamo
quindi la tabella a doppia entrata, indicando ogni classe con il suo valore centrale.
Lunghezza auto (m)
Capacità bagagliaio
(dm3)
3,25
3,75
4,25
Totale
125
8
1
0
9
195
3
8
1
12
265
1
15
2
18
335
0
1
5
6
12
25
8
45
Totale
Per calcolare il coefficiente di correlazione lineare si utilizza la formula
rXY 
13
COV ( X , Y )
 ( X )   (Y )
Poiché siamo in presenza di una distribuzione doppia, possiamo calcolare la covarianza come
xi yi ni
COV ( X , Y ) 
  ( X )  (Y )
n
Conosciamo già, da un esercizio precedente, il valore della media delle due variabili
μ(X) = 227,67
μ(Y) = 3,71
Basta, quindi, riscrivere la tabella con i prodotti richiesti dalla formula
Lunghezza auto (m)
Capacità bagagliaio
(dm3)
3,25
3,75
4,25
Totale
125
= 3,25*125*8 = 3250
= 3,75*125*1 = 468,75
0
3718,75
195
1901,25
5850
828,75
8580
265
861,25
14906,25
2252,5
18020
335
0
1256,25
7118,75
8375
6012,5
22481,25
10200
38693,75
Totale
14
Da cui deriva che
38693,75
COV ( X , Y ) 
 227,67  3,71  859,86  844,66  15,2
45
Per calcolare il coefficiente di correlazione occorre conoscere anche lo scarto quadratico medio delle due variabili, che
conosciamo già da un esercizio precedente:
σ(X) = 66,97
σ(Y) = 0,28
Sostituiamo quindi i valori nella formula, ottenendo che
rXY 
15
COV ( X , Y )
15,2
15,2


 0,81
 ( X )   (Y ) 66,97  0,28 18,75
e) Per calcolare i parametri della funzione interpolante, avendo già a disposizione tutti i valori che mi servono, posso
utilizzare le formule alternative che pongono
   (Y )   ( X )

COV ( X , Y )
 2 (X )
Calcolo innanzitutto β, che assume il valore

15,2
15,2

 0,003
2
66,97
4484,98
  3,71  0,003  227,67  3,03
Per cui la funzione interpolante y' = α + βx assume la forma
y' = 3,03 + 0,003x
16
f) Per misurare la bontà di adattamento si utilizza il coefficiente di determinazione R2. Si misura come
R2 
DEV (Y ' )
DEV ( E )
 1
DEV (Y )
DEV (Y )
può essere misurato anche come
R  rxy  0,812  0,66
2
2
Il 66% della variabilità totale nella lunghezza delle automobili è spiegata dal suo legame lineare con la capacità del
bagagliaio.
17