Esercizio automobili

ESERCIZIO
Con riferimento a diversi modelli di auto del medesimo segmento di mercato e cilindrata si sono rilevati i dati sul prezzo
di listino in migliaia di euro (X), la velocità massima dichiarata in km/h (Y) ed il peso in kg (Z). I dati sono riportati nella
tabella successiva
Unità
Auto
X
Y
Z
A
Opel Vectra SW 1.8 16V Cosmo
25,051
199
1400
B
Nissan Primera SW 1.8 Acenta
23,401
188
1343
C
Lancia Lybra SW 1.8 VVT LS
24,971
201
1340
D
Fiat Stilo MW 1.8 Dynamic
20,371
200
1385
E
Peugeot 407 SW 1.8 16V Confort
22,851
199
1455
F
Volvo V50 1.8 Kinetic
25,151
200
1300
[fonte: KataWeb Motori]
a) Relativamente alla variabile PREZZO, calcolare il valore medio o i valori medi che si ritengono opportuni in relazione al
tipo di carattere e commentare i risultati.
b) Relativamente alla variabile PREZZO, fornire una misura della variabilità della distribuzione attraverso
i) un indice assoluto
ii) un indice robusto
iii) gli indici relativi dei due indici assoluti calcolati ai punti precedenti.
Commentare i risultati ottenuti.
c) Volendo spiegare i prezzi di listino delle auto, scegliere un’opportuna variabile esplicativa. Motivare la risposta
d) Calcolare i parametri della funzione interpolante e commentare i risultati.
1
e) Rappresentare graficamente la retta di regressione e illustrare le informazioni ottenibili dal grafico.
f) Determinare la bontà di adattamento della funzione interpolante. Commentare il risultato.
2
SVOLGIMENTO
a) Trattandosi di un carattere quantitativo, è possibile calcolare tutti i valori medi di posizione.
Moda
Non esiste una moda nella distribuzione considerata, in quanto nessun valore compare più spesso degli altri.
Mediana
Trattandosi di una distribuzione con n pari, la mediana coinciderà con la semisomma dei valori che occupano le posizioni
n/2 e n/2 +1 (in questo caso si avrà che n/2 = 3, n/2 +1 = 4). Dopo aver ordinato i valori in senso non decrescente, si
identificano i valori che occupano il terzo e il quarto posto
20,371; 22,851; 23,401; 24,971; 25,051; 25,151
I valori che occupano il terzo e il quarto posto sono rispettivamente 23,401 e 24,971, per cui si avrà che
Me = (23,401 + 24,971)/2 = 24,186
Tale valore indica che il 50% dei prezzi delle auto ha un valore maggiore o uguale a 24,186 migliaia di euro e l’altro 50%
ha un valore minore o uguale a 24,186 migliaia di euro.
3
Media aritmetica
Per calcolare il prezzo medio si utilizza la media aritmetica. Si avrà quindi che
n

x
i 1
n
i
25,051  23,401  24,971  20,371  22,851  25,151
 23,633
6

Il prezzo medio delle macchine considerate è di 23633 euro.
b)
i) Conoscendo già il valore della media aritmetica, quale indice assoluto di variabilità utilizzo lo scarto quadratico medio,
che ottengo come
n

4
 x
i 1
i
 
n
2
In base alla formula precedente, quindi, occorre calcolare i valori degli scarti dalla media al quadrato. I risultati dei calcoli
sono riportati nella tabella successiva.
Prezzo
(x-μ)2
25,051
2,011
23,401
0,05
24,971
1,790
20,371
10,641
22,851
0,611
25,151
2,304
141,796
17,407
Sostituendo i valori nella formula si ottiene che
n

 x
i 1
 
2
i
n

17,407
 2,901  1,703
6
Il risultato ottenuto indica che il prezzo delle 6 auto considerate si scosta in media dalla media aritmetica di 1,703
migliaia di euro.
5
Poiché il calcolo degli scarti, specie in presenza di un numero elevato di osservazioni, può rivelarsi laborioso, è possibile
calcolare lo scarto quadratico medio con la formula alternativa, in base alla quale si ottiene il valore richiesto come radice
quadrata della differenza tra il quadrato della media quadratica e il quadrato della media aritmetica.
Calcoliamo la media quadratica come
n
Q
x
i 1
2
i
n
Che nel nostro caso diventa
6
Q
25,0512  23,4012  24,9712  20,3712  22,8512  25,1512
6
Q
627,553  547,607  623,551  414,978  522,168  632,573
6
Q
3368,430
 561,405  23,694
6
Conoscendo questo valore, ho a disposizione tutti gli elementi che mi servono per calcolare lo scarto quadratico medio
come
  Q2   2
Avrò quindi che
  23,6942  23,6332  561,405  558,519  2,886  1,699
La lieve differenza tra i valori calcolati con i due metodi è da attribuirsi all’approssimazione.
ii) Dato che la media aritmetica è fortemente influenzata da eventuali valori anomali presenti nella distribuzione, anche
per le misure di variabilità che si rifanno ad essa bisogna tener presente questo aspetto. Per ovviare al problema, può
essere opportuno calcolare un indice di variabilità robusto quale il MAD (ovvero la mediana degli scostamenti dalla
mediana).
Per ottenerlo si applica la formula
MAD  Me xi  Me 
7
Poiché il valore della mediana è già noto (Me = 24,186), è sufficiente calcolare il valore degli scarti dalla mediana. I
risultati dei calcoli sono riportati nella tabella successiva.
Prezzo
|x-Me|
25,051
0,865
23,401
0,785
24,971
0,785
20,371
3,815
22,851
1,335
25,151
0,965
Dovendo calcolare la mediana degli scarti, li riordino in senso non decrescente ottenendo la seguente distribuzione
0,785; 0,785; 0,865; 0,965; 1,335; 3,185
Poiché n è pari, la mediana corrisponde alla semisomma dei due valori centrali della distribuzione:
MAD = (0,865 + 0,965)/2 = 0,915
iii) Gli indici di variabilità appena calcolati (scarto quadratico medio e MAD), detti assoluti, sono espressi nella stessa unità
di misura del fenomeno indagato e risentono dell’ordine di grandezza del fenomeno stesso. Pertanto, è opportuno
relativizzare tali indici rapportandoli al proprio massimo oppure al valore medio di riferimento.
8
Scarto quadratico medio
Lo scarto quadratico medio viene relativizzato in rapporto al proprio massimo, ove il massimo è calcolato come
 max 
  xmin x max  
In questo caso avremo che
 max 
23,633  20,37125,151  23,633 
3,262  1,518  4,952  2,225
Per cui il valore dello scarto quadratico medio relativo è

1,699

 0,763
 max 2,225
Il valore ottenuto di 0,763 indica che la variabilità nei prezzi delle auto considerate è il 76,3% della variabilità massima
possibile.
9
MAD
Per ottenere il valore del MAD relativo è sufficiente rapportare il MAD alla mediana in valore assoluto. In questo caso si ha
che
MAD ' 
MAD 0,915

 0,038
Me
24,186
sui dati della distribuzione di osserva una variabilità mediana intorno alla mediana del 3,8%.
c) Per scegliere quale tra velocità massima dichiarata e peso sia preferibile quale variabile esplicativa del prezzo delle
automobili, occorre confrontare il valore del coefficiente di correlazione delle due coppie di variabili.
Per calcolare il coefficiente di correlazione lineare si utilizza la formula
rXY 
10
COV ( X , Y )
 ( X )   (Y )
La covarianza la calcoliamo in funzione dei dati originari come
n
COV ( X , Y ) 
x y
i
i 1
n
i
  ( X )   (Y )
Conosciamo già, da un esercizio precedente, il valore del prezzo medio delle automobili:
μ(Y) = μprezzo = 23,633.
Per risolvere la formula della covarianza occorre calcolare la media della velocità massima e il prodotto dei valori di
questa per i corrispondenti valori del prezzo. Analogo calcolo va fatto anche per il peso. I risultati dei calcoli sono
riportati nella tabella successiva.
Unità
Auto
Prezzo
Vel. Max
Peso
Prezzo*Vel. Max
Prezzo*Peso
A
Opel Vectra SW 1.8 16V Cosmo
25,051
199
1400
4985,149
35071,4
B
Nissan Primera SW 1.8 Acenta
23,401
188
1343
4399,388
31427,543
C
Lancia Lybra SW 1.8 VVT LS
24,971
201
1340
5019,171
33461,14
D
Fiat Stilo MW 1.8 Dynamic
20,371
200
1385
4074,2
28213,835
E
Peugeot 407 SW 1.8 16V Confort
22,851
199
1455
4547,349
33248,205
F
Volvo V50 1.8 Kinetic
25,151
200
1300
5030,2
32696,3
141,796
1187
8223
28055,457
194118,423
Tot
11
n
 vel 
x
i
i 1

n
1187
 197,833
6
n
 peso 
x
i 1
n
i

8223
 1370,5
6
Per cui
COV(Prezzo, Velocità)
COV ( X , Y ) 
28055,457
 23,633  197,833  4675,909  4675,387  0,52
6
COV(Prezzo, Peso)
COV ( X , Y ) 
194118,423
 23,633  1370,5  32353,070  32389,026  35,956
6
Per calcolare il coefficiente di correlazione occorre conoscere anche lo scarto quadratico medio delle variabili.
Conosciamo già da un esercizio precedente il valore dello scarto quadratico medio del prezzo delle auto:
σprezzo = 1,699
12
Calcolo quindi lo scarto quadratico medio delle altre due variabili. Conoscendo già il valore delle medie aritmetiche,
basterà calcolare la rispettive medie quadratiche e poi procedere al calcolo dello scarto quadratico medio.
Prezzo, Velocità
199 2  1882  2012  200 2  199 2  200 2
  Q  
 197,8332
6
2

2
39601  35344  40401  40000  39601  40000
 197,8332
6
  39157,833  39137,896  19,937  4,465
Per cui
rpezzo,velocità 
13
COV ( prezzo, velocità )
0,52
0,52


 0,068
 ( prezzo)   (velocità ) 1,699  4,465 7,586
Analogamente
Prezzo, Peso
  Q2   2 

1400 2  13432  1340 2  1385 2  1455 2  1300 2
 1370,5 2
6
1960000  1803649  1795600  1918225  2117025  1690000
 1370,5 2
6
  1880749,833  1878270,25  2479,583  49,795
Per cui
rprezzo,velocità 
14
COV ( prezzo, peso)
 35,956
 35,956


 0,425
 ( prezzo)   (velocità ) 1,699  49,795 84,602
I risultati ottenuti evidenziano la presenza si una scarsa relazione lineare inversa tra prezzo e peso (r=-0,425), mentre
prezzo e velocità massima sono praticamente incorrelati (r=0,068). Volendo spiegare il prezzo in relazione a una delle
altre due variabili rilevate, quindi, risulta preferibile scegliere il peso quale variabile esplicativa.
d) Per calcolare i parametri della retta di regressione, conoscendo già tutti i dati che servono, utilizzo le formule
alternative
   (Y )   ( X )

COV ( X , Y )
 2 (X )
Calcolo innanzitutto β, ottenendo che

 35,956  35,956

 0,014
49,795 2 2479,542
Da cui
  23,633  (0,014)  1370,5  23,633  19,187  42,82
15
Per cui la forma che assume la retta di regressione in questo caso è
y’ = 42,82 - 0,014x
α = 42,82
è il valore dell’intercetta, ovvero il prezzo teorico in caso di peso nullo (in questo caso, quindi, ha un
valore solo geometrico).
β = 226,28
è il coefficiente angolare, o coefficiente di regressione, e indica che ad un aumento del peso di un’unità
corrisponde un calo medio del prezzo di 14 euro circa.
e) Il diagramma di dispersione è il seguente
L’analisi del grafico conferma la relazione inversa tra le
variabili. Esiste, tuttavia, un certo grado di dispersione
intorno alla retta, in particolare per l’osservazione D,
caratterizzata da uno scostamento molto elevato tra valore
teorico e valore osservato della variabile dipendente.
16
f) Per misurare la bontà di adattamento si utilizza il coefficiente di determinazione R2. Si misura come
R2 
DEV (Y ' )
DEV ( E )
 1
DEV (Y )
DEV (Y )
Conoscendo già il valore del coefficiente di correlazione, tuttavia, è possibile ottenere il coefficiente di determinazione
elevando al quadrato il coefficiente di correlazione. Si avrà dunque che
R 2  rxy  (0,425) 2  0,180
2
L’adattamento della retta non è soddisfacente. Essa, infatti, spiega solo il 18% della variabilità totale dei prezzi delle
autovetture, mentre il restante 82% di variabilità rimane non spiegata.
17