ESERCIZIO Con riferimento a diversi modelli di auto del medesimo segmento di mercato e cilindrata si sono rilevati i dati sul prezzo di listino in migliaia di euro (X), la velocità massima dichiarata in km/h (Y) ed il peso in kg (Z). I dati sono riportati nella tabella successiva Unità Auto X Y Z A Opel Vectra SW 1.8 16V Cosmo 25,051 199 1400 B Nissan Primera SW 1.8 Acenta 23,401 188 1343 C Lancia Lybra SW 1.8 VVT LS 24,971 201 1340 D Fiat Stilo MW 1.8 Dynamic 20,371 200 1385 E Peugeot 407 SW 1.8 16V Confort 22,851 199 1455 F Volvo V50 1.8 Kinetic 25,151 200 1300 [fonte: KataWeb Motori] a) Relativamente alla variabile PREZZO, calcolare il valore medio o i valori medi che si ritengono opportuni in relazione al tipo di carattere e commentare i risultati. b) Relativamente alla variabile PREZZO, fornire una misura della variabilità della distribuzione attraverso i) un indice assoluto ii) un indice robusto iii) gli indici relativi dei due indici assoluti calcolati ai punti precedenti. Commentare i risultati ottenuti. c) Volendo spiegare i prezzi di listino delle auto, scegliere un’opportuna variabile esplicativa. Motivare la risposta d) Calcolare i parametri della funzione interpolante e commentare i risultati. 1 e) Rappresentare graficamente la retta di regressione e illustrare le informazioni ottenibili dal grafico. f) Determinare la bontà di adattamento della funzione interpolante. Commentare il risultato. 2 SVOLGIMENTO a) Trattandosi di un carattere quantitativo, è possibile calcolare tutti i valori medi di posizione. Moda Non esiste una moda nella distribuzione considerata, in quanto nessun valore compare più spesso degli altri. Mediana Trattandosi di una distribuzione con n pari, la mediana coinciderà con la semisomma dei valori che occupano le posizioni n/2 e n/2 +1 (in questo caso si avrà che n/2 = 3, n/2 +1 = 4). Dopo aver ordinato i valori in senso non decrescente, si identificano i valori che occupano il terzo e il quarto posto 20,371; 22,851; 23,401; 24,971; 25,051; 25,151 I valori che occupano il terzo e il quarto posto sono rispettivamente 23,401 e 24,971, per cui si avrà che Me = (23,401 + 24,971)/2 = 24,186 Tale valore indica che il 50% dei prezzi delle auto ha un valore maggiore o uguale a 24,186 migliaia di euro e l’altro 50% ha un valore minore o uguale a 24,186 migliaia di euro. 3 Media aritmetica Per calcolare il prezzo medio si utilizza la media aritmetica. Si avrà quindi che n x i 1 n i 25,051 23,401 24,971 20,371 22,851 25,151 23,633 6 Il prezzo medio delle macchine considerate è di 23633 euro. b) i) Conoscendo già il valore della media aritmetica, quale indice assoluto di variabilità utilizzo lo scarto quadratico medio, che ottengo come n 4 x i 1 i n 2 In base alla formula precedente, quindi, occorre calcolare i valori degli scarti dalla media al quadrato. I risultati dei calcoli sono riportati nella tabella successiva. Prezzo (x-μ)2 25,051 2,011 23,401 0,05 24,971 1,790 20,371 10,641 22,851 0,611 25,151 2,304 141,796 17,407 Sostituendo i valori nella formula si ottiene che n x i 1 2 i n 17,407 2,901 1,703 6 Il risultato ottenuto indica che il prezzo delle 6 auto considerate si scosta in media dalla media aritmetica di 1,703 migliaia di euro. 5 Poiché il calcolo degli scarti, specie in presenza di un numero elevato di osservazioni, può rivelarsi laborioso, è possibile calcolare lo scarto quadratico medio con la formula alternativa, in base alla quale si ottiene il valore richiesto come radice quadrata della differenza tra il quadrato della media quadratica e il quadrato della media aritmetica. Calcoliamo la media quadratica come n Q x i 1 2 i n Che nel nostro caso diventa 6 Q 25,0512 23,4012 24,9712 20,3712 22,8512 25,1512 6 Q 627,553 547,607 623,551 414,978 522,168 632,573 6 Q 3368,430 561,405 23,694 6 Conoscendo questo valore, ho a disposizione tutti gli elementi che mi servono per calcolare lo scarto quadratico medio come Q2 2 Avrò quindi che 23,6942 23,6332 561,405 558,519 2,886 1,699 La lieve differenza tra i valori calcolati con i due metodi è da attribuirsi all’approssimazione. ii) Dato che la media aritmetica è fortemente influenzata da eventuali valori anomali presenti nella distribuzione, anche per le misure di variabilità che si rifanno ad essa bisogna tener presente questo aspetto. Per ovviare al problema, può essere opportuno calcolare un indice di variabilità robusto quale il MAD (ovvero la mediana degli scostamenti dalla mediana). Per ottenerlo si applica la formula MAD Me xi Me 7 Poiché il valore della mediana è già noto (Me = 24,186), è sufficiente calcolare il valore degli scarti dalla mediana. I risultati dei calcoli sono riportati nella tabella successiva. Prezzo |x-Me| 25,051 0,865 23,401 0,785 24,971 0,785 20,371 3,815 22,851 1,335 25,151 0,965 Dovendo calcolare la mediana degli scarti, li riordino in senso non decrescente ottenendo la seguente distribuzione 0,785; 0,785; 0,865; 0,965; 1,335; 3,185 Poiché n è pari, la mediana corrisponde alla semisomma dei due valori centrali della distribuzione: MAD = (0,865 + 0,965)/2 = 0,915 iii) Gli indici di variabilità appena calcolati (scarto quadratico medio e MAD), detti assoluti, sono espressi nella stessa unità di misura del fenomeno indagato e risentono dell’ordine di grandezza del fenomeno stesso. Pertanto, è opportuno relativizzare tali indici rapportandoli al proprio massimo oppure al valore medio di riferimento. 8 Scarto quadratico medio Lo scarto quadratico medio viene relativizzato in rapporto al proprio massimo, ove il massimo è calcolato come max xmin x max In questo caso avremo che max 23,633 20,37125,151 23,633 3,262 1,518 4,952 2,225 Per cui il valore dello scarto quadratico medio relativo è 1,699 0,763 max 2,225 Il valore ottenuto di 0,763 indica che la variabilità nei prezzi delle auto considerate è il 76,3% della variabilità massima possibile. 9 MAD Per ottenere il valore del MAD relativo è sufficiente rapportare il MAD alla mediana in valore assoluto. In questo caso si ha che MAD ' MAD 0,915 0,038 Me 24,186 sui dati della distribuzione di osserva una variabilità mediana intorno alla mediana del 3,8%. c) Per scegliere quale tra velocità massima dichiarata e peso sia preferibile quale variabile esplicativa del prezzo delle automobili, occorre confrontare il valore del coefficiente di correlazione delle due coppie di variabili. Per calcolare il coefficiente di correlazione lineare si utilizza la formula rXY 10 COV ( X , Y ) ( X ) (Y ) La covarianza la calcoliamo in funzione dei dati originari come n COV ( X , Y ) x y i i 1 n i ( X ) (Y ) Conosciamo già, da un esercizio precedente, il valore del prezzo medio delle automobili: μ(Y) = μprezzo = 23,633. Per risolvere la formula della covarianza occorre calcolare la media della velocità massima e il prodotto dei valori di questa per i corrispondenti valori del prezzo. Analogo calcolo va fatto anche per il peso. I risultati dei calcoli sono riportati nella tabella successiva. Unità Auto Prezzo Vel. Max Peso Prezzo*Vel. Max Prezzo*Peso A Opel Vectra SW 1.8 16V Cosmo 25,051 199 1400 4985,149 35071,4 B Nissan Primera SW 1.8 Acenta 23,401 188 1343 4399,388 31427,543 C Lancia Lybra SW 1.8 VVT LS 24,971 201 1340 5019,171 33461,14 D Fiat Stilo MW 1.8 Dynamic 20,371 200 1385 4074,2 28213,835 E Peugeot 407 SW 1.8 16V Confort 22,851 199 1455 4547,349 33248,205 F Volvo V50 1.8 Kinetic 25,151 200 1300 5030,2 32696,3 141,796 1187 8223 28055,457 194118,423 Tot 11 n vel x i i 1 n 1187 197,833 6 n peso x i 1 n i 8223 1370,5 6 Per cui COV(Prezzo, Velocità) COV ( X , Y ) 28055,457 23,633 197,833 4675,909 4675,387 0,52 6 COV(Prezzo, Peso) COV ( X , Y ) 194118,423 23,633 1370,5 32353,070 32389,026 35,956 6 Per calcolare il coefficiente di correlazione occorre conoscere anche lo scarto quadratico medio delle variabili. Conosciamo già da un esercizio precedente il valore dello scarto quadratico medio del prezzo delle auto: σprezzo = 1,699 12 Calcolo quindi lo scarto quadratico medio delle altre due variabili. Conoscendo già il valore delle medie aritmetiche, basterà calcolare la rispettive medie quadratiche e poi procedere al calcolo dello scarto quadratico medio. Prezzo, Velocità 199 2 1882 2012 200 2 199 2 200 2 Q 197,8332 6 2 2 39601 35344 40401 40000 39601 40000 197,8332 6 39157,833 39137,896 19,937 4,465 Per cui rpezzo,velocità 13 COV ( prezzo, velocità ) 0,52 0,52 0,068 ( prezzo) (velocità ) 1,699 4,465 7,586 Analogamente Prezzo, Peso Q2 2 1400 2 13432 1340 2 1385 2 1455 2 1300 2 1370,5 2 6 1960000 1803649 1795600 1918225 2117025 1690000 1370,5 2 6 1880749,833 1878270,25 2479,583 49,795 Per cui rprezzo,velocità 14 COV ( prezzo, peso) 35,956 35,956 0,425 ( prezzo) (velocità ) 1,699 49,795 84,602 I risultati ottenuti evidenziano la presenza si una scarsa relazione lineare inversa tra prezzo e peso (r=-0,425), mentre prezzo e velocità massima sono praticamente incorrelati (r=0,068). Volendo spiegare il prezzo in relazione a una delle altre due variabili rilevate, quindi, risulta preferibile scegliere il peso quale variabile esplicativa. d) Per calcolare i parametri della retta di regressione, conoscendo già tutti i dati che servono, utilizzo le formule alternative (Y ) ( X ) COV ( X , Y ) 2 (X ) Calcolo innanzitutto β, ottenendo che 35,956 35,956 0,014 49,795 2 2479,542 Da cui 23,633 (0,014) 1370,5 23,633 19,187 42,82 15 Per cui la forma che assume la retta di regressione in questo caso è y’ = 42,82 - 0,014x α = 42,82 è il valore dell’intercetta, ovvero il prezzo teorico in caso di peso nullo (in questo caso, quindi, ha un valore solo geometrico). β = 226,28 è il coefficiente angolare, o coefficiente di regressione, e indica che ad un aumento del peso di un’unità corrisponde un calo medio del prezzo di 14 euro circa. e) Il diagramma di dispersione è il seguente L’analisi del grafico conferma la relazione inversa tra le variabili. Esiste, tuttavia, un certo grado di dispersione intorno alla retta, in particolare per l’osservazione D, caratterizzata da uno scostamento molto elevato tra valore teorico e valore osservato della variabile dipendente. 16 f) Per misurare la bontà di adattamento si utilizza il coefficiente di determinazione R2. Si misura come R2 DEV (Y ' ) DEV ( E ) 1 DEV (Y ) DEV (Y ) Conoscendo già il valore del coefficiente di correlazione, tuttavia, è possibile ottenere il coefficiente di determinazione elevando al quadrato il coefficiente di correlazione. Si avrà dunque che R 2 rxy (0,425) 2 0,180 2 L’adattamento della retta non è soddisfacente. Essa, infatti, spiega solo il 18% della variabilità totale dei prezzi delle autovetture, mentre il restante 82% di variabilità rimane non spiegata. 17
© Copyright 2024 Paperzz