Esercizio occupati non stagionali

ESERCIZIO
Si consideri la seguente serie storica, relativa al totale degli assunti non stagionali nella Provincia di Roma negli anni dal
2004 al 2010 (fonte: Ufficio statistico del Comune di Roma su dati Unioncamere)
Anno
Totale assunti
a) Calcolare il valore medio o i valori medi che si ritengono opportuni in relazione al
non stagionali
tipo di carattere e commentare i risultati.
2004
46470
2005
47880
2006
49080
2007
64180
2008
64450
2009
40350
2010
51720
b) Fornire una misura della variabilità della distribuzione attraverso
i) un indice assoluto
ii) un indice robusto
iii) gli indici relativi dei due indici assoluti calcolati ai punti precedenti.
Commentare i risultati ottenuti.
c) Calcolare la variazione percentuale e la variazione media percentuale degli assunti non stagionali rispetto al 2004 e
commentare i risultati.
d) Valutare, attraverso un indice opportuno, se esiste correlazione tra le due variabili. Commentare i risultati.
e) Calcolare i parametri della funzione interpolante e commentare i risultati.
f) Determinare la bontà di adattamento della funzione interpolante e commentare il risultato.
1
SVOLGIMENTO
a) Trattandosi di un carattere quantitativo, è possibile calcolare tutti i valori medi di posizione.
Moda
Non esiste una moda nella distribuzione considerata, in quanto nessun valore compare più spesso degli altri.
Mediana
Trattandosi di una distribuzione con n dispari, la mediana coinciderà con il valore che occupa la posizione n+1/2 (in
questo caso si avrà che n+1/2 = 4). Dopo aver ordinato in senso non decrescente i dati, quindi, si individua il valore che
occupa il posto 4. Per la distribuzione in esame si avrà che
40350; 46470; 47880; 49080; 51720; 64180; 64450
Da cui Me = 49080
Media aritmetica
Per calcolare il numero medio di assunti non stagionali si utilizza la media aritmetica. Si avrà quindi che
n

2
x
i 1
n
i

46470  47880  49080  64180  64450  40350  51720 364130

 52018,57
7
7
b)
i) Conoscendo già il valore della media aritmetica, quale indice assoluto di variabilità utilizzo lo scarto quadratico medio,
che ottengo come
n

 x
i 1
i
 
2
n
In base alla formula precedente, quindi, occorre calcolare i valori degli scarti dalla media al quadrato. I risultati dei calcoli
sono riportati nella tabella successiva.
Anno
3
Totale assunti
non stagionali
(x-μ)2
2004
46470
30786629,04
2005
47880
17127761,64
2006
49080
8635193,645
2007
64180
147900379,6
2008
64450
154540451,8
2009
40350
136155525.8
2010
51720
89144,04
Totale
364130
495235085,6
Sostituendo i valori nella formula si ottiene che
n

 x
i 1
 
2
i
n

495235085,6
 70747869,37  8411,18
7
Il risultato ottenuto indica che il numero di assunti non stagionali nei 7 anni considerati si scosta in media dalla media
aritmetica di 8411,18 unità.
ii) Dato che la media aritmetica è fortemente influenzata da eventuali valori anomali presenti nella distribuzione, anche
per le misure di variabilità che si rifanno ad essa bisogna tener presente questo aspetto. Per ovviare al problema, può
essere opportuno calcolare un indice di variabilità robusto quale il MAD (ovvero la mediana degli scostamenti dalla
mediana).
Per ottenerlo si applica la formula
MAD  Me xi  Me 
Poiché il valore della mediana è già noto (Me = 2135), è sufficiente calcolare il valore degli scarti dalla mediana. I risultati
dei calcoli sono riportati nella tabella successiva.
4
Anno
Totale assunti
non stagionali
|x-Me|
2004
46470
2610
2005
47880
1200
2006
49080
0
2007
64180
15100
2008
64450
15370
2009
40350
8730
2010
51720
2640
Dovendo calcolare la mediana degli scarti, li riordino in senso non decrescente ottenendo la seguente distribuzione
1200; 2610; 2640; 8730; 15100; 15370
Poiché n è pari, la mediana corrisponde alla semisomma dei due valori centrali della distribuzione (n/2 = 3; n/2+1 = 4):
MAD = (2640 + 8730)/2 = 5685
iii) Gli indici di variabilità appena calcolati (scarto quadratico medio e MAD), detti assoluti, sono espressi nella stessa unità
di misura del fenomeno indagato e risentono dell’ordine di grandezza del fenomeno stesso. Pertanto, è opportuno
relativizzare tali indici rapportandoli al proprio massimo oppure al valore medio di riferimento.
5
Scarto quadratico medio
Lo scarto quadratico medio viene relativizzato in rapporto al proprio massimo, ove il massimo è calcolato come
 max 
  xmin x max  
In questo caso avremo che
 max 
52018,57  4035064450  52018,57 
11668,57  12431,43  145057011,2  12043,96
Per cui il valore dello scarto quadratico medio relativo è

8411,18

 0,7
 max 12043,96
Il valore ottenuto di 0,7 indica che la variabilità nel numero di assunti non stagionali nei 7 anni considerati è il 70% della
variabilità massima possibile.
6
MAD
Per ottenere il valore del MAD relativo è sufficiente rapportare il MAD alla mediana in valore assoluto. In questo caso si ha
che
MAD ' 
MAD
5685

 0,12
Me
49080
sui dati della distribuzione di osserva una variabilità mediana intorno alla mediana del 12%.
c) Per calcolare la variazione percentuale e la variazione media percentuale degli assunti non stagionali rispetto al 2004
occorre innanzitutto calcolare i numeri indice a base fissa della serie storica. Ciò significa rapportare il valore di ciascun
anno considerato a quello assunto come base = 1 (in questo caso, 2004). I risultati dei calcoli sono riportati nella tabella
successiva.
7
Totale assunti
Anno
non stagionali
Indice
Variazione %
2004
46470
1
---
2005
47880
1,03
3
2006
49080
1,06
6
2007
64180
1,38
38
2008
64450
1,39
39
2009
40350
0,87
- 13
2010
51720
1,11
11
Conoscendo il valore dei numeri indice a base fissa, per ottenere la variazione media percentuale degli assunti non
stagionali si calcola la media geometrica degli indici.
Mg 
T
T 1
xt 6
 1,03 1,06 1,38 1,39  0,87 1,11  1,12

t  2 x1
La variazione media percentuale degli assunti non stagionali è stata, nel periodo considerato, del 12%.
8
d) Per valutare se esiste una relazione tra i caratteri, e quindi per calcolare il coefficiente di correlazione lineare, occorre
innanzitutto porre una variabile come esplicativa e l’altra come dipendente. In questo caso, la variabile dipendente Y sarà
il numero di assunti, che si ritiene variare in funzione della variabile indipendente X (tempo). Essendo in presenza di una
serie storica, occorre poi individuare la codifica più opportuna per la variabile esplicativa “tempo”. Poiché le osservazioni
hanno cadenza annuale, si porrà t=1 per il 2004, t=2 per il 2005, …, t=7 per il 2010. Si farà quindi riferimento, per i
calcoli, alla tabella seguente, riscritta sostituendo gli anni con i corrispettivi tempi.
t
Totale assunti
non stagionali
1
46470
2
47880
3
49080
4
64180
5
64450
6
40350
7
51720
Per calcolare il coefficiente di correlazione lineare si utilizza la formula
rXY 
9
COV ( X , Y )
 ( X )   (Y )
La covarianza la calcoliamo in funzione dei dati originari come
n
COV ( X , Y ) 
x y
i
i 1
n
i
  ( X )   (Y )
(NB. Per lo svolgimento di questo esercizio, X = T. La variabile assunti
non stagionali, che negli esercizi di statistica univariata era X, diventa Y)
Conosciamo già, da un esercizio precedente, il valore della media degli assunti non stagionali:
μ(Y) = 52018,57.
Per risolvere la formula della covarianza occorre calcolare la media di X e il prodotto dei valori di X per i corrispondenti
valori di Y. I risultati dei calcoli sono riportati nella tabella successiva.
10
T
Y
ty
1
46470
46470
2
47880
95760
3
49080
147240
4
64180
256720
5
64450
322250
6
40350
242100
7
51720
362040
28
364130
1472580
n
( X ) 
x
i 1
i
n

28
4
7
Per cui
COV ( X , Y ) 
1472580
 4  52018,57  210368,57  208074,28  2294,29
7
Per calcolare il coefficiente di correlazione occorre conoscere anche lo scarto quadratico medio delle due variabili.
Conosciamo già da un esercizio precedente il valore dello scarto quadratico medio del numero di assunti non stagionali:
σ(Y) = 8411,18
Calcolo quindi lo scarto quadratico medio della variabile tempo. Conoscendo già il valore della media aritmetica, basterà
calcolare la media quadratica della stessa distribuzione.
11
12  2 2  32  4 2  52  6 2  7 2
140
Q

 20  4,47
7
7
Posso quindi calcolare lo scarto quadratico medio come
  Q 2   2  4,47 2  42  20  16  4  2
A questo punto sostituisco i valori nella formula ottenendo che
rXY 
COV ( X , Y )
2294,29
2294,29


 0,14
 ( X )   (Y ) 2  8411,18 16822,36
Il valore ottenuto indica che siamo in presenza di una scarsa correlazione positiva tra le variabili.
12
e) La funzione interpolante lineare è una sintesi del trend (ovvero della dinamica temporale di lungo periodo) della
variabile “numero di assunti non stagionali” in relazione al tempo.
Essendo in presenza di una serie storica, per calcolare i parametri della funzione interpolante occorre individuare la
codifica più opportuna per la variabile esplicativa “tempo”. Quale base per i calcoli riprendiamo quindi la tabella creata al
punto precedente.
T
Y
ty
1
46470
46470
2
47880
95760
3
49080
147240
4
64180
256720
5
64450
322250
6
40350
242100
7
51720
362040
21
364130
1472580
La retta di regressione da adattare alla serie storica degli assunti non stagionali (Y) è
y' = α + βt
dove y’ indica il valore stimato di Y al tempo t.
13
Per calcolare i valori di α e di β utilizziamo il metodo dei minimi quadrati, che pone
T

T
T
T
t 1
t 1
t 1
2
T
 yt  t 2   t  ty t
t 1



T t  t 
t 1
 t 1 
T
T
T
T
T  ty t   t  y t
t 1
t 1
t 1


T t  t 
t 1
 t 1 
T
T
2
2
2
In primo luogo calcoliamo i valori di t2 che servono per risolvere le formule, mentre conosciamo già dall’esercizio svolto al
punto precedente il prodotto dei valori di Y per i corrispondenti t. I risultati dei calcoli sono riportati nella tabella
successiva.
14
T
Y
t2
ty
1
46470
1
46470
2
47880
4
95760
3
49080
9
147240
4
64180
16
256720
5
64450
25
322250
6
40350
36
242100
7
51720
49
362040
28
364130
140
1472580
Sostituendo i valori nelle formule si ottiene che
T
T
T
T
t 1
t 1
2
 y  t   t  ty
2

t
t 1
t 1
 T 
Tt  t 
t 1
 t 1 
T
2

T
T
T
t 1
t 1
t 1
T  ty t   t  yt
 T 
Tt  t 
t 1
 t 1 
T
2
α = 49724,29
2

t

364130  140  28  1472580 50978200  41232240 9745960


 49724,29
7  140  282
980  784
196
7  1472580  28  364130 10308060  10195640 112420


 573,57
7  140  282
980  784
196
è il valore dell’intercetta, ovvero il numero di assunti non stagionali al tempo 0, ovvero al periodo
immediatamente precedente al primo considerato (in questo caso, nel 2003).
β = 573,57
è il coefficiente angolare, o coefficiente di regressione, e indica l’aumento medio di assunti non
stagionali da un anno al successivo.
15
Calcolati i valori di α e di β, la retta di regressione diventa in questo caso
y' = α + βt = 49724,29 + 573,57t
f) Per misurare la bontà di adattamento si utilizza il coefficiente di determinazione R2. Si misura come
R2 
DEV (Y ' )
DEV ( E )
 1
DEV (Y )
DEV (Y )
In alternativa, conoscendo il valore del coefficiente di correlazione, è possibile calcolare l’indice di determinazione come
R 2  rxy  0,142  0,02
2
Solo il 2% della variabilità nel numero di assunti non stagionali è spiegata dal suo legame lineare con il tempo.
16