Processo di Identificazione

Processo di Identificazione
Processo di identificazione
Problemi a scatola trasparente  il modello viene ottenuto partendo dalla descrizione delle parti costituenti il sistema
e delle leggi che lo regolano. Il problema dell’identificazione si pone quando un parametro è sconosciuto e va stimato
in base ad osservazioni sperimentali.
Problemi a scatola nera  il modello serve per pervenire ad una descrizione sintetica ma accurata della dinamica del
fenomeno che si vuole studiare.
Il procedimento di messa a punto di un modello a partire dai dati è composto dalle seguenti fasi:
-
Raccolta , analisi e prefiltraggio dati  si possono avere sensori con frequenze di campionamento diverse, è
quindi necessario riallineare i dati per poter confrontare le varie sequenze. Se in un istante di tempo si
osserva una misura completamente errata non la si considera. Per ridurre le oscillazioni del rumore si può
utilizzare un filtro passa basso.
-
Scelta del modello  A seconda dello scopo per cui si sta creando il modello, ed in base alla natura del
problema che si sta trattando, si deve scegliere il modello da utilizzare.
La prima scelta è tra modello a scatola nera o modello a scatola trasparente. Nel caso si adotti un modello a
scatola trasparente si deve scegliere il tipo tra AR, ARMA, ARX, ARMAX. (non esistono solo questi)
-
Identificazione  si individuano e determinano i parametri del modello (i coefficienti delle matrici A, B, C). I
parametri che consideriamo sono discreti e tempo-invarianti.
-
Validazione  si studiano i risultati e si convalidano se risultano conformi
Approccio Predittivo
Questo metodo di identificazione viene utilizzato per scegliere il modello all’interno di una stessa famiglia di modelli
che interpreta meglio i dati.
Ogni modello di una famiglia è definito da un vettore di parametri ed è alimentato da un rumore bianco non
misurabile (ed anche da una variabile esogena se presente nel sistema) e perciò genera in uscita un processo
stocastico.
Il predittore è un sistema che non essendo soggetto ad alcun rumore ha come ingresso unicamente l’uscita y(t) del
modello (e l’ingresso u(t) del modello, se presente) e genera all’uscita la predizione ottima di
definita come
.
La predizione
può essere confrontata con il dato
definito come la differenza tra i due dati:
Procedendo istante per istante si può ottenere l’intera sequenza
, in particolare si considera l’errore di predizione
.
.
Per valutare l’entità media dell’errore si considera il seguente funzionale di costo:
Si procede cercando di minimizzare l’errore utilizzando il metodo dei minimi quadrati
Metodo dei minimi quadrati
Dato il generico modello
Definito il vettore dei parametri
Identificazione e Fusione Sensoriale – Appunti di DM
Pagina 1
Processo di Identificazione
Dato il vettore delle osservazioni
Si può scrivere
e
da cui
Il funzionale di costo risulta essere
da cui
I punti di minimo del funzionale di costo si ottengono risolvendo le seguenti equazioni normali
Si cercano i valori di
che minimizzano il funzionale di costo considerando la derivata uguagliata a 0.
Se la matrice
risulta singolare (non di rango pieno e quindi non invertibile) si hanno infinite
soluzioni. Se invece la matrice risulta non singolare allora l’unica soluzione è data da:
A questo punto può essere definita la matrice formata da tutte le osservazioni come segue:
e si può quindi scrivere
E’ immediato osservare che
in cui
è detta matrice pseudo inversa .
Si individua quindi lo strumento per ottenere il punto di minimo nel caso in cui si utilizzino i modelli AR ed ARX, ed in
cui si abbiano a disposizione lunghe sequenze. E’ possibile quindi ottenere la retta di interpolazione dei punti e
minimizzare le distanze dei singoli punti da essa. I punti sono proprio tutte le coppie a disposizione di u ed y.
Metodo dei minimi quadrati pesati
La stima effettuata mediante il metodo dei minimi quadrati pesa ogni errore di output
allo stesso modo;
quindi il valore di un errore dipende solo dalla sua dimensione, non dalla sua posizione nella successione di N
campioni.
Ci sono casi in cui ha senso pesare gli errori in determinati istanti in modo più significativo rispetto ad altri. Ad
esempio, nell’utilizzo dei radar è più importante ottenere una stima ottima delle posizioni, e quindi degli errori di
predizione, più recenti rispetto a quelle meno recenti.
Può anche accadere che alcune osservazioni siano meno affidabili di altre, perciò si tende a tener meno traccia degli
errori corrispondenti ad esse. Ricordando che:
il metodo dei minimi quadrati pesati considera la matrice
Identificazione e Fusione Sensoriale – Appunti di DM
Pagina 2
Processo di Identificazione
con la matrice W simmetrica, diagonale e definita positiva, per poter essere invertibile, che rappresenta e mostra il
peso desiderato dei singoli termini di errore che contribuiscono all’errore totale.
Ovviamente l’introduzione della matrice W implica un leggero aumento della complessità computazionale in
dipendenza con il numero di osservazioni.
Stima dei modelli ARMA e ARMAX:
Utilizzando il metodo dei minimi quadrati per questi due modelli si va incontro ad errori di stima.
Infatti considerando il modello ARMAX reale ed il modello stimato si ha
Modello reale 
ricordando che
ha una distribuzione di probabilità normale con parametri (0, )
ha una distribuzione di probabilità normale con parametri (0, )
Sono quindi entrambi ergotici (media nulla) perciò in ogni istante della sottosequenza si hanno le stesse
caratteristiche statistiche.
Modello stimato 
Considerando lo stimatore di costo si ha:
ricordando che il valore della stima è
.
L’unico termine dello stimatore che potrebbe creare problemi è il doppio prodotto che però è scomponibile in quanto
le variabili
ed
sono scorrelate poiché l’uscita all’istante t non dipende dall’ingresso all’istante t , ma
quello all’istante t-1. Quindi si può scrivere il doppio prodotto come segue:
E’possibile quindi riscrivere lo stimatore come:
Da questa è possibile definire
Nell’espressione di b si nota che il denominatore
impostate da noi, ed è pari a .
Sviluppando il numeratore si ha
è noto, in quanto le caratteristiche statistiche sono
Da cui si ottengono le uguaglianze:
e
Identificazione e Fusione Sensoriale – Appunti di DM
Pagina 3
Processo di Identificazione
La stima del parametro b converge a bR mentre la stima del parametro a tende ad un valore differente ad aR per un
termine che è proporzionale al rapporto rumore-segnale. La stima di a converge ad aR solo se la varianza dell’errore è
nulla.
Si conclude che l’errore di predizione che si commette con questo modello ha varianza .
Il metodo dei minimi quadrati si utilizza con modelli AR, ARX ed avendo a disposizione lunghe sequenze.
Per i modelli di tipo ARMA ed ARMAX si usa il metodo della verosimiglianza.
Metodo della massima verosimiglianza
Il modello in forma di predizione per un ARMAX è
Come predittore si utilizza lo stimatore di costo
Si ricorre quindi ad un algoritmo iterativo di ricerca del punto di minimo utilizzando un procedimento in cui si
considera un’approssimazione della funzione
, intorno ad un certo punto, con una funzione quadratica
.
Si applica quindi la formula per ottenere il punto di minimo di una paraboloide per trovare il minimo di
, e si
ripete il procedimento fino a convergenza. E’ però possibile che si rimanga bloccati in minimi locali.
Nell’intorno del punto operativo si hanno le seguenti proprietà:
1) La funzione
coincide con
2) Il gradiente di
3) L’hessiano di
, con l’ipotesi sui parametri ottimi che
coincide con il gradiente di
coincide con l’hessiano di

in
in
(Jacobiano)

La funzione approssimante sarà quindi
Il cui punto di stazionarietà è
ricavato a partire dal vettore di più rapida discesa
premoltiplicato per l’inverso dell’hessiano (supposto non
singolare).
Quindi la direzione di ricerca si ottiene considerando il gradiente, mentre il passo della ricerca lo determina l’hessiano.
Nel problema di stima preso in considerazione si può riscrivere il valore
in funzione dei dati noti, ossia la
sequenza di ingresso e quella di uscita, ed ottenere il
corrispondente come segue:
Identificazione e Fusione Sensoriale – Appunti di DM
Pagina 4
Processo di Identificazione
con
che risulta essere un vettore colonna con dimensione pari al numero dei parametri del
modello.
Il secondo termine della matrice hessiana,
, viene solitamente
trascurato, ma gestisce le condizioni di concavità della curva verso il basso. Infatti se
si è in prossimità di un punto di massimo può accadere che l’hessiano risulti
negativo, cosicchè il vettore del gradiente punterebbe verso una direzione
ascendente per ricercare il punto di minimo. Trascurando il secondo termine,
l’hessiano è composto da una forma quadratica definita positiva che garantisce la ricerca nella direzione di minimo.
Utilizzando questa approssimazione, l’algoritmo iterativo è definito da:
L’algoritmo è univocamente specificato se si determinano i valori di
Per ottenere
ARMAX si ha:
si considera
.
ed utilizzando la predizione ottima definita per un
L’errore di predizione si ottiene quindi filtrando i dati
.
Si consideri che il vettore
ha come componenti i parametri del polinomio A(z) , i parametri del
polinomio B(z) , i parametri del polinomio C(z). E’ perciò opportuno partizionare il vettore
:
con
Si possono quindi definire i segnali
come le soluzioni alle seguenti equazioni alle differenze:
evidenziando che
Schema dell’algoritmo ML
Si può schematizzare un’iterazione, dal passo
al passo
, dell’algoritmo ML:
1) Al passo i si dispone della stima del vettore dei parametri
e
.
Filtrando i dati y(t) e u(t) secondo l’equazione
stima al passo i del segnale
, ossia
.
Identificazione e Fusione Sensoriale – Appunti di DM
, e quindi anche la stima dei polinomi
,
si ricava la
Pagina 5
Processo di Identificazione
2) Si filtrano i dati y(t) per ricavare
all’iterazione τ , ossia
, considerando
3) Si filtrano i dati u(t) per ricavare
all’iterazione τ , ossia
, considerando
4) Si filtrano i dati
all’iterazione τ , ossia
, considerando
per ricavare
5) Tramite le stringhe
6) Utilizzando i valori di
si costruisce il vettore
e
come
si ricava il nuovo vettore de parametri come segue:
L’algoritmo deve essere equipaggiato con un dispositivo che verifichi la stabilità del polinomio
stimato.
Nota: Analizzando la struttura di
e la
struttura del vettore delle osservazioni
si nota che i primi
elementi di
si ricavano dai corrispondenti elementi del vettore delle osservazioni
filtrandoli
attraverso un sistema con la medesima fdt
.
Questo porta a definire il vettore esteso delle osservazioni
che è un vettore di
componenti, le
cui prime
coincidono con
e le restanti sono
.
Scelta della complessità del modello
Uno dei problemi nell’identificazione a scatola nera è quello relativo alla scelta della complessità dei modelli.
Si caratterizza la complessità del modello con il numero n dei suoi parametri, e si considera il criterio di stima
dove è il vettore dei parametri del modello e
è l’errore di predizione del modello.
Partendo da questa premessa si possono avere due tipi di valutazione:
-
Valutazione soggettiva  il modello viene testato con la stessa sequenza di dati che è stata utilizzata nella
prova di identificazione.
Si considera
come indice di aderenza del modello ai dati, dove
curva che descrive lo stimatore
.
-
è il punto di minimo della
Valutazione oggettiva  il modello viene testato utilizzando sequenze di dati diverse da quella utilizzata nella
prova di identificazione.
Cross-validazione
Se il numero di dati a disposizione è elevato, si può utilizzare una parte dei dati per l’identificazione,
e la parte restante per la valutazione oggettiva della bontà del modello.
Il metodo ha le seguenti fasi:
Identificazione e Fusione Sensoriale – Appunti di DM
Pagina 6
Processo di Identificazione
1) Per ogni n , appartenente ad un intervallo di valori possibili
, si identifica il
modello ottimo inteso come il modello che meglio spiega la parte dei dati usati per
identificazione.
2) Per ogni modello identificato nella fase precedente si stima la capacità predittiva
utilizzando lo stimatore di costo
sulla parte di dati usati per la validazione.
Si considera il modello che minimizza l’errore quadratico dello stimatore.
Questo criterio però non presenta un andamento decrescente al crescere della complessità, ma il
modello ottimo di ordine elevato ha un’aderenza così spinta da tendere quasi al rumore che
corrompe i dati utilizzati (fenomeno dell’overfitting).
Criterio multisequenza
In molti casi si ha a disposizione l’insieme di sequenze
con
, di lunghezza
diversa, utilizzando S1 per la fase di identificazione e le restanti per la fase di validazione.
Il metodo ha le seguenti fasi:
1) Si calcola la stima mediante il funzionale di costo
con la sequenza S1 .
2) Si calcolano le stime utilizzando il funzionale di costo
sulle altre sequenze.
3) Si effettua la media dei valori ottenuti al passo 2.
4) Si confronta la stima ottenuta al passo 1 con la media ottenuta al passo 3.
Se i valori coincidono si sta utilizzando il modello appropriato.
Criterio FPE  Quando si hanno a disposizione poche sequenze si utilizza il metodo FPE :
1) Si calcola la stima utilizzando il funzionale di costo
2) Si calcola il valore
facendo
variare n = numero di parametri del modello e
considerando la lunghezza N della sequenza.
Aumentando n si aumenta il peso che si attribuisce
al particolare
.
3) Si considera il valore di n per cui risulta minimo il
valore FPE
Criterio AIC
Quando si hanno a disposizione poche sequenze si può utilizzare il metodo AIC :
1) Si calcola la stima utilizzando il funzionale di costo
2) Si calcola il valore
facendo variare n = numero di parametri del
modello e considerando la lunghezza N della
sequenza. Come si osserva il primo addendo
penalizza la complessità del modello (la pendenza
della retta è
perciò diminuisce all’aumentare del
numero di dati N) , mentre il secondo fornisce la misura dell’aderenza del modello
ottimo di ordine n considerato.
3) Si considera il valore di n per cui risulta minimo il valore AIC
Identificazione e Fusione Sensoriale – Appunti di DM
Pagina 7