La Classificazione Fisica Delle Galassie Come Problema Di Data

Università degli Studi di Napoli “Federico II”
Facoltà di Scienze Matematiche Fisiche e Naturali
TESI TRIENNALE IN FISICA
La Classificazione Fisica Delle
Galassie Come Problema Di Data
Mining
Relatore:
Prof. Giuseppe Longo
Anno Accademico 2007/08
Studente:
Alessandro Montalto
Matr. 567/197
Indice
1 Introduzione
1.1 La classificazione fisica delle galassie . . . . . . . . . . . . . .
1.2 Considerazioni sulle classificazioni . . . . . . . . . . . . . . . .
1.2.1 Estrazione e Selezione delle caratteristiche . . . . . . .
2
2
5
11
2 Il Clustering
2.1 Introduzione al clustering . . . . . . . . . . . . . . . . .
2.2 I metodi gerarchici di classificazione . . . . . . . . . . .
2.3 La valutazione della classificazione con metodi gerarchici
2.4 I metodi non gerarchici di classificazione . . . . . . . . .
2.5 Le GTM . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6 Le PPS . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6.1 Un algoritmo di aspettazione-massimizzazione . .
2.6.2 PPS sferiche . . . . . . . . . . . . . . . . . . . .
2.7 Astroneural . . . . . . . . . . . . . . . . . . . . . . . . .
12
12
14
19
21
23
25
27
29
31
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 I Dati
37
3.1 La Sloan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4 Esperimenti
40
5 Alcune conclusioni
47
Bibliografia
49
1
Capitolo 1
Introduzione
1.1
La classificazione fisica delle galassie
I primi tentativi di giungere ad una classificazione morfologica delle galassie
risalgono al 1814, quando M. Wolf disegnò 17 tavole che definivano il sistema
di classificazione stesso. Wolf posizionò queste forme lungo una sequenza
lineare, da (g) a (w), da sistemi amorfi fino a sistemi a spirale. Il sistema era
puramente descrittivo e fu rapidamente abbandonato anche perché, all’epoca
in cui esso fu concepito non era ancora chiara la differenza tra nebulose
galattiche e nebulose extragalattiche.
Pochi anni dopo, nel 1913, Reynolds misurò i profili di intensità delle
regioni centrali di un tipo particolare di nebulose noto come galassie a spirale
ricavando la legge empirica:
I(r)(1 + x2 ) = costante
dove I(r) è il cosiddetto profilo di brillanza superficiale1 . Questo era il
famoso profilo di Reynolds che Hubble (1930) pi`
u tardi generalizzò rendendolo indipendente dalla scala, sostituendo x con il rapporto r/a, dove r è
la distanza radiale lungo l’asse maggiore e a è un fattore di scala pari alla
distanza radiale in cui la brillanza superficiale è un quarto del valore centrale. Di l`ı a poco, usando un campione pi`
u ampio di galassie con diversi
rapporti nucleo/disco costru`ı una sequenza di forme con caratteristiche che
cambiavano con continuit`
a da una classe all’altra.
Le sette classi di Reynolds erano le seguenti (tra virgolette sono riportate
le sue stesse parole):
1
Brillanza superficiale: flusso di radiazione proveniente da un elemento della superficie
dell’oggetto in funzione della distanza r dal centro dell’oggetto stesso.
2
I.
II.
III.
IV.
V.
VI.
VII.
”Spirali formate unicamente da nebulosità amorfa”
”Spirali che mostrano un principio di condensazione solo nelle
spire pi`
u esterne”
”In questa classe le condensazioni nelle regioni pi`
u esterne
avanzano considerevolmente verso il nucleo”
”Include la maggior parte delle spirali. La condensazione
nebulare appare in tutte le regioni ad eccezione del nucleo, ma
vi è un ambiente nebuloso pi`
u o meno cospicuo”
”Stadio avanzato della Classe IV: la nebulosa è di
di tipo condensato, il nucleo ha spesso limiti definiti
come una nebulosa planetaria”
Speciali tipi intermedi con anelli pi`
u esterni e
con i bracci pi`
u interni in stato di condensazione
”Spirali di tipo granulare che non presentano un nucleo
definito”
Un ulteriore tentativo di giungere alla classificazione delle forme delle sole
galassie esterne fu fatto da Shapley (1928), che inventò una classificazione
basata sulla concentrazione della luce verso il centro. Shapley, però, incluse
anche propriet`
a non intrinseche, quali la magnitudine apparente (legata alla
distanza dell’oggetto) e lo schiacciamento apparente (legato all’inclinazione
rispetto alla linea di vista), ed il sistema risultò di scarsa utilità pratica.
Se si trascurano alcuni tentativi di minore imortanza, il passo successivo
fu compiuto dall’astronomo americano Edwin P. Hubble nel 1936, con la
pubblicazione dello straordinario libro The Realm of Nebulae, che avrebbe
segnato un punto di svolta nella conoscenza delle proprietà dell’universo
extragalattico.
Hubble nella sua tesi di dottorato (1917) per l’Università di Chicago
aveva misurato la posizione di nebulose non galattiche (galassie) e, nel descrivere la loro forma aveva fatto uso di una variante della classificazione
descrittiva di Wolf (1908) confrontando ciò che osservava con le 17 tavole
che Wolf aveva disegnato. Quest’esperienza lo aveva convinto dell’assoluta
inadeguatezza dei sistemi sin l`ı adottati ed indotto a cercare un sistema di
classificazione pi`
u affidabile.
Nel suo libro del 1936, Hubble divise il regno galattico delle galassie pi`
u
lontane in ellittiche e spirali creando una relazione tra queste due classi e una
continuit`
a tra le spirali tramite la relazione tra nucleo e braccio, ponendo le
galassie in insiemi di classificazione adiacenti. Le ellittiche erano oggetti con
isofote2 di forma ellittica e prive di qualsivoglia struttura interna. Hubble le
suddivise in base al loro schiacciamento apparente in sottogruppi E1 , ....E7
dove il coefficiente n:
n = 10(1 − b/a)
2
Isofota: linea che unisce punti ad uguale brillanza superficiale.
3
con a e b, rispettivamente asse maggiore ed asse minore di un’isofota di
riferimento.
Le spirali erano invece divise in due gruppi e sotto-classificate come a,
b, c in base a tre criteri concorrenti. I due gruppi erano determinati dalla
presenza o dall’assenza di una barra stellare di forma cilindrica fuoriuscente
dal nucleo, mentre i criteri erano:
• il rapporto tra le dimensioni del bulge centrale ed il disco;
• il grado di avvolgimento dei bracci;
• l’aspetto pi`
u o meno definito dei bracci.
In altri termini, un oggetto SBb veniva ad indicare una Spirale Barrata con
un rapporto bulge/disco intermedio e bracci mediamente definiti.
Per realizzare una distribuzione continua, Hubble ipotizzò anche l’esistenza di una classe con caratteristiche intermedie tra quelle delle ellittiche
e quelle delle spirali, che chiamò S0. Tale classe fu effettivamente scoperta
nel 1946.
Gli oggetti che non mostravano segni di simmetria facilmente riconoscibile, venivano classificati come irregolari (Irr).
La classificazione introdotta da Hubble risultò essere esaustiva (il 97%
delle galassie contenute nel catalogo delle galassie di Shapley-Ames risultò
classificabile) e pur essendo costruita in base a criteri arbitrari pose in
evidenza l’esistenza di correlazioni tra morfologia e proprietà fisiche (es: il
contenuto percentuale di gas e polveri, il momento angolare specifico, l’età
media delle popolazioni stellari...). Il principale limite della classificazione
di Hubble era nella sua mancanza di generalità dovuta al fatto che essa era
stata ottenuta a partire da un campione abbastanza uniforme di lastre fotografiche ottenute con il telescopio da 2.5 m di Monte Wilson. Ciò faceva
s`ı che essa si fondasse sulle immagini delle regioni centrali (non saturate
nelle immagini fotografiche) di galassie brillanti e vicine. In altri termini,
essa si rivel`
o inadeguata a descrivere le caratteristiche di oggetti con nuclei peculiari (Es. galassie attive) oppure di bassa luminosità (galassie nane
o di bassa brillanza superficiale). Inoltre, essendo basata su immagini fotografiche ottenute con lastre sensibili soprattutto alla radiazione blu, essa
non coglieva i dettagli, quali regioni di formazione stellare o bande di polveri,
visibili soprattutto ad altre lunghezze d’onda. Basta poco per convincersi
che quest’ultimo fattore implica anche la non applicabilità dello schema di
Hubble ad oggetti distanti. Infatti a causa del redshift, la radiazione osservata nel blu da una galassia lontana corrisponde, nel riferimento della galassia,
a lunghezze d’onda pi`
u corte (es. ultravioletto) e l’esperienza insegna che le
caratteristiche morfologiche delle galassie in questi due regimi sono affatto
diverse. In altri termini, per classificare in modo omogeneo galassie a redshift diversi occorrerebbe prima costruire un sistema di classificazione ad
4
una certa lunghezza d’onda e poi riportare le immagini di tutti gli oggetti a
quella stessa lunghezza d’onda rest-frame.
Figura 1.1: L’aspetto della galassia di Andromeda - M31, a diverse lunghezze
d’onda. Si notino le morfologie diverse.
Ulteriori sviluppi, quali ad esempio, quelli tentati da de Vaucouleurs
(1961) o da Vorontsov-Velyaminov et al. (1962-1974), pur complicando
notevolmente i criteri di calssificazione, non riuscirono a catturare la complessit`
a delle morfologie extragalattiche e furono rapidamente abbandonati.
Oggi sappiamo che le galassie sono sistemi complessi, costituiti da diverse componenti principali (bulge ellittici/triassiali, barre cilindriche, dischi
esponenziali e dischi spessi, aloni sferoidali, nuclei attivi, etc.) che per di
pi`
u evolvono nel tempo (e quindi con la distanza dall’osservatore). Una tale
complessit`
a implica che ad una classificazione basata su criteri puramente
morfologici occorre sostituire un sistema di classificazione basato su criteri
fisici, oggettivi e facilmente misurabili.
1.2
Considerazioni sulle classificazioni
Mentre il primo passo di ogni classificazione in un campione omogeneo di
oggetti consiste nello stabilire una relazione di ordine di natura qualitativa
5
R(p1 , ...., pn ) dipendente da n parametri che rappresentano quantità osservabili, lo scopo ultimo è quello di generare una tassonomia fisica, cioè una
catalogazione di oggetti sulla base di proprietà e fenomeni fisici. In generale,
una tassonomia pu`
o essere ottenuta se e solo se gli osservabili scelti come
parametri, determinando il valore della relazione di ordine R(p1 , ...., pn ),
riflettono il pi`
u possibile una o pi`
u leggi fisiche L1 , ...., Lm . La validità di una
classificazione tassonomica può essere testata valutando la sua capacità di
formulare nuove previsioni riguardanti osservabili non direttamente connessi
alla relazione di ordine considerata e che possono essere spiegati dalle stesse
leggi fisiche L1 , ...., Lm .
La correttezza di ogni tentativo di classificazione dipende dalla disponibilit`
a di un campione omogeneo di oggetti, le cui quantità osservabili siano
state misurate nelle stesse condizioni e dalla omogeneità del materiale usato
per la classificazione: è di grande importanza, in particolare per la classificazione astronomica, che siano specificati correttamente l’intervallo di
lunghezza d’onda all’interno del quale gli oggetti sono osservati, le condizioni
osservative e le caratteristiche peculiari dell’apparato osservativo usato per
la raccolta dei dati. Resta ora da stabilire:
• come si definisce l’omogeneità;
• come si definiscono matematicamente i parametri o predicati;
• cosa rende buona o cattiva una classificazione.
Sia S = x1 , . . . , xn l’insieme degli oggetti da classificare. Una classificazione è una partizione S 0 = S1 , . . . , Sm tale che
m
[
Sj = S con m n e ∀jSj 6= ∅
j=1
Per una classificazione ideale dovrebbe anche valere:
Sj
\
Sk = ∅
j6=k
Le classi Sj sono definite dai parametri o predicati pj,l con l = 1, L definiti
in Sj :
xi ∈ Sj ⇔ l, pj,l (xi ) = V ero
A questo punto ci si chiede se:
• è necessaria oppure solo auspicabile l’uniformità dei predicati (cioè se
i predicati devono essere gli stessi per ogni Sj );
• il fatto che i predicati siano deducibili in base ad una ben precisa
propriet`
a misurabile non ridefinisca automaticamente S come l’insieme
degli oggetti in cui i p sono misurabili.
6
Requisiti
Devono essere in numero ridotto
Svantaggi
Aumentare il numero dei parametri riduce
l’utilità della classificazione
Facilmente misurabili sui dati
a disposizione
La classificazione di un oggetto non deve
richiedere pi`
u tempo di quanto ne
prenderebbe uno studio dettagliato
Non devono portare a risultati
contraddittori
Lo stesso oggetto verrebbe ad essere
attribuito a classi diverse
Devono, in prima approssimazione
riflettere qualche criterio fisico
sottostante (anche se al momento
sconosciuto)
Si provi a classificare le specie
animali in funzione del colore
del mantello
I problemi che si incontrano nella classificazione morfologica delle galassie,
in una prospettiva generale, sono i seguenti:
• nelle galassie sono presenti diverse componenti: bracci di spirali, bulges,
anelli, lenti, dischi, etc. Queste componenti, visibili in diverse combinazioni e inclinazioni, sono all’origine della complessità e delle ambiguit`
a che si riscontrano nella morfologia delle galassie.
• le galassie coprono un grande intervallo di brillanza superficiale, luminosit`
a e altre proprietà globali, cos`ı che gli effetti di selezione sono
sempre importanti poiché essi potrebbero condizionare l’attendibilità
statistica dei campioni di oggetti usati per la classificazione.
• l’ambiente è importante per determinare la forma delle galassie, poiché
si riscontra che le distribuzioni dei vari tipi morfologici differiscono
significativamente a seconda che ci si trovi nel campo o in ambienti
molto densi (quali ad esempio, gli ammassi ricchi).
• gli eventi dinamici su scale di tempo relativamente brevi possono portare, da una parte, alla possibile evoluzione di rare forme transienti, dall’altra, potrebbero essere responsabili della formazione di alcuni dei
pi`
u comuni tipi morfologici. In questo senso, questi eventi possono allo stesso tempo confondere o semplificare il complesso problema della
classificazione morfologica delle galassie.
L’obiettivo primario degli studi morfologici è quindi quello di fornire
vincoli osservativi ad un’ampia casistica di problemi legati alle modalità di
formazione ed evoluzione delle galassie e delle strutture cosmiche quali, ad
esempio:
7
• gli effetti dell’ambiente sulle galassie;
• la formazione dei clusters;
• l’evoluzione delle strutture cosmiche;
• i fattori fisici che hanno determinato i vari tipi al tempo della formazione delle galassie.
Da un punto di vista metodologico, l’obiettivo di ogni classificazione
fisica è quello di ridurre la complessità e di correggere gli aspetti fuorvianti
della classificazione morfologica.
In questa tesi si affronta con un approccio diverso (e preliminare) il problema di come correlare gli indicatori morfologici con le proprietà intrinseche
delle galassie, ricorrendo al data mining che, per essere affidabile, ha bisogno
di una grande quantit`
a di dati.
L’obiettivo primario del data mining è infatti quello di estrarre modelli
e caratteristiche interessanti da una grande quantità di dati solitamente in
uno spazio ad alta dimensione: Spazio dei parametri, P N . In questo spazio
(Fig. 1.2) N -dimensionale, ogni dimensione è definita da un osservabile, cioè
da una ben precisa quantit`
a astronomica misurabile a partire da immagini,
spettri o qualunque altro tipo di dato astronomico. Si avranno, quindi, un
asse per la lunghezza d’onda, un asse per la polarizzazione, un altro per il
flusso integrato, un altro ancora per la brillanza superficiale, un altro per la
risoluzione angolare, etc. In questa approssimazione, si sta supponendo che
ad ogni misura sia associabile una quantità numerica e, quindi, P N ⊂ <N . Si
noti che una qualsiasi osservazione o è sempre caratterizzata da pi`
u quantità
(ad esempio, la misura di un flusso è associabile ad una ben precisa lunghezza d’onda, ad un’epoca di osservazione, ad un tempo di campionamento, ad
una risoluzione angolare, etc.) e, quindi, è un punto appartenente a <m con
m N. Un’osservazione, quindi, è sempre un’informazione incompleta che
` evidente che ogni oggetdefinisce in P N una variet`
a di ordine N − m. E
to, essendo identificato dalle due coordinate proiettate sulla sfera celeste,
definir`
a un sottospazio ON −2 di P N . In teoria, una conoscenza accurata
delle propriet`
a osservative dell’Universo richiederebbe un campionamento
uniforme e fitto di tutto P N . Purtroppo, invece, l’insieme delle osservazioni
astronomiche disponibili popola questo spazio in modo molto disomogeneo:
una grandissima concentrazione di punti, ad esempio, cade nell’ipervolume
◦
definito da: lunghezza d’onda compresa tra 3300 e 8000 A; risoluzione angolare compresa tra 0.800 e 200 ; tempo di integrazione della radiazione compreso
tra 10 s e 3600 s; magnitudine (flusso) compresa tra 14.0 e 20.0; brillanza superficiale tra 24 e 14.5. Si noti che questo ipervolume marca la regione dello
spazio dei parametri corrispondente alle osservazioni effettuate a lunghezze
d’onda visibili.
8
Figura 1.2: Rappresentazione schematica dello spazio dei parametri.
Ci sono tre problemi pratici e teorici per cui non si può lavorare direttamente con spazi ad alta dimensione:
1. Visualizzazione: la visualizzazione è possibile in, al pi`
u, tre dimensioni.
Essa è molto utile per ottenere una comprensione preliminare dei dati
ed è usata spesso nell’analisi dei dati. Però questa è anche un’arma a
doppio taglio: possono essere commessi giudizi errati se non si presta la
dovuta attenzione alla rappresentazione dei dati dello spazio originario
ad alta dimensione nello spazio a dimensione minore.
2. Risorse limitate: oggi si immagazzinano pi`
u dati di quanti se ne possano estrarre. Questo porta ad un collo di bottiglia computazionale
dovuto a due fattori: gran numero di campioni (N) e di dimensioni (D).
Il problema del numero dei campioni può essere aggirato tramite campionatura. Anche tale procedura può però risultare inadeguata. Quindi pu`
o essere necessario aumentare l’efficienza computazionale grazie
alla riduzione della dimensione.
3. Problema della dimensione: in una situazione ideale dove si può accedere ad una quantit`
a infinita di dati campione, avere pi`
u dimensioni
è equivalente a processare pi`
u informazione. Infatti è stato mostrato
che per i problemi di classificazione l’informazione dovuta a dimensioni aggiuntive non può abbassare la stima di Bayes che è il limite
superiore teorico per l’accuratezza della classificazione. Si noti che
questo risultato teorico assume implicitamente l’esistenza di un numero di campioni esponenzialmente grande rispetto alla dimensione.
9
Sfortunatamente nella pratica il numero di campioni è quasi sempre
sparso rispetto alla dimensione, ed è tra le maggiori cause di errore nella funzione di approssimazione, stima della densità, e classificazione.
Figura 1.3: I dati in spazi ad alta dimensione si dispongono in periferia.
Figura 1.4: I dati sono sempre sparsi in spazi ad alta dimensione.
I primi due punti sono pratici e possono essere spesso aggirati, rispettivamente, usando semplici proiezioni ortogonali (e.g. Principal Component
Analysis) e algoritmi a complessità pi`
u bassa (rispetto alla dimensione e alla
grandezza del campione). Quindi l’interesse finale e maggiore è un misto tra
teoria (geometria ad alta dimensione) e pratica (non molti campioni), che
non ha una soluzione semplice.
Il problema della dimensionalità è la motivazione principale che porta alla riduzione della dimensione poiché, contrariamente a quanto si possa pensare, dati distribuiti casualmente in uno spazio ad alta dimensione
tendono:
1. ad addensarsi alla periferia dello spazio dei campioni e,
2. ad essere sparsi, per molti problemi pratici.
10
1.2.1
Estrazione e Selezione delle caratteristiche
Ci sono due approcci generali alla riduzione della dimensione, chiamati estrazione delle caratteristiche e selezione delle caratteristiche (conosciuto anche
come selezione delle variabili o selezione di un sottoinsieme di caratteristiche). L’estrazione delle caratteristiche trasforma (linearmente o non linearmente) i dati originali in uno spazio a dimensione pi`
u bassa usando tutte
le variabili originarie (dimensioni). La selezione delle caratteristiche, che è
un caso speciale di estrazione delle caratteristiche lineare, seleziona un sottoinsieme di variabili dall’insieme delle caratteristiche originarie e scarta le
rimanenti. Ogni metodo richiede un criterio predefinito per la valutazione
della bont`
a della trasformazione. Inoltre il criterio specifica anche il metodo:
supervisionato o non supervisionato.
11
Capitolo 2
Il Clustering
2.1
Introduzione al clustering
Si parler`
a ora specificamente delle metodologie di classificazione delle unità
statistiche in gruppi, detti anche clusters. Queste metodologie, note come
cluster analysis, sono i pi`
u noti metodi descrittivi di data mining.
L’obiettivo della cluster analysis, data una matrice dei dati X composta
da n osservazioni (righe) e p variabili (colonne), è quello di raggruppare le
unit`
a statistiche in gruppi il pi`
u possibile omogenei al loro interno (coesione
interna) ed eterogenei tra di loro (separazione esterna).
Si noti che la costituzione di gruppi omogenei di unità statistiche può
essere interpretata come una riduzione della dimensione dello spazio Rn ,
tuttavia completamente differente da quanto accade, per esempio, con il
metodo delle componenti principali. Infatti, nei metodi di raggruppamento
le n unit`
a vengono riunite in g sottoinsiemi (e solitamente g < n), mentre
nell’approccio delle componenti principali le p variabili statistiche vengono
trasformate in k nuove variabili (con k < p).
Vi sono numerosi modi per effettuare un’analisi di raggruppamento. Pertanto, prima di effettuare l’analisi, deve esserci una chiara definizione dei
modi in cui essa viene svolta. In particolare, le scelte da effettuare dovranno
riguardare i seguenti punti:
• la scelta delle variabili da utilizzare: la scelta delle variabili da utilizzare per la classificazione deve tener conto di tutti gli aspetti rilevanti
per il conseguimento degli obiettivi prefissati e, quindi, di tutte le variabili necessarie a tal fine, tenendo presente che l’utilizzo di variabili poco
significative porta inevitabilmente a un peggioramento dei risultati.
Questa scelta è un problema cruciale perché condizionerà fortemente
il risultato finale. In generale si può affermare che una classificazione
pu`
o considerarsi soddisfacente quando non mostra un’eccessiva sensibilit`
a a piccoli cambiamenti dell’insieme di variabili utilizzate. Dal
12
punto di vista della scelta delle variabili è opportuno, prima di effettuare una cluster analysis, effettuare indagini esplorative accurate,
che possono fra l’altro suggerire possibili configurazioni finali per la
classificazione. Inoltre, al fine di potere meglio visualizzare e, pertanto, interpretare, il risultato della cluster analysis, è spesso opportuno
ridurre la dimensionalità della matrice dei dati, per esempio mediante
il metodo delle componenti principali. Si sottolinea infine, di prestare
particolare attenzione, nella fase esplorativa, alla individuazione di osservazioni anomale che potrebbero inficiare notevolmente i risultati
dell’analisi. Da questo punto di vista si potrebbero associare i metodi
di cluster analysis a quelli di ricerca degli outliers. Sebbene vi siano
notevoli similitudini tra i due concetti, la differenza principale ricade
sulla motivazione dell’analisi effettuata: se si vuole effettuare una classificazione di tutte le unità (cluster analysis) piuttosto che la ricerca
di osservazioni anomale (ricerca degli outliers);
• il metodo di formazione dei gruppi : a questo proposito si distinguono
metodi gerarchici e metodi non gerarchici. I metodi gerarchici consentono di ottenere una successione di raggruppamenti (detti partizioni) con un numero di gruppi da n a 1, partendo dal pi`
u semplice
in cui tutte le unit`
a sono distinte, fino a quello in cui tutti gli elementi
appartengono a un unico gruppo. I metodi non gerarchici permettono
invece di raggruppare le n unità statistiche in un numero di gruppi
fissato (soggettivamente) a priori;
• l’indice di prossimit`
a da utilizzare: a seconda della natura delle variabili a disposizione, deve solitamente essere definita una misura di
prossimit`
a fra le unit`
a statistiche, da utilizzare per calcolare la matrice
delle distanze fra di esse. Se le variabili sono prevalentemente quantitative, si ricorrer`
a alla distanza euclidea; se sono prevalentemente
qualitative a un indice di similarità; infine, se i dati sono aggregati
in tabelle di contingenza, si ricorrerà alla distanza del chi-quadro fra
le modalit`
a. Poiché le pi`
u diffuse misure di prossimità possono essere ricondotte a delle distanze, nel seguito si farà riferimento a questo
concetto. Si sottolinea nuovamente l’importanza di una eventuale normalizzazione delle variabili, per evitare che alcune pesino pi`
u di altre
nella determinazione dei risultati finali. Oltre a stabilire una misura
di prossimit`
a fra le unità statistiche, è necessario stabilire, nel caso
dei metodi gerarchici, come verrà calcolata la prossimità fra i gruppi ottenuti nelle diverse fasi della procedura. Stante l’opportunità di
utilizzare, come distanza tra i gruppi, lo stesso tipo di distanza utilizzata per calcolare la distanza fra le unità statistiche, è necessario
stabilire quali unit`
a (o sintesi di esse) utilizzare come rappresentative
13
del gruppo. Come si vedrà, i metodi di classificazione gerarchica si
differenziano, in particolare, per questo ultimo tipo di scelta;
• la determinazione dei criteri di valutazione dei gruppi ottenuti : valutare il risultato di raggruppamento ottenuto significa verificare che i
gruppi siano coerenti con l’obiettivo primario della cluster analysis e
che soddisfino quindi le condizioni di coesione interna e separazione
esterna. Di fondamentale importanza è, a tal fine, la scelta del numero dei gruppi. Vi è un trade-off fra l’ottenimento di gruppi omogenei, caratteristica che è tipicamente funzione crescente del numero
dei gruppi scelto, e la necessità di ottenere una rappresentazione parsimoniosa, che richiede, al contrario, un numero ridotto di gruppi.
2.2
I metodi gerarchici di classificazione
I metodi di classificazione gerarchici permettono di ottenere una famiglia
di partizioni, ciascuna associata ai successivi livelli di raggruppamento fra
le unit`
a statistiche, calcolati sulla base dei dati a disposizione. Le diverse
famiglie di partizioni possono essere rappresentate graficamente, mediante
una struttura ad albero, detto albero di classificazione gerarchica o dendrogramma. Tale struttura associa a ogni passo della procedura gerarchica, che
corrisponde a un numero g fissato di gruppi, una e una sola classificazione
delle unit`
a statistiche in g gruppi.
Figura 2.1: La struttura del dendrogramma
14
Graficamente un albero di classificazione gerarchica può essere rappresentato come in figura nella quale, per semplicità, si suppone vi siano solamente
5 unit`
a statistiche a disposizione, numerate da 1 a 5.
Come si evince dalla rappresentazione schematica in figura, i rami dell’albero descrivono classificazioni successive delle unità statistiche. Alla radice
dell’albero, tutte le unit`
a statistiche sono contenute in una sola classe. Le
successive divisioni in rami individuano divisioni successive delle unità in
clusters. Infine, i rami terminali indicano la partizione finale delle unità
statistiche, in cui ogni osservazione appartiene a un gruppo separato.
Se la formazione dei gruppi avviene dai rami alla radice (in figura da sinistra verso destra), vale a dire, se si parte dalla situazione in cui ogni unità
statistica appartiene a un gruppo a sé stante e si procede a un raggruppamento di tali unit`
a, i metodi di classificazione gerarchica vengono detti
agglomerativi. Invece, se la costruzione dei clusters avviene dalla radice ai
rami dell’albero i corrispondenti metodi gerarchici vengono detti scissori.
I software statistici disponibili solitamente forniscono l’intero dendrogramma, dalla radice fino a un numero di rami terminali pari al numero di
osservazioni. Si tratter`
a quindi di scegliere il numero ottimale di gruppi.
Ci`
o identificher`
a il risultato della cluster analysis, dal momento che, in un
dendrogramma, la scelta del numero g di gruppi identifica in modo univoco
una partizione delle unit`
a statistiche.
Per esempio, le possibili partizioni delle 5 unità statistiche descritte nel
dendrogramma in figura possono essere rappresentate nella seguente tabella
Numero dei clusters
5
4
3
2
1
Clusters
(1)(2)(3)(4)(5)
(1, 2)(3)(4)(5)
(1, 2)(3, 4)(5)
(1, 2)(3, 4, 5)
(1, 2, 3, 4, 5)
Dall’esempio si nota un fatto generale: le successive partizioni identificate da un dendrogramma sono nidificate. Ciò significa che, nei metodi gerarchici, gli elementi che vengono uniti (o divisi) a un certo passo resteranno
uniti (o divisi) fino alla fine del processo di classificazione. Con riferimento
alla tabella, e supponendo di considerare un metodo agglomerativo, che procede da una partizione di 5 a una di 1 gruppo, le unità (1, 2), unite al secondo
passo, rimangono nello stesso gruppo fino al termine della procedura.
Questo modo di procedere ha il vantaggio di ridurre il numero di partizioni da confrontare, rendendo la procedura computazionalmente pi`
u efficiente, ma anche lo svantaggio di non poter correggere errori di classificazione
commessi nei passi precedenti.
Un algoritmo agglomerativo di classificazione è il seguente:
15
1. Inizializzazione: date n unità statistiche da classificare, ogni elemento
rappresenta un gruppo (si hanno, in altri termini, n clusters). I clusters
pi`
u vicini verranno indicati con un numero che va da 1 a n;
2. Selezione: vengono selezionati i due clusters pi`
u vicini rispetto alla
misura di prossimit`
a fissata inizialmente. Per esempio, rispetto alla
distanza euclidea;
3. Aggiornamento: si aggiorna il numero dei clusters (che sarà pari a
n−1) attraverso l’unione, in un unico cluster, dei due gruppi selezionati
nel punto precedente. Conseguentemente, si aggiorna la matrice delle
distanze, sostituendo, alle due righe (colonne) di distanze relative ai
due clusters, nei confronti di tutti gli altri, una sola riga di distanze,
rappresentativa del nuovo gruppo. I metodi agglomerativi differiscono
per il modo in cui viene definita tale rappresentatività;
4. Ripetizione: si eseguono i passi (2) e (3) n-1 volte;
5. Arresto: la procedura si arresta quando tutti gli elementi vengono
incorporati in un unico cluster.
Come accennato al punto 3, in base ai diversi modi in cui vengono calcolate
le distanze fra il gruppo neo-formato e le altre unità statistiche, si distinguono diversi metodi gerarchici di classificazione. Si introdurranno ora con
riferimento a due gruppi C1 e C2 .
Anzitutto è necessario distinguere fra i metodi che richiedono esclusivamente, come input, la matrice di distanza, e i metodi che richiedono anche
la matrice dei dati. Esempi del primo tipo sono i seguenti:
• metodo del legame singolo (single linkage): la distanza tra due gruppi
è definita come il minimo delle n1 n2 distanze tra ciascuna delle unità
di un gruppo, C1 e ciascuna delle unità dell’altro gruppo, C2 . Si ha
che:
d(C1 , C2 ) = min(drs ) con r ∈ C1 , s ∈ C2
• metodo del legame completo (complete linkage): la distanza tra due
gruppi è definita come il massimo delle n1 n2 distanze tra ciascuna
delle unit`
a di un gruppo e ciascuna delle unità dell’altro gruppo:
d(C1 , C2 ) = max(drs ) con r ∈ C1 , s ∈ C2
• metodo del legame medio (average linkage): la distanza tra due gruppi
è definita come la media aritmetica delle n1 n2 distanze tra ciascuna
delle unit`
a di un gruppo e ciascuna delle unità dell’altro gruppo:
16
n2
n1 X
1 X
(drs ) con r ∈ C1 , s ∈ C2
d(C1 , C2 ) =
n1 n2 r=1 s=1
I principali metodi gerarchici che, oltre alla matrice delle distanze,
utilizzano anche la matrice dei dati di partenza sono invece i seguenti:
• metodo del centroide: la distanza tra due gruppi C1 e C2 di numerosità
n1 e n2 è definita come la distanza (di un certo tipo) tra i rispettivi
centroidi (medie aritmetiche), x
¯1 e x
¯2 :
d(C1 , C2 ) = d(¯
x1 , x
¯2 )
Evidentemente, il calcolo del centroide di un gruppo di unità richiede
i dati originali, disponibili, per esempio, nella matrice dei dati.
Si noti che, fusi due gruppi, sarà necessario sostituire alle distanze
riguardanti i centroidi dei precedenti clusters le distanze riguardanti
il centroide del nuovo gruppo. Si noti che, a seguito della proprietà
delle medie aritmetiche, quest’ultimo può essere calcolato in funzione
dei centroidi dei due gruppi di partenza:
x
¯ 1 n1 + x
¯ 2 n2
n1 + n2
Il metodo del centroide e il metodo del legame medio presentano delle
analogie: il metodo del legame medio considera la media delle distanze
tra le unit`
a di ciascun gruppo, e in seguito misura le distanze tra di
esse.
• metodo di Ward : questo metodo minimizza, nella scelta dei gruppi da
aggregare, una funzione obiettivo che parte dal presupposto che una
classificazione ha lo scopo di creare gruppi che rispettino la massima
coesione interna e la massima separazione esterna. Precisamente, la
Devianza totale (T) delle p variabili, corrispondente a n volte la traccia della matrice dei dati, viene scomposta in due parti: la Devianza
nei gruppi (W, da Within groups) e la Devianza tra i gruppi (B, da
between groups): T = W + B
In termini formali, data una partizione in g gruppi:
– la devianza totale delle p variabili (T) corrisponde alla somma
delle devianze delle singole variabili rispetto alla corrispondente
media generale x
¯s :
T =
p X
n
X
s=1 i=1
17
(xis − x
¯s )2
– la devianza nei gruppi (W) è data dalla somma delle devianze di
gruppo:
W =
g
X
Wk
k=1
dove Wk rappresenta la devianza delle p variabili nel gruppo
k-esimo (di numerosità nk e centroide x
¯k = [¯
x1k , ..., x
¯pk ]), descritta dalla seguente espressione:
Wk =
p X
nk
X
(xis − x
¯sk )2
s=1 i=1
– infine, la devianza fra i gruppi, B, è data dalla somma (calcolata
su tutte le variabili) delle devianze (ponderate) delle medie di
gruppo rispetto alla corrispondente media generale:
B=
p X
g
X
nk (¯
xsk − x
¯ s )2
s=1 k=1
Avendo introdotto la scomposizione della devianza, si può affermare che, nel metodo di Ward, a ogni passo della procedura
gerarchica si aggregano tra loro i gruppi che comportano il minor incremento della devianza nei gruppi, W (e, quindi, maggior
incremento di B), ovvero consentono di ottenere la maggiore coesione interna possibile (e, quindi, la maggiore separazione esterna
possibile).
Si noti che il metodo di Ward non richiede il calcolo preliminare
della matrice delle distanze. Tuttavia il metodo di Ward si può
ricondurre a una variante del metodo del centroide, che invece
richiede il calcolo della matrice di distanze.
Nella scelta delle funzioni di distanza tra i gruppi non c’è un
metodo che possa dare il risultato pi`
u qualificato con ogni tipo
di dati. Il suggerimento è allora quello di sperimentare le diverse alternative e confrontarle in termini di criteri di valutazione
possibilmente neutrali.
Infine, riguardo agli algoritmi di classificazione scissori: sono
meno utilizzati nelle applicazioni abituali poiché sono tipicamente
pi`
u intensivi dal punto di vista computazionale. Comunque,
sebbene una semplice implementazione dei metodi divisivi richiede
il calcolo di n2 distanze alla prima iterazione, le divisioni successive sono effettuate su clusters di dimensioni molto pi`
u piccole. Inoltre, implementazioni efficienti non calcolano tutte le
distanze ma solo quelle che sono ragionevoli candidate a essere le
pi`
u vicine.
18
2.3
La valutazione della classificazione con metodi
gerarchici
Con un algoritmo gerarchico si ottiene una famiglia di partizioni delle n
unit`
a statistiche di partenza, o meglio una successione di n classificazioni
delle suddette unit`
a, con un numero di gruppi via via decrescente da n a 1.
Per verificare che le partizioni conseguano l’obiettivo primario della cluster analysis, secondo il quale i gruppi ottenuti devono essere caratterizzati
da coesione interna e separazione esterna, a ogni passo della procedura gerarchica viene valutata la bontà della corrispondente partizione ottenuta, in
modo tale da poter scegliere quale sia la pi`
u consona al raggiungimento degli
obiettivi dell’analisi.
Un primo criterio intuitivo è la misurazione della prossimità dei gruppi
uniti a ogni passo, che pu`
o suggerire di arrestare il processo quando tale
misura sale bruscamente.
Un criterio di giudizio pi`
u frequentemente utilizzato è quello basato sulla
scomposizione della devianza totale delle p variabili, illustrata con riferimento al metodo di Ward (T = W + B): in base a tale metodo si definisce valida
una classificazione caratterizzata da una bassa devianza entro i gruppi (W)
e da un elevato valore della devianza fra i gruppi (B).
Nel caso di una partizione costituita da g gruppi un indice sintetico che
misura la corrispondenza a tale criterio è il seguente:
R2 = 1 −
W
B
=
T
T
Per quanto detto precedentemente, l’indice R2 ∈ [0, 1]; se il valore di R2 è
prossimo a 1, significa che la corrispondente partizione è ottimale, poiché
le unit`
a statistiche appartenenti ai medesimi gruppi sono molto simili tra
loro e i gruppi sono ben separati. In altri termini, in questo caso si avrà che
W − k = 0, per ogni k = 1 ... g e, quindi, T = B. Analogamente, la bontà
dell’analisi di classificazione diminuisce se R2 è prossimo a 0.
Si noti che R2 = 0 quando vi è un solo gruppo e R2 = 1 quando ci sono
` evidente che, al crescere del numero
tanti gruppi quante osservazioni. E
di gruppi, aumenta l’omogeneità dei gruppi stessi (essendo formati da un
numero inferiore di unit`
a statistiche), e allo stesso modo cresce R2 . Ciò
tuttavia va a scapito della parsimonia della classificazione che, in generale,
dovrebbe essere una delle finalità principali di una valida analisi statistica.
Pertanto, la massimizzazione di R2 non può costituire l’unico criterio su
cui basarsi per la definizione del numero ottimale dei gruppi. Tale criterio
infatti condurrebbe a una classificazione costituita da n gruppi formati da
una sola unit`
a (tale per cui R2 = 1).
`
E possibile costruire anche una versione inferenziale del criterio di Ward.
Tale criterio è denominato pseudo-F e misura il rapporto tra la varianza tra
19
i gruppi e quella nei gruppi. Sia c un certo livello della procedura, corrispondente a un numero di gruppi pari a c, e sia n il numero di osservazioni in
esame. Il criterio pseudo-F è definito da:
Fc =
B/(c − 1)
W/(n − c)
In genere Fc diminuisce al diminuire di c poiché la varianza tra i gruppi
dovrebbe diminuire e quella all’interno dei gruppi dovrebbe aumentare. Se
c’è una caduta brusca significa che si sono uniti gruppi molto diversi tra
loro.
Il vantaggio del criterio pseudo-F consiste nel poter mostrare che, in
analogia con quanto accade nel modello lineare normale, è possibile costruire una regola decisionale (regione di rifiuto) che permetta di stabilire quando
accettare la fusione fra i gruppi (ipotesi nulla) ovvero arrestare la procedura,
scegliendo il modello pi`
u complesso (ipotesi alternativa). Questa regola decisionale è specificata da un intervallo di confidenza basato sulla distribuzione
F di Snedecor, con (c − 1) e (n − c) gradi di libertà.
Una misura alternativa all’indice R2 è la Root-Mean-Square Standard
Deviation o, semplicemente, RMSSTD. Tale indice considera solamente la
parte della deviazione nei gruppi aggiuntiva, che si forma al corrispondente
passo della procedura di classificazione gerarchica.
Si consideri il passo h-esimo (h = 2, ..., n − 1) della procedura, l’indice
RMSSTD è definito dalla seguente espressione:
s
RM SST D =
Wh
p(nh − 1)
dove Wh è la devianza nel gruppo che si è costituito al passo h della procedura; nh è la sua numerosit`
a e p è il numero di variabili considerate.
Dal punto di vista interpretativo, un forte incremento di RMSSTD rispetto al passo precedente mostra che i gruppi che si sono uniti sono fortemente
eterogenei e, pertanto, sarebbe opportuno arrestare la procedura al passo
precedente.
Un altro indice che, similmente a RMSSTD, misura il contributo aggiuntivo del passo h-esimo della procedura è il cosiddetto R2 semiparziale
(SPRSQ). Tale indice è definito da:
SP RSQ =
(Wh − Wr − WS )
T
dove h è il nuovo gruppo, ottenuto al passo h come fusione dei gruppi r e
s, T è la devianza totale delle osservazioni, mentre Wh , Wr e Ws indicano,
rispettivamente, le varianze interne ai gruppi h, r e s. In altri termini,
SPRSQ misura l’incremento della devianza all’interno del gruppo ottenuto
20
unendo i gruppi r e s. Un brusco innalzamento indica che si stanno unendo
gruppi eterogenei e, pertanto, è opportuno arrestarsi al passo precedente.
Gli indici locali RMSSTD e SPRSQ consentono quindi di valutare adeguatamente il grado di omogeneità (o coesione) dei gruppi ottenuti in ogni passo
di una classificazione gerarchica e di scegliere la partizione pi`
u soddisfacente.
In sintesi, non vi è un criterio univoco di valutazione dei metodi di cluster
analysis, ma una pluralit`
a di criteri, la cui applicazione congiunta va combinata da un lato con il principio di semplicità interpretativa, che preferisce un
numero ridotto di clusters e, dall’altro, con le esigenze informative dettate
dal problema che invece richiedono un numero elevato di clusters.
2.4
I metodi non gerarchici di classificazione
I metodi non gerarchici di classificazione permettono di ottenere una sola
partizione delle n unit`
a statistiche in g gruppi (con g generalmente minore
di n) il cui numero (g appunto) viene definito a priori da colui che svolge la
classificazione.
A differenza di quanto accade nei metodi gerarchici, si perviene a un
unico raggruppamento che soddisfa determinati criteri di ottimalità, quali
il raggiungimento della ripartizione che consente di ottenere la massima
coesione interna, per un numero di gruppi prefissato.
Per ogni valore di g, ovvero per ogni numero di gruppi in base al quale
si intendono classificare gli n elementi iniziali, l’algoritmo non gerarchico
classifica ciascuno di questi elementi fondandosi esclusivamente sul criterio prescelto e giunge, di conseguenza, a risultati diversi per diversi valori
attribuiti a g.
In generale, negli algoritmi di classificazione non gerarchici viene seguita
una procedura di analisi che si può schematizzare nelle seguenti fasi:
1. Scelta del numero dei gruppi, g, e conseguente scelta di una classificazione iniziale delle n unità statistiche in tali gruppi.
2. Valutazione del trasferimento di ciascuna unità statistica dal gruppo
di appartenenza a un altro gruppo. Ciò al fine di massimizzare la coesione interna dei gruppi. Viene calcolata la variazione nella funzione
obiettivo causata dallo spostamento e, se questa è rilevante ai fini del
raggiungimento degli obiettivi, il trasferimento diviene permanente.
3. Ripetizione del punto precedente finché non viene soddisfatta una
regola di arresto.
Gli algoritmi non gerarchici sono, in generale, molto pi`
u veloci di quelli
gerarchici, proprio per il fatto di ricorrere a una struttura di calcolo, di tipo
iterativo, che non richiede la determinazione preliminare della matrice delle
distanze (nonostante implementazioni efficienti non necessitino del calcolo
21
di tutte le distanze). Inoltre, per il modo in cui vengono costruiti, risultano
tipicamente pi`
u stabili, rispetto alla variabilità campionaria. Gli algoritmi
non gerarchici si rivelano perciò adatti per dataset di grandi dimensioni, per
i quali i metodi gerarchici sarebbero troppo lenti.
Tuttavia, il numero di modi in cui è possibile suddividere n elementi in
g gruppi non sovrapposti è molto grande, specie per dati reali, ed è impossibile ottenere e confrontare tutte queste combinazioni. Pertanto, per questo
motivo, risulta difficile massimizzare globalmente la funzione obiettivo e,
quindi, gli algoritmi di classificazione non gerarchica dovranno accontentarsi
di soluzioni vincolate, spesso corrispondenti a massimi locali.
Si sottolinea inoltre che gli aspetti critici connessi ai metodi non gerarchici di classificazione consistono soprattutto nella necessità di definire preliminarmente il numero di gruppi. Il criterio maggiormente utilizzato per
prendere una tale decisione consiste nella ripetuta conduzione dell’analisi
con differenti valori di g (e differenti inizializzazioni degli algoritmi) e nella determinazione della soluzione migliore confrontando appropriati indici
della bont`
a della classificazione (come R2 o l’indice pseudo-F).
Il metodo di segmentazione non gerarchica pi`
u utilizzato è il metodo
delle k-medie (k-means), con k che indica il numero dei gruppi stabilito.
L’algoritmo delle k-medie attua una classificazione degli n elementi di
partenza, in g gruppi distinti, con g fissato a priori, secondo il seguente flusso
operativo:
1. Scelta dei semi iniziali (seeds): dopo aver determinato il numero dei
gruppi, vengono definiti g punti nello spazio p-dimensionale che costituiscono i centroidi (misure di posizione, di solito medie) dei clusters nella partizione iniziale. I centroidi dovrebbero essere sufficientemente distanti tra loro, affinché migliorino le proprietà di convergenza
dell’algoritmo.
2. Calcolo della distanza di ogni unit`
a statistica dai centroidi (medie) dei
g gruppi : la distanza tra una generica unità statistica e il centroide del
gruppo a cui è stata assegnata deve essere minima e, nel caso in cui
non lo fosse, l’elemento corrispondente verrà riassegnato al cluster il
cui centroide è pi`
u vicino. Quando avviene tale spostamento vengono
ricalcolati i centroidi del vecchio e del nuovo gruppo di appartenenza.
3. Ripetizione del passo precedente fino al raggiungimento della convergenza dell’algoritmo: in altri termini, il precedente punto viene ripetuto fino a raggiungere un’adeguata stabilizzazione dei gruppi. Per calcolare la distanza tra le unità statistiche e i centroidi dei gruppi viene
utilizzata la distanza euclidea: all’iterazione t, la distanza tra l’unità
i-esima e il centroide del gruppo l (con i = 1, 2, , n e l = 1, 2, , g) sarà
22
pari a:
v
u p
uX
(t)
(t)
¯s,l )2
d(xi , x
¯l ) = t (xis − x
s=1
dove
(t)
(t)
(t)
x
¯l = [¯
x1,l , ....., x
¯p,l ]0
è il centroide del gruppo l calcolato all’iterazione t.
Dalla precedente espressione, risulta evidente che il metodo delle k-medie
persegue l’obiettivo della ricerca della partizione degli n elementi iniziali in g
gruppi (con g prefissato) che soddisfi un criterio di coesione interna fondato
sulla minimizzazione della devianza nei gruppi W ; pertanto la bontà della
soluzione ottenuta con questo algoritmo può essere controllata attraverso il
calcolo dell’indice R2 o della statistica pseudo-F.
Un possibile svantaggio del metodo delle k-medie consiste nella presenza
di notevoli distorsioni dei risultati nel caso in cui nei dati vi fossero dei
valori anomali o outliers. In questo caso l’utilizzo di un numero di gruppi
molto elevato costituisce un buon esercizio per verificare l’esistenza di questi
valori poiché, con molta probabilità, le unità non anomale tenderanno a
concentrarsi in pochi gruppi, mentre gli outliers rimarranno isolati nella
classificazione formando dei gruppi anche contenenti un solo elemento.
In generale, l’algoritmo delle k-medie può portare alla formazione dei
cosiddetti elephant clusters: clusters troppo grandi poiché la distanza, di
alcuni piccoli gruppi rispetto agli altri fa s`ı che le osservazioni si concentrino
in un solo o, comunque, in pochi clusters centrali.
2.5
Le GTM
Le superfici principali sono un metodo non lineare di riduzione della dimensione.
Teoricamente le superfici principali possono essere definite nel modo
seguente:
~ |g(Y
~ ) = x} ∀x ∈ I ⊆ RQ (condizione di autoconsistenza),
f(x) = EY~ |g(Y~ ) {Y
e
(
)
~
~ ) = sup s : ~ − f(s)
g(Y
− f(r)
Y
= inf Y
r∈I
s∈I
dove x denota una coordinata (vettore) sulla superficie principale Q-dimensionale.
Le GTM (Generative Topographical Mapping) sono un modello probabilistico che approssima le superfici principali. Le GTM definiscono una
23
mappatura parametrica non lineare y(x; W) da uno spazio latente Q-dimensionale (x ∈ RQ ) ad uno spazio dei dati D-dimensionale (t ∈ RD ), dove di
solito Q < D. La mappatura è definita continua e differenziabile. y(x; W)
associa ogni punto dello spazio latente ad un punto dello spazio dei dati.
Poichè lo spazio latente è Q-dimensionale, questi punti saranno confinati in
una variet`
a Q-dimensionale non lineare all’interno dello spazio dei dati Ddimensionale. Ad una distribuzione di probabilità nello spazio latente, p(x),
corrisponder`
a una distribuzione di probabilità nello spazio dei dati. Strettamente confinata alla variet`
a Q-dimensionale, questa probabilità potrebbe
essere singolare, cos`ı la si esprime con una distribuzione Gaussiana isotropica:
(
)
− D
D
2
β
βX
2
p(t|x, W, β) =
exp −
(td − yd (x; W))
2π
2 d=1
dove t è un punto dello spazio dei dati e β −1 indica l’inverso della varianza
isotropica. Integrando sulla variabile latente, la distribuzione di probabilità
nello spazio dei dati è espressa come una funzione dei parametri β e W,
Z
p(t|W, β) =
p(t|x, W, β)p(x)dx.
Generalmente, questo integrale non è trattabile analiticamente. Quindi,
scegliendo una forma particolare per p(x), e un insieme di M funzioni delta
con uguale peso:
M
1 X
p(x) =
δ(x − xm ).
M m=1
Si ha cos`ı:
p(t|W, β) =
M
1 X
p(t|xm , W, β).
M m=1
Si ottiene, in questo modo, un modello in cui ogni centro della funzione delta
(da ora in poi ci si riferir`
a ad essi come nodi latenti) corrisponde al centro
della Gaussiana che giace sulla varietà nello spazio dei dati (fig 2.2).
Si noti che i punti proiettati, necessariamente hanno un ordine topografico nel senso che dati due punti xA e xB vicini nello nello spazio latente, si
avranno due punti vicini y(xA ; W) e y(xB ; W) vicini nello spazio dei dati.
` inoltre possibile, tramite il teorema di Bayes, calcolare le corrisponE
denti probabilit`
a posteriori:
πm p(tn |m)
Rnm ≡ p(m|tn ) = P
.
j πj p(tn |j)
Il valore p(m|tn ) lo si pu`
o vedere come la responsabilit`
a che ha la componente
m nella formazione del punto dato tn .
24
Figura 2.2: Ad ogni nodo xm corrisponde un punto y(xm ; W) nello spazio
dei dati, e forma il centro della corrispondente distribuzione Gaussiana.
Dato, ora, un insieme finito di punti dati distribuiti in modo indipendente
ed identico, {tn }N
o scrivere la funzione pi`
u probabile per questo
n=1 , si pu`
modello:
L=
N
Y
p(tn |W, β) =
N
Y
"
n=1
n=1
M
1 X
p(tn |xm , W, β) ,
M m=1
#
e massimizzarla rispetto a W e β. Quindi, è di solito pi`
u conveniente lavorare
con la funzione logaritmica pi`
u probabile:
N
X
M
1 X
ln
p(tn |xm , W, β) .
l=
M m=1
n=1
!
Scegliendo una particolare forma per la mappatura y(x; W), si può ottenere un algoritmo EM (Expectation-Maximization), che fornisce una stima
dei parametri del GTM, in cui il passo M ha una forma semplice. In particolare si sceglie una y(x; W) data da un modello di regressione lineare
generalizzato della forma:
y(x; W) = Wφ(x)
dove l’elemento φ(x) è formato da L funzioni di base fissate: {φl (x)}L
l=1 , e
W è una matrice D × L.
2.6
Le PPS
Le PPS (Probabilistic Principal Surfaces) mostrano la stessa formulazione
delle GTM ad eccezione della struttura orientata della covarianza associata
25
ai nodi in RD : ci`
o significa che i punti proiettati vicino un nodo della superficie principale hanno un peso pi`
u alto sul nodo rispetto ai punti proiettati
lontano, (fig 2.3).
Figura 2.3: (a) Per il modello Gaussiano sferico del GTM, i punti 1 e 2 hanno
uguale influenza sul centro del nodo y(x); (b) le PPS hanno una matrice di
covarianza orientata cos`ı il punto 1 è probabilisticamente pi`
u vicino al centro
del nodo y(x), rispetto al punto 2.
Quindi, ogni nodo y(x; W), x ∈ {xm }M
m=1 , ha covarianza
Q
D
(D − αQ) X
αX
eq (x)eTq (x) +
ed (x)eTd (x), 0 < α < D/Q
(x) =
β q=1
β(D − Q) d=Q+1
X
(2.1)
dove:
{eq (x)}Q
q=1
insieme dei vettori ortonormali
tangenziali al manifold in y(x; W);
{ed (x)}D
d=Q+1
insieme dei vettori ortonormali
ortogonali al manifold in y(x; W),
α è il fattore di attenuazione della covarianza lungo la direzione del gradiente
` da notare che l’insieme completo dei vettori ortonormali
della variet`
a. E
D
{ed (x)}D
d=1 attraversa R . Il modello PPS unificato si riduce, per α = 1, al
26
GTM e, per α > 1, al GTM allineato al manifold, cioè
X
(x) =


 ⊥ al manifold
ID o sferico

 k al manifold
0<α<1
PPS (ortonormale)
α=1
GTM
1 < α < D/Q GTM allineato al manifold
Se α tende a 0, il supporto di ogni nodo diventa maggiormente concentrato lungo l’iperpiano ortogonale al nodo stesso, verificando effettivamente
` da notare che
la condizione di auto-consistenza per le superfici principali. E
P
la varianza di
(x) resta uguale a D/β su tutto l’intervallo in cui varia
α, assicurando che il livello di rumore della PPS rimanga invariato rispetto
all’orientamento della covarianza.
2.6.1
Un algoritmo di aspettazione-massimizzazione
L’algoritmo di aspettazione-massimizzazione può essere usato per stimare i
parametri delle PPS. Per prima cosa, la funzione logaritmica pi`
u probabile
per le PPS, assumendo costanti le probabilità a priori (PX (xm ) = 1/M, m =
1, ...., M ), è scritta come
M
N X
X
1
zmn ln [p(tn |xm )
Lc =
M
n=1 m=1
, dove la variabile binaria zmn indica se la componente m è responsabile
della generazione del punto tn , cioè
(
zmn =
1 se la componente m ha generato il punto tn
.
0
altrimenti
Poiché zmn è ignota la funzione logaritmica pi`
u probabile non può essere
valutata. Quindi nel passo di aspettazione dell’algoritmo è calcolato il valore
di aspettazione Lc rispetto a PZ|T~ (z|t) alla k-esima iterazione, portando alla
seguente espressione,
L = hLc i =
N X
M
X
(k)
rmn
ln
n=1 m=1
1
pY~ |X~ (tn |xm )
M
(2.2)
(k)
dove il parametro di responsabilità rmn = pX|
e calcolato sostituendo
~ T~ (xm |tn ) `
i valori del vecchio parametro (k) W(k) , β (k) , α(k) nelle probabilità condizionali pT~ |X~ (tn |xm ). Nel passo di massimizzazione la funzione attesa logaritmica
pi`
u probabile (2.2) è massimizzata rispetto a W, β e α, dando quindi i corrispondenti nuovi (k + 1)-esimi valori. Solitamente si aggiunge un termine di
regolarizzazione con una gaussiana isotropica a priori sui pesi. L’algoritmo
è descritto di seguito.
27
Inizializzazione: Si assume che i nodi latenti {xm }M
m=1 siano disposti in
una topologia uniforme all’interno di un ipercubo in RQ ,
n
o
xm ∈ x = (x1 , ...., xQ ) ∈ RQ : −1 ≤ xq ≤ 1, q = 1, ...., Q ,
si inizializza W(0) risolvendo il seguente problema ai minimi quadrati,
[y(x1 ) · · · y(xM )] = W [Φ(x1 ) · · · Φ(xM )] ,
D
dove {y(xm )}M
m=1 sono l’insieme dei nodi su un’ipergriglia in R espanso dalle Q componenti principali {eq }Q
q=1 con corrispondenti autovalori
{ξq }Q
q=1 ,
q
p
y(xm ) = xm1 ξ1 e1 + · · · + xmQ ξQ eQ ,
m = 1, ...., M.
Per esempio, se la topologia√dello spazio latente
è una griglia 2-D con
√
3 × 5 nodi, allora y(x1 ) = (−1) ξ1 e1 + (−1) ξ2 e2 mappa il nodo latente
x1 = [−1 − 1] . Con W(0) inizializzato, una distribuzione iniziale dei nodi
PPS in RD pu`
o essere calcolata come y(0) (xm ) = W(0) Φ(xm ), m = 1, ...., M.
Si inizializza 1/β (0) con la media della distanza quadratica Euclidea tra i
n
oM
nello spazio dei dati.
nodi adiacenti y(0) (xm )
m=1
Alla k-esima iterazione:
(k)
1. Aspettazione: calcola la matrice di responsabilità RM ×N i cui valori
(k)
rmn sono
pT~ |X~ (tn |xm )
(k)
rmn
= PM
~ (tn |xm0 )
m0 =1 pT~ |X
e usando la (2.1) per la covarianza
dizionata:

P(k)
(2.3)
(xm ) della distribuzione con-
pT~ |X~ (tn |xm ) ∼ N y(k) (xm ),
(k)
X

(xm ) .
2. Massimizzazione: calcola i parametri aggiornati W(k+1) e β (k+1)
(a) Calcola W(k+1) come soluzione della seguente equazione matriciale lineare
ΦT G(k) Φ + γIM WT = ΦT R(k) T,
dove
ΦL×M Φlm = Φl (xm ),
(k)
(k)
GM ×M gmm
=
N
X
(k)
rmn
,
n=1
TN ×D = [t1 · · · tN ]T ,
e γ è un parametro di regolarizzazione in W.
28
(b) Calcola β (k+1) come
1
β (k+1)
=
N X
M
2
1 X
(k) rmn
W(k+1) Φ(xm ) − tn .
N D n=1 m=1
Calcola i nuovi nodi PPS in RD come
y(k+1) (xm ) = W(k+1) Φ(xm ), m = 1, ...., M.
3. Calcola la differenza della funzione logaritmo pi`
u probabile,
L(k+1) − L(k) ∆L = .
(k)
L
4. Termina se ∆L assume un valore minore di un limite , altrimenti
incrementa il conteggio di k e va al passo 1.
2.6.2
PPS sferiche
Se sono considerati spazi latenti mono o bidimensionali (i.e, Q = 1 o Q = 2)
allora la corrispondente varietà sarà una curva o un piano non lineare.
Si è visto che la variet`
a sferica (Q = 3) è lo strumento pi`
u appropriato
per catturare la distribuzione periferica dei dati in spazi ad alta dimensione.
Le PPS sferiche sono efficienti per la classificazione e per la visualizzazione dei dati.
Come conseguenza del problema della dimensionalità i dati distribuiti a
caso in spazi ad alta dimensione tendono ad essere sparsi e a concentrarsi ai
margini. Questo fa in modo che il numero dei campioni in un addestramento
sia sempre sparso rispetto alla dimensione, ed è la causa principale di errore
nella funzione di approssimazione, stima di densità e classificazione.
Una variet`
a sferica pu`
o essere costruita usando una PPS con nodi {xm }M
m=1
disposti regolarmente sulla superficie di una sfera nello spazio latente R3 ,
con le funzioni di base latenti uniformemente distribuite sulla sfera a densità
pi`
u bassa. La sola modifica richiesta rispetto alle varietà 1-D e 2-D è la procedura di inizializzazione, che inizializza la varietà ad un iper-ellissoide in
RD . Questo è ottenuto risolvendo la seguente equazione ai minimi quadrati,
[s1 · · · sM ] = W [Φ(x1 ) · · · Φ(xM )] ,
dove
sm =
hp
ξ1 e1
p
ξ2 e2
p
i
ξ3 e3 xm m = 1, ...., M,
sono le coordinate dell’iper-ellissoide nello spazio dei dati, {ξq }3q=1 indicano
i tre autovettori pi`
u grandi pesati dai corrispondenti autovalori {ξq }3q=1
della matrice di covarianza dei dati. Dopo l’inizializzazione segue la procedura standard descritta precedentemente.
29
PPS sferiche per la visualizzazione dei dati
La variet`
a sferica pu`
o essere usata come uno strumento di visualizzazione
dati, in spazi ad alta dimensione, non supervisionato. Per visualizzare i dati,
una variet`
a sferica è prima adattata ai dati, riproducendo efficacemente la
loro struttura. Poi, i dati sono proiettati su una varietà in RD , e le proiezioni
sulla variet`
a sono graficate come punti su una sfera in R3 .
Il metodo adottato per proiettare i dati sulla varietà sferica è la proiezione
b n della variet`
probabilistica che calcola le coordinate x
a latente di ogni dato
tn come la media della funzione densità di probabilità indotta in R3 . In
pratica la proiezione della coordinata latente è calcolata come una combinazione lineare di tutti i nodi latenti pesati dalla matrice di responsabilità
(2.3),
b n ≡ hx|tn i =
x
Z
xp(x|t)dx =
M
X
rmn xm .
(2.4)
m=1
Per una superficie sferica,kxm k = 1 per m = 1, ..., M e m rmn = 1 per
n = 1, ...., N. Quindi l’espressione (2.4) implica che tutte le proiezioni stiano
all’interno della sfera, i.e. kxm k ≤ 1.
P
Figura 2.4: (a) Variet`
a sferica nello spazio latente R3 . (b) Varietà sferica
nello spazio dei dati R3 . (c) Proiezione dei punti dati t sulla varietà sferica
latente.
PPS sferiche per la classificazione
La PPS sferica è usata come varietà di riferimento per la classificazione in
spazi ad alta dimensione. Viene calcolata una varietà sferica di riferimento
per ogni classe durante la fase di addestramento. Nella fase di verifica, dati
mai visti prima sono assegnati alla classe della loro varietà sferica pi`
u vicina.
Ovviamente il concetto di vicinanza implica il calcolo della distanza tra un
punto dato t e i nodi sulla varietà. Prima di effettuare questo calcolo il
punto dato t deve essere proiettato linearmente sulla varietà. Poichè una
variet`
a sferica è approssimata con piccole superfici triangolari o quadrate
30
ognuna definita da tre o quattro nodi, ciò che realmente si calcola è una
distanza approssimata. La struttura di una PPS fornisce tre metodi di
approssimazione:
• Nearest Neighbor (NN): trova la distanza quadratica minima rispetto
a tutti i nodi della varietà;
• Grid Projections (GP): trova la distanza di proiezione pi`
u breve rispetto alla griglia della varietà;
• Nearest Triangulation (NT): trova la distanza di proiezione pi`
u breve
rispetto alle due possibili triangolazioni.
` utile notare che in questa struttura probabilistica viene calcolata la
E
distanza tra un punto dato t e la funzione della media della sua distribuzione
indotta y(hx|ti) sulla variet`
a. Chiaramente la distanza non può essere la
pi`
u breve in senso Euclideo, cos`ı la distanza è calcolata usando la proiezione
lineare sulla variet`
a.
Figura 2.5:
Da sinistra a destra:
approssimazioni di proiezioni
N N, GP e N T su un un pezzo della varietà delimitato da quattro nodi
latenti.
2.7
Astroneural
Per poter classificare gli oggetti con le caratteristiche richieste si è sfruttato
il toolbox astroneural di matlab. Astroneural permette di scegliere il numero
delle variabili dal totale delle variabili contenute nella tabella. Fatto questo
si sceglie l’algoritmo per il data mining, in questo caso le PPS. Compare una
schermata in cui si possono scegliere i vari parametri con cui addestrare la
rete neurale:
1. Selected
• parameters:
visualizza i parametri selezionati
31
• targets:
visualizza i targets selezionati. In quel campo si inseriscono gli
objid della tabella: Astroneural automaticamente acquisirà quei
dati che serviranno poi per la visualizzazione. Infatti le PPS sono
degli algoritmi di apprendimento non supervisionato: non hanno
bisogno di target. In realtà è pi`
u giusto intendere i target come
label. Si potr`
a cos`ı capire, una volta visualizzati i clusters, a che
oggetto corrisponde ogni cluster.
2. Parameter Settings
• init:
permette di scegliere il metodo di inizializzazione della sfera
• proj :
permette di scegliere il metodo di proiezione dei dati sulla varietà:
– nn:
metodo di proiezione del nearest neighbour: è la pi`
u smplice
approssimazione di distanza che trova la distanza quadratica
minima rispetto ai nodi della varietà.
– grid :
approssimazione pi`
u accurata che trova la pi`
u piccola distanza di proiezione alla griglia della varietà.
– tri :
è la migliore approssimazione. Trova la distanza di proiezione
pi`
u vicina alle due possibili triangolazioni, i.e.
M SE∆ = (M SE∆1 , M SE∆2 ), fig (4.3).
3. Basi Latenti
• number :
– L1 :
numero di funzioni dello sviluppo in serie di Fourier che approssima la funzione di distribuzione di probabilità, funzione
in base alla quale sono distribuiti i dati. Si suppone che i dati
siano distribuiti secondo una gaussiana, ma in realtà nulla
vieta che lo siano secondo una funzione diversa. Dopodichè
la distribuzione di probabilità è sviluppata in serie di Fourier. Le L funzioni sono chiamate basi latenti. Si avrà cos`ı
che ogni funzione di base del mio spazio D apparterrà ad
uno spazio L-dimensionale. Per passare poi allo spazio M si
costruiranno M combinazioni lineari delle D funzioni di base.
• width and orientation:
32
– L fac:
è il fattore di larghezza delle basi latenti: larghezza a mezza
altezza della gaussiana.
– L alpha:
è il fattore di correlazione tra le diverse basi latenti: dà
un’informazione sull’orientazione delle basi.
4. Variabili Latenti
• latent sphere:
è possibile stabilire il numero di nodi che copriranno la sfera variando gli angoli di elevazione e rotazione. Cos`ı facendo si stabilir`
a la distanza angolare dei meridiani e dei paralleli sulla sfera:
ogni loro intersezione è un nodo latente.
• clamping factor α:
stabilisce l’orientazione della covarianza. Se 0 < α < 1 l’orientazione della covarianza sarà perpendicolare alla varietà. Se α = 1
la covarianza sar`
a circolare, si ricade cos`ı nel caso delle GTM:
generative topographic map. Se 1 < α < D/M la forma della
covarianza sar`
a parallela alla varietà.
• EM algorithm:
permette di stimare i parametri delle PPS. L’algoritmo è diviso
in due fasi:
– aspettazione: calcola il valore di aspettazione della funzione
logaritmica pi`
u probabile;
– massimizzazione: viene massimizzata la funzione logaritmica
attesa pi`
u probabile.
Quando la differenza fra la funzione logaritmica calcolata al passo
k + 1 e al passo k, assume un valore al di sotto di un certo limite, scelto arbitrariamente a seconda delle esigenze, l’algoritmo
si ferma. Ed è proprio questo limite che è possibile scegliere nel
campo tolerance, mentre nel campo regularize si sceglie un fattore
statistico, detto di regolarizzazione, che permette di regolare la
smoothness della nostra distribuzione di probabilità.
• training:
Qui si ha la possibilità di scegliere il numero di iterazioni da far
eseguire alla rete.
Alla fine della fase di addestramento si ottiene:
• plot error :
grafica l’errore.
33
Figura 2.6: Da sinistra: errore Lcomp e Lavg; errore Mse.
• plot proj :
grafica le proiezioni dei punti dello spazio D sulla varietà sferica.
• plot lat var :
grafica i nodi latenti sulla varietà.
• plot 2D proj :
grafica le proiezioni in due dimensioni.
• plot pdf :
grafica i clusters sulla sfera visualizzandoli con una scala cromatica: dal blu al rosso. Quanto pi`
u la zona è rossa tanto pi`
u sarà
presente un cluster.
34
Figura 2.7: Grafico delle proiezioni (punti neri) e delle variabili latenti (punti
azzurri) sulla variet`
a.
Figura 2.8: Grafico delle proiezioni in 2-D.
35
Figura 2.9: Grafico dei clusters sulla varietà sferica.
36
Capitolo 3
I Dati
3.1
La Sloan
La Sloan Digital Sky Survey è una survey digitale di ' 10.000 gradi
quadrati dell’emisfero boreale realizzato in 5 bande fotometriche. I
dati sono pubblici ed accessibili al sito
http://cas.sdss.org/dr6/en/help/browser/browser.asp tramite query.
Le query sono strutturate nel seguente modo: select, from, where.
• la funzione select: permette di scegliere di quali parametri osservativi si vuole conoscere il valore;
• la funzione from: specifica da dove si dovranno prendere i parametri di interesse;
• la funzione where: permette di selezionare i valori dei nostri
parametri in base ad un criterio di scelta.
La query fa uso di diverse funzioni in grado di rendere il lavoro pi`
u
agevole. Si possono poi unire pi`
u tabelle tramite gli indirizzi id.
I parametri richiesti alla sloan, presi dal catalogo galaxy, sono:
37
Parametri
ra
dec
petromag u
petromag g
petromag r
petromag i
petromag z
petroR90 u
petror90 g
petror90 r
petror90 i
petror90 z
isoa u
isoa g
isoa r
isoa i
isoa z
isoagrad u
isoagrad g
isoagrad r
isoagrad i
isoagrad z
dered u
dered g
dered r
dered i
dered z
objid
Significato
right ascension
declinazione
flusso Petrosiano nella banda u
flusso Petrosiano nella banda g
flusso Petrosiano nella banda r
flusso Petrosiano nella banda i
flusso Petrosiano nella banda z
raggio contenente il 90% del flusso petrosiano
calcolato nella banda u
raggio contenente il 90% del flusso petrosiano
calcolato nella banda g
raggio contenente il 90% del flusso petrosiano
calcolato nella banda r
raggio contenente il 90% del flusso petrosiano
calcolato nella banda i
raggio contenente il 90% del flusso petrosiano
calcolato nella banda z
asse maggiore isofotale calcolato nella banda u
asse maggiore isofotale calcolato nella banda g
asse maggiore isofotale calcolato nella banda r
asse maggiore isofotale calcolato nella banda i
asse maggiore isofotale calcolato nella banda z
gradiente lungo l’asse maggiore isofotale
calcolato nella banda u
gradiente lungo l’asse maggiore isofotale
calcolato nella banda g
gradiente lungo l’asse maggiore isofotale
calcolato nella banda r
gradiente lungo l’asse maggiore isofotale
calcolato nella banda i
gradiente lungo l’asse maggiore isofotale
calcolato nella banda z
magnitudine semplificata corretta per estinzione
calcolata nella banda u
magnitudine semplificata corretta per estinzione
calcolata nella banda g
magnitudine semplificata corretta per estinzione
calcolata nella banda r
magnitudine semplificata corretta per estinzione
calcolata nella banda i
magnitudine semplificata corretta per estinzione
calcolata nella banda z
numero che individua univocamente un oggetto
La Sloan ha restituito una tabella con 442095 righe (oggetti: vi è
una corrispondenza biunivoca tra una riga ed un oggetto. Si è poi
proceduto ad una prima ripulitura dei dati, scartando tutti gli oggetti
38
per cui erano presenti colonne con valore numerico -9999 (convenzione
adottata dalla Sloan per identificare misure errate o poco affidabili),
ottenendo un totale di 439400 oggetti.
39
Capitolo 4
Esperimenti
IL clustering è stato effettuato utilizzando i parametri (features in
ingresso) riportati in tabella (esclusi, ovviamente, objid, ra e dec).
Basandoci sull’ipotesi che il numero di classi non potesse eccedere il
valore 50, le PPS sono state configurate in modo da proiettare su 62
variabili latenti. Il risultato ha mostrato che gran parte (286592, pari
al 65.2%) degli oggetti si agglomera intorno a 10 variabili latenti o, in
altre parole, che il ∼ 63% delle galassie tende a raggrupparsi in dieci
classi. Le figure 4.1 - 4.5 mostra gli istogrammi dei colori (u − g),
(g − r), (r − i) per i cinque gruppi pi`
u popolosi, mentre in tabella
4 sono riportati i valori medi dei colori per tutti i dieci gruppi. In
Figura xxx è riportata la distribuzione di tali valori medi, nei piani
[(g − r), (r − i)] e [(u − g), (g − r)].
Numero Cluster
1
2
3
4
5
6
7
8
9
10
Tabella
<g−r >
<u−g >
<r−i>
0.758724± 0.315257 1.51003± 0.458692 0.371613± 0.249526
0.746841± 0.228033 1.47077± 0.348301
0.37626± 0.121048
0.681468± 0.225871 1.42231± 0.325197 0.357859± 0.116314
0.901309± 0.193481 1.74209± 0.291358 0.410226± 0.115181
0.893003± 0.250606 1.70306± 0.387809 0.408466± 0.186782
0.616997± 0.241262 1.29559± 0.321148 0.338981± 0.141123
0.948914± 0.193352 1.83608± 0.274516 0.423106± 0.119638
0.879674± 0.197302 1.77017± 0.300907
0.406129± 0.1176
0.89197± 0.235258
1.7052± 0.364642
0.406082± 0.136107
0.574528± 0.215583
1.291± 0.295457
0.321894± 0.13407
dei valori medi dei colori dei dieci cluster pi`
u ricchi.
L’applicazione delle PPS ha prodotto
40
Figura 4.1: Istogrammi dei colori (u − g), (g − r) e (r − i) per il cluster 1.
41
Figura 4.2: Istogrammi dei colori (u − g), (g − r) e (r − i) per il cluster 2.
42
Figura 4.3: Istogrammi dei colori (u − g), (g − r) e (r − i) per il cluster 3.
43
Figura 4.4: Istogrammi dei colori (u − g), (g − r) e (r − i) per il cluster 4.
44
Figura 4.5: Istogrammi dei colori (u − g), (g − r) e (r − i) per il cluster 5.
45
Figura 4.6: Istogrammi dei colori (u − g), (g − r) e (r − i) per il cluster 1.
46
Capitolo 5
Alcune conclusioni
Come si è detto nell’introduzione, la classificazione morfologica delle
galassie, pur essendo estremamente utile, presenta limitazioni ineludibili, dovute sia all’arbitrarietà dei criteri adottati che alla impossibilità
di generalizzare al di fuori del suo specifico dominio di applicabilità.
Per questo motivo, da sempre, si cerca di sostituire alla classificazione
morfologica vera e propria un sistema di classificazione fisico basato
su criteri statistici oggettivi e su parametri misurabili in modo indipendente dall’osservatore. In tale ambito appare naturale adottare
metodologie di partizione dello spazio dei parametri derivate dal cosiddetto Statistical Learning o Data Mining. Nell’ambito del presente
lavoro si è cercato di stimare in modo preliminare se una particolate
tecnica di clustering (le PPS) è in grado di separare nello spazio dei
parametri fotometrici della survey Sloan, galassie di tipi diversi. Nel
fare ci`
o ci si è fondati sul fatto, ampiamente dimostrato in letteratura,
che galassie di tipi morfologici diversi hanno colori medi (cioè integrati
su tutto l’oggetto) che mediamente differiscono in modo apprezzabile.
Tale differenza è dovuta al fatto che galassie di tipo diverso hanno storie di formazione ed evolutive affatto diverse e quindi, sono costituite
da miscele di popolazioni diverse sia per età che per metallicità media.
I risultati ottenuti, pur essendo solo preliminari, appaiono incoraggianti. Le figure 4 mostrano infatti che, nei piani colore-colore, i nostri ‘cluster’ appaiono fortemente differenziati e si distribuiscono lungo
una sequenza che, a meno di offset dovuti a differenze nelle bande fotometriche, riproduce in modo pressoché perfetto la sequenza empirica
determinata gi`
a nel 1967 dall’astronomo americano Gerard de Vaucolueurs. Dal confronto dei due diagrammi è evidente che i cluster 4,
5, 7, 8 e 9 corrispondono a galassie di tipo Ellittico e lenticolare, i cluster 1, 2 e 3 corrispondono a galassie ti tipo intermedio Sa–Sc, mentre
i cluster 10 e 6 corrispondono a galassie di tipo Sd e Im. Un ulteriore
47
discriminazione appare impossibile alla luce degli errori sperimentali
attualmente registrati. Si vuole però far notare che, mentre nel caso del diagramma di De Vaucoleurs l’attribuzione dei tipi è fatta in
base a criteri morfologici e quindi soggettivi, nel caso del clustering
la ripartizione è fatta in base a criteri oggettivi di tipo statistico ed
utilizzando quantit`
a fisiche misurate.
Figura 5.1: Istogrammi dei colori (u − g), (g − r) e (r − i) per il cluster 1.
48
Bibliografia
[1] Antonino Staiano, PhD thesis, Unsupervised Neural Network for
the Extraction of Scientific Infirmation from Astronomical Data,
2003
[2] Christopher M. Bishop, Neural Network for Pattern Recognition
[3] Siddharta Kasivajhula, Naren Raghavan, and Hemal Shah,
Morphological Galaxy Classification Using Machine Learning
[4] Allan Sandage, The Classification of Galaxies: Early History and
Ongoing Developments, copyright 2005
[5] Raffaele D’Abrusco, PhD thesis
49

Download Report