Universit`a degli Studi di Napoli “Federico II” Facolt`a di Scienze Matematiche Fisiche e Naturali TESI TRIENNALE IN FISICA La Classificazione Fisica Delle Galassie Come Problema Di Data Mining Relatore: Prof. Giuseppe Longo Anno Accademico 2007/08 Studente: Alessandro Montalto Matr. 567/197 Indice 1 Introduzione 1.1 La classificazione fisica delle galassie . . . . . . . . . . . . . . 1.2 Considerazioni sulle classificazioni . . . . . . . . . . . . . . . . 1.2.1 Estrazione e Selezione delle caratteristiche . . . . . . . 2 2 5 11 2 Il Clustering 2.1 Introduzione al clustering . . . . . . . . . . . . . . . . . 2.2 I metodi gerarchici di classificazione . . . . . . . . . . . 2.3 La valutazione della classificazione con metodi gerarchici 2.4 I metodi non gerarchici di classificazione . . . . . . . . . 2.5 Le GTM . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6 Le PPS . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.1 Un algoritmo di aspettazione-massimizzazione . . 2.6.2 PPS sferiche . . . . . . . . . . . . . . . . . . . . 2.7 Astroneural . . . . . . . . . . . . . . . . . . . . . . . . . 12 12 14 19 21 23 25 27 29 31 . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 I Dati 37 3.1 La Sloan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4 Esperimenti 40 5 Alcune conclusioni 47 Bibliografia 49 1 Capitolo 1 Introduzione 1.1 La classificazione fisica delle galassie I primi tentativi di giungere ad una classificazione morfologica delle galassie risalgono al 1814, quando M. Wolf disegn`o 17 tavole che definivano il sistema di classificazione stesso. Wolf posizion`o queste forme lungo una sequenza lineare, da (g) a (w), da sistemi amorfi fino a sistemi a spirale. Il sistema era puramente descrittivo e fu rapidamente abbandonato anche perch´e, all’epoca in cui esso fu concepito non era ancora chiara la differenza tra nebulose galattiche e nebulose extragalattiche. Pochi anni dopo, nel 1913, Reynolds misur`o i profili di intensit`a delle regioni centrali di un tipo particolare di nebulose noto come galassie a spirale ricavando la legge empirica: I(r)(1 + x2 ) = costante dove I(r) `e il cosiddetto profilo di brillanza superficiale1 . Questo era il famoso profilo di Reynolds che Hubble (1930) pi` u tardi generalizz`o rendendolo indipendente dalla scala, sostituendo x con il rapporto r/a, dove r `e la distanza radiale lungo l’asse maggiore e a `e un fattore di scala pari alla distanza radiale in cui la brillanza superficiale `e un quarto del valore centrale. Di l`ı a poco, usando un campione pi` u ampio di galassie con diversi rapporti nucleo/disco costru`ı una sequenza di forme con caratteristiche che cambiavano con continuit` a da una classe all’altra. Le sette classi di Reynolds erano le seguenti (tra virgolette sono riportate le sue stesse parole): 1 Brillanza superficiale: flusso di radiazione proveniente da un elemento della superficie dell’oggetto in funzione della distanza r dal centro dell’oggetto stesso. 2 I. II. III. IV. V. VI. VII. ”Spirali formate unicamente da nebulosit`a amorfa” ”Spirali che mostrano un principio di condensazione solo nelle spire pi` u esterne” ”In questa classe le condensazioni nelle regioni pi` u esterne avanzano considerevolmente verso il nucleo” ”Include la maggior parte delle spirali. La condensazione nebulare appare in tutte le regioni ad eccezione del nucleo, ma vi `e un ambiente nebuloso pi` u o meno cospicuo” ”Stadio avanzato della Classe IV: la nebulosa `e di di tipo condensato, il nucleo ha spesso limiti definiti come una nebulosa planetaria” Speciali tipi intermedi con anelli pi` u esterni e con i bracci pi` u interni in stato di condensazione ”Spirali di tipo granulare che non presentano un nucleo definito” Un ulteriore tentativo di giungere alla classificazione delle forme delle sole galassie esterne fu fatto da Shapley (1928), che invent`o una classificazione basata sulla concentrazione della luce verso il centro. Shapley, per`o, incluse anche propriet` a non intrinseche, quali la magnitudine apparente (legata alla distanza dell’oggetto) e lo schiacciamento apparente (legato all’inclinazione rispetto alla linea di vista), ed il sistema risult`o di scarsa utilit`a pratica. Se si trascurano alcuni tentativi di minore imortanza, il passo successivo fu compiuto dall’astronomo americano Edwin P. Hubble nel 1936, con la pubblicazione dello straordinario libro The Realm of Nebulae, che avrebbe segnato un punto di svolta nella conoscenza delle propriet`a dell’universo extragalattico. Hubble nella sua tesi di dottorato (1917) per l’Universit`a di Chicago aveva misurato la posizione di nebulose non galattiche (galassie) e, nel descrivere la loro forma aveva fatto uso di una variante della classificazione descrittiva di Wolf (1908) confrontando ci`o che osservava con le 17 tavole che Wolf aveva disegnato. Quest’esperienza lo aveva convinto dell’assoluta inadeguatezza dei sistemi sin l`ı adottati ed indotto a cercare un sistema di classificazione pi` u affidabile. Nel suo libro del 1936, Hubble divise il regno galattico delle galassie pi` u lontane in ellittiche e spirali creando una relazione tra queste due classi e una continuit` a tra le spirali tramite la relazione tra nucleo e braccio, ponendo le galassie in insiemi di classificazione adiacenti. Le ellittiche erano oggetti con isofote2 di forma ellittica e prive di qualsivoglia struttura interna. Hubble le suddivise in base al loro schiacciamento apparente in sottogruppi E1 , ....E7 dove il coefficiente n: n = 10(1 − b/a) 2 Isofota: linea che unisce punti ad uguale brillanza superficiale. 3 con a e b, rispettivamente asse maggiore ed asse minore di un’isofota di riferimento. Le spirali erano invece divise in due gruppi e sotto-classificate come a, b, c in base a tre criteri concorrenti. I due gruppi erano determinati dalla presenza o dall’assenza di una barra stellare di forma cilindrica fuoriuscente dal nucleo, mentre i criteri erano: • il rapporto tra le dimensioni del bulge centrale ed il disco; • il grado di avvolgimento dei bracci; • l’aspetto pi` u o meno definito dei bracci. In altri termini, un oggetto SBb veniva ad indicare una Spirale Barrata con un rapporto bulge/disco intermedio e bracci mediamente definiti. Per realizzare una distribuzione continua, Hubble ipotizz`o anche l’esistenza di una classe con caratteristiche intermedie tra quelle delle ellittiche e quelle delle spirali, che chiam`o S0. Tale classe fu effettivamente scoperta nel 1946. Gli oggetti che non mostravano segni di simmetria facilmente riconoscibile, venivano classificati come irregolari (Irr). La classificazione introdotta da Hubble risult`o essere esaustiva (il 97% delle galassie contenute nel catalogo delle galassie di Shapley-Ames risult`o classificabile) e pur essendo costruita in base a criteri arbitrari pose in evidenza l’esistenza di correlazioni tra morfologia e propriet`a fisiche (es: il contenuto percentuale di gas e polveri, il momento angolare specifico, l’et`a media delle popolazioni stellari...). Il principale limite della classificazione di Hubble era nella sua mancanza di generalit`a dovuta al fatto che essa era stata ottenuta a partire da un campione abbastanza uniforme di lastre fotografiche ottenute con il telescopio da 2.5 m di Monte Wilson. Ci`o faceva s`ı che essa si fondasse sulle immagini delle regioni centrali (non saturate nelle immagini fotografiche) di galassie brillanti e vicine. In altri termini, essa si rivel` o inadeguata a descrivere le caratteristiche di oggetti con nuclei peculiari (Es. galassie attive) oppure di bassa luminosit`a (galassie nane o di bassa brillanza superficiale). Inoltre, essendo basata su immagini fotografiche ottenute con lastre sensibili soprattutto alla radiazione blu, essa non coglieva i dettagli, quali regioni di formazione stellare o bande di polveri, visibili soprattutto ad altre lunghezze d’onda. Basta poco per convincersi che quest’ultimo fattore implica anche la non applicabilit`a dello schema di Hubble ad oggetti distanti. Infatti a causa del redshift, la radiazione osservata nel blu da una galassia lontana corrisponde, nel riferimento della galassia, a lunghezze d’onda pi` u corte (es. ultravioletto) e l’esperienza insegna che le caratteristiche morfologiche delle galassie in questi due regimi sono affatto diverse. In altri termini, per classificare in modo omogeneo galassie a redshift diversi occorrerebbe prima costruire un sistema di classificazione ad 4 una certa lunghezza d’onda e poi riportare le immagini di tutti gli oggetti a quella stessa lunghezza d’onda rest-frame. Figura 1.1: L’aspetto della galassia di Andromeda - M31, a diverse lunghezze d’onda. Si notino le morfologie diverse. Ulteriori sviluppi, quali ad esempio, quelli tentati da de Vaucouleurs (1961) o da Vorontsov-Velyaminov et al. (1962-1974), pur complicando notevolmente i criteri di calssificazione, non riuscirono a catturare la complessit` a delle morfologie extragalattiche e furono rapidamente abbandonati. Oggi sappiamo che le galassie sono sistemi complessi, costituiti da diverse componenti principali (bulge ellittici/triassiali, barre cilindriche, dischi esponenziali e dischi spessi, aloni sferoidali, nuclei attivi, etc.) che per di pi` u evolvono nel tempo (e quindi con la distanza dall’osservatore). Una tale complessit` a implica che ad una classificazione basata su criteri puramente morfologici occorre sostituire un sistema di classificazione basato su criteri fisici, oggettivi e facilmente misurabili. 1.2 Considerazioni sulle classificazioni Mentre il primo passo di ogni classificazione in un campione omogeneo di oggetti consiste nello stabilire una relazione di ordine di natura qualitativa 5 R(p1 , ...., pn ) dipendente da n parametri che rappresentano quantit`a osservabili, lo scopo ultimo `e quello di generare una tassonomia fisica, cio`e una catalogazione di oggetti sulla base di propriet`a e fenomeni fisici. In generale, una tassonomia pu` o essere ottenuta se e solo se gli osservabili scelti come parametri, determinando il valore della relazione di ordine R(p1 , ...., pn ), riflettono il pi` u possibile una o pi` u leggi fisiche L1 , ...., Lm . La validit`a di una classificazione tassonomica pu`o essere testata valutando la sua capacit`a di formulare nuove previsioni riguardanti osservabili non direttamente connessi alla relazione di ordine considerata e che possono essere spiegati dalle stesse leggi fisiche L1 , ...., Lm . La correttezza di ogni tentativo di classificazione dipende dalla disponibilit` a di un campione omogeneo di oggetti, le cui quantit`a osservabili siano state misurate nelle stesse condizioni e dalla omogeneit`a del materiale usato per la classificazione: `e di grande importanza, in particolare per la classificazione astronomica, che siano specificati correttamente l’intervallo di lunghezza d’onda all’interno del quale gli oggetti sono osservati, le condizioni osservative e le caratteristiche peculiari dell’apparato osservativo usato per la raccolta dei dati. Resta ora da stabilire: • come si definisce l’omogeneit`a; • come si definiscono matematicamente i parametri o predicati; • cosa rende buona o cattiva una classificazione. Sia S = x1 , . . . , xn l’insieme degli oggetti da classificare. Una classificazione `e una partizione S 0 = S1 , . . . , Sm tale che m [ Sj = S con m n e ∀jSj 6= ∅ j=1 Per una classificazione ideale dovrebbe anche valere: Sj \ Sk = ∅ j6=k Le classi Sj sono definite dai parametri o predicati pj,l con l = 1, L definiti in Sj : xi ∈ Sj ⇔ l, pj,l (xi ) = V ero A questo punto ci si chiede se: • `e necessaria oppure solo auspicabile l’uniformit`a dei predicati (cio`e se i predicati devono essere gli stessi per ogni Sj ); • il fatto che i predicati siano deducibili in base ad una ben precisa propriet` a misurabile non ridefinisca automaticamente S come l’insieme degli oggetti in cui i p sono misurabili. 6 Requisiti Devono essere in numero ridotto Svantaggi Aumentare il numero dei parametri riduce l’utilit`a della classificazione Facilmente misurabili sui dati a disposizione La classificazione di un oggetto non deve richiedere pi` u tempo di quanto ne prenderebbe uno studio dettagliato Non devono portare a risultati contraddittori Lo stesso oggetto verrebbe ad essere attribuito a classi diverse Devono, in prima approssimazione riflettere qualche criterio fisico sottostante (anche se al momento sconosciuto) Si provi a classificare le specie animali in funzione del colore del mantello I problemi che si incontrano nella classificazione morfologica delle galassie, in una prospettiva generale, sono i seguenti: • nelle galassie sono presenti diverse componenti: bracci di spirali, bulges, anelli, lenti, dischi, etc. Queste componenti, visibili in diverse combinazioni e inclinazioni, sono all’origine della complessit`a e delle ambiguit` a che si riscontrano nella morfologia delle galassie. • le galassie coprono un grande intervallo di brillanza superficiale, luminosit` a e altre propriet`a globali, cos`ı che gli effetti di selezione sono sempre importanti poich´e essi potrebbero condizionare l’attendibilit`a statistica dei campioni di oggetti usati per la classificazione. • l’ambiente `e importante per determinare la forma delle galassie, poich´e si riscontra che le distribuzioni dei vari tipi morfologici differiscono significativamente a seconda che ci si trovi nel campo o in ambienti molto densi (quali ad esempio, gli ammassi ricchi). • gli eventi dinamici su scale di tempo relativamente brevi possono portare, da una parte, alla possibile evoluzione di rare forme transienti, dall’altra, potrebbero essere responsabili della formazione di alcuni dei pi` u comuni tipi morfologici. In questo senso, questi eventi possono allo stesso tempo confondere o semplificare il complesso problema della classificazione morfologica delle galassie. L’obiettivo primario degli studi morfologici `e quindi quello di fornire vincoli osservativi ad un’ampia casistica di problemi legati alle modalit`a di formazione ed evoluzione delle galassie e delle strutture cosmiche quali, ad esempio: 7 • gli effetti dell’ambiente sulle galassie; • la formazione dei clusters; • l’evoluzione delle strutture cosmiche; • i fattori fisici che hanno determinato i vari tipi al tempo della formazione delle galassie. Da un punto di vista metodologico, l’obiettivo di ogni classificazione fisica `e quello di ridurre la complessit`a e di correggere gli aspetti fuorvianti della classificazione morfologica. In questa tesi si affronta con un approccio diverso (e preliminare) il problema di come correlare gli indicatori morfologici con le propriet`a intrinseche delle galassie, ricorrendo al data mining che, per essere affidabile, ha bisogno di una grande quantit` a di dati. L’obiettivo primario del data mining `e infatti quello di estrarre modelli e caratteristiche interessanti da una grande quantit`a di dati solitamente in uno spazio ad alta dimensione: Spazio dei parametri, P N . In questo spazio (Fig. 1.2) N -dimensionale, ogni dimensione `e definita da un osservabile, cio`e da una ben precisa quantit` a astronomica misurabile a partire da immagini, spettri o qualunque altro tipo di dato astronomico. Si avranno, quindi, un asse per la lunghezza d’onda, un asse per la polarizzazione, un altro per il flusso integrato, un altro ancora per la brillanza superficiale, un altro per la risoluzione angolare, etc. In questa approssimazione, si sta supponendo che ad ogni misura sia associabile una quantit`a numerica e, quindi, P N ⊂ <N . Si noti che una qualsiasi osservazione o `e sempre caratterizzata da pi` u quantit`a (ad esempio, la misura di un flusso `e associabile ad una ben precisa lunghezza d’onda, ad un’epoca di osservazione, ad un tempo di campionamento, ad una risoluzione angolare, etc.) e, quindi, `e un punto appartenente a <m con m N. Un’osservazione, quindi, `e sempre un’informazione incompleta che ` evidente che ogni oggetdefinisce in P N una variet` a di ordine N − m. E to, essendo identificato dalle due coordinate proiettate sulla sfera celeste, definir` a un sottospazio ON −2 di P N . In teoria, una conoscenza accurata delle propriet` a osservative dell’Universo richiederebbe un campionamento uniforme e fitto di tutto P N . Purtroppo, invece, l’insieme delle osservazioni astronomiche disponibili popola questo spazio in modo molto disomogeneo: una grandissima concentrazione di punti, ad esempio, cade nell’ipervolume ◦ definito da: lunghezza d’onda compresa tra 3300 e 8000 A; risoluzione angolare compresa tra 0.800 e 200 ; tempo di integrazione della radiazione compreso tra 10 s e 3600 s; magnitudine (flusso) compresa tra 14.0 e 20.0; brillanza superficiale tra 24 e 14.5. Si noti che questo ipervolume marca la regione dello spazio dei parametri corrispondente alle osservazioni effettuate a lunghezze d’onda visibili. 8 Figura 1.2: Rappresentazione schematica dello spazio dei parametri. Ci sono tre problemi pratici e teorici per cui non si pu`o lavorare direttamente con spazi ad alta dimensione: 1. Visualizzazione: la visualizzazione `e possibile in, al pi` u, tre dimensioni. Essa `e molto utile per ottenere una comprensione preliminare dei dati ed `e usata spesso nell’analisi dei dati. Per`o questa `e anche un’arma a doppio taglio: possono essere commessi giudizi errati se non si presta la dovuta attenzione alla rappresentazione dei dati dello spazio originario ad alta dimensione nello spazio a dimensione minore. 2. Risorse limitate: oggi si immagazzinano pi` u dati di quanti se ne possano estrarre. Questo porta ad un collo di bottiglia computazionale dovuto a due fattori: gran numero di campioni (N) e di dimensioni (D). Il problema del numero dei campioni pu`o essere aggirato tramite campionatura. Anche tale procedura pu`o per`o risultare inadeguata. Quindi pu` o essere necessario aumentare l’efficienza computazionale grazie alla riduzione della dimensione. 3. Problema della dimensione: in una situazione ideale dove si pu`o accedere ad una quantit` a infinita di dati campione, avere pi` u dimensioni `e equivalente a processare pi` u informazione. Infatti `e stato mostrato che per i problemi di classificazione l’informazione dovuta a dimensioni aggiuntive non pu`o abbassare la stima di Bayes che `e il limite superiore teorico per l’accuratezza della classificazione. Si noti che questo risultato teorico assume implicitamente l’esistenza di un numero di campioni esponenzialmente grande rispetto alla dimensione. 9 Sfortunatamente nella pratica il numero di campioni `e quasi sempre sparso rispetto alla dimensione, ed `e tra le maggiori cause di errore nella funzione di approssimazione, stima della densit`a, e classificazione. Figura 1.3: I dati in spazi ad alta dimensione si dispongono in periferia. Figura 1.4: I dati sono sempre sparsi in spazi ad alta dimensione. I primi due punti sono pratici e possono essere spesso aggirati, rispettivamente, usando semplici proiezioni ortogonali (e.g. Principal Component Analysis) e algoritmi a complessit`a pi` u bassa (rispetto alla dimensione e alla grandezza del campione). Quindi l’interesse finale e maggiore `e un misto tra teoria (geometria ad alta dimensione) e pratica (non molti campioni), che non ha una soluzione semplice. Il problema della dimensionalit`a `e la motivazione principale che porta alla riduzione della dimensione poich´e, contrariamente a quanto si possa pensare, dati distribuiti casualmente in uno spazio ad alta dimensione tendono: 1. ad addensarsi alla periferia dello spazio dei campioni e, 2. ad essere sparsi, per molti problemi pratici. 10 1.2.1 Estrazione e Selezione delle caratteristiche Ci sono due approcci generali alla riduzione della dimensione, chiamati estrazione delle caratteristiche e selezione delle caratteristiche (conosciuto anche come selezione delle variabili o selezione di un sottoinsieme di caratteristiche). L’estrazione delle caratteristiche trasforma (linearmente o non linearmente) i dati originali in uno spazio a dimensione pi` u bassa usando tutte le variabili originarie (dimensioni). La selezione delle caratteristiche, che `e un caso speciale di estrazione delle caratteristiche lineare, seleziona un sottoinsieme di variabili dall’insieme delle caratteristiche originarie e scarta le rimanenti. Ogni metodo richiede un criterio predefinito per la valutazione della bont` a della trasformazione. Inoltre il criterio specifica anche il metodo: supervisionato o non supervisionato. 11 Capitolo 2 Il Clustering 2.1 Introduzione al clustering Si parler` a ora specificamente delle metodologie di classificazione delle unit`a statistiche in gruppi, detti anche clusters. Queste metodologie, note come cluster analysis, sono i pi` u noti metodi descrittivi di data mining. L’obiettivo della cluster analysis, data una matrice dei dati X composta da n osservazioni (righe) e p variabili (colonne), `e quello di raggruppare le unit` a statistiche in gruppi il pi` u possibile omogenei al loro interno (coesione interna) ed eterogenei tra di loro (separazione esterna). Si noti che la costituzione di gruppi omogenei di unit`a statistiche pu`o essere interpretata come una riduzione della dimensione dello spazio Rn , tuttavia completamente differente da quanto accade, per esempio, con il metodo delle componenti principali. Infatti, nei metodi di raggruppamento le n unit` a vengono riunite in g sottoinsiemi (e solitamente g < n), mentre nell’approccio delle componenti principali le p variabili statistiche vengono trasformate in k nuove variabili (con k < p). Vi sono numerosi modi per effettuare un’analisi di raggruppamento. Pertanto, prima di effettuare l’analisi, deve esserci una chiara definizione dei modi in cui essa viene svolta. In particolare, le scelte da effettuare dovranno riguardare i seguenti punti: • la scelta delle variabili da utilizzare: la scelta delle variabili da utilizzare per la classificazione deve tener conto di tutti gli aspetti rilevanti per il conseguimento degli obiettivi prefissati e, quindi, di tutte le variabili necessarie a tal fine, tenendo presente che l’utilizzo di variabili poco significative porta inevitabilmente a un peggioramento dei risultati. Questa scelta `e un problema cruciale perch´e condizioner`a fortemente il risultato finale. In generale si pu`o affermare che una classificazione pu` o considerarsi soddisfacente quando non mostra un’eccessiva sensibilit` a a piccoli cambiamenti dell’insieme di variabili utilizzate. Dal 12 punto di vista della scelta delle variabili `e opportuno, prima di effettuare una cluster analysis, effettuare indagini esplorative accurate, che possono fra l’altro suggerire possibili configurazioni finali per la classificazione. Inoltre, al fine di potere meglio visualizzare e, pertanto, interpretare, il risultato della cluster analysis, `e spesso opportuno ridurre la dimensionalit`a della matrice dei dati, per esempio mediante il metodo delle componenti principali. Si sottolinea infine, di prestare particolare attenzione, nella fase esplorativa, alla individuazione di osservazioni anomale che potrebbero inficiare notevolmente i risultati dell’analisi. Da questo punto di vista si potrebbero associare i metodi di cluster analysis a quelli di ricerca degli outliers. Sebbene vi siano notevoli similitudini tra i due concetti, la differenza principale ricade sulla motivazione dell’analisi effettuata: se si vuole effettuare una classificazione di tutte le unit`a (cluster analysis) piuttosto che la ricerca di osservazioni anomale (ricerca degli outliers); • il metodo di formazione dei gruppi : a questo proposito si distinguono metodi gerarchici e metodi non gerarchici. I metodi gerarchici consentono di ottenere una successione di raggruppamenti (detti partizioni) con un numero di gruppi da n a 1, partendo dal pi` u semplice in cui tutte le unit` a sono distinte, fino a quello in cui tutti gli elementi appartengono a un unico gruppo. I metodi non gerarchici permettono invece di raggruppare le n unit`a statistiche in un numero di gruppi fissato (soggettivamente) a priori; • l’indice di prossimit` a da utilizzare: a seconda della natura delle variabili a disposizione, deve solitamente essere definita una misura di prossimit` a fra le unit` a statistiche, da utilizzare per calcolare la matrice delle distanze fra di esse. Se le variabili sono prevalentemente quantitative, si ricorrer` a alla distanza euclidea; se sono prevalentemente qualitative a un indice di similarit`a; infine, se i dati sono aggregati in tabelle di contingenza, si ricorrer`a alla distanza del chi-quadro fra le modalit` a. Poich´e le pi` u diffuse misure di prossimit`a possono essere ricondotte a delle distanze, nel seguito si far`a riferimento a questo concetto. Si sottolinea nuovamente l’importanza di una eventuale normalizzazione delle variabili, per evitare che alcune pesino pi` u di altre nella determinazione dei risultati finali. Oltre a stabilire una misura di prossimit` a fra le unit`a statistiche, `e necessario stabilire, nel caso dei metodi gerarchici, come verr`a calcolata la prossimit`a fra i gruppi ottenuti nelle diverse fasi della procedura. Stante l’opportunit`a di utilizzare, come distanza tra i gruppi, lo stesso tipo di distanza utilizzata per calcolare la distanza fra le unit`a statistiche, `e necessario stabilire quali unit` a (o sintesi di esse) utilizzare come rappresentative 13 del gruppo. Come si vedr`a, i metodi di classificazione gerarchica si differenziano, in particolare, per questo ultimo tipo di scelta; • la determinazione dei criteri di valutazione dei gruppi ottenuti : valutare il risultato di raggruppamento ottenuto significa verificare che i gruppi siano coerenti con l’obiettivo primario della cluster analysis e che soddisfino quindi le condizioni di coesione interna e separazione esterna. Di fondamentale importanza `e, a tal fine, la scelta del numero dei gruppi. Vi `e un trade-off fra l’ottenimento di gruppi omogenei, caratteristica che `e tipicamente funzione crescente del numero dei gruppi scelto, e la necessit`a di ottenere una rappresentazione parsimoniosa, che richiede, al contrario, un numero ridotto di gruppi. 2.2 I metodi gerarchici di classificazione I metodi di classificazione gerarchici permettono di ottenere una famiglia di partizioni, ciascuna associata ai successivi livelli di raggruppamento fra le unit` a statistiche, calcolati sulla base dei dati a disposizione. Le diverse famiglie di partizioni possono essere rappresentate graficamente, mediante una struttura ad albero, detto albero di classificazione gerarchica o dendrogramma. Tale struttura associa a ogni passo della procedura gerarchica, che corrisponde a un numero g fissato di gruppi, una e una sola classificazione delle unit` a statistiche in g gruppi. Figura 2.1: La struttura del dendrogramma 14 Graficamente un albero di classificazione gerarchica pu`o essere rappresentato come in figura nella quale, per semplicit`a, si suppone vi siano solamente 5 unit` a statistiche a disposizione, numerate da 1 a 5. Come si evince dalla rappresentazione schematica in figura, i rami dell’albero descrivono classificazioni successive delle unit`a statistiche. Alla radice dell’albero, tutte le unit` a statistiche sono contenute in una sola classe. Le successive divisioni in rami individuano divisioni successive delle unit`a in clusters. Infine, i rami terminali indicano la partizione finale delle unit`a statistiche, in cui ogni osservazione appartiene a un gruppo separato. Se la formazione dei gruppi avviene dai rami alla radice (in figura da sinistra verso destra), vale a dire, se si parte dalla situazione in cui ogni unit`a statistica appartiene a un gruppo a s´e stante e si procede a un raggruppamento di tali unit` a, i metodi di classificazione gerarchica vengono detti agglomerativi. Invece, se la costruzione dei clusters avviene dalla radice ai rami dell’albero i corrispondenti metodi gerarchici vengono detti scissori. I software statistici disponibili solitamente forniscono l’intero dendrogramma, dalla radice fino a un numero di rami terminali pari al numero di osservazioni. Si tratter` a quindi di scegliere il numero ottimale di gruppi. Ci` o identificher` a il risultato della cluster analysis, dal momento che, in un dendrogramma, la scelta del numero g di gruppi identifica in modo univoco una partizione delle unit` a statistiche. Per esempio, le possibili partizioni delle 5 unit`a statistiche descritte nel dendrogramma in figura possono essere rappresentate nella seguente tabella Numero dei clusters 5 4 3 2 1 Clusters (1)(2)(3)(4)(5) (1, 2)(3)(4)(5) (1, 2)(3, 4)(5) (1, 2)(3, 4, 5) (1, 2, 3, 4, 5) Dall’esempio si nota un fatto generale: le successive partizioni identificate da un dendrogramma sono nidificate. Ci`o significa che, nei metodi gerarchici, gli elementi che vengono uniti (o divisi) a un certo passo resteranno uniti (o divisi) fino alla fine del processo di classificazione. Con riferimento alla tabella, e supponendo di considerare un metodo agglomerativo, che procede da una partizione di 5 a una di 1 gruppo, le unit`a (1, 2), unite al secondo passo, rimangono nello stesso gruppo fino al termine della procedura. Questo modo di procedere ha il vantaggio di ridurre il numero di partizioni da confrontare, rendendo la procedura computazionalmente pi` u efficiente, ma anche lo svantaggio di non poter correggere errori di classificazione commessi nei passi precedenti. Un algoritmo agglomerativo di classificazione `e il seguente: 15 1. Inizializzazione: date n unit`a statistiche da classificare, ogni elemento rappresenta un gruppo (si hanno, in altri termini, n clusters). I clusters pi` u vicini verranno indicati con un numero che va da 1 a n; 2. Selezione: vengono selezionati i due clusters pi` u vicini rispetto alla misura di prossimit` a fissata inizialmente. Per esempio, rispetto alla distanza euclidea; 3. Aggiornamento: si aggiorna il numero dei clusters (che sar`a pari a n−1) attraverso l’unione, in un unico cluster, dei due gruppi selezionati nel punto precedente. Conseguentemente, si aggiorna la matrice delle distanze, sostituendo, alle due righe (colonne) di distanze relative ai due clusters, nei confronti di tutti gli altri, una sola riga di distanze, rappresentativa del nuovo gruppo. I metodi agglomerativi differiscono per il modo in cui viene definita tale rappresentativit`a; 4. Ripetizione: si eseguono i passi (2) e (3) n-1 volte; 5. Arresto: la procedura si arresta quando tutti gli elementi vengono incorporati in un unico cluster. Come accennato al punto 3, in base ai diversi modi in cui vengono calcolate le distanze fra il gruppo neo-formato e le altre unit`a statistiche, si distinguono diversi metodi gerarchici di classificazione. Si introdurranno ora con riferimento a due gruppi C1 e C2 . Anzitutto `e necessario distinguere fra i metodi che richiedono esclusivamente, come input, la matrice di distanza, e i metodi che richiedono anche la matrice dei dati. Esempi del primo tipo sono i seguenti: • metodo del legame singolo (single linkage): la distanza tra due gruppi `e definita come il minimo delle n1 n2 distanze tra ciascuna delle unit`a di un gruppo, C1 e ciascuna delle unit`a dell’altro gruppo, C2 . Si ha che: d(C1 , C2 ) = min(drs ) con r ∈ C1 , s ∈ C2 • metodo del legame completo (complete linkage): la distanza tra due gruppi `e definita come il massimo delle n1 n2 distanze tra ciascuna delle unit` a di un gruppo e ciascuna delle unit`a dell’altro gruppo: d(C1 , C2 ) = max(drs ) con r ∈ C1 , s ∈ C2 • metodo del legame medio (average linkage): la distanza tra due gruppi `e definita come la media aritmetica delle n1 n2 distanze tra ciascuna delle unit` a di un gruppo e ciascuna delle unit`a dell’altro gruppo: 16 n2 n1 X 1 X (drs ) con r ∈ C1 , s ∈ C2 d(C1 , C2 ) = n1 n2 r=1 s=1 I principali metodi gerarchici che, oltre alla matrice delle distanze, utilizzano anche la matrice dei dati di partenza sono invece i seguenti: • metodo del centroide: la distanza tra due gruppi C1 e C2 di numerosit`a n1 e n2 `e definita come la distanza (di un certo tipo) tra i rispettivi centroidi (medie aritmetiche), x ¯1 e x ¯2 : d(C1 , C2 ) = d(¯ x1 , x ¯2 ) Evidentemente, il calcolo del centroide di un gruppo di unit`a richiede i dati originali, disponibili, per esempio, nella matrice dei dati. Si noti che, fusi due gruppi, sar`a necessario sostituire alle distanze riguardanti i centroidi dei precedenti clusters le distanze riguardanti il centroide del nuovo gruppo. Si noti che, a seguito della propriet`a delle medie aritmetiche, quest’ultimo pu`o essere calcolato in funzione dei centroidi dei due gruppi di partenza: x ¯ 1 n1 + x ¯ 2 n2 n1 + n2 Il metodo del centroide e il metodo del legame medio presentano delle analogie: il metodo del legame medio considera la media delle distanze tra le unit` a di ciascun gruppo, e in seguito misura le distanze tra di esse. • metodo di Ward : questo metodo minimizza, nella scelta dei gruppi da aggregare, una funzione obiettivo che parte dal presupposto che una classificazione ha lo scopo di creare gruppi che rispettino la massima coesione interna e la massima separazione esterna. Precisamente, la Devianza totale (T) delle p variabili, corrispondente a n volte la traccia della matrice dei dati, viene scomposta in due parti: la Devianza nei gruppi (W, da Within groups) e la Devianza tra i gruppi (B, da between groups): T = W + B In termini formali, data una partizione in g gruppi: – la devianza totale delle p variabili (T) corrisponde alla somma delle devianze delle singole variabili rispetto alla corrispondente media generale x ¯s : T = p X n X s=1 i=1 17 (xis − x ¯s )2 – la devianza nei gruppi (W) `e data dalla somma delle devianze di gruppo: W = g X Wk k=1 dove Wk rappresenta la devianza delle p variabili nel gruppo k-esimo (di numerosit`a nk e centroide x ¯k = [¯ x1k , ..., x ¯pk ]), descritta dalla seguente espressione: Wk = p X nk X (xis − x ¯sk )2 s=1 i=1 – infine, la devianza fra i gruppi, B, `e data dalla somma (calcolata su tutte le variabili) delle devianze (ponderate) delle medie di gruppo rispetto alla corrispondente media generale: B= p X g X nk (¯ xsk − x ¯ s )2 s=1 k=1 Avendo introdotto la scomposizione della devianza, si pu`o affermare che, nel metodo di Ward, a ogni passo della procedura gerarchica si aggregano tra loro i gruppi che comportano il minor incremento della devianza nei gruppi, W (e, quindi, maggior incremento di B), ovvero consentono di ottenere la maggiore coesione interna possibile (e, quindi, la maggiore separazione esterna possibile). Si noti che il metodo di Ward non richiede il calcolo preliminare della matrice delle distanze. Tuttavia il metodo di Ward si pu`o ricondurre a una variante del metodo del centroide, che invece richiede il calcolo della matrice di distanze. Nella scelta delle funzioni di distanza tra i gruppi non c’`e un metodo che possa dare il risultato pi` u qualificato con ogni tipo di dati. Il suggerimento `e allora quello di sperimentare le diverse alternative e confrontarle in termini di criteri di valutazione possibilmente neutrali. Infine, riguardo agli algoritmi di classificazione scissori: sono meno utilizzati nelle applicazioni abituali poich´e sono tipicamente pi` u intensivi dal punto di vista computazionale. Comunque, sebbene una semplice implementazione dei metodi divisivi richiede il calcolo di n2 distanze alla prima iterazione, le divisioni successive sono effettuate su clusters di dimensioni molto pi` u piccole. Inoltre, implementazioni efficienti non calcolano tutte le distanze ma solo quelle che sono ragionevoli candidate a essere le pi` u vicine. 18 2.3 La valutazione della classificazione con metodi gerarchici Con un algoritmo gerarchico si ottiene una famiglia di partizioni delle n unit` a statistiche di partenza, o meglio una successione di n classificazioni delle suddette unit` a, con un numero di gruppi via via decrescente da n a 1. Per verificare che le partizioni conseguano l’obiettivo primario della cluster analysis, secondo il quale i gruppi ottenuti devono essere caratterizzati da coesione interna e separazione esterna, a ogni passo della procedura gerarchica viene valutata la bont`a della corrispondente partizione ottenuta, in modo tale da poter scegliere quale sia la pi` u consona al raggiungimento degli obiettivi dell’analisi. Un primo criterio intuitivo `e la misurazione della prossimit`a dei gruppi uniti a ogni passo, che pu` o suggerire di arrestare il processo quando tale misura sale bruscamente. Un criterio di giudizio pi` u frequentemente utilizzato `e quello basato sulla scomposizione della devianza totale delle p variabili, illustrata con riferimento al metodo di Ward (T = W + B): in base a tale metodo si definisce valida una classificazione caratterizzata da una bassa devianza entro i gruppi (W) e da un elevato valore della devianza fra i gruppi (B). Nel caso di una partizione costituita da g gruppi un indice sintetico che misura la corrispondenza a tale criterio `e il seguente: R2 = 1 − W B = T T Per quanto detto precedentemente, l’indice R2 ∈ [0, 1]; se il valore di R2 `e prossimo a 1, significa che la corrispondente partizione `e ottimale, poich´e le unit` a statistiche appartenenti ai medesimi gruppi sono molto simili tra loro e i gruppi sono ben separati. In altri termini, in questo caso si avr`a che W − k = 0, per ogni k = 1 ... g e, quindi, T = B. Analogamente, la bont`a dell’analisi di classificazione diminuisce se R2 `e prossimo a 0. Si noti che R2 = 0 quando vi `e un solo gruppo e R2 = 1 quando ci sono ` evidente che, al crescere del numero tanti gruppi quante osservazioni. E di gruppi, aumenta l’omogeneit`a dei gruppi stessi (essendo formati da un numero inferiore di unit` a statistiche), e allo stesso modo cresce R2 . Ci`o tuttavia va a scapito della parsimonia della classificazione che, in generale, dovrebbe essere una delle finalit`a principali di una valida analisi statistica. Pertanto, la massimizzazione di R2 non pu`o costituire l’unico criterio su cui basarsi per la definizione del numero ottimale dei gruppi. Tale criterio infatti condurrebbe a una classificazione costituita da n gruppi formati da una sola unit` a (tale per cui R2 = 1). ` E possibile costruire anche una versione inferenziale del criterio di Ward. Tale criterio `e denominato pseudo-F e misura il rapporto tra la varianza tra 19 i gruppi e quella nei gruppi. Sia c un certo livello della procedura, corrispondente a un numero di gruppi pari a c, e sia n il numero di osservazioni in esame. Il criterio pseudo-F `e definito da: Fc = B/(c − 1) W/(n − c) In genere Fc diminuisce al diminuire di c poich´e la varianza tra i gruppi dovrebbe diminuire e quella all’interno dei gruppi dovrebbe aumentare. Se c’`e una caduta brusca significa che si sono uniti gruppi molto diversi tra loro. Il vantaggio del criterio pseudo-F consiste nel poter mostrare che, in analogia con quanto accade nel modello lineare normale, `e possibile costruire una regola decisionale (regione di rifiuto) che permetta di stabilire quando accettare la fusione fra i gruppi (ipotesi nulla) ovvero arrestare la procedura, scegliendo il modello pi` u complesso (ipotesi alternativa). Questa regola decisionale `e specificata da un intervallo di confidenza basato sulla distribuzione F di Snedecor, con (c − 1) e (n − c) gradi di libert`a. Una misura alternativa all’indice R2 `e la Root-Mean-Square Standard Deviation o, semplicemente, RMSSTD. Tale indice considera solamente la parte della deviazione nei gruppi aggiuntiva, che si forma al corrispondente passo della procedura di classificazione gerarchica. Si consideri il passo h-esimo (h = 2, ..., n − 1) della procedura, l’indice RMSSTD `e definito dalla seguente espressione: s RM SST D = Wh p(nh − 1) dove Wh `e la devianza nel gruppo che si `e costituito al passo h della procedura; nh `e la sua numerosit` a e p `e il numero di variabili considerate. Dal punto di vista interpretativo, un forte incremento di RMSSTD rispetto al passo precedente mostra che i gruppi che si sono uniti sono fortemente eterogenei e, pertanto, sarebbe opportuno arrestare la procedura al passo precedente. Un altro indice che, similmente a RMSSTD, misura il contributo aggiuntivo del passo h-esimo della procedura `e il cosiddetto R2 semiparziale (SPRSQ). Tale indice `e definito da: SP RSQ = (Wh − Wr − WS ) T dove h `e il nuovo gruppo, ottenuto al passo h come fusione dei gruppi r e s, T `e la devianza totale delle osservazioni, mentre Wh , Wr e Ws indicano, rispettivamente, le varianze interne ai gruppi h, r e s. In altri termini, SPRSQ misura l’incremento della devianza all’interno del gruppo ottenuto 20 unendo i gruppi r e s. Un brusco innalzamento indica che si stanno unendo gruppi eterogenei e, pertanto, `e opportuno arrestarsi al passo precedente. Gli indici locali RMSSTD e SPRSQ consentono quindi di valutare adeguatamente il grado di omogeneit`a (o coesione) dei gruppi ottenuti in ogni passo di una classificazione gerarchica e di scegliere la partizione pi` u soddisfacente. In sintesi, non vi `e un criterio univoco di valutazione dei metodi di cluster analysis, ma una pluralit` a di criteri, la cui applicazione congiunta va combinata da un lato con il principio di semplicit`a interpretativa, che preferisce un numero ridotto di clusters e, dall’altro, con le esigenze informative dettate dal problema che invece richiedono un numero elevato di clusters. 2.4 I metodi non gerarchici di classificazione I metodi non gerarchici di classificazione permettono di ottenere una sola partizione delle n unit` a statistiche in g gruppi (con g generalmente minore di n) il cui numero (g appunto) viene definito a priori da colui che svolge la classificazione. A differenza di quanto accade nei metodi gerarchici, si perviene a un unico raggruppamento che soddisfa determinati criteri di ottimalit`a, quali il raggiungimento della ripartizione che consente di ottenere la massima coesione interna, per un numero di gruppi prefissato. Per ogni valore di g, ovvero per ogni numero di gruppi in base al quale si intendono classificare gli n elementi iniziali, l’algoritmo non gerarchico classifica ciascuno di questi elementi fondandosi esclusivamente sul criterio prescelto e giunge, di conseguenza, a risultati diversi per diversi valori attribuiti a g. In generale, negli algoritmi di classificazione non gerarchici viene seguita una procedura di analisi che si pu`o schematizzare nelle seguenti fasi: 1. Scelta del numero dei gruppi, g, e conseguente scelta di una classificazione iniziale delle n unit`a statistiche in tali gruppi. 2. Valutazione del trasferimento di ciascuna unit`a statistica dal gruppo di appartenenza a un altro gruppo. Ci`o al fine di massimizzare la coesione interna dei gruppi. Viene calcolata la variazione nella funzione obiettivo causata dallo spostamento e, se questa `e rilevante ai fini del raggiungimento degli obiettivi, il trasferimento diviene permanente. 3. Ripetizione del punto precedente finch´e non viene soddisfatta una regola di arresto. Gli algoritmi non gerarchici sono, in generale, molto pi` u veloci di quelli gerarchici, proprio per il fatto di ricorrere a una struttura di calcolo, di tipo iterativo, che non richiede la determinazione preliminare della matrice delle distanze (nonostante implementazioni efficienti non necessitino del calcolo 21 di tutte le distanze). Inoltre, per il modo in cui vengono costruiti, risultano tipicamente pi` u stabili, rispetto alla variabilit`a campionaria. Gli algoritmi non gerarchici si rivelano perci`o adatti per dataset di grandi dimensioni, per i quali i metodi gerarchici sarebbero troppo lenti. Tuttavia, il numero di modi in cui `e possibile suddividere n elementi in g gruppi non sovrapposti `e molto grande, specie per dati reali, ed `e impossibile ottenere e confrontare tutte queste combinazioni. Pertanto, per questo motivo, risulta difficile massimizzare globalmente la funzione obiettivo e, quindi, gli algoritmi di classificazione non gerarchica dovranno accontentarsi di soluzioni vincolate, spesso corrispondenti a massimi locali. Si sottolinea inoltre che gli aspetti critici connessi ai metodi non gerarchici di classificazione consistono soprattutto nella necessit`a di definire preliminarmente il numero di gruppi. Il criterio maggiormente utilizzato per prendere una tale decisione consiste nella ripetuta conduzione dell’analisi con differenti valori di g (e differenti inizializzazioni degli algoritmi) e nella determinazione della soluzione migliore confrontando appropriati indici della bont` a della classificazione (come R2 o l’indice pseudo-F). Il metodo di segmentazione non gerarchica pi` u utilizzato `e il metodo delle k-medie (k-means), con k che indica il numero dei gruppi stabilito. L’algoritmo delle k-medie attua una classificazione degli n elementi di partenza, in g gruppi distinti, con g fissato a priori, secondo il seguente flusso operativo: 1. Scelta dei semi iniziali (seeds): dopo aver determinato il numero dei gruppi, vengono definiti g punti nello spazio p-dimensionale che costituiscono i centroidi (misure di posizione, di solito medie) dei clusters nella partizione iniziale. I centroidi dovrebbero essere sufficientemente distanti tra loro, affinch´e migliorino le propriet`a di convergenza dell’algoritmo. 2. Calcolo della distanza di ogni unit` a statistica dai centroidi (medie) dei g gruppi : la distanza tra una generica unit`a statistica e il centroide del gruppo a cui `e stata assegnata deve essere minima e, nel caso in cui non lo fosse, l’elemento corrispondente verr`a riassegnato al cluster il cui centroide `e pi` u vicino. Quando avviene tale spostamento vengono ricalcolati i centroidi del vecchio e del nuovo gruppo di appartenenza. 3. Ripetizione del passo precedente fino al raggiungimento della convergenza dell’algoritmo: in altri termini, il precedente punto viene ripetuto fino a raggiungere un’adeguata stabilizzazione dei gruppi. Per calcolare la distanza tra le unit`a statistiche e i centroidi dei gruppi viene utilizzata la distanza euclidea: all’iterazione t, la distanza tra l’unit`a i-esima e il centroide del gruppo l (con i = 1, 2, , n e l = 1, 2, , g) sar`a 22 pari a: v u p uX (t) (t) ¯s,l )2 d(xi , x ¯l ) = t (xis − x s=1 dove (t) (t) (t) x ¯l = [¯ x1,l , ....., x ¯p,l ]0 `e il centroide del gruppo l calcolato all’iterazione t. Dalla precedente espressione, risulta evidente che il metodo delle k-medie persegue l’obiettivo della ricerca della partizione degli n elementi iniziali in g gruppi (con g prefissato) che soddisfi un criterio di coesione interna fondato sulla minimizzazione della devianza nei gruppi W ; pertanto la bont`a della soluzione ottenuta con questo algoritmo pu`o essere controllata attraverso il calcolo dell’indice R2 o della statistica pseudo-F. Un possibile svantaggio del metodo delle k-medie consiste nella presenza di notevoli distorsioni dei risultati nel caso in cui nei dati vi fossero dei valori anomali o outliers. In questo caso l’utilizzo di un numero di gruppi molto elevato costituisce un buon esercizio per verificare l’esistenza di questi valori poich´e, con molta probabilit`a, le unit`a non anomale tenderanno a concentrarsi in pochi gruppi, mentre gli outliers rimarranno isolati nella classificazione formando dei gruppi anche contenenti un solo elemento. In generale, l’algoritmo delle k-medie pu`o portare alla formazione dei cosiddetti elephant clusters: clusters troppo grandi poich´e la distanza, di alcuni piccoli gruppi rispetto agli altri fa s`ı che le osservazioni si concentrino in un solo o, comunque, in pochi clusters centrali. 2.5 Le GTM Le superfici principali sono un metodo non lineare di riduzione della dimensione. Teoricamente le superfici principali possono essere definite nel modo seguente: ~ |g(Y ~ ) = x} ∀x ∈ I ⊆ RQ (condizione di autoconsistenza), f(x) = EY~ |g(Y~ ) {Y e ( ) ~ ~ ) = sup s : ~ − f(s) g(Y − f(r) Y = inf Y r∈I s∈I dove x denota una coordinata (vettore) sulla superficie principale Q-dimensionale. Le GTM (Generative Topographical Mapping) sono un modello probabilistico che approssima le superfici principali. Le GTM definiscono una 23 mappatura parametrica non lineare y(x; W) da uno spazio latente Q-dimensionale (x ∈ RQ ) ad uno spazio dei dati D-dimensionale (t ∈ RD ), dove di solito Q < D. La mappatura `e definita continua e differenziabile. y(x; W) associa ogni punto dello spazio latente ad un punto dello spazio dei dati. Poich`e lo spazio latente `e Q-dimensionale, questi punti saranno confinati in una variet` a Q-dimensionale non lineare all’interno dello spazio dei dati Ddimensionale. Ad una distribuzione di probabilit`a nello spazio latente, p(x), corrisponder` a una distribuzione di probabilit`a nello spazio dei dati. Strettamente confinata alla variet` a Q-dimensionale, questa probabilit`a potrebbe essere singolare, cos`ı la si esprime con una distribuzione Gaussiana isotropica: ( ) − D D 2 β βX 2 p(t|x, W, β) = exp − (td − yd (x; W)) 2π 2 d=1 dove t `e un punto dello spazio dei dati e β −1 indica l’inverso della varianza isotropica. Integrando sulla variabile latente, la distribuzione di probabilit`a nello spazio dei dati `e espressa come una funzione dei parametri β e W, Z p(t|W, β) = p(t|x, W, β)p(x)dx. Generalmente, questo integrale non `e trattabile analiticamente. Quindi, scegliendo una forma particolare per p(x), e un insieme di M funzioni delta con uguale peso: M 1 X p(x) = δ(x − xm ). M m=1 Si ha cos`ı: p(t|W, β) = M 1 X p(t|xm , W, β). M m=1 Si ottiene, in questo modo, un modello in cui ogni centro della funzione delta (da ora in poi ci si riferir` a ad essi come nodi latenti) corrisponde al centro della Gaussiana che giace sulla variet`a nello spazio dei dati (fig 2.2). Si noti che i punti proiettati, necessariamente hanno un ordine topografico nel senso che dati due punti xA e xB vicini nello nello spazio latente, si avranno due punti vicini y(xA ; W) e y(xB ; W) vicini nello spazio dei dati. ` inoltre possibile, tramite il teorema di Bayes, calcolare le corrisponE denti probabilit` a posteriori: πm p(tn |m) Rnm ≡ p(m|tn ) = P . j πj p(tn |j) Il valore p(m|tn ) lo si pu` o vedere come la responsabilit` a che ha la componente m nella formazione del punto dato tn . 24 Figura 2.2: Ad ogni nodo xm corrisponde un punto y(xm ; W) nello spazio dei dati, e forma il centro della corrispondente distribuzione Gaussiana. Dato, ora, un insieme finito di punti dati distribuiti in modo indipendente ed identico, {tn }N o scrivere la funzione pi` u probabile per questo n=1 , si pu` modello: L= N Y p(tn |W, β) = N Y " n=1 n=1 M 1 X p(tn |xm , W, β) , M m=1 # e massimizzarla rispetto a W e β. Quindi, `e di solito pi` u conveniente lavorare con la funzione logaritmica pi` u probabile: N X M 1 X ln p(tn |xm , W, β) . l= M m=1 n=1 ! Scegliendo una particolare forma per la mappatura y(x; W), si pu`o ottenere un algoritmo EM (Expectation-Maximization), che fornisce una stima dei parametri del GTM, in cui il passo M ha una forma semplice. In particolare si sceglie una y(x; W) data da un modello di regressione lineare generalizzato della forma: y(x; W) = Wφ(x) dove l’elemento φ(x) `e formato da L funzioni di base fissate: {φl (x)}L l=1 , e W `e una matrice D × L. 2.6 Le PPS Le PPS (Probabilistic Principal Surfaces) mostrano la stessa formulazione delle GTM ad eccezione della struttura orientata della covarianza associata 25 ai nodi in RD : ci` o significa che i punti proiettati vicino un nodo della superficie principale hanno un peso pi` u alto sul nodo rispetto ai punti proiettati lontano, (fig 2.3). Figura 2.3: (a) Per il modello Gaussiano sferico del GTM, i punti 1 e 2 hanno uguale influenza sul centro del nodo y(x); (b) le PPS hanno una matrice di covarianza orientata cos`ı il punto 1 `e probabilisticamente pi` u vicino al centro del nodo y(x), rispetto al punto 2. Quindi, ogni nodo y(x; W), x ∈ {xm }M m=1 , ha covarianza Q D (D − αQ) X αX eq (x)eTq (x) + ed (x)eTd (x), 0 < α < D/Q (x) = β q=1 β(D − Q) d=Q+1 X (2.1) dove: {eq (x)}Q q=1 insieme dei vettori ortonormali tangenziali al manifold in y(x; W); {ed (x)}D d=Q+1 insieme dei vettori ortonormali ortogonali al manifold in y(x; W), α `e il fattore di attenuazione della covarianza lungo la direzione del gradiente ` da notare che l’insieme completo dei vettori ortonormali della variet` a. E D {ed (x)}D d=1 attraversa R . Il modello PPS unificato si riduce, per α = 1, al 26 GTM e, per α > 1, al GTM allineato al manifold, cio`e X (x) = ⊥ al manifold ID o sferico k al manifold 0<α<1 PPS (ortonormale) α=1 GTM 1 < α < D/Q GTM allineato al manifold Se α tende a 0, il supporto di ogni nodo diventa maggiormente concentrato lungo l’iperpiano ortogonale al nodo stesso, verificando effettivamente ` da notare che la condizione di auto-consistenza per le superfici principali. E P la varianza di (x) resta uguale a D/β su tutto l’intervallo in cui varia α, assicurando che il livello di rumore della PPS rimanga invariato rispetto all’orientamento della covarianza. 2.6.1 Un algoritmo di aspettazione-massimizzazione L’algoritmo di aspettazione-massimizzazione pu`o essere usato per stimare i parametri delle PPS. Per prima cosa, la funzione logaritmica pi` u probabile per le PPS, assumendo costanti le probabilit`a a priori (PX (xm ) = 1/M, m = 1, ...., M ), `e scritta come M N X X 1 zmn ln [p(tn |xm ) Lc = M n=1 m=1 , dove la variabile binaria zmn indica se la componente m `e responsabile della generazione del punto tn , cio`e ( zmn = 1 se la componente m ha generato il punto tn . 0 altrimenti Poich´e zmn `e ignota la funzione logaritmica pi` u probabile non pu`o essere valutata. Quindi nel passo di aspettazione dell’algoritmo `e calcolato il valore di aspettazione Lc rispetto a PZ|T~ (z|t) alla k-esima iterazione, portando alla seguente espressione, L = hLc i = N X M X (k) rmn ln n=1 m=1 1 pY~ |X~ (tn |xm ) M (2.2) (k) dove il parametro di responsabilit`a rmn = pX| e calcolato sostituendo ~ T~ (xm |tn ) ` i valori del vecchio parametro (k) W(k) , β (k) , α(k) nelle probabilit`a condizionali pT~ |X~ (tn |xm ). Nel passo di massimizzazione la funzione attesa logaritmica pi` u probabile (2.2) `e massimizzata rispetto a W, β e α, dando quindi i corrispondenti nuovi (k + 1)-esimi valori. Solitamente si aggiunge un termine di regolarizzazione con una gaussiana isotropica a priori sui pesi. L’algoritmo `e descritto di seguito. 27 Inizializzazione: Si assume che i nodi latenti {xm }M m=1 siano disposti in una topologia uniforme all’interno di un ipercubo in RQ , n o xm ∈ x = (x1 , ...., xQ ) ∈ RQ : −1 ≤ xq ≤ 1, q = 1, ...., Q , si inizializza W(0) risolvendo il seguente problema ai minimi quadrati, [y(x1 ) · · · y(xM )] = W [Φ(x1 ) · · · Φ(xM )] , D dove {y(xm )}M m=1 sono l’insieme dei nodi su un’ipergriglia in R espanso dalle Q componenti principali {eq }Q q=1 con corrispondenti autovalori {ξq }Q q=1 , q p y(xm ) = xm1 ξ1 e1 + · · · + xmQ ξQ eQ , m = 1, ...., M. Per esempio, se la topologia√dello spazio latente `e una griglia 2-D con √ 3 × 5 nodi, allora y(x1 ) = (−1) ξ1 e1 + (−1) ξ2 e2 mappa il nodo latente x1 = [−1 − 1] . Con W(0) inizializzato, una distribuzione iniziale dei nodi PPS in RD pu` o essere calcolata come y(0) (xm ) = W(0) Φ(xm ), m = 1, ...., M. Si inizializza 1/β (0) con la media della distanza quadratica Euclidea tra i n oM nello spazio dei dati. nodi adiacenti y(0) (xm ) m=1 Alla k-esima iterazione: (k) 1. Aspettazione: calcola la matrice di responsabilit`a RM ×N i cui valori (k) rmn sono pT~ |X~ (tn |xm ) (k) rmn = PM ~ (tn |xm0 ) m0 =1 pT~ |X e usando la (2.1) per la covarianza dizionata: P(k) (2.3) (xm ) della distribuzione con- pT~ |X~ (tn |xm ) ∼ N y(k) (xm ), (k) X (xm ) . 2. Massimizzazione: calcola i parametri aggiornati W(k+1) e β (k+1) (a) Calcola W(k+1) come soluzione della seguente equazione matriciale lineare ΦT G(k) Φ + γIM WT = ΦT R(k) T, dove ΦL×M Φlm = Φl (xm ), (k) (k) GM ×M gmm = N X (k) rmn , n=1 TN ×D = [t1 · · · tN ]T , e γ `e un parametro di regolarizzazione in W. 28 (b) Calcola β (k+1) come 1 β (k+1) = N X M 2 1 X (k) rmn W(k+1) Φ(xm ) − tn . N D n=1 m=1 Calcola i nuovi nodi PPS in RD come y(k+1) (xm ) = W(k+1) Φ(xm ), m = 1, ...., M. 3. Calcola la differenza della funzione logaritmo pi` u probabile, L(k+1) − L(k) ∆L = . (k) L 4. Termina se ∆L assume un valore minore di un limite , altrimenti incrementa il conteggio di k e va al passo 1. 2.6.2 PPS sferiche Se sono considerati spazi latenti mono o bidimensionali (i.e, Q = 1 o Q = 2) allora la corrispondente variet`a sar`a una curva o un piano non lineare. Si `e visto che la variet` a sferica (Q = 3) `e lo strumento pi` u appropriato per catturare la distribuzione periferica dei dati in spazi ad alta dimensione. Le PPS sferiche sono efficienti per la classificazione e per la visualizzazione dei dati. Come conseguenza del problema della dimensionalit`a i dati distribuiti a caso in spazi ad alta dimensione tendono ad essere sparsi e a concentrarsi ai margini. Questo fa in modo che il numero dei campioni in un addestramento sia sempre sparso rispetto alla dimensione, ed `e la causa principale di errore nella funzione di approssimazione, stima di densit`a e classificazione. Una variet` a sferica pu` o essere costruita usando una PPS con nodi {xm }M m=1 disposti regolarmente sulla superficie di una sfera nello spazio latente R3 , con le funzioni di base latenti uniformemente distribuite sulla sfera a densit`a pi` u bassa. La sola modifica richiesta rispetto alle variet`a 1-D e 2-D `e la procedura di inizializzazione, che inizializza la variet`a ad un iper-ellissoide in RD . Questo `e ottenuto risolvendo la seguente equazione ai minimi quadrati, [s1 · · · sM ] = W [Φ(x1 ) · · · Φ(xM )] , dove sm = hp ξ1 e1 p ξ2 e2 p i ξ3 e3 xm m = 1, ...., M, sono le coordinate dell’iper-ellissoide nello spazio dei dati, {ξq }3q=1 indicano i tre autovettori pi` u grandi pesati dai corrispondenti autovalori {ξq }3q=1 della matrice di covarianza dei dati. Dopo l’inizializzazione segue la procedura standard descritta precedentemente. 29 PPS sferiche per la visualizzazione dei dati La variet` a sferica pu` o essere usata come uno strumento di visualizzazione dati, in spazi ad alta dimensione, non supervisionato. Per visualizzare i dati, una variet` a sferica `e prima adattata ai dati, riproducendo efficacemente la loro struttura. Poi, i dati sono proiettati su una variet`a in RD , e le proiezioni sulla variet` a sono graficate come punti su una sfera in R3 . Il metodo adottato per proiettare i dati sulla variet`a sferica `e la proiezione b n della variet` probabilistica che calcola le coordinate x a latente di ogni dato tn come la media della funzione densit`a di probabilit`a indotta in R3 . In pratica la proiezione della coordinata latente `e calcolata come una combinazione lineare di tutti i nodi latenti pesati dalla matrice di responsabilit`a (2.3), b n ≡ hx|tn i = x Z xp(x|t)dx = M X rmn xm . (2.4) m=1 Per una superficie sferica,kxm k = 1 per m = 1, ..., M e m rmn = 1 per n = 1, ...., N. Quindi l’espressione (2.4) implica che tutte le proiezioni stiano all’interno della sfera, i.e. kxm k ≤ 1. P Figura 2.4: (a) Variet` a sferica nello spazio latente R3 . (b) Variet`a sferica nello spazio dei dati R3 . (c) Proiezione dei punti dati t sulla variet`a sferica latente. PPS sferiche per la classificazione La PPS sferica `e usata come variet`a di riferimento per la classificazione in spazi ad alta dimensione. Viene calcolata una variet`a sferica di riferimento per ogni classe durante la fase di addestramento. Nella fase di verifica, dati mai visti prima sono assegnati alla classe della loro variet`a sferica pi` u vicina. Ovviamente il concetto di vicinanza implica il calcolo della distanza tra un punto dato t e i nodi sulla variet`a. Prima di effettuare questo calcolo il punto dato t deve essere proiettato linearmente sulla variet`a. Poich`e una variet` a sferica `e approssimata con piccole superfici triangolari o quadrate 30 ognuna definita da tre o quattro nodi, ci`o che realmente si calcola `e una distanza approssimata. La struttura di una PPS fornisce tre metodi di approssimazione: • Nearest Neighbor (NN): trova la distanza quadratica minima rispetto a tutti i nodi della variet`a; • Grid Projections (GP): trova la distanza di proiezione pi` u breve rispetto alla griglia della variet`a; • Nearest Triangulation (NT): trova la distanza di proiezione pi` u breve rispetto alle due possibili triangolazioni. ` utile notare che in questa struttura probabilistica viene calcolata la E distanza tra un punto dato t e la funzione della media della sua distribuzione indotta y(hx|ti) sulla variet` a. Chiaramente la distanza non pu`o essere la pi` u breve in senso Euclideo, cos`ı la distanza `e calcolata usando la proiezione lineare sulla variet` a. Figura 2.5: Da sinistra a destra: approssimazioni di proiezioni N N, GP e N T su un un pezzo della variet`a delimitato da quattro nodi latenti. 2.7 Astroneural Per poter classificare gli oggetti con le caratteristiche richieste si `e sfruttato il toolbox astroneural di matlab. Astroneural permette di scegliere il numero delle variabili dal totale delle variabili contenute nella tabella. Fatto questo si sceglie l’algoritmo per il data mining, in questo caso le PPS. Compare una schermata in cui si possono scegliere i vari parametri con cui addestrare la rete neurale: 1. Selected • parameters: visualizza i parametri selezionati 31 • targets: visualizza i targets selezionati. In quel campo si inseriscono gli objid della tabella: Astroneural automaticamente acquisir`a quei dati che serviranno poi per la visualizzazione. Infatti le PPS sono degli algoritmi di apprendimento non supervisionato: non hanno bisogno di target. In realt`a `e pi` u giusto intendere i target come label. Si potr` a cos`ı capire, una volta visualizzati i clusters, a che oggetto corrisponde ogni cluster. 2. Parameter Settings • init: permette di scegliere il metodo di inizializzazione della sfera • proj : permette di scegliere il metodo di proiezione dei dati sulla variet`a: – nn: metodo di proiezione del nearest neighbour: `e la pi` u smplice approssimazione di distanza che trova la distanza quadratica minima rispetto ai nodi della variet`a. – grid : approssimazione pi` u accurata che trova la pi` u piccola distanza di proiezione alla griglia della variet`a. – tri : `e la migliore approssimazione. Trova la distanza di proiezione pi` u vicina alle due possibili triangolazioni, i.e. M SE∆ = (M SE∆1 , M SE∆2 ), fig (4.3). 3. Basi Latenti • number : – L1 : numero di funzioni dello sviluppo in serie di Fourier che approssima la funzione di distribuzione di probabilit`a, funzione in base alla quale sono distribuiti i dati. Si suppone che i dati siano distribuiti secondo una gaussiana, ma in realt`a nulla vieta che lo siano secondo una funzione diversa. Dopodich`e la distribuzione di probabilit`a `e sviluppata in serie di Fourier. Le L funzioni sono chiamate basi latenti. Si avr`a cos`ı che ogni funzione di base del mio spazio D apparterr`a ad uno spazio L-dimensionale. Per passare poi allo spazio M si costruiranno M combinazioni lineari delle D funzioni di base. • width and orientation: 32 – L fac: `e il fattore di larghezza delle basi latenti: larghezza a mezza altezza della gaussiana. – L alpha: `e il fattore di correlazione tra le diverse basi latenti: d`a un’informazione sull’orientazione delle basi. 4. Variabili Latenti • latent sphere: `e possibile stabilire il numero di nodi che copriranno la sfera variando gli angoli di elevazione e rotazione. Cos`ı facendo si stabilir` a la distanza angolare dei meridiani e dei paralleli sulla sfera: ogni loro intersezione `e un nodo latente. • clamping factor α: stabilisce l’orientazione della covarianza. Se 0 < α < 1 l’orientazione della covarianza sar`a perpendicolare alla variet`a. Se α = 1 la covarianza sar` a circolare, si ricade cos`ı nel caso delle GTM: generative topographic map. Se 1 < α < D/M la forma della covarianza sar` a parallela alla variet`a. • EM algorithm: permette di stimare i parametri delle PPS. L’algoritmo `e diviso in due fasi: – aspettazione: calcola il valore di aspettazione della funzione logaritmica pi` u probabile; – massimizzazione: viene massimizzata la funzione logaritmica attesa pi` u probabile. Quando la differenza fra la funzione logaritmica calcolata al passo k + 1 e al passo k, assume un valore al di sotto di un certo limite, scelto arbitrariamente a seconda delle esigenze, l’algoritmo si ferma. Ed `e proprio questo limite che `e possibile scegliere nel campo tolerance, mentre nel campo regularize si sceglie un fattore statistico, detto di regolarizzazione, che permette di regolare la smoothness della nostra distribuzione di probabilit`a. • training: Qui si ha la possibilit`a di scegliere il numero di iterazioni da far eseguire alla rete. Alla fine della fase di addestramento si ottiene: • plot error : grafica l’errore. 33 Figura 2.6: Da sinistra: errore Lcomp e Lavg; errore Mse. • plot proj : grafica le proiezioni dei punti dello spazio D sulla variet`a sferica. • plot lat var : grafica i nodi latenti sulla variet`a. • plot 2D proj : grafica le proiezioni in due dimensioni. • plot pdf : grafica i clusters sulla sfera visualizzandoli con una scala cromatica: dal blu al rosso. Quanto pi` u la zona `e rossa tanto pi` u sar`a presente un cluster. 34 Figura 2.7: Grafico delle proiezioni (punti neri) e delle variabili latenti (punti azzurri) sulla variet` a. Figura 2.8: Grafico delle proiezioni in 2-D. 35 Figura 2.9: Grafico dei clusters sulla variet`a sferica. 36 Capitolo 3 I Dati 3.1 La Sloan La Sloan Digital Sky Survey `e una survey digitale di ' 10.000 gradi quadrati dell’emisfero boreale realizzato in 5 bande fotometriche. I dati sono pubblici ed accessibili al sito http://cas.sdss.org/dr6/en/help/browser/browser.asp tramite query. Le query sono strutturate nel seguente modo: select, from, where. • la funzione select: permette di scegliere di quali parametri osservativi si vuole conoscere il valore; • la funzione from: specifica da dove si dovranno prendere i parametri di interesse; • la funzione where: permette di selezionare i valori dei nostri parametri in base ad un criterio di scelta. La query fa uso di diverse funzioni in grado di rendere il lavoro pi` u agevole. Si possono poi unire pi` u tabelle tramite gli indirizzi id. I parametri richiesti alla sloan, presi dal catalogo galaxy, sono: 37 Parametri ra dec petromag u petromag g petromag r petromag i petromag z petroR90 u petror90 g petror90 r petror90 i petror90 z isoa u isoa g isoa r isoa i isoa z isoagrad u isoagrad g isoagrad r isoagrad i isoagrad z dered u dered g dered r dered i dered z objid Significato right ascension declinazione flusso Petrosiano nella banda u flusso Petrosiano nella banda g flusso Petrosiano nella banda r flusso Petrosiano nella banda i flusso Petrosiano nella banda z raggio contenente il 90% del flusso petrosiano calcolato nella banda u raggio contenente il 90% del flusso petrosiano calcolato nella banda g raggio contenente il 90% del flusso petrosiano calcolato nella banda r raggio contenente il 90% del flusso petrosiano calcolato nella banda i raggio contenente il 90% del flusso petrosiano calcolato nella banda z asse maggiore isofotale calcolato nella banda u asse maggiore isofotale calcolato nella banda g asse maggiore isofotale calcolato nella banda r asse maggiore isofotale calcolato nella banda i asse maggiore isofotale calcolato nella banda z gradiente lungo l’asse maggiore isofotale calcolato nella banda u gradiente lungo l’asse maggiore isofotale calcolato nella banda g gradiente lungo l’asse maggiore isofotale calcolato nella banda r gradiente lungo l’asse maggiore isofotale calcolato nella banda i gradiente lungo l’asse maggiore isofotale calcolato nella banda z magnitudine semplificata corretta per estinzione calcolata nella banda u magnitudine semplificata corretta per estinzione calcolata nella banda g magnitudine semplificata corretta per estinzione calcolata nella banda r magnitudine semplificata corretta per estinzione calcolata nella banda i magnitudine semplificata corretta per estinzione calcolata nella banda z numero che individua univocamente un oggetto La Sloan ha restituito una tabella con 442095 righe (oggetti: vi `e una corrispondenza biunivoca tra una riga ed un oggetto. Si `e poi proceduto ad una prima ripulitura dei dati, scartando tutti gli oggetti 38 per cui erano presenti colonne con valore numerico -9999 (convenzione adottata dalla Sloan per identificare misure errate o poco affidabili), ottenendo un totale di 439400 oggetti. 39 Capitolo 4 Esperimenti IL clustering `e stato effettuato utilizzando i parametri (features in ingresso) riportati in tabella (esclusi, ovviamente, objid, ra e dec). Basandoci sull’ipotesi che il numero di classi non potesse eccedere il valore 50, le PPS sono state configurate in modo da proiettare su 62 variabili latenti. Il risultato ha mostrato che gran parte (286592, pari al 65.2%) degli oggetti si agglomera intorno a 10 variabili latenti o, in altre parole, che il ∼ 63% delle galassie tende a raggrupparsi in dieci classi. Le figure 4.1 - 4.5 mostra gli istogrammi dei colori (u − g), (g − r), (r − i) per i cinque gruppi pi` u popolosi, mentre in tabella 4 sono riportati i valori medi dei colori per tutti i dieci gruppi. In Figura xxx `e riportata la distribuzione di tali valori medi, nei piani [(g − r), (r − i)] e [(u − g), (g − r)]. Numero Cluster 1 2 3 4 5 6 7 8 9 10 Tabella <g−r > <u−g > <r−i> 0.758724± 0.315257 1.51003± 0.458692 0.371613± 0.249526 0.746841± 0.228033 1.47077± 0.348301 0.37626± 0.121048 0.681468± 0.225871 1.42231± 0.325197 0.357859± 0.116314 0.901309± 0.193481 1.74209± 0.291358 0.410226± 0.115181 0.893003± 0.250606 1.70306± 0.387809 0.408466± 0.186782 0.616997± 0.241262 1.29559± 0.321148 0.338981± 0.141123 0.948914± 0.193352 1.83608± 0.274516 0.423106± 0.119638 0.879674± 0.197302 1.77017± 0.300907 0.406129± 0.1176 0.89197± 0.235258 1.7052± 0.364642 0.406082± 0.136107 0.574528± 0.215583 1.291± 0.295457 0.321894± 0.13407 dei valori medi dei colori dei dieci cluster pi` u ricchi. L’applicazione delle PPS ha prodotto 40 Figura 4.1: Istogrammi dei colori (u − g), (g − r) e (r − i) per il cluster 1. 41 Figura 4.2: Istogrammi dei colori (u − g), (g − r) e (r − i) per il cluster 2. 42 Figura 4.3: Istogrammi dei colori (u − g), (g − r) e (r − i) per il cluster 3. 43 Figura 4.4: Istogrammi dei colori (u − g), (g − r) e (r − i) per il cluster 4. 44 Figura 4.5: Istogrammi dei colori (u − g), (g − r) e (r − i) per il cluster 5. 45 Figura 4.6: Istogrammi dei colori (u − g), (g − r) e (r − i) per il cluster 1. 46 Capitolo 5 Alcune conclusioni Come si `e detto nell’introduzione, la classificazione morfologica delle galassie, pur essendo estremamente utile, presenta limitazioni ineludibili, dovute sia all’arbitrariet`a dei criteri adottati che alla impossibilit`a di generalizzare al di fuori del suo specifico dominio di applicabilit`a. Per questo motivo, da sempre, si cerca di sostituire alla classificazione morfologica vera e propria un sistema di classificazione fisico basato su criteri statistici oggettivi e su parametri misurabili in modo indipendente dall’osservatore. In tale ambito appare naturale adottare metodologie di partizione dello spazio dei parametri derivate dal cosiddetto Statistical Learning o Data Mining. Nell’ambito del presente lavoro si `e cercato di stimare in modo preliminare se una particolate tecnica di clustering (le PPS) `e in grado di separare nello spazio dei parametri fotometrici della survey Sloan, galassie di tipi diversi. Nel fare ci` o ci si `e fondati sul fatto, ampiamente dimostrato in letteratura, che galassie di tipi morfologici diversi hanno colori medi (cio`e integrati su tutto l’oggetto) che mediamente differiscono in modo apprezzabile. Tale differenza `e dovuta al fatto che galassie di tipo diverso hanno storie di formazione ed evolutive affatto diverse e quindi, sono costituite da miscele di popolazioni diverse sia per et`a che per metallicit`a media. I risultati ottenuti, pur essendo solo preliminari, appaiono incoraggianti. Le figure 4 mostrano infatti che, nei piani colore-colore, i nostri ‘cluster’ appaiono fortemente differenziati e si distribuiscono lungo una sequenza che, a meno di offset dovuti a differenze nelle bande fotometriche, riproduce in modo pressoch´e perfetto la sequenza empirica determinata gi` a nel 1967 dall’astronomo americano Gerard de Vaucolueurs. Dal confronto dei due diagrammi `e evidente che i cluster 4, 5, 7, 8 e 9 corrispondono a galassie di tipo Ellittico e lenticolare, i cluster 1, 2 e 3 corrispondono a galassie ti tipo intermedio Sa–Sc, mentre i cluster 10 e 6 corrispondono a galassie di tipo Sd e Im. Un ulteriore 47 discriminazione appare impossibile alla luce degli errori sperimentali attualmente registrati. Si vuole per`o far notare che, mentre nel caso del diagramma di De Vaucoleurs l’attribuzione dei tipi `e fatta in base a criteri morfologici e quindi soggettivi, nel caso del clustering la ripartizione `e fatta in base a criteri oggettivi di tipo statistico ed utilizzando quantit` a fisiche misurate. Figura 5.1: Istogrammi dei colori (u − g), (g − r) e (r − i) per il cluster 1. 48 Bibliografia [1] Antonino Staiano, PhD thesis, Unsupervised Neural Network for the Extraction of Scientific Infirmation from Astronomical Data, 2003 [2] Christopher M. Bishop, Neural Network for Pattern Recognition [3] Siddharta Kasivajhula, Naren Raghavan, and Hemal Shah, Morphological Galaxy Classification Using Machine Learning [4] Allan Sandage, The Classification of Galaxies: Early History and Ongoing Developments, copyright 2005 [5] Raffaele D’Abrusco, PhD thesis 49
© Copyright 2024 Paperzz