Scuola Politecnica e delle Scienze di Base Corso di Laurea in Ingegneria Informatica Elaborato finale in Sistemi Multimediali Tool per l’image annotation & retrieval Anno Accademico 2013/2014 Candidato: De Matteo Giuseppe matr. N46/000754 A tutti coloro che hanno sempre creduto in me. Alla mia famiglia e a TE, che anche se non ci sei piu, vegli su di me ogni giorno. Indice Indice………………………………………………………………………………………………. III Introduzione……………………………………………………………………………………….....4 Capitolo 1: Image retrieval and annotation..........................................................................................7 1.1 Requisiti per la gestione di archive di foto digitali personali………………………………7 1.2 Standard di metadati esistenti...............................................................................................8 1.3 Sistemi di ricerca e indicizzazione.......................................................................................9 1.4 Visual Information Retrieval.............................................................................................11 Capitolo 2: Caliph & Emir................................................................................................................13 2.1 Annotazione con Caliph..................................................................................................... 14 2.2 Recupero con Emir..............................................................................................................17 Conclusioni........................................................................................................................................23 Biblografia.........................................................................................................................................24 Introduzione Al giorno d'oggi le attività di ricerca e sviluppo sono accompagnate da una crescente attenzione alle esigenze degli utenti nel campo del recupero multimediale. La rapida crescita di archivi di dati multimediali è innegabile. Oltre a grandi aziende, come editori di giornali,emittenti radio o televisive ecc, che si occupano di contenuti digitali, anche un numero crescente di utenti crea archivi multimediali per i propri video e per le proprie foto. La tecnologia di internet e lo spazio del World Wide Web permettono di rendere reperibili molteplici dati ad un numero sempre maggiore di individui, quindi li potremmo considerare come dei veri e propri database distribuiti di documenti multimediali sempre piu in estensione. Questa evoluzione degli archivi di informazioni digitali ha prodotto in passato un numero crescente di requisiti specializzati nel recupero intelligente delle informazioni. Sono state globalmente convenute norme e metodi standardizzati. Inizialmente si operava in termini di un generico Information Retrieval, dove ogni tipo di ricerca documentale si effettuava tramite linguaggio testuale. Oggi si parla di MMIR, MultiMedia Information Retrieval, in cui ogni genere di documento elettronico puo’ essere trattato e ricercato tramite elementi di linguaggio piu adatti alla sua natura di documento multimediale. Nei database multimediali risultano poco efficaci e troppo riduttivi i metodi di indicizzazione e di ricerca basati sulle annotazioni terminologiche che, 4 invece, sono molto utili nel reperimento di informazioni testuali, in particolare in archivi il cui contenuto dei documenti è sostanzialmente un testo. In sostanza,il metodo del MMIR sperimenta la possibilità di ricercare le immagini tramite gli appropriati mezzi del linguaggio visivo stesso, i documenti sonori con i mezzi del linguaggio dei suoni, e i video attraverso le forme di rappresentazione audiovisive. L’innovazione apportata dal MMIR è fondata sui presupposti del contet-based information retieval (CBIR), nel quale i documenti multimediali vengono trattati tramite tecniche di archiviazione e recupero che operano direttamente sul contenuto visivo, sonoro, o audiovisivo degli oggetti digitali di un database. La transizione dal term-based retrieval al content-based retrieval solleva la necessita di metainformazioni addizionali in merito al contenuto in modo da consetinre il semanticretrieval. Di conseguenza i metadati devono essere generati, archiviati e indicizzati così da arricchire le informazioni visive. Come risultato sono stati sviluppati due tools chiamati "Caliph & Emir”. METADATI Poichè in questo lavoro si parla a lungo di metadati, vale la pena spiegare brevemente la loro storia e cosa sono. I metadati sono dati che descrivono caratteristiche e proprietà di un documento e sono distiniti dal documento stesso, anche se sono inseriti nello stesso file. Proprio quest’ultima è una delle loro principali virtù: viaggiono insieme all’immagine, sono sempre disponibili. Nel caso specifico delle immagini, i metadati permettono di inserire informazioni sia a livello di macchina, sia a livello utente, con un programma di gestione delle immagini. I primi ad avere l’idea di inserire dati nel file immagine furono i giornalisti o meglio fu l’International Press and Telecommunications Council (IPTC), che sviluppo’ questa idea per organizzare e per distribuire le immagini fotografiche presso i quotidiani. Successivamente l’Adobe con Photoshop creò File Info che aggiungeva ulteriori dati a quelli proposti dall’IPTC. 5 Con l’avvento della fotografia digitale i principarli produttori si unirono nella Japan Electronic and Information Industries Association (JEITA), e svilupparono un sistema di metadati detti Exchangeable Image File Format ovvero EXIF. Questi dati riguardano le informazioni della foto scattatata come l’esposizione alla luce solare, la data, il codice seriale dell’apparecchio ecc. Questi dati non sono sufficienti per l’utilizzo moderno delle immagini digitali da parte di un professionista. Per rimediare a questa carenza, sulla fine del 2001, la Adobe Systems Incorporated creò una nuova tecnologia chiamata Extensible Metadata Platform (XMP), e per rendere questa il piu possibile compatibile con tutte le piattaforme, Adobe chiese al consorzio World Wide Consortium di definire degli standard con l’inclusione del XML (Extensible Markup Language). Con questa nuova tecnologia si è ampliato il numero di metadati rendendolo virtualmente infinito e lo si è reso compatibile con molte piattaforme e programmi di gestione immagini e non solo. 6 Capitolo 1: Image annotation and retrieval 1.1. Requisiti per la gestione di archivi di foto digitali personali Il recupero semantico di foto digitali non è possibile senza metadati esistenti, che, come detto in precedenza, descrivono il contenuto dell’immagine e l'immagine stessa. La maggior parte delle foto digitali contengono già alcuni metadati memorizzati nei propi file, mentre il formato dei metadati dipende dalla fotocamera digitale con la quale sono state scattate le foto; per esempio il modello e il produttore della fotocamera, valori di esposizione alla luce solare, data e ora della creazione e del salvataggio vengono salvati, nelle fotocamere digitali comuni, all'interno dei propi file utilizzando l’EXIF . Questi valori devono essere importati in una descrizione e, oltre a definire chi e dove è stata scattata l’immagine, dovrebbe anche essere possibile salvare chi ha creato i metadati. Ovviamente, deve essere integrata la possibilità di descrivere l'immagine con un breve testo. Tuttavia l'obiettivo principale è quello di creare, calcolare e salvare una descrizione del contenuto visivo dell'immagine e, inoltre, dovrebbe essere consentito all'utente di descrivere contenuti non visibili, come sentimenti o stati d’animo,"amicizia"o”amore”, che potrebbero essere associati all'immagine. Oltre al tempo e il luogo in cui la foto è stata scattata, persone, gruppi di persone e oggetti devono essere descritti per migliorare la capacità di recupero. Queste entità di descrizione sono interconnesse come si può facilmente vedere nel seguente esempio: 7 "Puffy, il cane che appartiene a mio zio Adam" . Si definisce un cane di nome "Puffy" e una persona chiamata "Adam", che è il proprietario del cane, e ha un rapporto di parentela col narratore. Questo può essere visualizzato in un grafo orientato, illustrato nella figura 1. E’ piuttosto evidente il vantaggio di memorizzare una descrizione in tale modo strutturato: la descrizione diventa calcolabile, per esempio, da agenti software che potrebbero lavorare con questi grafi semantici. Fig.1 Un altro requisito intuitivo è il recupero di immagini simili, caratterizate da un basso livello di contenuto come istogrammi di colore o texture di immagini. Caratteristiche importanti per il recupero di immagini sono le valutazioni soggettive e oggettive di qualità, per esempio utilizzate come vincolo di ricerca. Se il recupero avviene in un ambiente internet o mobile, sono necessarie diverse istanze di un'immagine in varie risoluzioni e spazi di colori. 1.2. Standard di metadati esistenti Lo standard utilizzato per definire come gestire i metadati deve essere molto più potente di EXIF o per esempio DC, Dublin Core.1 Quest’ultimo definisce solo 15 qualificatori di base, che possono essere intesi come tag di metadati e possono essere riempiti dall'utente. Una combinazione di Dublin Core e altre strutture adatte come Resource Description Framework, RDF, potrebberto almeno consentire l'archiviazione strutturata di grafi simili all'esempio precedente e un certo rating di qualità, anche se il recupero basato sul 1 Il Dublin Core (dal nome della città americana nell'Ohio) è un sistema di metadati costituito da un nucleo di elementi essenziali ai fini della descrizione di qualsiasi materiale digitale accessibile via rete informatica. 8 contenuto di immagini potrebbe non essere supportato. L'importazione delle informazioni EXIF di una struttura basata su RDF è possibile. RDF è lo strumento base proposto da W3C per la codifica, lo scambio e il riutilizzo di metadati strutturati e consente l'interoperabilità tra applicazioni che condividono le informazioni sul Web. Un altro standard internazionale è MPEG-7, il "Multimedia Content Description Interface", definito dal Moving Pictures Expert Group, che specifica un sistema di metadati per la descrizione di contenuti multimediali. MPEG-7 definisce le strutture, denominate descrittori, necessarie per l'annotazione dei dati di immagine audio, video ed è un modo standardizzato per creare nuovi descrittori. Un descrittore è composto o da valori o da altri descrittori; il formato per la definizione di tali descrittori è lo XML schema del W3C. MPEG-7 soddisfa i requisiti sopra citati e poichè è uno standard per la descrizione basata sui metadati della multimedialità, è anche intercambiabile tra i vari programmi di diversi fornitori. Inoltre è possibile integrare le norme esistenti, ad esempio Dublin Core, in MPEG-7. Caratteristica molto importante per il nostro scopo, è la possibilità di descrivere la semantica dei dati multimediali. I nodi o vertici nel grafo precedente possono essere definiti con strumenti di entità semantiche di MPEG-7 , che le descrivono come oggetti, luoghi, agenti, tempi, concetti e stati. I confini sono le relazioni semantiche comuni, definite dallo standard. 1.3. Sistemi di ricerca e di indicizzazione Innanzitutto bisogna prima spiegare come avvengono le ricerche e le indicizzazioni sui dati, divise essenzialmente tra un sitema piu tradizionale, chiamato Term-Based Retrieval (ricerca basata sui termini) e un sistema di recupero più innovativo come il Content-Based Retrieval (recupero basato sui contenuti). - Term-Based Retrieval Si basa sulla logica delle parole chiave, cioè una logica di archiviazione e recupero basata su termini. 9 La query viene espressa testualmente e il processo di ricerca individua i descrittori piu pertinenti alla richiesta. I descrittori dei documenti multimediali assumono la forma di termini di indicizzazione, di titoli o didascalie. A questi è collegato il documento archiviato, che viene automaticamente collegato alla figura, al suono, o alla relativa anteprima. Il documento, il suo contenuto, le chiavi d’accesso che lo identificano nella registrazione e la struttura della query nella ricerca hanno tutti forma testuale. La rappresentazione linguistica lascia però emergere molti problemi. Le queries espresse terminologicamente sono inadeguate, in quanto la nuova società culturale richiede un sistema flessibile alla multimedialità, per la ricerca di un’informazione multimediale. Ad esempio, negli archivi di tutte le specie di animali, per la ricerca di un determinato animale è essenziale la conoscenza di una terminologia testuale precisa. Il volcabolario degli studiosi risulta, però, essere poco intuitivo e di nn facile uso per gli utenti medi. Se questi archivi servono per offrire un servizio informativo il risultato non sarà efficiente, quindi a poco servirà affrontare il complesso lavoro di assegnare termini ad ogni immagine secondo i metodi tradizioni: il problema va affrontato cambiando la struttura di base del sistema. Serve dunque un metodo più flessibile di ricerca, non vincolato da chiavi e metodi di classificazione decisi e imposti da qualcun altro. - Content-Based Retrieval Si basa di fatto sulla ricerca del contenuto del documento visivo, sonoro, audiovisivo,composto da strutture e forme, suoni e colori, e non di un contenuto testuale. Il metodo del recupero basato sul contenuto mira alll’obiettivo del MMIR: restiturire l’oggetto che esattamente si cerca, al di là di ogni classificazione. Ovviamente la ricerca non può avvenire sulla fisicità della tela, o della pellicola, ma avverrà sul loro diretto corrispondente in valori elettronici, direttamente nel dominio degli effettivi valori spaziali, formali e sonori. "Content-based" significa che la ricerca analizza il contenuto dell'immagine, piuttosto che 10 i metadati. Il termine "contenuto" in questo contesto potrebbe riferirsi ai colori, forme, texture, o qualsiasi altra informazione che possa essere derivata dall'immagine stessa. CBIR è appropriato poichè le ricerche che si basano esclusivamente su metadati dipendono dalla qualità di annotazione e completezza. 1.4. Visual Information Retrieval Lo scopo del visual information retrieval (o Content-Based Information Retrieval CBIR) è di recuperare immagini o sequenze di immagini da un database multimediale, che rispondano a determinate query. E’ un’estensione delle attività di recupero effettuate sui database relazionali, la cui differenza principale è che il risultato della query non è univoco ma si basa su similarità tra le features che descrivono gli oggetti multimediali. Features di prima e seconda generazione I dati multimediali sono caratterizzati da diversi tipi di informazioni: - Metadati indipendenti dal contenuto, come il formato, il nome dell’autore, la data, il luogo ecc; - Metadati dipendenti dal contenuto, relativi ad esempio al colore, alla texture ecc; - Metadati descrittivi, relativi all’ambito semantico, come relazioni fra le immagini e il mondo reale, al significato associato a segni e scene ecc. Come spiegato in precedenza, per la ricerca di immagini, l’approccio tradizione è costituito dalle cosiddette features di prima generazione: queste consentono l’accesso a immagini, video ecc attraverso delle stringhe di attributi. I metadati dipendenti dal contenuto sono espressi con keywords, mentre quelli descrittivi sono espressi con scripts, descrizioni estensive scritte tipicamente da esperti del settore. L’operazione di retrieval è basata su un tradizionale motore di ricerca sintattica. Si è visto che i problemi con questro approccio sono molteplici: è necessario descrivere manualmente e a parole ogni elemento del database, la lingua utilizzata non è univoca, la descrizione delle immagini non è 11 oggettiva ma dipende dal punto di vista di chi la compone e infine potrebbero perdersi dei dettagli nella descrizione. Invece, nel CBIR, le features di seconda generazione sono feature estraibili in maniera automatica dai media e permettono di descrivere in modo oggettivo le immagini (eliminando la percezione della persona che deve descrivere a parole l’oggetto) in modo automatizzato e molto più velocemente. Per ciascuna immagine vengono calcolate un insieme di features descrittive. Ci son diversi tipi di query : quelle usate per identificare un set di immagini con uno specifico contenuto (Query by Content), ad esempio trovare tutte le immagini con un albero a destra di una casa, dove vengono effettuati richiami topologici, metrici ecc; quelle che si basano su esempi visivi (Query by Example), cioè il sistema valuta la similarità tra l’immagine inserita dall’utente e quelle presenti nel database, restituendo come risultato le immagini ordinate per valori di similarità percentuali decrescenti; quelle, tra l’altro meno utilizzate, che consentono di recuperare informazioni attraverso concetti ad alto livello (Query Iconiche), dove le icone possono rappresentare categorie di oggetti o di persone. Per rendere le query più robuste, è importante garantire l’indipendenza rispetto a variazioni nelle dimensioni, nelle proporzioni, nelle condizioni di luce delle immagini. 12 Capitolo 2: Caliph & Emir Come esposto nel paragrafo 1.2, MPEG-7 è uno standard complesso basato su XML, ovvero un linguaggio basato su un meccanismo sintattico che consente di definire e controllare il significato degli elementi contenuti in un documento o in un testo. Poichè non è una buona idea far confrontare all'utente un editor XML o un manuale di istruzioni, come strumenti per esprimere la semantica di una foto, e poichè per trattare con molte descrizioni grafiche o con una visualizzazione di un grafo, è necessario avere la possibilità di modificare il grafo in modo interattivo, è stato progettato "Caliph", " the Common And Lightweight Interactive Photo annotation” (l’annotazione interattiva comune e leggera di foto), in modo da supportare l'utente nell'annotazione delle foto, un compito che richiedeva un dispendio di tempo. Per il recupero delle foto annotate, invece, è stato realizzato "Emir", "the Experimental Metadata based Image Retrieval “ (il recupero di immagini attraverso metadati sperimentali). Poiché l'implementazione è stata pianificata per cercare la possibilità di creare descrizioni semantiche nel contesto dell'amministrazione di archivi di foto digitali, questo tool per memorizzare le descrizioni non usa un database, ma il file system. Ciò riduce molto la velocità di recupero e rimane indipendente dalla piattaforma, per una facile dimostrazione basta utilizzare il software senza una connessione internet. Entrambi i tools, principalmente autonomi, Caliph ed Emir sono stati implementati utilizzando Suns Java SDK 1.4, mentre come ambiente runtime sono supportate le versioni JRE 1.4 e superiori. Vengono utilizzati per gestire le librerie JDOM e Jaxen XML, in quanto forniscono funzioni di alto livello per la gestione 13 dei contenuti basati su XML, che accelera significativamente lo sviluppo. Per leggere le informazioni EXIF memorizzate nell' immagini sono state utilizzate le classi exifExtractor di Drew Noakes . 2.1 Annotazione con Caliph Con Caliph ,che è un'applicazione Java Swing, è iniziata la progettazione con la creazione di un'interfaccia utente, che divide i metodi di annotazione dai meccanismi di anteprima d’immagine ed esplorazione del file. I metodi di annotazione sono separati tra di loro ,nel pannello “JPanel GUI”, per ciascun metodo o gruppo logico di metodi. Ci sono pannelli per creare il descrittore di ColorLayout e ScalableColor, che vengono estratti dall'immagine sul primo caricamento. Sono presenti il cosiddetto "pannello di creazione", che mostra i tag ,i valori EXIF e che contiene l'autore dell'immagine ,il "pannello di descrizione dei metadati" che definisce la versione e l'autore della descrizione dei metadati, il "pannello valutazione di qualità", che viene utilizzato per assegnare un valore di qualità e per definire la persona che ha valutato la qualità dell'immagine, e il "pannello di annotazione testuale" ,che consente l'input di una semplice descrizione testuale dei contenuti dell'immagine. Dal momento che una serie di foto deve essere annotata in breve tempo, lo strumento di esplorazione del file è una tabella specializzata, che permette all'utente di selezionare l'immagine in modo rapido e intuitivo. Ovviamente un pannello di un'anteprima è necessario anche per consentire all'utente di esaminare l'immagine, come pure la possibilità di definire un visualizzatore di immagini esterno, che può essere chiamato utilizzando un comando tastiera, per dare all'utente la capacità di utilizzare i suoi strumenti preferiti. 14 Fig.2 Simplified UML diagram of Caliph La parte centrale del software Caliph è il cosiddetto "pannello di descrizione semantica". Esso consente all'utente di definire gli oggetti semantici come le persone, i luoghi, gli eventi e le volte che sono stati salvati in uscita ,per il loro riutilizzo nelle volte successive,quando si riazionerà Caliph. Questi oggetti semantici possono anche essere importati da un file MPEG-7 esistente, per consentire lo scambio di oggetti tra utenti, la modifica e la creazione di tali oggetti in uno strumento preferito dall'utente. Gli oggetti semantici possono essere utilizzati per creare la descrizione trascinandoli con il mouse sul pannello blu, mostrato in figura 3. Una volta presenti gli oggetti, possono essere riutilizzati se alcune immagini o serie hanno lo stesso contesto. Ciò è particolarmente vero per gli oggetti che rappresentano persone, come i parenti, colleghi, amici, animali preferiti o luoghi come "a casa" o "al lavoro". 15 Fig.3 Creating a semantic description using Caliph by drawing a graph as abstraction of the Semantics Dopo aver lasciato tutti gli oggetti necessari sul pannello blu, l'utente può interconnettere questi oggetti disegnando i rapporti tra di loro utilizzando il pulsante centrale del mouse. Il grafo, che viene generato attraverso queste interazioni dell'utente con “Caliph”, può essere salvato come parte di una descrizione MPEG-7. Oltre alla possibilità di creare un nuovo grafo, Caliph è anche uno strumento per l'importazione, la modifica e l'eliminazione di grafi o sub grafi esistenti. Inoltre tutta una serie di immagini può essere pre-annotata per semplificare e accelerare il compito di annotare immagini multiple. Tutte quelle che si trovano all'interno di uno stesso contesto sono poste in una cartella del file system e l'utente le apre al primo utilizzo di Caliph. 16 Dopo aver definito una descrizione "base", che è la stessa per tutte le immagini della serie come l'autore, una descrizione testuale di base come "la nostra visita a Vienna" e un grafo di base ,compresa la posizione e il tempo in cui sono state scattate le foto, e la motivazione per cui sono state scattate ,può essere usato il cosiddetto "pilota automatico" , che apre tutte le immagini nella cartella con una sequenza definita, calcola i descrittori visivi, che è un compito con tempi diversi a seconda della dimensione e della risoluzione dell' immagine, estrae i dati EXIF e i parametri specifici dell' immagine, crea un esempio di immagine in miniatura per il successivo recupero e infine salva la descrizione di base. Un effetto positivo, ovviamente, è che quando si apre una delle foto pre-annotata, l'esempio in miniatura e i descrittori visivi possono essere interpetrati dai metadati esistenti e non devono essere creati, ciò consente di risparmiare tempo durante l'apertura di una singola immagine da modificare. All'interno di un documento MPEG-7 il descrittore MediaProfile viene utilizzato per fare riferimento agli esempi dei media, descritti dai metadati. Oltre all’immagine originale, se non è già presente un esempio in miniatura, creato da Caliph, si fa riferimento a un altro descrittore MediaProfile, per consentire allo strumento di recupero di usare una miniatura preparata invece di scalare l'immagine durante il processo di visualizzazione dei risultati di recupero. 2.2 Recupero con Emir Emir offre all'utente la possibilità di recuperare le foto annotate, supporta la ricerca lineare in directory dei file MPEG-7 sul file system e l'indicizzazione dei descrittori selezionati sia da un database Java DB incorporato o un indice di Lucene(API per il reperimento di informazioni). Risultati del recupero sono presentati in forma di elenco e gli elementi di quest’ultimo possono essere aperti e modificati in Caliph. Per una ricerca nelle descrizioni semantiche sono implementati diversi metodi di recupero grafico. 17 Fig. 5. Simplified UML diagram of the Emir retrieval architecture Emir consente quattro modi diversi per cercare una foto corrispondente: 1. La ricerca attraverso una dichiarazione XPath . 2. Definizione delle opzioni di ricerca attraverso caselle di testo con diverse opzioni 3. Recupero dell’imagine basato sul contenuto, utilizzando i descrittori ColorLayout visivo e ScalableColor definito nello standard MPEG-7. 4. Ricerca di un grafo con una simile descrizione semantica - Ricerca attraverso Xpath La prima opzione è utilizzata principalmente per gli sviluppi e il debug delle dichiarazioni XPath, poichè tutti gli altri meccanismi di recupero usano come linguaggio di query proprio XPath. Per verificare la corrispondenza dei documenti utilizzando XPath, si richiede la conoscenza dettagliata della struttura dei documenti da ricercare, e anche se dichiarazioni di base come: 18 //*[contains(.,'textToSearchFor ')] potrebbero essere utilizzate per richiedere documenti senza conoscerne la struttura, queste offrirebbero solo funzioni di recupero minimo. - Ricerca basata su testo supportata da un'interfaccia grafica per l’utente Strumenti ben noti per la definizione di query di ricerca, per l'input di testo e per elenchi delle opzioni tra cui scegliere, sono componenti della GUI (Graphical User Interface, ovvero Interfaccia Grafica per l'Utente). Un’interfaccia utente che offre questi componenti permette all'utente di specificare, in fase di ricerca, ciò che cerca senza conoscere la struttura dei documenti. Anche se il backend di ricerca utilizza XPath per interrogare i dati MPEG-7, l' utente non rileva la dichiarazione stessa. Le funzioni di base sono alla ricerca di agenti, come un agente semantico, metadati o creatore di immagini, alla ricerca di parole chiavi in vari descrittori testuali e definiscono come vincolo di ricerca la minima o la massima qualità. - Recupero di immagini basate sul contenuto in Emir Dal MPEG-7 che definisce molti descrittori di basso livello, è stato implementato un meccanismo di ricerca utilizzando due di questi descrittori per il recupero di immagini basato sul contenuto. 1)Il colore scalabile (ScalableColor) Questo descrittore untilizza un istogramma dei colori ,nello spazio dei colori HVS, codificato attraverso la trasformata di Haar. La sua rappresentazione binaria può essere ridimensionata in termini di numero di bit e la loro accuratezza di rappresentazione su un ampio range di dati. Il descrittore è utile per l'abbinamento immagine per immagine e per il recupero basato sulle caratteristiche del colore. Accuratezza del retrieval cresce con il numero di bit usati nella rappresentazione. 19 2) Il ColorLayout Il Descrittore di Layout dei Colori (C.L.D. Color Layout Descriptor) cattura la disposizione spaziale dei colori dominanti su una griglia sovrapposta alla regione di interesse; è progettato per catturare la distribuzione spaziale di colore sia complessivamente in una immagine che in una regione di forma arbitraria. La distribuzione spaziale di colore costituisce un descrittore efficace per il recupero di immagini basato su uno schizzo, il filtraggio di contenuto usando l’indicizzazione di immagini, e la visualizzazione; il descrittore risulta molto compatto e adatto alle applicazioni di scorrimento e di ricerca. Può essere applicato sia a immagini statiche, che a frammenti di video. - Ricerca semantica La componente di maggior interesse è il pannello che offre una ricerca di meccanismi per la ricerca di descrizioni semantiche. Fig. 6 Avvio di una ricerca semantica utilizzando un grafico come input.Tre oggetti e due relazioni sono definita, per cui un rapporto è definito da un carattere jolly invece di una parola. 20 Questo componente consente all'utente di definire un grafo con un minimo ad un massimo di tre nodi e due possibili relazioni. Un asterisco viene utilizzato come carattere jolly. Un grafo di ricerca che contiene solo un nodo, con una parola che definisce questo nodo, restituirà ogni documento MPEG-7 in cui si trova un oggetto semantico contenente la parola specificata. Se due o tre nodi e uno o due rapporti sono utilizzati per definire il grafico di ricerca, l'archivio di documenti MPEG-7 viene filtrato dai termini definiti come oggetti o relazioni. Se, per esempio, il grafo in figura 6 viene utilizzato per la ricerca, tutti i documenti che contengono oggetti semantici,in cui sono presenti i termini "Tobias", "Unterhaltung" e "Stefanie", e una relazione semantica contenente il termine "patientOf" sono presi dall'archivio e controllati se vi è anche una corrispondenza strutturale con il grafo dato. Il meccanismo di recupero segue un’architettura di sistema modulare, un'istruzione Xpath è data ad una classe che implementa l'interfaccia RetrievalEngine ed i risultati sono ricevuti come elenco dei documenti HTML, che possono essere visualizzati utilizzando componenti dello standard Java Swing. L'unico motore di recupero ancora attuato è il "FileSystemRetrievalEngine", che raccoglie tutti i documenti MPEG-7 da un determinata directory e dalle sue sottodirectory ed esegue la data dichiarazione XPath. Se un documento viene trovato si trasforma in HTML, utilizzando XSLT. Questa visualizzazione del risultato HTML viene aggiunta all’ elenco di risultati, che viene ordinato per importanza, questa è calcolata utilizzando il numero di nodi corrispondenti alla dichiarazione XPath utilizzata come input. 21 Un'altra implementazione del motore di recupero, ad esempio, è che si collega a un XML database, cio’ si traduce in un aumento significativo di velocità dell'esecuzione delle istruzioni XPath. In caso di una ricerca di immagini basata sul contenuto ciascun documento MPEG-7 deve essere caricato e il descrittore desiderato si trova utilizzando XPath. Questo descrittore deve essere confrontato al descrittore campione utilizzato come parametro di ricerca per calcolare l’importanza. Questi risultati sono messi in una lista ordinata per importanza crescente, anche se un’importanza pari a zero mostrerebbe una corrispondenza esatta. Utilizzando un database, il confronto dei descrittori deve essere implementato, in una parte del database, come una procedura memorizzata, un oggetto server o di un simile meccanismo, a causa di problemi di velocità. 22 Conclusioni In questa tesi ho affrontato il problema dell’image retrieval e dell’immage annotation, costatando il continuo sviluppo di database multimidiali e la necessità, che ha l’uomo, di ricercare, annotare e recuperare informazioni o dati multimediali in modo sempre più efficace e veloce. Possiamo quindi parlare di WEB SEMANTICO, cioè l’evoluzione del World Wide Web in un ambiente dove i documenti pubblicati sono associati ad informazioni e a dati (metadati) aggiuntivi , che ne specifichino il contesto semantico, in un formato adatto all’interrogazione, all’interpretazione e in generale all’elaborazione automatica. Ho esaminato le due tipologie di recupero dati, quella testuale e quella che si basa sul contenuto, delineando le differenze, i vantaggi e gli svantaggi di quest’ultime. In particolare ho analizzato alcuni tools per il recupero e per l’annotazione di immagini che sono attualmente disponibili ,e nello specifico Caliph ed Emir. 23 Bibliografia [1]Caliph&Emir: Semantic Annotation and Retrieval in Personal Digital Photo Libraries Mathias Lux, Jutta Becker and Harald Krottmaier Know-Center, Inffeldgasse 16c, A-8010 Graz, Austria. [2] Caliph & Emir: MPEG-7 Photo Annotation and Retrieval Mathias Lux Institute for Information Technology Klagenfurt University Klagenfurt, Austria. [3]L’archivazione delle immagini – I metadati Di Massimo Isotti [4] Dublin Core ,Wikipedia [5] XML and MPEG-7 for Interactive Annotation and Retrieval using Semantic Meta-Data Mathias Lux, Werner Klieber, Jutta Becker, Klaus Tochtermann ,2002 24
© Copyright 2025 Paperzz