Elaborato De Matteo Giuseppe N46000754

Scuola Politecnica e delle Scienze di Base
Corso di Laurea in Ingegneria Informatica
Elaborato finale in Sistemi Multimediali
Tool per l’image annotation & retrieval
Anno Accademico 2013/2014
Candidato:
De Matteo Giuseppe
matr. N46/000754
A tutti coloro che hanno sempre
creduto in me.
Alla mia famiglia e a TE, che
anche se non ci sei piu, vegli su
di me ogni giorno.
Indice
Indice………………………………………………………………………………………………. III
Introduzione……………………………………………………………………………………….....4
Capitolo 1: Image retrieval and annotation..........................................................................................7
1.1 Requisiti per la gestione di archive di foto digitali personali………………………………7
1.2 Standard di metadati esistenti...............................................................................................8
1.3 Sistemi di ricerca e indicizzazione.......................................................................................9
1.4 Visual Information Retrieval.............................................................................................11
Capitolo 2: Caliph & Emir................................................................................................................13
2.1 Annotazione con Caliph..................................................................................................... 14
2.2 Recupero con Emir..............................................................................................................17
Conclusioni........................................................................................................................................23
Biblografia.........................................................................................................................................24
Introduzione
Al giorno d'oggi le attività di ricerca e sviluppo sono accompagnate da una crescente
attenzione alle esigenze degli utenti nel campo del recupero multimediale. La rapida
crescita di archivi di dati multimediali è innegabile. Oltre a grandi aziende, come editori
di giornali,emittenti radio o televisive ecc, che si occupano di contenuti digitali, anche un
numero crescente di utenti crea archivi multimediali per i propri video e per le proprie
foto. La tecnologia di internet e lo spazio del World Wide Web permettono di rendere
reperibili molteplici dati ad un numero sempre maggiore di individui, quindi li potremmo
considerare come dei veri e propri database distribuiti di documenti multimediali sempre
piu in estensione.
Questa evoluzione degli archivi di informazioni digitali ha prodotto in passato un numero
crescente di requisiti specializzati nel recupero intelligente delle informazioni. Sono state
globalmente convenute norme e metodi standardizzati.
Inizialmente si operava in termini di un generico Information Retrieval, dove ogni tipo di
ricerca documentale si effettuava tramite linguaggio testuale. Oggi si parla di MMIR,
MultiMedia Information Retrieval, in cui ogni genere di documento elettronico puo’
essere trattato e ricercato tramite elementi di linguaggio piu adatti alla sua natura di
documento multimediale. Nei database multimediali risultano poco efficaci e troppo
riduttivi i metodi di indicizzazione e di ricerca basati sulle annotazioni terminologiche che,
4
invece, sono molto utili nel reperimento di informazioni testuali, in particolare in archivi il
cui contenuto dei documenti è sostanzialmente un testo.
In sostanza,il metodo del MMIR sperimenta la possibilità di ricercare le immagini tramite
gli appropriati mezzi del linguaggio visivo stesso, i documenti sonori con i mezzi del
linguaggio dei suoni, e i video attraverso le forme di rappresentazione audiovisive.
L’innovazione apportata dal MMIR è fondata sui presupposti del contet-based information
retieval (CBIR), nel quale i documenti multimediali vengono trattati tramite tecniche di
archiviazione e recupero che operano direttamente sul contenuto visivo, sonoro, o
audiovisivo degli oggetti digitali di un database.
La transizione dal term-based retrieval al content-based retrieval solleva la necessita di
metainformazioni addizionali in merito al contenuto in modo da consetinre il semanticretrieval. Di conseguenza i metadati devono essere generati, archiviati e indicizzati così da
arricchire le informazioni visive. Come risultato sono stati sviluppati due tools chiamati
"Caliph & Emir”.
METADATI
Poichè in questo lavoro si parla a lungo di metadati, vale la pena spiegare brevemente la
loro storia e cosa sono.
I metadati sono dati che descrivono caratteristiche e proprietà di un documento e sono
distiniti dal documento stesso, anche se sono inseriti nello stesso file. Proprio quest’ultima
è una delle loro principali virtù: viaggiono insieme all’immagine, sono sempre disponibili.
Nel caso specifico delle immagini, i metadati permettono di inserire informazioni sia a
livello di macchina, sia a livello utente, con un programma di gestione delle immagini.
I primi ad avere l’idea di inserire dati nel file immagine furono i giornalisti o meglio fu
l’International Press and Telecommunications Council (IPTC), che sviluppo’ questa idea
per organizzare e per distribuire le immagini fotografiche presso i quotidiani.
Successivamente l’Adobe con Photoshop creò File Info che aggiungeva ulteriori dati a
quelli proposti dall’IPTC.
5
Con l’avvento della fotografia digitale i principarli produttori si unirono nella Japan
Electronic and Information Industries Association (JEITA), e svilupparono un sistema di
metadati detti Exchangeable Image File Format ovvero EXIF. Questi dati riguardano le
informazioni della foto scattatata come l’esposizione alla luce solare, la data, il codice
seriale dell’apparecchio ecc. Questi dati non sono sufficienti per l’utilizzo moderno delle
immagini digitali da parte di un professionista.
Per rimediare a questa carenza, sulla fine del 2001, la Adobe Systems Incorporated creò
una nuova tecnologia chiamata Extensible Metadata Platform (XMP), e per rendere questa
il piu possibile compatibile con tutte le piattaforme, Adobe chiese al consorzio World
Wide Consortium di definire degli standard con l’inclusione del XML (Extensible Markup
Language). Con questa nuova tecnologia si è ampliato il numero di metadati rendendolo
virtualmente infinito e lo si è reso compatibile con molte piattaforme e programmi di
gestione immagini e non solo.
6
Capitolo 1: Image annotation and retrieval
1.1. Requisiti per la gestione di archivi di foto digitali personali
Il recupero semantico di foto digitali non è possibile senza metadati esistenti, che, come
detto in precedenza, descrivono il contenuto dell’immagine e l'immagine stessa.
La maggior parte delle foto digitali contengono già alcuni metadati memorizzati nei propi
file, mentre il formato dei metadati dipende dalla fotocamera digitale con la quale sono
state scattate le foto; per esempio il modello e il produttore della fotocamera, valori di
esposizione alla luce solare, data e ora della creazione e del salvataggio vengono salvati,
nelle fotocamere digitali comuni, all'interno dei propi file utilizzando l’EXIF . Questi
valori devono essere importati in una descrizione e, oltre a definire chi e dove è stata
scattata l’immagine, dovrebbe anche essere possibile salvare chi ha creato i metadati.
Ovviamente, deve essere integrata la possibilità di descrivere l'immagine con un breve
testo. Tuttavia l'obiettivo principale è quello di creare, calcolare e salvare una descrizione
del contenuto visivo dell'immagine e, inoltre, dovrebbe essere consentito all'utente di
descrivere contenuti non visibili, come sentimenti o stati d’animo,"amicizia"o”amore”, che
potrebbero essere associati all'immagine. Oltre al tempo e il luogo in cui la foto è stata
scattata, persone, gruppi di persone e oggetti devono essere descritti per migliorare la
capacità di recupero.
Queste entità di descrizione sono interconnesse come si può facilmente vedere nel
seguente esempio:
7
"Puffy, il cane che appartiene a mio zio Adam" .
Si definisce un cane di nome "Puffy" e una persona chiamata "Adam", che è il proprietario
del cane, e ha un rapporto di parentela col narratore. Questo può essere visualizzato in un
grafo orientato, illustrato nella figura 1. E’ piuttosto evidente il vantaggio di memorizzare
una descrizione in tale modo strutturato: la descrizione diventa calcolabile, per esempio,
da agenti software che potrebbero lavorare con questi grafi semantici.
Fig.1
Un altro requisito intuitivo è il recupero di immagini simili, caratterizate da un basso
livello di contenuto come istogrammi di colore o texture di immagini.
Caratteristiche importanti per il recupero di immagini sono le valutazioni soggettive e
oggettive di qualità, per esempio utilizzate come vincolo di ricerca. Se il recupero avviene
in un ambiente internet o mobile, sono necessarie diverse istanze di un'immagine in varie
risoluzioni e spazi di colori.
1.2. Standard di metadati esistenti
Lo standard utilizzato per definire come gestire i metadati deve essere molto più potente di
EXIF o per esempio DC, Dublin Core.1 Quest’ultimo definisce solo 15 qualificatori di
base, che possono essere intesi come tag di metadati e possono essere riempiti dall'utente.
Una combinazione di Dublin Core e altre strutture adatte come Resource Description
Framework, RDF, potrebberto almeno consentire l'archiviazione strutturata di grafi simili
all'esempio precedente e un certo rating di qualità, anche se il recupero basato sul
1
Il Dublin Core (dal nome della città americana nell'Ohio) è un sistema di metadati costituito da un nucleo di elementi
essenziali ai fini della descrizione di qualsiasi materiale digitale accessibile via rete informatica.
8
contenuto di immagini potrebbe non essere supportato. L'importazione delle informazioni
EXIF di una struttura basata su RDF è possibile. RDF è lo strumento base proposto
da W3C per la codifica, lo scambio e il riutilizzo di metadati strutturati e consente
l'interoperabilità tra applicazioni che condividono le informazioni sul Web.
Un altro standard internazionale è MPEG-7, il "Multimedia Content Description
Interface", definito dal Moving Pictures Expert Group, che specifica un sistema di
metadati per la descrizione di contenuti multimediali. MPEG-7 definisce le strutture,
denominate descrittori, necessarie per l'annotazione dei dati di immagine audio, video ed è
un modo standardizzato per creare nuovi descrittori. Un descrittore è composto o da valori
o da altri descrittori; il formato per la definizione di tali descrittori è lo XML schema del
W3C. MPEG-7 soddisfa i requisiti sopra citati e poichè è uno standard per la descrizione
basata sui metadati della multimedialità, è anche intercambiabile tra i vari programmi di
diversi fornitori. Inoltre è possibile integrare le norme esistenti, ad esempio Dublin Core,
in MPEG-7. Caratteristica molto importante per il nostro scopo, è la possibilità di
descrivere la semantica dei dati multimediali. I nodi o vertici nel grafo precedente possono
essere definiti con strumenti di entità semantiche di MPEG-7 , che le descrivono come
oggetti, luoghi, agenti, tempi, concetti e stati. I confini sono le relazioni semantiche
comuni, definite dallo standard.
1.3. Sistemi di ricerca e di indicizzazione
Innanzitutto bisogna prima spiegare come avvengono le ricerche e le indicizzazioni sui
dati, divise essenzialmente tra un sitema piu tradizionale, chiamato Term-Based Retrieval
(ricerca basata sui termini) e un sistema di recupero più innovativo come il Content-Based
Retrieval (recupero basato sui contenuti).
-
Term-Based Retrieval
Si basa sulla logica delle parole chiave, cioè una logica di archiviazione e recupero basata
su termini.
9
La query viene espressa testualmente e il processo di ricerca individua i descrittori piu
pertinenti alla richiesta. I descrittori dei documenti multimediali assumono la forma di
termini di indicizzazione, di titoli o didascalie. A questi è collegato il documento
archiviato, che viene automaticamente collegato alla figura, al suono, o alla relativa
anteprima. Il documento, il suo contenuto, le chiavi d’accesso che lo identificano nella
registrazione e la struttura della query nella ricerca hanno tutti forma testuale. La
rappresentazione linguistica lascia però emergere molti problemi. Le queries espresse
terminologicamente sono inadeguate, in quanto la nuova società culturale richiede un
sistema flessibile alla multimedialità, per la ricerca di un’informazione multimediale. Ad
esempio, negli archivi di tutte le specie di animali, per la ricerca di un determinato animale
è essenziale la conoscenza di una terminologia testuale precisa. Il volcabolario degli
studiosi risulta, però, essere poco intuitivo e di nn facile uso per gli utenti medi. Se questi
archivi servono per offrire un servizio informativo il risultato non sarà efficiente, quindi a
poco servirà affrontare il complesso lavoro di assegnare termini ad ogni immagine
secondo i metodi tradizioni: il problema va affrontato cambiando la struttura di base del
sistema.
Serve dunque un metodo più flessibile di ricerca, non vincolato da chiavi e metodi di
classificazione decisi e imposti da qualcun altro.
-
Content-Based Retrieval
Si basa di fatto sulla ricerca del contenuto del documento visivo, sonoro,
audiovisivo,composto da strutture e forme, suoni e colori, e non di un contenuto testuale.
Il metodo del recupero basato sul contenuto mira alll’obiettivo del MMIR: restiturire
l’oggetto che esattamente si cerca, al di là di ogni classificazione. Ovviamente la ricerca
non può avvenire sulla fisicità della tela, o della pellicola, ma avverrà sul loro diretto
corrispondente in valori elettronici, direttamente nel dominio degli effettivi valori spaziali,
formali e sonori.
"Content-based" significa che la ricerca analizza il contenuto dell'immagine, piuttosto che
10
i metadati. Il termine "contenuto" in questo contesto potrebbe riferirsi ai colori, forme,
texture, o qualsiasi altra informazione che possa essere derivata dall'immagine stessa.
CBIR è appropriato poichè le ricerche che si basano esclusivamente su metadati
dipendono dalla qualità di annotazione e completezza.
1.4. Visual Information Retrieval
Lo scopo del visual information retrieval (o Content-Based Information Retrieval CBIR)
è di recuperare immagini o sequenze di immagini da un database multimediale, che
rispondano a determinate query. E’ un’estensione delle attività di recupero effettuate sui
database relazionali, la cui differenza principale è che il risultato della query non è
univoco ma si basa su similarità tra le features che descrivono gli oggetti multimediali.

Features di prima e seconda generazione
I dati multimediali sono caratterizzati da diversi tipi di informazioni:
-
Metadati indipendenti dal contenuto, come il formato, il nome dell’autore, la data, il luogo
ecc;
-
Metadati dipendenti dal contenuto, relativi ad esempio al colore, alla texture ecc;
-
Metadati descrittivi, relativi all’ambito semantico, come relazioni fra le immagini e il
mondo reale, al significato associato a segni e scene ecc.
Come spiegato in precedenza, per la ricerca di immagini, l’approccio tradizione
è
costituito dalle cosiddette features di prima generazione: queste consentono l’accesso a
immagini, video ecc attraverso delle stringhe di attributi. I metadati dipendenti dal
contenuto sono espressi con keywords, mentre quelli descrittivi sono espressi con scripts,
descrizioni estensive scritte tipicamente da esperti del settore. L’operazione di retrieval è
basata su un tradizionale motore di ricerca sintattica. Si è visto che i problemi con questro
approccio sono molteplici: è necessario descrivere manualmente e a parole ogni elemento
del database, la lingua utilizzata non è univoca, la descrizione delle immagini non è
11
oggettiva ma dipende dal punto di vista di chi la compone e infine potrebbero perdersi dei
dettagli nella descrizione.
Invece, nel CBIR, le features di seconda generazione sono feature estraibili in maniera
automatica dai media e permettono di descrivere in modo oggettivo le immagini
(eliminando la percezione della persona che deve descrivere a parole l’oggetto) in modo
automatizzato e molto più velocemente. Per ciascuna immagine vengono calcolate un
insieme di features descrittive.
Ci son diversi tipi di query : quelle usate per identificare un set di immagini con uno
specifico contenuto (Query by Content), ad esempio trovare tutte le immagini con un
albero a destra di una casa, dove vengono effettuati richiami topologici, metrici ecc; quelle
che si basano su esempi visivi (Query by Example), cioè il sistema valuta la similarità tra
l’immagine inserita dall’utente e quelle presenti nel database, restituendo come risultato le
immagini ordinate per valori di similarità percentuali decrescenti; quelle, tra l’altro meno
utilizzate, che consentono di recuperare informazioni attraverso concetti ad alto livello
(Query Iconiche), dove le icone possono rappresentare categorie di oggetti o di persone.
Per rendere le query più robuste, è importante garantire l’indipendenza rispetto a
variazioni nelle dimensioni, nelle proporzioni, nelle condizioni di luce delle immagini.
12
Capitolo 2: Caliph & Emir
Come esposto nel paragrafo 1.2, MPEG-7 è uno standard complesso basato su XML,
ovvero un linguaggio basato su un meccanismo sintattico che consente di definire e
controllare il significato degli elementi contenuti in un documento o in un testo. Poichè
non è una buona idea far confrontare all'utente un editor XML o un manuale di istruzioni,
come strumenti per esprimere la semantica di una foto, e poichè per trattare con molte
descrizioni grafiche o con una visualizzazione di un grafo, è necessario avere la possibilità
di modificare il grafo in modo interattivo, è stato progettato "Caliph", " the Common And
Lightweight Interactive Photo annotation” (l’annotazione interattiva comune e leggera di
foto), in modo da supportare l'utente nell'annotazione delle foto, un compito che
richiedeva un dispendio di tempo. Per il recupero delle foto annotate, invece, è stato
realizzato "Emir", "the Experimental Metadata based Image Retrieval “ (il recupero di
immagini attraverso metadati sperimentali). Poiché l'implementazione è stata pianificata
per
cercare
la
possibilità
di
creare
descrizioni
semantiche
nel
contesto
dell'amministrazione di archivi di foto digitali, questo tool per memorizzare le descrizioni
non usa un database, ma il file system. Ciò riduce molto la velocità di recupero e rimane
indipendente dalla piattaforma, per una facile dimostrazione basta utilizzare il software
senza una connessione internet. Entrambi i tools, principalmente autonomi, Caliph ed
Emir sono stati implementati utilizzando Suns Java SDK 1.4, mentre come ambiente
runtime sono supportate le versioni JRE 1.4 e superiori. Vengono utilizzati per gestire le
librerie JDOM e Jaxen XML, in quanto forniscono funzioni di alto livello per la gestione
13
dei contenuti basati su XML, che accelera significativamente lo sviluppo. Per leggere le
informazioni EXIF memorizzate nell' immagini sono state utilizzate le classi exifExtractor
di Drew Noakes .
2.1 Annotazione con Caliph
Con Caliph ,che è un'applicazione Java Swing, è iniziata la progettazione con la creazione
di un'interfaccia utente, che divide i metodi di annotazione dai meccanismi di anteprima
d’immagine ed esplorazione del file. I metodi di annotazione sono separati tra di loro ,nel
pannello “JPanel GUI”, per ciascun metodo o gruppo logico di metodi. Ci sono pannelli
per creare il descrittore di ColorLayout e ScalableColor, che vengono estratti
dall'immagine sul primo caricamento. Sono presenti il cosiddetto "pannello di creazione",
che mostra i tag ,i valori EXIF e che contiene l'autore dell'immagine ,il "pannello di
descrizione dei metadati" che definisce la versione e l'autore della descrizione dei
metadati, il "pannello valutazione di qualità", che viene utilizzato per assegnare un valore
di qualità e per definire la persona che ha valutato la qualità dell'immagine, e il "pannello
di annotazione testuale" ,che consente l'input di una semplice descrizione testuale dei
contenuti dell'immagine. Dal momento che una serie di foto deve essere annotata in breve
tempo, lo strumento di esplorazione del file è una tabella specializzata, che permette
all'utente di selezionare l'immagine in modo rapido e intuitivo. Ovviamente un pannello di
un'anteprima è necessario anche per consentire all'utente di esaminare l'immagine, come
pure la possibilità di definire un visualizzatore di immagini esterno, che può essere
chiamato utilizzando un comando tastiera, per dare all'utente la capacità di utilizzare i suoi
strumenti preferiti.
14
Fig.2 Simplified UML diagram of Caliph
La parte centrale del software Caliph è il cosiddetto "pannello di descrizione semantica".
Esso consente all'utente di definire gli oggetti semantici come le persone, i luoghi, gli
eventi e le volte che sono stati salvati in uscita ,per il loro riutilizzo nelle volte
successive,quando si riazionerà Caliph. Questi oggetti semantici possono anche essere
importati da un file MPEG-7 esistente, per consentire lo scambio di oggetti tra utenti, la
modifica e la creazione di tali oggetti in uno strumento preferito dall'utente. Gli oggetti
semantici possono essere utilizzati per creare la descrizione trascinandoli con il mouse sul
pannello blu, mostrato in figura 3. Una volta presenti gli oggetti, possono essere riutilizzati
se alcune immagini o serie hanno lo stesso contesto. Ciò è particolarmente vero per gli
oggetti che rappresentano persone, come i parenti, colleghi, amici, animali preferiti o
luoghi come "a casa" o "al lavoro".
15
Fig.3 Creating a semantic description using Caliph by drawing a graph as abstraction of
the Semantics
Dopo aver lasciato tutti gli oggetti necessari sul pannello blu, l'utente può interconnettere
questi oggetti disegnando i rapporti tra di loro utilizzando il pulsante centrale del mouse. Il
grafo, che viene generato attraverso queste interazioni dell'utente con “Caliph”, può essere
salvato come parte di una descrizione MPEG-7. Oltre alla possibilità di creare un nuovo
grafo, Caliph è anche uno strumento per l'importazione, la modifica e l'eliminazione di
grafi o sub grafi esistenti.
Inoltre tutta una serie di immagini può essere pre-annotata per semplificare e accelerare il
compito di annotare immagini multiple. Tutte quelle che si trovano all'interno di uno
stesso contesto sono poste in una cartella del file system e l'utente le apre al primo utilizzo
di Caliph.
16
Dopo aver definito una descrizione "base", che è la stessa per tutte le immagini della serie
come l'autore, una descrizione testuale di base come "la nostra visita a Vienna" e un grafo
di base ,compresa la posizione e il tempo in cui sono state scattate le foto, e la motivazione
per cui sono state scattate ,può essere usato il cosiddetto "pilota automatico" , che apre
tutte le immagini nella cartella con una sequenza definita, calcola i descrittori visivi, che è
un compito con tempi diversi a seconda della dimensione e della risoluzione dell'
immagine, estrae i dati EXIF e i parametri specifici dell' immagine, crea un esempio di
immagine in miniatura per il successivo recupero e infine salva la descrizione di base.
Un effetto positivo, ovviamente, è che quando si apre una delle foto pre-annotata,
l'esempio in miniatura e i descrittori visivi possono essere interpetrati dai metadati
esistenti e non devono essere creati, ciò consente di risparmiare tempo durante l'apertura di
una singola immagine da modificare. All'interno di un documento MPEG-7 il descrittore
MediaProfile viene utilizzato per fare riferimento agli esempi dei media, descritti dai
metadati. Oltre all’immagine originale, se non è già presente un esempio in miniatura,
creato da Caliph, si fa riferimento a un altro descrittore MediaProfile, per consentire allo
strumento di recupero di usare una miniatura preparata invece di scalare l'immagine
durante il processo di visualizzazione dei risultati di recupero.
2.2 Recupero con Emir
Emir offre all'utente la possibilità di recuperare le foto annotate, supporta la ricerca lineare
in directory dei file MPEG-7 sul file system e l'indicizzazione dei descrittori selezionati
sia da un database Java DB incorporato o un indice di Lucene(API per il reperimento di
informazioni).
Risultati del recupero sono presentati in forma di elenco e gli elementi di quest’ultimo
possono essere aperti e modificati in Caliph. Per una ricerca nelle descrizioni semantiche
sono implementati diversi metodi di recupero grafico.
17
Fig. 5. Simplified UML diagram of the Emir retrieval architecture
Emir consente quattro modi diversi per cercare una foto corrispondente:
1. La ricerca attraverso una dichiarazione XPath .
2. Definizione delle opzioni di ricerca attraverso caselle di testo con diverse
opzioni
3. Recupero dell’imagine basato sul contenuto, utilizzando i descrittori
ColorLayout visivo e ScalableColor definito nello standard MPEG-7.
4. Ricerca di un grafo con una simile descrizione semantica
-
Ricerca attraverso Xpath
La prima opzione è utilizzata principalmente per gli sviluppi e il debug delle dichiarazioni
XPath, poichè tutti gli altri meccanismi di recupero usano come linguaggio di query
proprio XPath. Per verificare la corrispondenza dei documenti utilizzando XPath, si
richiede la conoscenza dettagliata della struttura dei documenti da ricercare, e anche se
dichiarazioni di base come:
18
//*[contains(.,'textToSearchFor ')]
potrebbero essere utilizzate per richiedere documenti senza conoscerne la struttura, queste
offrirebbero solo funzioni di recupero minimo.
-
Ricerca basata su testo supportata da un'interfaccia grafica per l’utente
Strumenti ben noti per la definizione di query di ricerca, per l'input di testo e per elenchi
delle opzioni tra cui scegliere, sono componenti della GUI (Graphical User Interface,
ovvero Interfaccia Grafica per l'Utente). Un’interfaccia utente che offre questi componenti
permette all'utente di specificare, in fase di ricerca, ciò che cerca senza conoscere la
struttura dei documenti. Anche se il backend di ricerca utilizza XPath per interrogare i dati
MPEG-7, l' utente non rileva la dichiarazione stessa. Le funzioni di base sono alla ricerca
di agenti, come un agente semantico, metadati o creatore di immagini, alla ricerca di
parole chiavi in vari descrittori testuali e definiscono come vincolo di ricerca la minima o
la massima qualità.
-
Recupero di immagini basate sul contenuto in Emir
Dal MPEG-7 che definisce molti descrittori di basso livello, è stato implementato un
meccanismo di ricerca utilizzando due di questi descrittori per il recupero di immagini
basato sul contenuto.
1)Il colore scalabile (ScalableColor)
Questo descrittore untilizza un istogramma dei colori ,nello spazio dei colori HVS,
codificato attraverso la trasformata di Haar. La sua rappresentazione binaria può essere
ridimensionata in termini di numero di bit e la loro accuratezza di rappresentazione su un
ampio range di dati. Il descrittore è utile per l'abbinamento immagine per immagine e per
il recupero basato sulle caratteristiche del colore. Accuratezza del retrieval cresce con il
numero di bit usati nella rappresentazione.
19
2) Il ColorLayout
Il Descrittore di Layout dei Colori (C.L.D. Color Layout Descriptor) cattura la
disposizione spaziale dei colori dominanti su una griglia sovrapposta alla regione di
interesse; è progettato per catturare la distribuzione spaziale di colore sia
complessivamente in una immagine che in una regione di forma arbitraria. La
distribuzione spaziale di colore costituisce un descrittore efficace per il recupero di
immagini basato su uno schizzo, il filtraggio di contenuto usando l’indicizzazione di
immagini, e la visualizzazione; il descrittore risulta molto compatto e adatto alle
applicazioni di scorrimento e di ricerca. Può essere applicato sia a immagini statiche, che a
frammenti di video.
-
Ricerca semantica
La componente di maggior interesse è il pannello che offre una ricerca di meccanismi per
la ricerca di descrizioni semantiche.
Fig. 6 Avvio di una ricerca semantica utilizzando un grafico come input.Tre oggetti e due relazioni sono definita, per cui un rapporto è
definito da un carattere jolly invece di una parola.
20
Questo componente consente all'utente di definire un grafo con un minimo ad un massimo
di tre nodi e due possibili relazioni. Un asterisco viene utilizzato come carattere jolly. Un
grafo di ricerca che contiene solo un nodo, con una parola che definisce questo nodo,
restituirà ogni documento MPEG-7 in cui si trova un oggetto semantico contenente la
parola specificata. Se due o tre nodi e uno o due rapporti sono utilizzati per definire il
grafico di ricerca, l'archivio di documenti MPEG-7 viene filtrato dai termini definiti come
oggetti o relazioni. Se, per esempio, il grafo in figura 6 viene utilizzato per la ricerca, tutti
i documenti che contengono oggetti semantici,in cui sono presenti i termini "Tobias",
"Unterhaltung" e "Stefanie", e una relazione semantica contenente il termine "patientOf"
sono presi dall'archivio e controllati se vi è anche una corrispondenza strutturale con il
grafo dato.
Il meccanismo di recupero segue un’architettura di sistema modulare, un'istruzione Xpath
è data ad una classe che implementa l'interfaccia RetrievalEngine ed i risultati sono
ricevuti come elenco dei documenti HTML, che possono essere visualizzati utilizzando
componenti dello standard Java Swing. L'unico motore di recupero ancora attuato è il
"FileSystemRetrievalEngine", che raccoglie tutti i documenti MPEG-7 da un determinata
directory e dalle sue sottodirectory ed esegue la data dichiarazione XPath. Se un
documento viene trovato si trasforma in HTML, utilizzando XSLT. Questa
visualizzazione del risultato HTML viene aggiunta all’ elenco di risultati, che viene
ordinato per importanza, questa è calcolata utilizzando il numero di nodi corrispondenti
alla dichiarazione XPath utilizzata come input.
21
Un'altra implementazione del motore di recupero, ad esempio, è che si collega a un XML
database, cio’ si traduce in un aumento significativo di velocità dell'esecuzione delle
istruzioni XPath. In caso di una ricerca di immagini basata sul contenuto ciascun
documento MPEG-7 deve essere caricato e il descrittore desiderato si trova utilizzando
XPath. Questo descrittore deve essere confrontato al descrittore campione utilizzato come
parametro di ricerca per calcolare l’importanza. Questi risultati sono messi in una lista
ordinata per importanza crescente, anche se un’importanza pari a zero mostrerebbe una
corrispondenza esatta. Utilizzando un database, il confronto dei descrittori deve essere
implementato, in una parte del database, come una procedura memorizzata, un oggetto
server o di un simile meccanismo, a causa di problemi di velocità.
22
Conclusioni
In questa tesi ho affrontato il problema dell’image retrieval e dell’immage annotation,
costatando il continuo sviluppo di database multimidiali e la necessità, che ha l’uomo, di
ricercare, annotare e recuperare informazioni o dati multimediali in modo sempre più
efficace e veloce. Possiamo quindi parlare di WEB SEMANTICO, cioè l’evoluzione del
World Wide Web in un ambiente dove i documenti pubblicati sono associati ad
informazioni e a dati (metadati) aggiuntivi , che ne specifichino il contesto semantico, in
un formato adatto all’interrogazione, all’interpretazione e in generale all’elaborazione
automatica.
Ho esaminato le due tipologie di recupero dati, quella testuale e quella che si basa sul
contenuto, delineando le differenze, i vantaggi e gli svantaggi di quest’ultime.
In particolare ho analizzato alcuni tools per il recupero e per l’annotazione di immagini
che sono attualmente disponibili ,e nello specifico Caliph ed Emir.
23
Bibliografia
[1]Caliph&Emir: Semantic Annotation and Retrieval in Personal Digital Photo Libraries
Mathias Lux, Jutta Becker and Harald Krottmaier
Know-Center, Inffeldgasse 16c, A-8010 Graz, Austria.
[2]
Caliph & Emir: MPEG-7 Photo Annotation and Retrieval
Mathias Lux
Institute for Information Technology
Klagenfurt University
Klagenfurt, Austria.
[3]L’archivazione delle immagini – I metadati
Di Massimo Isotti
[4] Dublin Core ,Wikipedia
[5] XML and MPEG-7 for Interactive Annotation and Retrieval using Semantic Meta-Data
Mathias Lux, Werner Klieber, Jutta Becker, Klaus Tochtermann ,2002
24