Ontology Learning

Lexicons & Co.
Alessandro Lenci
Università di Pisa, Dipartimento di Linguistica
Via Santa Maria, 36, 56100 Pisa, Italy
[email protected]
Pisa, 9 September 2004
The Semantic Web Vision
Turning the WWW into a machine
understandable knowledge base
Intelligent
Agents
Documents
Ontologies
Semantic Web
Knowledge
Markup
Databases
Applications
Pisa, 9 September 2004
Six Challenges for the SW
(Benjamins et al. 2002)
1.
2.
3.
4.
5.
6.
Content availability
Ontology availability
Multilinguality
Scalability
Visualization
Stability of SW languages
Pisa, 9 September 2004
Six Challenges for the SW
(Benjamins et al. 2002)
1.
2.
3.
4.
5.
6.
Content availability
Ontology availability
Multilinguality
Scalability
Visualization
Stability of SW languages
Pisa, 9 September 2004
Human Language
Technology
(HLT)
Ontologies and Computational
Lexicons
Semantic Web
Ontologies
Access to
Content
?
Pisa, 9 September 2004
HLT
Computational
Lexicons
Ontologies
 An ontology is a system of concepts relevant for
knowledge and action in (a portion of) the world




categorization of objects and processes
inference
action planning
…
“An ontology is a specification of a conceptualization”
(Gruber 1993)
Pisa, 9 September 2004
Ontologies
 Ontology components

classes – correspond to the domain concepts or categories of entities




each class can be described by a frame of attributes
relations – link the classes and correspond to the relations and
proceses involving the entities in the domain.
vocabulary – the terms expressing the domain concepts and relations
instances – individual entities belonging to a class
Author
name
period
nationality
autore,
compositore,
author
creates
Museum
Artwork
opera,
creazione
is_in
Tondo Doni
La Gioconda
Pisa, 9 September 2004
name
Town
Uffizi
Louvre
Linguistic Ontology
 A system of symbols representing the concepts
(meanings) encoded by NL expressions (lexical units,
terms, etc.)



specify semantic classes grouping semantically similar terms
semantic representation language
interlingua
car, van, truck
dog, cat, horse
VEHICLE
ARTIFACT
MAMMAL
ANIMAL
beach
spiaggia
piano concert, rock concert
OBJECT
BEACH
LOCATION
CONCERT
EVENT
Pisa, 9 September 2004
ENTITY
Lexical Information and HLT
 All language analysis involves determining
meaning at some level

Anything from groups of related words to a full-blown
representation of each sentence
Information retrieval
bank……………
………account
………………………
money…………
John went to the store
Topic = financial
GO
AGENT John
Pisa, 9 September 2004
TARGET store
Computational Lexicons and HLT
Computational lexicons provide machine
understandable word knowledge
 Explicit representation of word meaning

word content accessible to computational agents
 Word meaning linked to word syntax and
morphology
 Multilingual lexical links
Pisa, 9 September 2004
Computational Lexicons and HLT
 Contain the linguistic information required to
build meaning representations
Lexicon
account n. domain [financial]
account v. …
bank_1 n. domain: [financial]
bank_2 n. domain: [geography]
money n. domain: [financial]
bank……………
………account
………………………
money…………
Lexicon
went vpast GO
go v. (NP_SUBJ ((role AGENT) (sem +animate))
(VP ((verb GO)
(PP ((prep TO)
(NP ((role TARGET) (sem +loc)))))
John n. sem : human
store n. sem: loc
John went to the store
Topic = financial
GO
AGENT John
Pisa, 9 September 2004
TARGET store
Computational Lexicons and HLT
 Critical language resources for NLP systems



syntactic subcategorization frames for parsing
semantic selectional preferences for ambiguity
reduction
semantic classes for WSD, semantic tagging, etc.
 Key components of HLT


monolingual lexicons – IE, QA, etc.
multilingual lexicons – MT, CLIR, etc.
Pisa, 9 September 2004
Computational Lexicons
the standard …
Sense 1
violin, fiddle -- (bowed stringed instrument that is the highest member of the violin
family; this instrument has four strings and a hollow body and an unfretted fingerboard
and is played with a bow)
=> bowed stringed instrument, string
=> stringed instrument
=> musical instrument, instrument
=> device
=> instrumentality, instrumentation
=> artifact, artefact
=> object, physical object
=> entity
=> whole, whole thing, unit
=> object, physical object
=> entity
WordNet
Pisa, 9 September 2004
Computational Lexicons
one step further …
SIMPLE
Pisa, 9 September 2004
Computational Lexicons
which future ?
“Midfielder Scott Sellars was sold to Blackburn for $35,000
and was bought back in the summer for $750,000.”
(FrameNet Corpus)
event : buy

buyer : Blackburn


e1  
 goods : Midfielder Scott Sellars 


money : $35,000

event : buy

 seller : Blackburn


e2  
 goods : Midfielder Scott Sellars 


money
:
$750,000


Pisa, 9 September 2004
after e1:
OWN (buyer, goods)
NOT(OWN (buyer, money))
after e2:
NOT(OWN (seller, goods))
OWN (seller, money)
e 1 < e2
TIME e2 = SUMMER
Computational Lexicons
loose ends
 Non-compositional aspects in the lexicon

collocations, terms, MWEs, etc.
 Integration between lexicons and corpus data

lexical tuning, data-driven lexicon population, etc.
 Semantic dynamics (polysemy, lexical creativity, etc.)

“context-sensitivity” of meaning as a challenge for lexical
semantics


sense enumeration vs. sense generation
heavy smoker, heavy book, heavy road, heavy sea, heavy wine, heavy sky,
heavy artillery, etc.
Pisa, 9 September 2004
Computational Lexicons
loose ends
 Semantic type system for lexical senses must account
for a non-static kaleidoscope of senses
 Salience of aspects of meaning differ for different
types

natural kinds  Is-a; artifacts  function
 Possible solutions:



multiple layers of representation
explicit identification of information so that NLP systems
can access what is needed at a given time
“dynamic type systems”
Pisa, 9 September 2004
Ontologies & Lexicons
“Lexicons are not ontologies”
Hirst (2004)
Concept
Space
Ontology
Semantics
Syntax
Multilinguality
Morphology
Language/s
Pisa, 9 September 2004
Computational
Lexicon
Ontologies, Lexicons, etc.
lexicons
termbanks
ontologies
in-depth description
formal consistency
domain dependence
complex expressions
language independence
Pisa, 9 September 2004
Lexicons etc.
new (??) challenges from the SW
 From language resources for HLT to integrated
knowledge resources


in-depth lexical description for better content understanding
integration with ontologies and termbanks
 Content interoperability between computational
lexicons

better integration between lexical resources and models
 Knowledge extraction from texts

automatic term extraction, ontology learning and lexicon
tuning
Pisa, 9 September 2004
Lexicons etc.
new (??) challenges from the SW
 From language resources for HLT to integrated
knowledge resources


in-depth lexical description for better content understanding
integration with ontologies and termbanks
 Content interoperability between computational
lexicons

better integration between lexical resources and models
 Knowledge extraction from texts

automatic term extraction, ontology learning and lexicon
tuning
Pisa, 9 September 2004
From Text to Knowledge
Text
(implicit knowledge)
Dynamic
Content
Structuring
Structured content
(explicit knowledge)
Pisa, 9 September 2004
NLP and Knowledge Extraction
Text Analysis
Tools
Structured Knowledge
Knowledge
Extraction
Tools
Pisa, 9 September 2004
Termbanks
&
Lexicons
Ontology Learning
 Semi-automatic ontology development, extension
and tuning from domain text analysis




NLP + Machine Learning
reduces ontology development time and costs
extracted concepts are “well adapted” to texts
dynamic and incremental process
 Ontology Learning and Term extraction

The relevant concepts to organize a given domain of
knowledge D can be identified through the terms used in
the documents related to D
Pisa, 9 September 2004
Ontology Learning
 Balanced Cooperative Paradigm

semi-automatic tuning of ontology with human
intervention
ontology
ontology
learning
candidate
new concepts
Pisa, 9 September 2004
new
ontology
Ontology Learning
 Vertical enrichment

new hyponyms
 Horizontal enrichment

new transversal relations between concepts
BUILDING
HOTEL
HOUSE
Pisa, 9 September 2004
AREA
ROOM
LOBBY
Ontology Learning
an example
{art, museum,
archeological_park …}
C_MUSEUM
term extraction
{art, museum, archeological_museum, painting, library, concert,
archeological_site, archeological_museum, sculpture,
Musei_Capitolini, Uffizi, …}
isa
C_ARCHEOLOGICAL_
MUSEUM
Ontologia
concept identification
C_MUSEUM: {museo, archeological_museum, Musei_Capitolini, Uffizi,
Museo_di_Villa_Giulia…}
C_ARCHEOLOGICAL_MUSEUM: {museo_archeologico, Musei_Capitolini,
Museo_di_Villa_Giulia}
C_ARTISTIC_EVENT: {exhibition, concert, exposition, …}
Pisa, 9 September 2004
Knowledge Markup
 Knowledge Markup



text annotation with conceptual metadata
identification of the instances of an ontoloogy
conceopts in texts
 Information Extraction
 Goals


document semantic indexing
semi-automatic ontology population
Pisa, 9 September 2004
Text-2-Knowledge
(T2K)
Advanced document
management in public
administration
Document Repository
T2K
ontology learning
knowledge markup
Pisa, 9 September 2004
Text-2-Knowledge
(T2K)
 Ontology Learning and Knowledge Markup for
document management

Hybrid architecture



Robustness


rule-based and stochastic models
high degree of cross-domain portability
partial analysis and underspecification to minimize failures due to
lexical gaps and ill-formed input, etc.
Incrementality

intermediate linguistic analyses (e.g. shallow parsing) are used
for the incremental acquisition of semantic information
Pisa, 9 September 2004
Text-2-Knowledge
(T2K)
NLP Tools
Ontology Learning
texts
tokenization
term extraction
semantic
clustering
morphological
analysis
tagging &
chunking
Knowledge Markup
Semantic indexing
dependency
parsing
Pisa, 9 September 2004
Robust Parsing Architecture for
Italian
IDEAL+
module 1
chunking
PAROLE
syntactic
lexicon
module 2
dependency analysis
module 3
constraints
Pisa, 9 September 2004
text segmentation into chunk
sequences
assignment to word pairs of
(possibly ambiguous)
functional dependencies
(subj, obj, etc.)
probabilistic constraints to
resolve ambiguities
Robust Parsing Architecture for
Italian
Oggi i computer imparano a parlare
“Today Computers learn to talk”
[
[
[
[
[
[
[
[
[
[
CC:
CC:
CC:
CC:
CC:
Modif
Subj
Arg
Subj
ADV_C] [ POTGOV: OGGI#B]]
N_C] [ DET: IL#RD@MP] [ AGR: @MP] [ POTGOV: COMPUTER#S@MP]]
FV_C] [ AGR: @P3] [ POTGOV: IMPARARE#V@P3IP]]
I_C] [ PREP: A#E] [ AGR: @F] [ POTGOV: PARLARE#V@F]]
PUNC_C] [ PUNCTYPE: .#@]]
(IMPARARE[2],OGGI[0])
(IMPARARE[2],COMPUTER[1]<Def=1>)
(IMPARARE[2],PARLARE[3]<Intro=A><Status=open>)
(PARLARE[3],COMPUTER[1]<Def=1>)
Pisa, 9 September 2004
Ontology Learning in T2K
NLP
analysis
relevance
filtering
TermBank
term indexing
Knowledge
Markup
term
clustering
Candidate
concepts
Pisa, 9 September 2004
Term Extraction in T2K
INPUT
text file
NLP Analysis
chunking
statistical measures
(mutual information,
log-likelihood, etc.)
chunked
text
extraction of candidate
bigrams
Complex NP Dep. Grammar
N + PP
N + A + PP
…
association strength
computation
OUTPUT
ranked list of
terms
NSP (Pedersen et al.)
Pisa, 9 September 2004
Term Extraction in T2K
potential term identification
La finalita' perseguita e' quella di fornire alle suddette Amministrazioni uno strumento agile e concreto che
consenta di effettuare i controlli a campione delle Operazioni in relazione alle seguenti fasi.
[ [ CC: N_C] [ AGR: @FS] [ DET: LO#RD@FS] [ POTGOV: FINALITA'#S@FS]]
[ [ CC: ADJPART_C] [ AGR: @FS] [ POTGOV: PERSEGUIRE#V@FSPR PERSEGUITO#A@FS]]
[ [ CC: FV_C] [ AGR: @S3] [ POTGOV: ESSERE#V@S3IP]]
[ [ CC: N_C] [ AGR: @FS] [ POTGOV: QUELLO#P@FS]]
[ [ CC: I_C] [ PREP: DI#E] [ POTGOV: FORNIRE#V@F]]
[ [ CC: P_C] [ AGR: @FP] [ PREP: A#E] [ DET: LO#RD@FP] [ PREMODIF: SUDDETTO#A@FP]
[ POTGOV: AMMINISTRAZIONE#S@FP]]
[ [ CC: N_C] [ AGR: @MS] [ DET: UNO#RI@MS] [ POTGOV: STRUMENTO#S@MS]]
[ [ CC: ADJ_C] [ AGR: @NS] [ POTGOV: AGILE#A@FS@MS]]
[ [ CC: COORD_C] [ CONJTYPE: E#CC]]
[ [ CC: ADJ_C] [ AGR: @MS] [ POTGOV: CONCRETO#A@MS]]
[ [ CC: CHE_C] [ POTGOV: CHE#che]]
[ [ CC: FV_C] [ AGR: @S1-@S2-@S3] [ POTGOV: CONSENTIRE#V@S1CP@S2CP@S3CP]]
[ [ CC: I_C] [ PREP: DI#E] [ POTGOV: EFFETTUARE#V@F]]
[ [ CC: N_C] [ AGR: @MP] [ DET: IL#RD@MP] [ POTGOV: CONTROLLO#S@MP]]
[ [ CC: P_C] [ AGR: @MS] [ PREP: A#E] [ POTGOV: CAMPIONE#S@MS]]
[ [ CC: DI_C] [ AGR: @FP] [ DET: LO#RD@FP] [ POTGOV: OPERAZIONE#S@FP]]
[ [ CC: P_C] [ AGR: @FS] [ PREP: IN#E] [ POTGOV: RELAZIONE#S@FS]]
[ [ CC: P_C] [ AGR: @FP] [ PREP: A#E] [ DET: LO#RD@FP] [ PREMODIF: SEGUENTE#A@FP] [ POTGOV:
FASE#S@FP]]
[ [ CC: PUNC_C] [ PUNCTYPE: .#@]]
Pisa, 9 September 2004
Term Extraction in T2K
ranked terms
Lemmatized binary terms
Log-likelihood Scores
FONDO<>STRUTTURALE
1380.1651
INSERIMENTO<>LAVORATIVO
957.3569
BENEFICIARIO<>FINALE
926.7997
AUTORITA'<>DI_GESTIONE
837.5808
MERCATO<>DI_LAVORO
782.3559
CONTROLLO<>A_CAMPIONE
742.6964
PERSONA<>CON_DISABILITA'
722.9953
AUTORITA'<>DI_PAGAMENTO
692.2318
CENTRO<>PER_IMPIEGO
684.3751
PISTA<>DI_CONTROLLO
456.2014
ENTE<>LOCALE
366.9256
Pisa, 9 September 2004
Term Extraction in T2K
incremental term identification
INPUT
text file
NLP Analysis
chunking
chunked
text
Extraction of candidate
bigrams
Statistical measures
(mutual information,
log-likelihood, etc.)
association strength
computation
NSP (Pedersen et al.)
Pisa, 9 September 2004
OUTPUT
Ranked list of
terms
Term Extraction in T2K
incremental term identification
La finalita' perseguita e' quella di fornire alle suddette Amministrazioni uno strumento agile e concreto che
consenta di effettuare i controlli a campione delle Operazioni in relazione alle seguenti fasi.
[ [ CC: N_C] [ AGR: @FS] [ DET: LO#RD@FS] [ POTGOV: FINALITA'#S@FS]]
[ [ CC: ADJPART_C] [ AGR: @FS] [ POTGOV: PERSEGUIRE#V@FSPR PERSEGUITO#A@FS]]
[ [ CC: FV_C] [ AGR: @S3] [ POTGOV: ESSERE#V@S3IP]]
[ [ CC: N_C] [ AGR: @FS] [ POTGOV: QUELLO#P@FS]]
[ [ CC: I_C] [ PREP: DI#E] [ POTGOV: FORNIRE#V@F]]
[ [ CC: P_C] [ AGR: @FP] [ PREP: A#E] [ DET: LO#RD@FP] [ PREMODIF: SUDDETTO#A@FP]
[ POTGOV: AMMINISTRAZIONE#S@FP]]
[ [ CC: N_C] [ AGR: @MS] [ DET: UNO#RI@MS] [ POTGOV: STRUMENTO#S@MS]]
[ [ CC: ADJ_C] [ AGR: @NS] [ POTGOV: AGILE#A@FS@MS]]
[ [ CC: COORD_C] [ CONJTYPE: E#CC]]
[ [ CC: ADJ_C] [ AGR: @MS] [ POTGOV: CONCRETO#A@MS]]
[ [ CC: CHE_C] [ POTGOV: CHE#che]]
[ [ CC: FV_C] [ AGR: @S1-@S2-@S3] [ POTGOV: CONSENTIRE#V@S1CP@S2CP@S3CP]]
[ [ CC: I_C] [ PREP: DI#E] [ POTGOV: EFFETTUARE#V@F]]
[ [ CC: N_C] [ AGR: @MP] [ DET: IL#RD@MP] [ POTGOV: CONTROLLO_A_CAMPIONE#S@MP]]
[ [ CC: DI_C] [ AGR: @FP] [ DET: LO#RD@FP] [ POTGOV: OPERAZIONE#S@FP]]
[ [ CC: P_C] [ AGR: @FS] [ PREP: IN#E] [ POTGOV: RELAZIONE#S@FS]]
[ [ CC: P_C] [ AGR: @FP] [ PREP: A#E] [ DET: LO#RD@FP] [ PREMODIF: SEGUENTE#A@FP] [ POTGOV:
FASE#S@FP]]
[ [ CC: PUNC_C] [ PUNCTYPE: .#@]]
Pisa, 9 September 2004
Term Extraction in T2K
incremental term identification
ACQUISIZIONE_DI_BENE<>E_SERVIZIO
ANALISI<>DI_PISTA_DI_CONTROLLO
ATTUAZIONE<>DI_PIANO_DI_ZONA
AUTORITA'_DI_GESTIONE<>E_AUTORITA'_DI_PAGAMENTO
CONTROLLO_A_CAMPIONE<>DI_OPERAZIONE
CONTROLLO<>SU_ACQUISIZIONE_DI_BENE
DISPOSIZIONE<>SU_FONDO_STRUTTURALE
EROGAZIONE_DI_FINANZIAMENTO<>E_SERVIZIO
INSERIMENTO_LAVORATIVO<>DI_PERSONA_CON_DISABILITA'
PREDISPOSIZIONE<>DI_PISTA<>DI_CONTROLLO
RESOCONTO<>DI_CONTROLLO_IN_LOCO
RETE<>DI_SERVIZIO_PER_LO_IMPIEGO
RICHIESTA<>DI_PAGAMENTO_DI_IL_SALDO
RIFORMA<>DI_MERCATO_DI_IL_LAVORO
SERVIZIO_PER_LO_IMPIEGO<>E_SERVIZIO_SOCIALE
TUTELA<>E_MIGLIORAMENTO_DI_LO_AMBIENTE
Pisa, 9 September 2004
T2K TermBank
ACCESSO 186
AMMISSIBILITA' DELLE SPESE 30
ACCESSO ALLE PRESTAZIONI 26
AMMISSIONE A FINANZIAMENTO 16
ACCOMPAGNAMENTO 88
ANALISI 307
ACCORDO 194
ANALISI DELLE PISTE DI CONTROLLO 10
ACCORDO DI PROGRAMMA 55
ANNUALITA' 72
ACQUISIZIONE 99
ANZIANI 111
ACQUISIZIONE DI BENI 45
APPLICAZIONE 210
ACQUISIZIONE DI BENI E SERVIZI 40
APPROCCIO 90
AGGIORNAMENTO DELLA PREVISIONE APPROVAZIONE 70
INIZIALE 7
ARCO DELLA VITA 8
AIUTI 193
AREE 313
AIUTI DI STATO 27
ARTICOLO 646
ALLEGATO 129
ASL 113
AMBIENTE 120
ASPETTI 175
AMBITO 610
ASSE 97
AMBITO DELLA GESTIONE 8
ASSISTENZA 201
AMBITI DI INTERVENTO 30
ASSOCIATI 101
AMBITO DEL PROGETTO 8
ASSOCIAZIONI 96
AMMINISTRAZIONI 233
ASSUNZIONE
76
Pisa, 9 September
2004
Ontology Learning in T2K
 Concept identification through clustering of
distributionally similar terms

The Distributional Hypothesis (Harris 1968, Miller & Charles
1981)
 two words that tend to co-occur in similar linguistic contexts will be
positioned closer together in semantic space
 Two notions of similarity

Absolute (Context-free) Semantic Similarity (static)

A is similar to B
 CAR is similar to AUTO

Relativized (Context-sensitive) Semantic Similarity (dynamic)

A is similar to B in context C
Pisa, 9 September 2004
Relativized Similarity Spaces
PAPER/O
CLOTH/O
CANDLE/O
FIRE/O
‘rollability’
‘burnability’
cigarette/o
HELP/O
JOB/O
GOODS/O
PIPE/O
CIGAR/O
‘smokability’
Pisa, 9 September 2004
‘enjoyability’
Distributional Semantic
Similarity
 Syntactically defined context

the similarity between two terms A and B depend
on the number of verbs they share as subj (obj)
CLASS
analogy based learning
verb
noun term
subj/obj
t1
t2
t3
Pisa, 9 September 2004
subj and obj dependencies
extracted with IDEAL+
Distributional Semantic
Similarity
 Relativized similarity

a verb Vk acts as a contextual bias to determine the
similarity between two terms
CLASS
analogy based learning
context Vk
verb
t1
t2
t3
Pisa, 9 September 2004
noun term
subj/obj
Ontology Learning in T2K
context-free semantic similarity
PROGRAMMA
INTERVENTO
POLITICA
CONCETTO
PROGETTO
PROCEDURA
SERVIZIO
PERCORSO
ATTIVITA'
INIZIATIVA
AZIONE
0.0023848618458642027381766403948404331459
0.0025199523965783710531540773303049718379
0.0029003325239442077215779036691856163088
0.0031569870939029821658994290345390254515
0.0033334741861401110361862176745262331679
CONTRIBUTO
0.0000280583613916947287683124889756669518
0.0045018968574702614843241477160518115852
INDICAZIONE
0.0000316555872111427624043290818267593068
0.0049262537522530630215711333619310607901
INFORMAZIONE
0.0000731956209630145216175553524173835740
0.0049373745908233897944361601162199804094
GARANZIA
0.0000823045267489711727644866035014104000
0.0053224023153889046117148708958666247781
COMUNICAZIONE
0.0001566416040100250268562315225651104811
PIANO
0.0001714910296999849726676951044979091421
0.0120772844793332542745467605982412351295
PAGAMENTO
0.0002405002405002405090669176379591931436
ACCESSIBILITA'
0.00028490028490028504459807834
0.4862637858581049798978312992403516545892
SPIEGAZIONE
0.0002805836139169472741305977336878640926
0.0003952569169960474257732863101466591615
FINANZIAMENTO AZIENDA
0.0032960614152202955158543762337330917944
DISPOSIZIONE
0.00185938991909141118803738823572
AIUTO
0.1011387805343098994503847620762826409191
REGOLAMENTO
0.002167259083728278155900337509
DISEGNO 0.0055555555555555583696625276957092864905
LEGGE
0.2004020272926207157926370427958318032324
Pisa, 9 September 2004
Ontology Learning in T2K
relativized semantic similarity
SERVIZIO 0.0006172840
PRESTAZIONE 0.0012345700
contextual synonyms of AIUTO within the context EROGARE/OBJD
INIZIATIVA 0.0001460280
ATTENZIONE 0.0001947040
SCHEDA 0.0002336450
VALUTAZIONE 0.0004257130
CONTINUITA' 0.0009345790
INFORMAZIONE 0.0021171600
RIFERIMENTO 0.0035087700
INDICAZIONE 0.0035137700
COMUNICAZIONE 0.0062656600
ADESIONE 0.0090909100
ASSICURAZIONE 0.0227273000
contextual synonyms of AIUTO within the
REGOLAMENTO 0.0001481040
contextual synonyms of LEGGE within the context
ABROGARE/OBJD
context DARE/OBJD
Pisa, 9 September 2004
Ontology Learning in T2K
ACCESSO
ACCESSO ALLE PRESTAZIONI
ACCORDO
ACCORDO DI PROGRAMMA
ACQUISIZIONE
ACQUISIZIONE DI BENI
ACQUISIZIONE DI BENI E SERVIZI
AIUTI
AIUTI DI STATO
AMBITO
AMBITO DELLA GESTIONE
AMBITI DI INTERVENTO
AMBITO DEL PROGETTO
ATTIVITA'
ATTIVITA' DI CONTROLLO
ATTIVITA' DI FORMAZIONE
ATTIVITA' DI GESTIONE
ATTIVITA' DEL SERVIZIO
ATTIVITA' DI VALUTAZIONE
ATTIVITA' DI VERIFICA
ATTUAZIONE
ATTUAZIONE DEGLI INTERVENTI
ATTUAZIONE DEL PROGETTO
Building a taxonomy of terms
complex and simple terms
structured in a hierarchy
Pisa, 9 September 2004
Ontology Learning in T2K
building a conceptual map
{aiuti di stato, …}
{servizi per l’impiego
servizi alle imprese
servizi integrati, …}
ISA
ISA
{ aiuto prestazione servizio }
{fornire offrire}
Pisa, 9 September 2004
Knowledge Markup in T2K
 Document term and concept indexing
 Works on chunked and parsed document
 Documents are annotated with XML metadata for terms and
concepts
Pisa, 9 September 2004
Knowledge Markup in T2K
some examples
Il Museo Nazionale di Antropologia e Etnologia, fondato da Paolo Mantegazza
nel 1869, è uno dei più importanti musei antropologici d'Europa.
La visita del Museo di Geologia e Paleontologia non è solo uno dei mezzi più idonei per
conoscere direttamente i fossili, preziosi testimoni del passato della Terra, ma rappresenta
anche un piacevole momento formativo per i visitatori.
Museo Virtuale di Geologia e Paleontologia
Benvenuti nel Server World-Wide-Web del Museo di Storia Naturale di Firenze.
Il Museo Archeologico di Bologna, nella sede dell'antico Ospedale della Morte, risalente al
XV secolo, fu inaugurato nel 1881; si è formato dalla riunione delle collezioni dell'Università,
della collezione di Pelagio Palagi e dai materiali archeologici provenienti dagli scavi di Bologna
e del suo territorio.
Pisa, 9 September 2004
Knowledge Markup in T2K
some examples
Il Museo Nazionale di Antropologia e Etnologia, fondato da Paolo Mantegazza
nel 1869, è uno dei più importanti musei antropologici d'Europa.
La visita del Museo di Geologia e Paleontologia non è solo uno dei mezzi più idonei per
conoscere direttamente i fossili, preziosi testimoni del passato della Terra, ma rappresenta
anche un piacevole momento formativo per i visitatori.
Museo Virtuale di Geologia e Paleontologia
Benvenuti nel Server World-Wide-Web del Museo di Storia Naturale di Firenze.
Il Museo Archeologico di Bologna, nella sede dell'antico Ospedale della Morte, risalente
al XV secolo, fu inaugurato nel 1881; si è formato dalla riunione delle collezioni
dell'Università, della collezione di Pelagio Palagi e dai materiali archeologici provenienti dagli
scavi di Bologna e del suo territorio.
Pisa, 9 September 2004
Knowledge Markup in T2K
some examples
Il Museo
<term C_type=“C_MUSEO”>Museo
Nazionale di Antropologia e Etnologia,
Nazionalefondato
di Antropologia
da PaoloeMantegazza nel
1869, è uno dei più fondato
Etnologia</term>,
importanti
da <NE
museitype=“umano”>Paolo
antropologici d'Europa.
Mantegazza</NE> <data
anno=“1869”>nel 1869</data>, è uno dei più importanti <term C_type=“C_MUSEO”>musei
antropologici d'Europa</term>.
La visita del Museo di Geologia e Paleontologia non è solo uno dei mezzi più idonei per
conoscere direttamente i fossili, preziosi testimoni del passato della Terra, ma rappresenta
anche un piacevole momento formativo per i visitatori.
Museo Virtuale di Geologia e Paleontologia
Benvenuti nel Server World-Wide-Web del Museo di Storia Naturale di Firenze.
Il Museo Archeologico di Bologna, nella sede dell'antico Ospedale della Morte, risalente al
XV secolo, fu inaugurato nel 1881; si è formato dalla riunione delle collezioni dell'Università,
della collezione di Pelagio Palagi e dai materiali archeologici provenienti dagli scavi di Bologna
e del suo territorio.
Pisa, 9 September 2004
Knowledge Markup in T2K
some examples
<TERMS>
<T FP="7" FG="761"> REGIONE </T> <T FP="6" FG="1165"> GESTIONE </T>
<T FP="6" FG="895"> MISURA </T> <T FP="6" FG="295"> AUTORITA' DI GESTIONE </T>
<T FP="6" FG="596"> AUTORITA' </T> <T FP="1" FG="163"> DOCUMENTAZIONE </T>
<T FP="1" FG="37"> AZIONI DI SISTEMA </T> <T FP="1" FG="69"> SOCIETA' DELL'
INFORMAZIONE </T>
…
</TERMS>
<BODY>
Riunione del 10 luglio 2003 in Regione Puglia
Sono presenti:…
Programmi Citta'
I Comuni Capoluogo hanno presentato le loro proposte sul bando della 6.2.(sono stati presentati molti
progetti). Inoltre il Nuval ha presentato il documento sulla valutazione all'Autorità di Gestione in cui
sono state mostrate le criticità. Per metà settembre sono organizzati dall'Area Politiche Comunitarie
della Regione seminari sui Programmi Città: …
</BODY>
Pisa, 9 September 2004
Conclusions
 Maybe the Semantic Web is nothing new …
 Maybe the Semantic Web will never succeed, but …
…once more it sets our challenges as computational
linguists:



How to model knowledge?
How to represent the way words and terms encode
knowledge?
How to extract and acquire knowledge from language?
Pisa, 9 September 2004
Credits
The T2K team also includes
Roberto Bartolini, Daniela Giorgetti, Simonetta
Montemagni, Vito Pirrelli
Pisa, 9 September 2004