TAL, vol. 41, n 2, pp. 1–27 LE MODÈLE DSIR

T.A.L., vol. 41, no 2, pp. 1–27
LE MODÈLE DSIR : UNE APPROCHE À BASE DE SÉMANTIQUE
DISTRIBUTIONNELLE POUR LA RECHERCHE DOCUMENTAIRE
Martin RAJMAN
Romaric BESANÇON
Jean-Cédric CHAPPELIER *
Résumé - Abstract
L’objectif de cet article est de présenter, dans le cadre général de la recherche
documentaire, un modèle de représentation des documents qui intègre par
le biais de caractéristiques distributionnelles une certaine dimension sémantique. Plus précisément, le but est de mieux tenir compte des dépendances
sémantiques entre mots exprimées par les fréquences de co-occurrences entre ces mots. Le modèle est présenté puis évalué sur des données réelles
produites dans le cadre de deux campagnes d’évaluation : AMARYLLIS pour
la recherche documentaire et ROMANSEVAL pour la désambiguïsation sémantique.
The objective of this paper is to present, in the general framework of information retrieval, a representation model for textual documents that integrates
semantic information through distributional characteristics. More precisely, the
purpose is to better take into account the semantic dependencies between
words expressed by the co-occurrence frequencies of these words. The model
is presented and evaluated in the framework of two evaluation campaign :
AMARYLLIS for information retrieval and ROMANSEVAL for word sense disambiguation.
Mots Clefs - Keywords
Recherche documentaire, Sémantique distributionnelle, Similarité textuelle.
Information Retrieval, Distributional Semantics, Textual Similarity.
*. Laboratoire d’Intelligence Artificielle, Département Informatique, École Polytechnique Fédérale de Lausanne, Email :{Martin.Rajman,Romaric.Besancon,JeanCedric.Chappelier}@epfl.ch
c ATALA
1
Martin RAJMAN, Romaric BESANÇON, Jean-Cédric CHAPPELIER
INTRODUCTION
L’objectif de la recherche documentaire (RD) est d’identifier de façon efficace dans une collection de textes les documents pertinents, c’est-à-dire les
documents qui correspondent le mieux à un besoin d’information exprimé par
l’utilisateur sous la forme d’une requête, souvent exprimée en langage naturel.
Cette tâche est fortement liée à la notion de similarité textuelle puisqu’elle peut
être vue comme la recherche des documents les plus similaires à la requête,
et que, dans ce cas, la recherche peut être réalisée au moyen du calcul des
similarités entre la requête et chacun des documents de la collection.
La similarité textuelle utilisée repose généralement sur une représentation spécifique des documents dans un espace défini a priori. Une approche
standard en RD est l’utilisation de mesures de similarité (au sens mathématique) sur des représentations vectorielles des documents. Le modèle proposé dans la présente contribution étend cette approche en introduisant une
représentation des documents qui intègre plus d’information sémantique en
utilisant une représentation distributionnelle, fréquentielle et co-fréquentielle,
de la sémantique d’un mot.
Nous nous intéresserons plus particulièrement aux systèmes de RD dans
lesquels les requêtes et les documents sont représentés dans un même espace 1 sur lequel une mesure de similarité est définie. Le terme « document »
sera donc désormais utilisé pour désigner indifféremment les requêtes ou les
documents proprement dits.
Avec cette restriction, un système de RD peut être formalisé dans le
cadre de ce que nous appellons les modèles de similarité textuelle.
La structure générale de notre contribution est la suivante : la section 1
présente le cadre général des modèles de similarité textuelle; la section 2
présente le modèle vectoriel standard; la section 3 présente le concept de
sémantique distributionnelle (SD); la section 4 décrit le modèle DSIR, qui correspond à notre implémentation de la SD dans le cadre de la recherche documentaire. Enfin, deux évaluations expérimentales sont présentées en section 5 :
– l’évaluation de différentes versions du modèle DSIR adapté pour la RD
en français dans le cadre de la campagne d’évaluation AMARYLLIS ;
– l’évaluation de notre application de la SD pour une tâche de désambiguïsation sémantique (Word Sense Disambiguation – WSD) dans le cadre
de la campagne d’évaluation ROMANSEVAL pour les systèmes de WSD
en français.
1. À noter que ceci n’est pas vérifié dans tous les systèmes de RD ; par exemple dans le
cas d’un simple pattern matching ou celui de requêtes booléennes.
2
LE MODÈLE DSIR
1. MODÈLE DE SIMILARITÉ TEXTUELLE
Un modèle de similarité textuelle (MST) est défini ici comme un tuple
(V; R; R ; repD ), où
8V
>
>
>
>
<R
>
R : R R ! IR
>
>
repD : V ! R
>
:
+
est un vocabulaire fini m1 ; : : : mjV j
i.e. l’ensemble des mots (formes de surface)
est l’espace de représentation des documents
est une mesure de dissimilarité sur R
est la fonction de représentation, qui à chaque document
fait correspondre sa représentation
La définition d’un MST nécessite donc :
– le choix d’un espace de représentation spécifique R ainsi que d’une fonction de représentation repD permettant de projeter les documents dans
cet espace ;
– le choix d’une mesure de dissimilarité sur R, i.e. une fonction
R : R R ! IR+ vérifiant :
8
>
<R(x; y) 0
8(x; y) 2 R >R (x; y) = 0 , x = y
:R(x; y) = R(y; x)
2
Notons que la condition de symétrie peut être relâchée dans certains cas.
Il est également possible d’utiliser une mesure de similarité sur R plutôt
qu’une mesure de dissimilarité. Nous utiliserons néanmoins la même notation R dans les deux cas.
Dans notre approche, nous nous imposons de plus que la représentation des
documents à partir des mots se décompose en deux phases distinctes :
– une phase de prétraitement linguistique qui permet une déséquentialisation des documents et se traduit par la transformation de la séquence
de mots correspondant à un document en un multi-ensemble d’unités
linguistiques. Cette phase nécessite donc :
1. la définition précise de l’ensemble U des unités linguistiques qui vont
effectivement être prises en compte dans les documents;
2. la définition d’une fonction de pré-traitement : V ! 2U IN .
Un document d est désormais formellement défini comme un multi-ensemble composé d’éléments de U (d = [u1 ; : : : ; uk ] 2 2U IN ). 2
2. où 2E désigne l’ensemble des parties de E , 2E IN désigne les multi-ensembles composés d’éléments de E , et [u1 ; : : : ; uk ] désigne le multi-ensemble formé des uj (c’est-à-dire
avec répétitions possibles d’éléments).
3
Martin RAJMAN, Romaric BESANÇON, Jean-Cédric CHAPPELIER
– une phase de représentation compositionnelle des documents à partir
des représentations des unités linguistiques qui les constituent. Cette
phase nécessite donc la définition d’une fonction de représentation
rep : 2U IN ! R vérifiant la propriété de compositionnalité suivante :
rep ([u1 ; : : :
; uk ]) = F ([rep ([u ]); : : : ; rep([uk ])])
1
où F : 2rep (U )IN ! R est la fonction de composition 3 . Cette propriété
signifie que la représentation d’un document résulte de la composition
des représentations de ses unités linguistiques et ramène donc la définition de rep pour tous les documents (i.e. sur 2U IN ) à la donnée des
représentations des unités linguistiques (i.e. rep sur U ) et de la fonction
de composition F .
En résumé, on a donc le schéma suivant :
V
2U IN
rep
R
repD
c’est-à-dire repD = rep .
Par exemple, dans le cas simple où la représentation d’un document est
réduite à l’ensemble des unités linguistiques qui le composent, rep : 2U IN !
2U est la fonction de projection canonique dans l’ensemble des unités linguistiques et F est la réunion ensembliste. Dans ce cas, R peut être dérivée des
multiples mesures classiques de similarité entre ensembles, telles que, par
E1 \E2 j .
exemple, l’indice de Jaccard : Jacc (E1 ; E2 ) = jjE
1 [E 2 j
Dans la suite de cet article, nous nous intéressons aux modèles pour
lesquels la fonction de composition est définie comme une somme pondérée
des représentations des unités linguistiques auxquelles elle s’applique.
Ce type de représentation (qui suppose une addition et un produit externe) induit naturellement l’utilisation d’un IR-espace vectoriel comme espace
de représentation dont la définition repose sur celle des rep ([u]); u 2 U . 4 Cette
définition peut nécessiter l’introduction d’un ensemble de traits descriptifs utilisés pour construire les vecteurs rep ([u]). Dans le cas particulier où ces traits
sont eux-mêmes des unités linguistiques, ils seront appelés termes d’indexation et l’ensemble sera alors noté T .
Les rep ([u]) étant donnés, la fonction de représentation est définie par :
rep (d) =
X
u2U
w(d; u) rep([u])
(1)
où w(d; u) : 2U IN U ! IR est une fonction de pondération qui définit le
poids d’une unité linguistique u dans un document d, et vérifie w([u]; u) = 1 et
w([u]; v) = 0 si v 6= u.
3. avec rep (U ) = rep (U f1g) = frep ([u]) : u 2 U g.
4. la dimension de l’espace vectoriel R est alors le rang de rep (U ).
4
LE MODÈLE DSIR
Cette forme linéaire de représentation de documents, présentée dans
la section 4 d’un point de vue géométrique puis d’un point de vue probabiliste, sert de cadre général pour la présentation des différents modèles de
RD décrits dans cet article.
2. MODÈLES VECTORIELS
2.1.
Le modèle standard
Dans le modèle vectoriel standard (VS, pour Vector Space), dont l’implémentation la plus connue est le système SMART (Salton G. & Buckley C.
1988), l’ensemble des unités linguistiques (U ) est l’ensemble des mots, locutions, ou formes canoniques de mot 5 considérés comme les plus discriminants. Salton & al. (Salton G. et al. 1975) ont montré que la sélection des
unités linguistiques qui ont une fréquence en documents 6 entre 1/100 et 1/10
génère le plus souvent un ensemble d’unités linguistiques ayant un pouvoir de
discrimination satisfaisant.
L’ensemble des termes d’indexation, qui est le support de l’espace
vectoriel de représentation des documents, correspond dans ce modèle à
l’ensemble des unités linguistiques sélectionnées (T = U ) : rep ([uj ]) =
(0; :::; 0; pj ; 0; :::; 0), j e vecteur unité canonique de IRjU j pondéré par le poids
donné à l’unité linguistique uj dans la collection de documents.
Le poids pj n’est pas nécessairement égal à 1 car une pondération
prenant en compte l’importance de l’unité linguistique dans la collection
améliore les performances dans le cadre de la RD (Salton G. et al. 1975).
Un poids plus important doit être donné aux unités linguistiques qui apparaissent moins fréquemment dans la collection 7 . Dans ce but, pj est souvent un
poids dépendant de façon inverse de la fréquence en documents, comme par
exemple le facteur idf (inverted document frequency factor ) idf = log(1df ) , où
j
dfj est la fréquence en documents de l’unité linguistique uj .
Un document d est alors représenté par un vecteur (w1 ; : : : ; wjU j ), appelé
le profil lexical du document, où wj = w(d; uj ) pj avec w(d; uj ) la pondération de l’unité linguistique relativement au document. Ce poids w(d; uj ) correspond le plus souvent au nombre d’occurrences de l’unité linguistique uj
dans le document d (fréquence d’occurrence). De nombreux autres modèles
de pondération ont été proposés (Salton G. & Buckley C. 1988; Lee J. H. 1995;
Singhal A. 1997), qui utilisent des fonctions dépendant des fréquences d’occurrence (pour réduire l’intervalle des fréquences) ou des facteurs introduisant
une normalisation par la longueur du document (pour réduire l’avantage des
documents longs sur les documents courts (Singhal A. et al. 1995)).
5. forme tronquée (stem) ou lemme.
6. La fréquence en documents est, pour une unité linguistique et une collection de documents donnée, le rapport entre le nombre de documents la contenant et le nombre total de
documents dans la collection.
7. les unités linguistiques qui sont utilisées dans de nombreux documents sont moins utiles
pour la discrimination que celles qui apparaissent dans peu de documents.
5
Martin RAJMAN, Romaric BESANÇON, Jean-Cédric CHAPPELIER
Dans le cadre du modèle VS, une collection de N documents est alors
représentée par une matrice F , de dimension N jU j, dans laquelle la ie ligne
correspond au profil lexical du ie document :
0d 1 0
1
w w : : : w jU j
B d CC BB w w : : : w jU j CC
F =B
B@ ... CA = B@ ... ... . . . ... CA
1
11
12
1
2
21
22
2
dN
wN wN : : : wN jU j
1
2
Dans l’espace vectoriel défini ci-dessus, la mesure de similarité la plus utilisée
est le cosinus de l’angle entre les vecteurs représentant les documents :
(dn; dm)
cos
=
dn dm
jjdnjj jjdmjj
jU j
X
=
wnj wmj
j
v
u
jU j
jU j
u
tX wnj X wmj
=1
2
j =1
2
j =1
Le modèle vectoriel standard peut être résumé dans le cadre général des MST
par le tuple (V; IRjU j ; cos ; repV S ), avec
repV S (d) =
X
uj 2U
w(d; uj ) (0; :::; 0; pj ; 0; :::; 0)
où U est l’ensemble des termes d’indexation.
2.2. Latent Semantic Indexing
Le modèle Latent Semantic Indexing (LSI) est une variante du modèle
vectoriel standard qui prend en compte, pour les représentations des documents, la structure sémantique des unités linguistiques, potentiellement implicite (i.e. latent), représentée par leurs dépendances cachées (Deerwester
S. et al. 1990; Dumais S. 1994).
Pratiquement, les techniques LSI utilisent une matrice (documentsunités linguistiques) similaire à la matrice F du modèle vectoriel standard, dans laquelle chaque élément wij représente le nombre d’occurrences
de l’unité linguistique uj dans le document di . Une décomposition en valeurs
singulières (SVD) de cette matrice est effectuée et seuls les k premiers
vecteurs propres sont pris en compte (k prend typiquement une valeur entre 100 et 300). Les documents sont donc représentés dans R = IRk au sein
duquel la recherche est effectuée à l’aide de la mesure de similarité du cosinus.
Il est toutefois important de noter que chacune de ces dimensions correspond à une « combinaison linéaire des unités lingistiques ». L’espace de
représentation R n’a donc pas pour support un ensemble de termes d’indexation (T ), ce qui rend les dimensions relativement difficiles à interpréter directement.
6
LE MODÈLE DSIR
LSI peut donc être interprété comme un MST où la fonction de
représentation est la composée de deux fonctions repLSI = rep2 repV S avec
repV S : 2U IN ! IRjU j la fonction de représentation du modèle vectoriel standard et rep2 : IRjU j ! IRk la projection dans le sous-espace vectoriel IRk de
IRjU j engendré par les vecteurs propres retenus.
Notons finalement que diverses applications de LSI à la RD, au filtrage,
au routage d’information, ou à la recherche documentaire multilingue ont été
réalisées (Foltz P. W. & Dumais S. 1992; Schütze H. et al. 1995; Dumais S.
et al. 1996).
3. LE MODÈLE À BASE DE SÉMANTIQUE DISTRIBUTIONNELLE
3.1.
Sémantique Distributionnelle
En raison de la difficulté de la représentation des connaissances sémantiques à l’aide de modèles symboliques structurés (logique, frames, ...), des alternatives plus adaptées aux applications réelles doivent être explorées. Parmi
celles-ci, la possibilité d’extraire automatiquement l’information sémantique à
partir de corpus de textes a récemment reçu une attention particulière. Ainsi, la
« Sémantique Distributionnelle » (SD) (Rajman M. & Bonnet A. 1992), qui s’inscrit dans la continuité des approches distributionnalistes du langage (Harris
Z. S. et al. 1989; Hirschman L. 1986), suppose l’existence d’une forte corrélation entre les caractéristiques distributionnelles observables des mots et
leur sens : la sémantique d’un mot est reliée à l’ensemble des contextes dans
lesquels il apparaît.
Considérons par exemple les trois contextes suivants pour un mot X :
(1) « Certains X, par exemple, attaquent naturellement les rats. » (Darwin,
l’origine des especes)
(2) « Quelque X sur les toits, marchant lentement, bombait son dos aux
rayons pâles du soleil. » (Flaubert, Madame Bovary)
(3) « Il entendait au loin dans la forêt les miaulements des X. » (Anatole
France, L’Etui de nacre)
L’hypothèse centrale de la sémantique distributionnelle est de considèrer
que ces contextes apportent suffisamment d’information (au moins à un lecteur
humain) pour identifier X comme une sorte de chat.
Cette hypothèse peut alors être exploitée pour dériver automatiquement
la sémantique d’un mot à partir de l’ensemble de ses contextes dans un corpus. Une telle démarche peut généralement être décomposée en trois étapes
(Rajman M. 1995; Habert B. et al. 1997) :
– la définition de ce qu’est le contexte d’un mot dans un corpus, qui permet
d’identifier les mots qui sont considérés comme co-occurrents à un mot
donné et qui, selon l’hypothèse de la SD, contribuent à son sens ;
7
Martin RAJMAN, Romaric BESANÇON, Jean-Cédric CHAPPELIER
– la représentation des mots, fondée sur la définition choisie pour les contextes ;
– la définition d’une mesure de similarité entre les représentations des
mots qui est alors identifiée avec la mesure de la similarité entre les contextes. La nature précise des similarités considérées dépend généralement de l’application visée.
Si la tâche envisagée nécessite de plus d’associer des sens à des textes (et
non plus seulement à des mots), alors des techniques de composition permettant de dériver la représentation sémantique d’un texte à partir des représentations des mots qu’il contient doivent également être mises en œuvre.
Plusieurs applications du concept de la SD ont été réalisées dans différents domaines :
– l’utilisation d’une information distributionnelle pour la génération automatique de propositions pour des entrées lexicales d’un dictionnaire
(Grefenstette G. 1994) ;
– L’acquisition automatique de classes sémantiques avec la définition
d’une similarité entre mots dérivée de contextes syntaxiques partagés
(Fabre C. & Habert B. 1998) ;
– l’utilisation de mesures de similarité basées sur des co-occurrences pour
estimer la probabilité de co-occurrence de deux mots dans le cas de données manquantes (c’est-à-dire quand la fréquence de co-occurrence observée est nulle), et l’application de ces mesures de similarité à une tâche
de désambiguïsation sémantique de pseudo-mots (mots polysémiques
crées artificiellement) (Dagan I. et al. 1999; Dagan I. et al. 1997) ;
– l’expansion de requêtes en recherche documentaire (Sparck Jones K.
1971; Srinivasan P. 1992).
Le concept de la SD a également été implémenté dans le cadre du système
de recherche documentaire DSIR (Rajman M. & Bonnet A. 1992; Rungsawang
A. 1997; Rungsawang A. & Rajman M. 1995) qui est présenté plus en détail
dans la section 4.
3.2. Définition des contextes des mots
Trois sortes de contextes peuvent être définis, selon le type de relations
sémantiques qui doivent être identifiées (Habert B. et al. 1997) :
– les contextes positionnels : les contextes sont définis comme des
fenêtres de n mots ; la valeur de n est choisie selon le type de relation
contextuelle souhaitée (les petites valeurs de n ont tendance à favoriser
les relations de composition (c’est-à-dire la prise en compte d’expressions), alors que les grandes valeurs de n ont tendance à identifier les
8
LE MODÈLE DSIR
mots de même champ sémantique (Church K. W. & Hanks P. 1989)). Un
avantage de cette approche réside dans sa faible complexité algorithmique ;
– les contextes syntaxiques : les contextes dépendent de la structure syntaxique de l’unité textuelle considérée : les mots considérés comme cooccurrents à un mot donné sont ceux qui sont dans le même groupe syntaxique ou en relation de dépendance syntaxique avec lui. La complexité
de ce type d’approche est plus importante car elle requiert une analyse
syntaxique, et donc des ressources informatiques et linguistiques supplémentaires (grammaire) ;
– les contextes documentaires : les contextes sont définis comme des
unités textuelles à l’intérieur d’un document (paragraphe, section,
chapitre). L’objectif d’un tel contexte est de mieux prendre en compte
la structure des documents. Comme mentionné précédemment, la taille
de l’unité choisie va conditionner la nature des relations sémantiques qui
sont prises en compte.
3.3.
Représentation des unités linguistiques
Les sections précédentes présentaient le concept de la sémantique distributionnelle associée à un mot en toute généralité. Dans cette section et les
suivantes, nous nous limitons aux seules unités linguistiques du MST.
3.3.1. Profils de co-occurrence entre unités linguistiques
Les contextes des unités linguistiques sont des éléments essentiels du
modèle SD car ils constituent le support principal pour la dérivation des
représentations des unités linguistiques. En général, ces représentations sont
dérivés des fréquences de co-occurrence (ou co-fréquences) entre les unités
linguistiques et des termes d’indexation choisis a priori 8 .
Notons que la définition des termes d’indexation qui sont effectivement
utilisés pour représenter les unités linguistiques est un autre élément essentiel du modèle SD. En effet, la sélection de ces termes conditionne fortement les aspects sémantiques qui seront effectivement pris en compte dans la
représentation. Nous disons que les termes d’indexation définissent « l’espace
des sens » sous-jacent au modèle SD 9 .
8. La procédure de sélection appliquée pour définir l’ensemble des termes d’indexation est
dépendante de l’application envisagée. Pour la recherche documentaire par exemple, des
techniques de sélection selon les fréquences en documents, similaires à celles utilisées pour
la sélection des unités linguistiques dans le cadre du modèle vectoriel, peuvent être utilisées.
9. Notons que la notion d’espace des sens constitue une approche relativement simpliste
de la sémantique, puisque la seule opération sémantique prévue est l’évaluation de similarités.
En particulier, aucune procédure d’inférence sémantique n’est prévue. Néanmoins, une telle
approche reste acceptable pour des tâches comme la recherche documentaire pour lesquelles
l’intégration de représentations sémantiques, même très simplifiées, s’est avérée utile.
9
Martin RAJMAN, Romaric BESANÇON, Jean-Cédric CHAPPELIER
Dans le cadre défini précédemment, une unité linguistique ui 2 U est
alors représentée par le vecteur de ses co-fréquences avec tous les éléments
de l’ensemble des termes d’indexation T qui apparaissent dans ses contextes.
Ce vecteur est appelé profil de co-occurrence de ui par rapport à T et sera
noté dans la suite du document ci = (ci1 ; : : : ; cijT j ), où cij est la co-fréquence
entre l’unité linguistique ui et le terme d’indexation tj .
En ce qui concerne le choix du contexte le plus adéquat pour le calcul des
co-fréquences, il est important de mettre l’accent sur l’insuffisance possible du
modèle de contexte positionnel. Dans ce type de modèle en effet, des cooccurrences non linguistiquement pertinentes peuvent être prises en compte.
Considérons par exemple le contexte représenté par la phrase suivante 10 :
Le mouton frisé rumine tranquillement prés de la barrière moussue.
Tandis que les co-occurrences barrière-moussue ou mouton-frisé semblent
être pertinentes, les co-occurrences frisé-barrière, mouton-moussue, frisémoussue semblent moins convaincantes (non suggérées par le sens de la
phrase).
Les contextes syntaxiques offrent une solution possible à ce problème
puisque plus d’information syntaxique peut être intégrée dans le processus de
calcul des co-occurrences (en considérant les dépendances syntaxiques dans
la définition des contextes) (Rajman M. 1995; Rungsawang A. 1997).
Par exemple, une utilisation possible de la structure syntaxique est de ne
considérer comme co-occurrence possible pour une unité linguistique donnée
que :
– les unités linguistiques qui appartiennent au même groupe syntaxique 11 ;
– les têtes 11 des autres groupes syntaxiques, si l’unité linguistiques est ellemême tête d’un groupe syntaxique.
Pour l’exemple précédent (dans lequel les cadres indiquent les groupes syntaxiques et les mots en gras les têtes de ces groupes), on obtient alors
l’ensemble restreint de co-occurrences suivant 12 (les co-occurrences sont
représentées par les arcs) :
le mouton frisé rumine tranquillement près de la barrière moussue
En d’autres termes, les seules co-occurrences restantes sont
dans un groupe syntaxique
mouton-frisé
barrière-moussu
entre têtes de groupe
mouton-ruminer ruminer-barrière
mouton-barrière
10. extraite du corpus OFIL de la campagne AMARYLLIS.
11. Obtenues par une analyse syntaxique.
12. les unités linguistiques considérées sont ici les lemmes des noms, verbes et adjectifs.
10
LE MODÈLE DSIR
et toutes les co-occurrences non pertinentes ont été éliminées.
3.3.2. La matrice de co-occurrence
Une fois la représentation des unités linguistiques définie, l’ensemble U
dans sa totalité peut être représenté par une matrice de co-occurrence C de
dimension jU j jT j. Chaque ligne de cette matrice représente le profil de cooccurrence de l’unité linguistique correspondante :
0
c
BB c
C=B
@ ...
1
2
cjU j
1 0
c
CC BB c
CA = B@ ...
11
21
cjU j
1
c
c
12
22
1
: : : c jT j
: : : c jT j C
C
1
2
..
.
cjU jjT j
..
...
.
cjU j2 : : :
CA
Pour simplifier la notation (et sans perte de généralité), nous considérons désormais que l’ensemble U est ordonné de telle sorte que les jT j premiers éléments u1 , ..., ujT j de U correspondent aux termes d’indexation, i.e. ui = ti pour
1 i jT j.
3.3.3. Interprétation des profils de co-occurrence
Les co-fréquences sont calculées sur un corpus de référence qui est supposé représentatif du domaine pour lequel le modèle sémantique est défini.
Le profil de co-occurrence d’une unité linguistique ui peut alors être inteprété
comme une estimation de la distribution de probabilité qui mesure l’association entre ui et les dimensions de l’espace des sens représentés par les termes
d’indexation tj . Plus précisément, cij est un estimateur de P (tj jui ), la probabilité que ui « exprime le sens » tj :
P (tj jui) ' cij = Pf (ftj(;tu;i)u )
k
k
i
Cette interprétation peut être raffinée en considérant plus en détail le rôle joué
par l’unité linguistique ui elle-même dans la contribution à son propre sens ti
(dans le cas particulier où ui est un terme d’indexation : i jT j).
En effet, si une certaine unité linguistique a été sélectionnée a priori
pour être un terme d’indexation (c’est-à-dire une dimension dans l’espace des
sens), il est raisonnable de supposer qu’elle doit contribuer de manière significative au sens qu’elle représente. Pour intégrer cette particularité dans le
modèle probabiliste, on impose une valeur minimum non nulle à P (ti jui ), qui
mène à la définition suivante de la probabilité P (tj jui) :
8
>
< + (1 ? ) cij
P (tj jui) = >(1 ? ) cij
:cij
2 T et ui = tj
(2)
2 T et ui 6= tj
26 T
jui) est toujours une
où le coefficient (1 ? ) est introduit pour garantir que P (tjP
distribution de probabilité sur les termes d’indexation (i.e. t 2T P (tj jui) = 1).
si ui
si ui
si ui
j
11
Martin RAJMAN, Romaric BESANÇON, Jean-Cédric CHAPPELIER
3.4. Représentation des documents
Dans de nombreuses applications, les unités textuelles qui sont prises
en compte ne sont pas simplement des mots mais des unités plus complexes
comme des phrases, des paragraphes ou des documents.
Dans de telles situations, les représentations sémantiques des mots ne
sont pas suffisantes et des techniques additionnelles doivent être définies pour
fournir des moyens de construire des représentations sémantiques pour des
séquences de mots.
C’est évidemment le problème général de la composition auquel tout
modèle sémantique doit faire face. Dans le cadre du modèle SD, deux approches au moins qui peuvent être considérées :
– les unités textuelles nécessaires sont elles-mêmes considérées comme
des entités atomiques et traitées de la même façon que les mots (définition de la notion de contexte, identification des éléments signifiants dans
le contexte qui définissent les dimensions de l’espace des sens, calcul
des profils de co-occurrence) ;
– des mécanismes sont définis pour permettre la dérivation de la représentation sémantique associée à une séquence de mots à partir des
représentations sémantiques associées aux mots qui la composent.
Nous allons considérer ici seulement la seconde possibilité et nous restreindre
à l’approche mentionnée dans l’introduction : la représentation d’une séquence
de mots est définie comme la somme pondérée des représentations associées
aux mots qui la composent. Cette approche est détaillée plus avant, dans le
cadre du système DSIR, en section 4.2.
3.5. Similarités
Différentes mesures de similarité peuvent être utilisées pour quantifier
les similarités textuelles (Rajman M. & Lebart L. 1998). Les motivations sousjacentes au choix d’une mesure de similarité particulière reposent souvent sur
l’interprétation donnée au vecteur représentant les documents.
Si les profils de co-occurrence sont interprétés d’un point de vue
géométrique, une mesure possible pour la similarité entre deux documents dn
et dm est le cosinus de l’angle entre les directions des deux vecteurs représentant les documents :
cos (dn; dm) = jjddnjjjjddm jj
n
m
qui est une mesure de la corrélation entre dn et dm . Notons que cette mesure
dépend seulement des directions et en particulier ne dépend pas de la norme
des vecteurs représentant les documents.
Si les profils de co-occurrence sont interprétés d’un point de vue probabiliste, une mesure usuelle pour la dissimilarité entre distributions de probabilité est la divergence de Kullback-Leibler (KL) ou entropie relative (Cover T. M.
& Thomas J. A. 1991).
12
LE MODÈLE DSIR
Pour deux distributions q and r, cette dissimilarité est définie comme :
D(qjjr) =
X
y
q(y) log qr((yy))
Comme la divergence KL n’est pas symétrique, la divergence de JensenShannon (Lin J. 1991) (aussi appelée Divergence Totale à la Moyenne (Dagan
I. et al. 1997)), définie comme:
JS (qjjr) = D(qjj q +2 r ) + D(qjj q +2 r )
est préférée.
JS (qjjr) est symétrique et possède la propriété importante suivante : si q
et r sont deux distributions de fréquences empiriques, alors JS (q jjr) peut être
utilisée comme un test statistique de l’hypothèse que q et r sont des observations de la même distribution (Lin J. 1991).
Notons que JS (q jjr) est toujours positive et est nulle si et seulement si
les deux distributions sont égales. Toutefois, ce n’est pas une métrique car elle
ne vérifie pas l’inégalité triangulaire.
4. LE MODÈLE DSIR
Le modèle DSIR (Distributional Semantics Information Retrieval –
Recherche documentaire à base de Sémantique Distributionnelle) est un modèle basé sur le modèle SD présenté dans la section précédente, appliqué à la
recherche documentaire. Dans le cadre des MST, le système DSIR utilisera un
espace des sens en SD pour représenter uniformément les documents et les
requêtes.
Les caractéristiques de ce système, dérivées de la spécificité de la tâche
de recherche documentaire, sont détaillées dans les sections suivantes.
4.1.
Unités linguistiques
Comme mentionné dans la section 1, la première étape dans la définition
d’un MST est la définition de l’ensemble des unités linguistiques U sur lequel
repose la représentation des requêtes et des documents, ainsi que la définition
de la fonction de prétraitement linguistique : V ! 2U IN .
Pour la tâche de RD, on considérera que seuls les mots pleins apportent de l’information pour l’identification des documents pertinents. Par conséquent, les unités linguistiques seront restreintes aux catégories suivantes :
noms, verbes et adjectifs 13 .
Une hypothèse usuelle supplémentaire est que les modifications de sens
liées aux variations morphologiques flexionnelles (voire dérivationnelles) sont
13. Dans le système actuel, les adverbes ne sont pas pris en compte. Ce choix demanderait
une validation attentive, qui n’a pour l’instant pas été réalisée.
13
Martin RAJMAN, Romaric BESANÇON, Jean-Cédric CHAPPELIER
suffisamment faibles dans le cadre de la RD pour pouvoir ne pas être prises
en compte.
Traditionnellement, des anti-dictionnaires (stop-lists), c’est-à-dire des
listes prédéfinies de mots qui peuvent être ignorés, et des techniques de troncature (stemming) sont utilisées. L’avantage principal de ces techniques est
leur faible complexité ainsi que les ressources linguistiques limitées qu’elles
nécessitent.
Néanmoins, il a été montré que l’intégration de techniques avancées de
Traitement du Langage Naturel (comme la lemmatisation qui utilise les catégories morpho-syntaxiques pour résoudre les ambigüités morpholexicales ou
encore une analyse syntaxique superficielle telle que le chunking) apporte des
améliorations légères de la performance de recherche en anglais (Hull D. et al.
1996). Ceci devrait être encore plus flagrant pour des langues morphologiquement plus complexes que l’anglais, pour lesquels des techniques trop simples
comme la troncature sont moins adéquates.
Un pré-traitement supplémentaire peut aussi être considéré pour construire des unités textuelles encore plus riches. Par exemple, un système d’identification de multi-termes réalisé par C. Jacquemin (Jacquemin C. 1996;
Jacquemin C. 1998) prenant en compte la variabilité morphologique des mots,
les modifications syntaxiques des multi-termes et des relations de synonymie
a été ajouté au système DSIR pour la campagne d’évaluation AMARYLLIS.
Dans ce cas, les unités linguistiques considérés sont alors les lemmes (accompagnés des catégories morpho-syntaxiques principales) des noms, verbes et
adjectifs, ainsi que les formes canoniques des multi-termes.
La prise en compte des multi-termes dans la représentation est conceptuellement une étape de cette transformation en multi-ensembles d’unités
linguistiques. Néanmoins, pour des raisons pratiques de faisabilité, ces techniques d’indexation par des multi-termes ont été intégrées directement dans la
mesure de similarité. Cette intégration sera présentée plus en détails dans la
section 4.2.4.
De plus, l´ensemble des unités linguistiques retenu est filtré par un antidictionnaire (éliminant certains mots pleins jugés non signifiants) et un filtre
sur les fréquences des mots (qui ne conserve que les mots ni trop fréquents ni
trop peu fréquents).
4.2. Représentation des documents
L’hypothèse de la SD peut être reformulée comme : deux unités linguistiques sont sémantiquement similaires si leurs contextes textuels sont similaires. Une implémentation opérationnelle possible de cette hypothèse, pour la
RD, est que deux documents sont similaires si le contexte moyen des unités
linguistiques qu’ils contiennent est similaire.
La notion de contexte moyen est détaillée dans les sections suivantes,
par rapport à deux points de vue, une inteprétation géométrique et une inteprétation probabiliste du profil de co-occurrence.
14
LE MODÈLE DSIR
4.2.1. Présentation géométrique du modèle DSIR
Dans le cadre d’une interprétation géométrique, un document d est
représenté par le barycentre des profils de co-occurrence des unités linguistiques qu’il contient, pondérés par des poids ne dépendant que des unités
linguistiques et de la base de documents :
repDS (d) =
jU j
X
i=1
w(d; ui)
repDS ([ui ])
(3)
avec repDS ([ui]) = pi ci . Le poids w(d; ui) donné à chaque unité linguistique ui
est le même que celui du modèle vectoriel standard.
La collection de documents peut alors être représentée par le produit
matriciel :
D=FC
r
fleu
où F est la matrice d’occurrence de dimensions N jU j construite comme
dans le cadre du modèle vectoriel standard.
Par rapport au cadre général des MST, le modèle DSIR peut être décrit
comme le tuple (V; IRjT j ; cos ; repDS ) avec U l’ensemble des unités linguistiques retenues dans le processus de déséquentialisation présenté dans la
section 4.1., et repDS est défini par l’équation (3).
Une illustration de la représentation de la phrase 14 « Un mouton, s’il
mange les arbustes, il mange aussi les fleurs? »(A. de Saint-Exupery) dans
l’espace des sens comme moyenne des vecteurs de co-occurrence représentant les unités linguistiques est présenté en figure 1.
ar
bu
ste
t
en
um mange
oc
d
mo
u
ton
F IG . 1: Une illustration de la représentation de la phrase « Un mouton, s’il
mange les arbustes, il mange aussi les fleurs? » dans l’espace des sens
comme moyenne des vecteurs profils de co-occurrence représentant les unités
linguistiques.
Les co-occurrences d’un terme d’indexation avec lui-même étant rares,
la composante de la représentation vectorielle du document réduit à ce seul
14. où les unités linguistiques retenues sont les lemmes des noms verbes et adjectifs de la
phrase (comme indiqué dans la section 4.1).
15
Martin RAJMAN, Romaric BESANÇON, Jean-Cédric CHAPPELIER
terme sur la dimension associée est le plus souvent nulle (cii = 0). Cette propriété ne semble pas souhaitable car l’information concernant la présence du
terme d’indexation dans le document est alors perdue. Pour pallier à cet inconvénient, un poids minimum est accordé aux termes d’indexation présents
dans le document, par le biais d’une représentation hybride des documents,
qui combine l’approche vectorielle et l’approche DSIR.
Si on note F la matrice d’occurrence, de dimensions N jU j, du modèle
vectoriel, F 0 la matrice d’occurence de dimensions réduites N jT j 15 , et le
paramètre d’hybridation (0 1), la représentation hybride des documents
est:
D = F 0 + (1 ? )FC
= F (P + (1 ? )C )
(4)
où P est la matrice de projection des unités linguistiques sur les termes d’indexation c’est-à-dire la matrice de dimensions jU j jT j, définie par :
IjT j
0
avec IjT j indiquant la matrice identité de taille jT j.
4.2.2. Présentation probabiliste du modèle DSIR
Dans une présentation probabiliste du modèle DSIR, le sens d’un document d = fu1 ; : : : ; uk g est représenté par une distribution de probabilité sur
l’ensemble des termes d’indexation. La probabilité d’associer le j e terme d’indexation à un document d est P (tj jd), et peut être réécrite comme :
P (tj jd) =
=
X
ui 2U
X
ui 2U
P (tj ; uijd)
(5)
P (tj jui; d)P (uijd)
P (uijd) est la contribution de l’unité linguistique ui
au sens du document d.
Cette probabilité est estimée par la fréquence relative fi de ui dans le document d.
P (tj jui; d) est la contribution de l’unité linguistique ui à la dimension sémantique associée au terme d’indexation tj dans le contexte du document d.
L’hypothèse que nous formons est que cette contribution est indépendante du
document, c’est-à-dire, le terme ui est considéré comme suffisant pour apporter le sens tj . Cette hypothèse se traduit par :
P (tj jui; d) = P (tj jui)
15. Notons que F 0 correspond exactement au modèle vectoriel standard (pour lequel U
16
(6)
=
T
).
LE MODÈLE DSIR
et par conséquent
P (tj jd) =
X
ui 2U
fi P (tj jui)
(7)
Avec l’estimation de P (tj jui ) par la fréquence de co-occurrence de tj et ui (voir
la section 3.3), l’équation (7) se réécrit en :
P (tj jd) =
X
ui 2U
fi cij
(8)
Une illustration de la représentation de la phrase « Un mouton, s’il mange
les arbustes, il mange aussi les fleurs? » comme distribution moyenne des
distributions de probabilité des unités linguistiques sur les termes d’indexation
est présentée dans la figure 2.
mouton
mange
arbuste
:::
:::
« Un mouton,
s’il mange : : : »
F IG . 2: Une illustration de la représentation de la phrase « Un mouton, s’il
mange les arbustes, il mange aussi les fleurs? » comme distribution moyenne
des distributions des unités linguistiques sur les termes d’indexation.
Avec la définition de P (tj jui ) qui accorde une importance particulière au
cas où i = j (cf. section 3.3, équation (2)), l’équation (7) est réécrite en :
P (tj jd) = fj + (1 ? )
X
ui 2T
cij fi +
X
ui 2U nT
cij fi
(9)
Cette équation peut être réécrite en termes matriciels, comme une généralisation de l’équation (4) :
D = F (P + (IjU j ? A)C )
où A est la matrice (aij ) de dimensions jU j jU j telle que
(
aij = 0
si i = j et ui
sinon
17
2 T (i.e. i = j M )
(10)
Martin RAJMAN, Romaric BESANÇON, Jean-Cédric CHAPPELIER
et P la matrice de projection définie pour l’équation (4).
L’équation (10) est une généralisation de l’équation (4) qui justifie l’hybridation d’un point de vue probabiliste (étant donnée l’hypothèse faite dans
la section 3.3 sur le rôle particulier joué par les termes d’indexation dans la
contribution à leur propre dimension dans l’espace des sens). Notons toutefois
que les deux modèles hybrides ne sont pas strictement équivalents. En particulier, dans l’équation (10), = 1 ne mène pas à un modèle vectoriel pur, car
IjU j ? A 6= (1 ? )IjU j.
4.2.3. Les dimensions de l’espace des sens
La dimension de l’espace vectoriel utilisé pour la représentation d’un document est la taille de l’ensemble des termes d’indexation, qui est la même que
la taille de l’ensemble des unités linguistiques du modèle vectoriel classique.
Néanmoins, le modèle SD tient compte, de façon indirecte, d’un plus grand
nombre d’unités linguistiques puisque dans ce modèle toutes les unités linguistiques de U (même celles qui ne sont pas dans T ) sont représentées dans
la moyenne pondérée par le biais de leur profil de co-occurrence sur les termes d’indexation. Le modèle SD peut dont être vu comme une bonne manière
de réduire la dimensionalité de la représentation vectorielle (T
U ) 16 , de
l’ensemble des unités linguistiques à l’ensemble des termes d’indexation, qui
conserve l’information par l’utilisation des caractéristiques distributionnelles
qui relient les deux ensembles, c’est-à-dire les distributions des co-fréquences
entre les unités linguistiques et les termes d’indexation.
Comme pour le modèle LSI (présenté en section 2.2), le modèle DSIR
utilise une fonction de représentation composée de deux fonctions repDS =
rep3 repV S avec repV S : 2U IN ! IRjU j la fonction de représentation du modèle
vectoriel standard et rep3 : IRjU j ! IRjT j une fonction de transformation dans
un espace vectoriel supporté par l’ensemble des termes d’indexation T . Ce
modèle diffère du modèle LSI en ce sens qu’ici l’espace de représentation est
supporté par un ensemble de termes d’indexation T U , et que l’ensemble U
utilisé pour le modèle DSIR intègre beaucoup plus d’unités linguistiques que
celui utilisé par LSI.
Cependant, le choix des éléments de l’ensemble d’indexation T qui ont
un bon pouvoir discriminant reste encore un problème. Comme pour les unités
linguistiques du modèle vectoriel, les termes d’indexation peuvent être choisis
dans l’ensemble des unités linguistiques U en fonction de leur fréquence en
documents.
4.2.4. Mesures de similarité
Dans le modèle DSIR, la recherche est effectuée en mesurant la similarité entre un document et une requête dans l’espace vectoriel défini ci-dessus,
avec une des mesures de similarités considérées dans la section 3.5, notée
SDS .
16. en pratique, on à même jU j jT j.
18
LE MODÈLE DSIR
Comme présenté dans la section 4.1, l’utilisation des multi-termes
comme unités linguistiques a été introduite dans la mesure de similarité pour
des raisons pratiques. En effet, les co-occurrences entre mots et multi-termes
ne sont pas calculées dans le système courant, et les multi-termes ne sont
donc pas pris en compte dans la représentation SD. De plus, comme les multitermes sont souvent peu fréquents, une simple sélection sur les fréquences
des termes d’indexation mène à un nombre très restreint de multi-termes parmi
les termes d’indexation. Ceci implique que les multi-termes sont faiblement
représentés même dans la partie correspondant au modèle vectoriel de notre
modèle hybride. Comme nous pensons néanmoins que les multi-termes peuvent apporter une information supplémentaire intéressante pour la représentation des documents, nous avons introduit une mesure de similarité hybride,
qui prend en compte une similarité entre les représentations vectorielles des
documents sur l’ensemble des multi-termes, notée SC . La mesure de similarité
entre deux documents dn et dm est alors :
S (dn; dm) = SDS (dn; dm) + (1 ? ) SC (dn; dm)
5. ÉVALUATION
Des expériences pratiques utilisant le modèle DSIR ont été réalisées
dans le cadre de la campagne d’évaluation AMARYLLIS pour les systèmes
de Recherche Documentaire en français. Un système à base de SD pour la
désambiguïsation sémantique a été également présenté dans le cadre de la
campagne d’évaluation ROMANSEVAL pour les systèmes de désambiguïsation sémantique pour les langues latines.
5.1.
Recherche documentaire
5.1.1. Données et paramètres
La campagne d’évaluation AMARYLLIS a été organisée en deux étapes :
une phase d’entraînement sur des collections de documents de référence, et
une phase de test sur d’autres collections. Les résultats présentés dans cette
section sont ceux obtenus durant la phase d’entraînement.
Les données pour la phase d’entraînement sont composées de trois corpus de référence :
– LRSA: un ensemble de 502 documents extraits de livres sur la
Mélanésie, avec 15 thèmes de recherche correspondant à 423 documents pertinents 17 ;
– OFIL: un ensemble de 11016 articles de journal (Le Monde), avec 26
thèmes de recherche correspondant à 587 documents pertinents 17 ;
– OFIL: un ensemble de 163308 notes bilbiographiques, avec 30 thèmes
de recherche correspondant à 1407 documents pertinents 17 .
17. Jugés pertinents relativement aux thèmes, par des experts humains.
19
Martin RAJMAN, Romaric BESANÇON, Jean-Cédric CHAPPELIER
Les documents et requêtes ont tout d’abord été analysés par un analyseur syntaxique (Sylex, de I NGENIA -LN (Constant P. 1995)) pour déterminer les catégories morpho-syntaxiques des mots ainsi que leurs lemmes, et pour identifier
les groupes syntaxiques, ainsi que leurs têtes. Un ensemble de jU j = 62895
unités linguistiques (lemmes de noms, verbes et adjectifs) extraits des documents et requêtes ont été retenues.
Les termes d’indexation pour la matrice de co-occurrence ont été choisis dans l’ensemble des unités linguistiques en fonction de leurs fréquences
en documents. Trois types de modèles hybrides (selon l’interprétation
géométrique) ont été testés, en fonction de l’ensemble des termes d’indexation et des contextes considérés pour les co-occurrences :
nb termes
d’indexation
jT j = 2382
jT j = 2832
jT j = 6131
Hyb1
Hyb2
Hyb3
fréquences en
documents
[450, 1500]
[450, 1500]
[200, 5000]
contextes
positionnel
syntaxique
syntaxique
Ces trois types de modèles ont été testés pour un paramètre d’hybridation = 1 (correspondant au modèle vectoriel classique), = 0:5 et = 0
(modèle SD). 250 documents ont été retournés pour chaque requête, ordonnés selon leur similarité à la requête.
5.1.2. Résultats
L’évaluation des systèmes de recherche documentaire est en général
faite avec les mesures standard de précision (P ) et rappel (R), où:
P
=
nombre de documents pertinents retournés
nombre total de documents retournés
R
=
nombre de documents pertinents retournés
nombre total de documents pertinents
Le tableau 1 présente la précision moyenne P , la R-précision RP 18 et les
précisions P (n) pour n documents retournés (ces valeurs de précisions sont
des moyennes sur les trois corpus), ainsi que le nombre total de documents
pertinents retournés (cumulé sur les trois corpus).
D’un côté, ces résultats présentent une amélioration significative du score
de précision en utilisant un modèle à base de DS ( < 1) plutôt qu’un modèle
vectoriel classique ( = 1).
D’un autre côté, en ce qui concerne les modèles de contextes pour le calcul des co-occurrences, les résultats ne sont pas vraiment significatifs. Avec
18. La R-précision est la précision obtenue pour un nombre de documents retournés correspondant au nombre de documents pertinents présents dans la base. Donc en particulier,
dans ce cas, la précision est égale au rappel.
20
LE MODÈLE DSIR
=1
NR
P
RP
P (5)
P (10)
P (15)
P (20)
P (30)
P (100)
P (200)
Hyb1
Hyb2
904
0.13
0.15
0.21
0.19
0.18
0.17
0.14
0.09
0.07
= 0:5
=0
Hyb3
Hyb1
Hyb2
Hyb3
Hyb1
Hyb2
Hyb3
1312
0.22
0.24
0.37
0.34
0.30
0.28
0.24
0.14
0.09
1322
0.25
0.28
0.46
0.42
0.36
0.32
0.27
0.15
0.09
1280
0.24
0.27
0.46
0.38
0.35
0.31
0.27
0.14
0.09
1335
0.27
0.31
0.50
0.43
0.38
0.34
0.29
0.15
0.09
1262
0.24
0.28
0.46
0.39
0.36
0.32
0.26
0.14
0.09
904
0.13
0.15
0.45
0.38
0.35
0.31
0.26
0.14
0.09
1200
0.24
0.28
0.46
0.39
0.36
0.32
0.27
0.13
0.08
TAB . 1: Valeurs de précisions pour les trois modèles DSIR hybrides en
moyenne sur les trois corpus de la camapagne AMARYLLIS (les meilleurs résultats par ligne sont en gras).
la même taille d’ensemble de termes d’indexation (Hyb1 and Hyb2), les résultats semblent pires lorsqu’on utilise les contextes syntaxiques : la matrice de
co-occurrence est plus creuse, et le pouvoir discriminant restant ne semble
pas contrebalancer la perte d’information. Ceci peut être dû à la simplicité des
contextes syntaxiques considérés (groupes syntaxiques). Toutefois, une légère
amélioration de la performance est visible lorsqu’on utilise les contextes syntaxiques avec un ensemble plus grand de termes d’indexation (Hyb3), ce qui
ne serait pas possible autrement (le calcul de toutes les co-occurrences pour
un tel ensemble de termes d’indexation ne serait pas traitable).
Pour illustrer plus avant la comparaison entre le modèle hybride et le
modèle vectoriel classique, et l’amélioration obtenue en augmentant l’ensemble des termes d’indexation, les figures 3 et 4 présentent les graphiques précision/rappel pour les corpus OFIL et INIST, pour les modèles Hyb1 et Hyb3
avec = 1 and = 0:5.
Ces résultats montrent que l’amélioration de l’approche SD est très significative pour un faible rappel et moins significative (voire légèrement inférieure)
pour des grandes valeurs de rappel.
La précision du système pour des valeurs petites ou grandes de rappel
doit être estimée en fonction du but du système de recherche documentaire.
En effet, un système qui a une bonne précision pour un faible rappel sera en
général favorisé dans le cas d’un besoin important de documents pertinents
parmi les premiers documents retournés (ceci est le cas, par exemple, des
systèmes de recherche sur Internet), alors qu’un système qui a une bonne
précision pour un rappel élevé sera préféré si tous les documents pertinents
présents dans la base de données sont requis (ceci serait le cas, par exemple, pour une recherche de précédents juridiques pour la jurisprudence, ou la
recherche de cas en médecine).
21
Martin RAJMAN, Romaric BESANÇON, Jean-Cédric CHAPPELIER
0.7
Hyb3(0.5)
Hyb1(0.5)
Hyb3(1)
Hyb1(1)
0.6
Précision
0.5
0.4
0.3
0.2
0.1
0
0
0.2
0.4
0.6
0.8
1
Rappel
F IG . 3: Précision/Rappel de deux modèles DSIR hybrides ( = 0:5) pour le
corpus OFIL, comparé aux modèles vectoriels équivalents ( = 1).
5.2. Désambiguïsation sémantique
La désambiguïsation sémantique (DS) consiste à identifier le sens particulier d’un mot polysémique dans un contexte spécifique. Par exemple, le mot
« carte » a des sens différents dans les phrases « ils ont joué aux cartes tout
l’après-midi » et « il a regardé sur la carte pour trouver sa direction ».
La désambiguïsation sémantique est une tâche importante qui a des applications dans les domaines de l’analyse syntaxique, la traduction automatique ou la recherche documentaire (Ide N. & Véronis J. 1998). La campagne
d’évaluation ROMANSEVAL pour les systèmes de DS pour les langues latines
(jointe à la campagne SENSEVAL pour l’anglais (Kilgarriff A. 1998)), a tenté
de considérer l’évaluation indépendante de cette tâche particulière, en dehors
de tout cadre applicatif, pour analyser les propriétés et difficultés inhérentes à
cette tâche.
Nous avons présenté dans le cadre de cette campagne un système à
base de sémantique distributionnelle qui considère les contextes d’un mot et
ses définitions dans un dictionnaire comme des documents textuels qui sont
représentés dans l’espace des sens SD. On peut ainsi calculer dans cet espace les similarités entre le contexte d’un mot et chacune de ses définitions,
et on associe au mot en contexte le sens correspondant à la définition la plus
proche.
La tâche de désambiguïsation pour le français portait sur 60 mots (noms,
verbes et adjectifs), présents chacun dans environ 60 contextes différents. Les
sens et définitions des mots ont été prises dans un dictionnaire classique (« Le
Petit Larousse »), et il y avait en moyenne 9 sens par mot.
22
LE MODÈLE DSIR
0.8
Hyb3(0.5)
Hyb1(0.5)
Hyb3(1)
Hyb1(1)
0.7
0.6
Précision
0.5
0.4
0.3
0.2
0.1
0
0
0.2
0.4
0.6
0.8
1
Rappel
F IG . 4: Précision/Rappel de deux modèles DSIR hybrides ( = 0:5) pour le
corpus INIST, comparé aux modèles vectoriels équivalents ( = 1).
Cette première campagne d’évaluation a montré entre autres les difficultés de l’évaluation de la désambiguïsation, essentiellement due à la difficulté de définir (même pour un humain) le sens « correct » d’un mot, quand
l’ambiguïté est subtile ou la granularité des définitions est trop fine (Véronis
J. 1998). L’accord entre annotateurs est alors plutôt faible et offre une base
fragile pour l’évaluation.
Néanmoins, nous présentons ici les résultats obtenus par notre système
à base de SD dans cette campagne dans la figure 5, en termes de taux de
succès (pourcentage des sens identifiés par le système qui correspond aux
sens choisis par au moins un des annotateurs) par mot.
Les résultats montrent que notre système trouve en moyenne 50% des
sens corrects en contexte, et fonctionne un peu moins bien pour les verbes
que pour les noms et adjectifs (ce qui peut être expliqué par le fait que notre
système simple n’utilise pas d’informations syntaxiques pour la désambiguïsation et considère toutes les définitions comme possibles a priori alors que
pour les verbes, une partie de la désambiguïstion peut souvent être faite en
considérant les schémas verbaux).
CONCLUSION
Nous introduisons dans cet article un cadre général formel pour les modèles de similarités textuelles, par lequel le problème de la Recherche Documentaire (RD) peut être décrit. Les modèles de RD classiques comme le
modèle vectoriel peuvent être représentés dans ce cadre.
Nous présentons, dans le même cadre de similarités textuelles, un mod23
Martin RAJMAN, Romaric BESANÇON, Jean-Cédric CHAPPELIER
100
Taux de succès (%)
80
60
40
20
0
Adjectifs
Noms
Verbes
F IG . 5: Résultats d’un système à base de SD pour la campagne d’évaluation
ROMANSEVAL pour les systèmes de désambiguïsation sémantique.
èle vectoriel avancé, basé sur la Sémantique Distributionnelle (SD), qui intègre plus d’information sémantique dans la représentation des documents.
Cette information sémantique est automatiquement extraite d’un corpus par
l’identification des profils de co-occurrence des mots par rapport à un certain
ensemble de termes d’indexation. Ce modèle est présenté d’un point de vue
géométrique et probabiliste.
Une application de ce modèle SD, le modèle DSIR, a été réalisée pour
la recherche documentaire. Ce modèle a été évalué sur des données de
référence dans le cadre de la campagne d’évaluation AMARYLLIS et a montré
des résultats prometteurs.
Une recherche approfondie sera entreprise pour intégrer des fonctionnalités sophistiquées dans le modèle DSIR. L’intégration des multi-termes peut,
par en particulier, être raffinée (par exemple en définissant et calculant des cooccurrences entre mots et multi-termes). En ce qui concerne les calculs des
co-occurrences, le traitement syntaxique du document devrait être amélioré
en prenant en compte des techniques telles que la résolution d’anaphores. La
performance des calculs de similarités peut être augmentée en intégrant des
dépendances sémantiques prédéfinies comme des thesaurus hiérarchiques.
L’intégration de telles informations dans le modèle DSIR devrait être faite
soit directement dans la mesure de similarité soit dans la représentation
des documents. La sélection des termes d’indexation, effectuée sur la base
des fréquences en documents, peut être raffinée en fonction de propriétés
théoriques fondées (par exemple, par l’usage de techniques provenant du domaine de la théorie de l’information, comme les caractéristiques d’entropie des
mots).
24
LE MODÈLE DSIR
Globalement, le sytème DSIR devra évoluer pour devenir plus incrémental et plus adaptatif. Les aspects incrémentaux du modèle recouvrent essentiellement l’évolution dynamique de la matrice de co-occurrence en fonction
de l’évolution de l’ensemble des unités linguistiques U et/ou de l’ensemble
des termes d’indexation T . L’adaptativité du modèle recouvre entre autres la
prise en compte des spécificités de l’utilisateur. Par exemple, un profil utilisateur peut être automatiquement dérivé de ses intéractions avec le modèle et
peut être utilisé pour associer des pondérations supplémentaires sur certaines
dimensions de l’espace des sens. La spécificité de l’utilisateur peut aussi être
intégrée à travers des techniques standard comme le retour de pertinence (relevance feedback), qui se sont avérées utiles pour augmenter la performance
des systèmes de recherche documentaire.
Le modèle générique SD offre en fait une représentation des documents
dans un espace des sens associé à une mesure de similarité. Ce modèle a
des applications pour la recherche documentaire, mais aussi pour un grand
nombre de domaines comme la désambiguïsation sémantique, la structuration automatique de collections de documents (les documents similaires sont
regroupés dans la même classe), ou la détection de nouveauté.
RÉFÉRENCES
CHURCH, Kenneth W. ; HANKS, Patrick (1989) : “Word associations norms,
mutual information and lexicography”, in Proceedings of the 27th Annual
Meeting of the ACL, pp. 76–83.
CONSTANT, Patrick (1995) : Manuel de développement SYLEX-BASE,
I NGÉNIA -LN, Paris, France.
COVER, Thomas M. ; THOMAS, Joy A. (1991) : Elements of Information Theory, John Wiley and Sons.
DAGAN, Ido ; LEE, Lillian ; PEREIRA, Fernando (1997) : “Similarity-based
methods for word sense desambiguation”, in Proceedings of ACL’97, pp.
56–63.
DAGAN, Ido ; LEE, Lillian ; PEREIRA, Fernando (1999) : “Similarity-based
models of word cooccurrence probabilities”, Machine Learning, vol. 34,
pp. 43–69.
DEERWESTER, Scott ; DUMAIS, Susan ; LANDAUER, Thomas ; FURNAS,
George ; HARSHMAN, Richard (1990) : “Indexing by latent semantic analysis”, Journal of the Society for Information Science, vol. 41, n 6, pp. 391–
407.
DUMAIS, Susan ; LANDAUER, Thomas as ; LITTMAN, Michael (1996) : “Automatic cross-linguistic information retrieval using latent semantic indexing”,
in SIGIR’96 - Workshop on Cross-Linguistic Information Retrieval, pp. 16–
23.
25
Martin RAJMAN, Romaric BESANÇON, Jean-Cédric CHAPPELIER
DUMAIS, Susan (1994) : “Latent semantic indexing (LSI): TREC-3 report”, in
TREC-3 Proceedings, pp. 219–230, Gaithersburg, Maryland.
FABRE, Cécile ; HABERT, Benoît (1998) : “Acquisition de relations entre mots
pour une lecture sémantique de corpus”, in 4th International Conference
on Statistical Analysis of Textual Data (JADT’98), pp. 273–282, Nice.
FOLTZ, Peter W. ; DUMAIS, Susan (1992) : “Personalized information delivery:
An analysis of information filtering methods”, Communications of the ACM,
vol. 35, n 12, pp. 51–60.
GREFENSTETTE, Gregory (1994) : Explorations in Automatic Thesaurus Discovery, Boston, Kluwer Academic Publishers.
HABERT, Benoît ; NAZARENKO, Adeline ; SALEM, André (1997) : Les linguistiques de corpus, Armand Colin, Masson, Paris.
HARRIS, Zellig S. ; GOTTFRIED, Michael ; RYCKMAN, Thomas ; MATTICK JR,
Paul ; DALADIER, Anne ; HARRIS, T. N. ; HARRIS, S. (1989) : The Form
of Information in Science, Analysis of Immunology Sublanguage, Boston,
MA, Kluwer Academic Publisher, Boston Studies in the Philosophy of Science, volume 104.
HIRSCHMAN, Lynette (1986) : “Discovering sublanguage structure”, in Analyzing Language in Restricted Domains. Sublanguage Description and Processing., R. Grishman ; R. Kittredge (ed.), Hillsdale, NJ, Lawrence Erlbaum Ass., pp. 211–234.
HULL, David ; GREFENSTETTE, Gregory ; SCHULZE, B. Maximilian ;
GAUSSIER, Eric ; SCHÜTZE, Hinrich ; PEDERSEN, Jan (1996) : “Xerox
TREC-5 sire report: Routing, filtering, NLP and spanish tracks”, in NIST
Special Publication 500-238: The Fifth Text REtrieval Conference (TREC5), Gaithersburg, Maryland.
IDE, Nancy ; VÉRONIS, Jean (1998) : “Introduction to the special issue on word
sense disambiguation: the state of the art”, in Special issue of Computational Linguistics on Word Sense Disambiguation, pp. 1–40.
JACQUEMIN, Christian (1996) : Connectionist, Statistical and Symbolic Approaches to Learning for Natural Language Processing, chap. A symbolic
and surgical acquisition of terms through variation, pp. 425–438, Heidelberg, Springer.
JACQUEMIN, Christian (1998) : “Improving automatic indexing through concept combination and term enrichment”, in Proceedings of the 17th International Conference on Computational Linguistics (COLING’98), pp. 595–
599, Montréal.
KILGARRIFF, Adam (1998) : “Senseval: An exercise in evaluating word sense
disambiguation programs”, in Proceedings of the First International Conference on Language Resources and Evaluation, pp. 581–588, Granada,
Spain.
LEE, John Ho (1995) : “Combining multiple evidence from different properties
of weighting schemes”, in Proceedings of the 18th Annual International
26
LE MODÈLE DSIR
ACM/SIGIR Conference on Research and Development in Information Retrieval, F. E.A. (eds.), Seattle, Washington, USA.
LIN, J. (1991) : “Divergence measures based on the shannon entropy”, IEEE
Transactions on Information Theory, vol. 37, n 1, pp. 145–151.
RAJMAN, Martin ; BONNET, Alain (1992) : “Corpora-base linguistics: new tools
for natural language processing”, in 1st Annual Conference of the Association for Global Strategic Information, Bad Kreuznach, Germany.
RAJMAN, Martin ; LEBART, Ludovic (1998) : “Similarités pour données
textuelles”, in 4th International Conference on Statistical Analysis of Textual Data (JADT’98), pp. 545–566, Nice.
RAJMAN, Martin (1995) : Apports d’une approche à base de corpus aux techniques de traitement automatique de langage naturel, PhD thesis, ENST,
Paris.
RUNGSAWANG, Arnon ; RAJMAN, Martin (1995) : “Textual information retrieval based on the concept of distributional semantics”, in proc. of
JADT’95 (3rd International Conference on Statistical Analysis of Textual
Data), Rome.
RUNGSAWANG, Arnon (1997) : Recherche Documentaire à base de sémantique distributionnelle, PhD thesis, ENST, Paris.
SALTON, Gerard ; BUCKLEY, Chris (1988) : “Term weighting approaches in
automatic text retrieval”, Information Processing and Management, vol. 24,
pp. 513–523.
SALTON, Gerard ; YANG, C.S. ; YU, C.T. (1975) : “A theory of term importance
in automatic text analysis”, Journal of the American Society for Information
Science.
SCHÜTZE, Hinrich ; HULL, David ; PEDERSEN, Jan (1995) : “A comparison
of classifiers and document representations for the routing problem”, in
Proceedings of the Eighteenth Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, pp. 229–
237, Seattle, WA.
SINGHAL, Amit ; SALTON, Gerard ; MITRA, Mandar ; BUCKLEY, Chris (1995) :
Document Length Normalization, Rapport technique, Department of Computer Science, Cornell University.
SINGHAL, Amit (1997) : Term Weighting Revisited, PhD thesis, Department of
Computer Science, Cornell University.
SPARCK JONES, Karen (1971) : Automatic Keyword Classification for Information Retrieval, London, Butterworth.
SRINIVASAN, Padmini (1992) : “Thesaurus construction”, in Information Retrieval: Data Structure and Algorithms, W. B. Frakes ; R. Baeza-Yates (ed.),
London, Prentice Hall, pp. 161–218.
VÉRONIS, Jean (1998) : “A study of polysemy judgements and inter-annotator
agreement”, in Programme and advanced papers of the Senseval workshop, Herstmonceux Castle, England.
27