Collocazioni e misure di associazione

Linguistica Computazionale
Collocazioni e misure statistiche
di associazione
28 ottobre 2014
A caccia di collocazioni
analisi linguistica del corpus
selezione delle coppie di parole
costruzione di una tabella di
contingenza per ogni coppia
applicazione di una
misura di associazione
ordinamento della coppie in
base alla forza di associazione
2
Frequenza come salienza
l 
La sola frequenza di una coppia <u,v> non è indicativa del suo grado di
salienza
coppie <aggettivo,
nemico> ordinate per
frequenza (corpus itWac)
coppie <aggettivo,
nemico> ordinate per
misura di associazione
(corpus itWac)
3
Frequenze osservate e
frequenze attese
l 
Due parole sono tanto più fortemente associate
quanto più spesso si presentano insieme rispetto
alle volte in cui ricorrono l’una indipendentemente
dall’altra
l 
l 
cf. f(<grande, nemico>) = 768, ma f(grande) = 2.005.934
È necessario confrontare la frequenza osservata di una
coppia <u,v> in un corpus con la sua frequenza attesa
(expected frequency)
l 
frequenza attesa di <u,v>: frequenza della coppia <u,v>
che ci dovremmo aspettare di trovare se u e v fossero
(statisticamente) indipendenti l’una dall’altra (=
ricorressero insieme “per caso”)
4
Frequenze attese
l 
Le frequenze attese di un bigramma <u,v> sono calcolate
a partire dalla sua tabella di contingenza
E11 - frequenza attesa di <u,v>
per la definizione delle frequenze
marginali:
f (u) f (v)
E11 =
N
5
€
Frequenze attese
frequenze osservate per <mangiare, mela>
y = mela
y ≠mela
x = mangiare
4
3
RIGAx=mangiare = 4 + 3 = 7
x ≠mangiare
5
2
RIGAx≠mangiare = 5 + 2 = 7
COLONNAy=mela = 4 + 5 = 9
COLONNAy≠mela = 3 + 2 = 5
frequenze attese per <mangiare, mela>
y = mela
y ≠mela
x = mangiare
(7*9)/14 = 4,5
(7*5)/14 = 2,5
x ≠mangiare
(7*9)/14 = 4,5
(7*5)/14 = 2,5
6
Mutual Information (MI)
(Church & Hanks 1989)
O< u,v>
MI(u,v) = log 2
E < u,v>
l 
€
Rapporto tra la frequenza osservata di un
bigramma e la sua frequenza attesa
l 
l 
MI (u,v) ≤ 0 - assenza di associazione tra le parole
MI (u,v) >> 0 - forte associazione tra le parole
7
Mutual Information (MI)
(Church & Hanks 1989)
l 
La MI è più comunemente formulata in termini
di probabilità
l 
viene confrontata la probabilità di osservare il
bigramma <u, v>, con la probabilità di osservare u
e v indipendentemente l’una dall’altra
p(u,v)
MI(u,v) ≡ log 2
p(u) p(v)
8
MI e probabilità
l 
Se due parole u e v sono statisticamente
indipendenti, allora p(u, v) = p(u) * p(v)
l 
l 
i due termini di questa uguaglianza appaiono
rispettivamente al numeratore e al denominatore
della frazione che definisce la MI
maggiore è il valore della frazione in MI, più alto è
il grado di dipendenza tra u e v, e dunque più
forte la loro associazione lessicale
9
Come calcolare la MI
Stimiamo le probabilità delle parole con la loro frequenza relativa in un corpus
f (< u,v >)
p(u,v)
N
log 2
= log 2
f (u) f (v)
p(u) p(v)
⋅
N
N
frequenza relativa
del bigramma
frequenza relativa
delle parole
Con alcune semplificazioni otteniamo:
€
f (< u,v >)
2
f
(<
u,v
>)
N
f (< u,v >) ⋅ N
N
log 2
= log 2
⋅
= log 2
f (u) f (v)
N
f (u) f (v)
f (u) f (v)
⋅
N
N
10
Probabilità e frequenze attese
l 
I due modi di esprimere la MI sono equivalenti
l 
l 
la frequenza attesa è la frequenza del bigramma che ci dovremmo
attendere se u e v fossero indipendenti
se u e v fossero indipendenti la probabilità del bigramma sarebbe
uguale a p(u) * p(v)
O< u,v>
MI(u,v) = log 2
E < u,v>
O< u,v>
f (< u,v >) f (< u,v >) * N
p(u,v)
log 2
= log 2
=
= log 2
f (u) f (v)
E < u,v>
f (u) f (v)
p(u) p(v)
11
€
N
Le collocazioni su WEBBIT
http://clic.cimec.unitn.it/marco/webbit/
12
Le collocazioni su WEBBIT
13
I limiti della MI
l 
La MI è estremamente sensibile agli eventi rari
l 
l 
in qualsiasi corpus, i bigrammi con frequenza 1 formati da hapax
avranno sempre valori massimi di MI
Dato un bigramma <u, v>, il caso di associazione
massima si ha quando u e v ricorrono sempre insieme nel
corpus
l 
in questo caso vale che f(<u, v>) = f(u) = f(v) e la formula della MI
si può riscrivere come:
f (< u,v >) ⋅ N
f ⋅N
log 2
= log 2 2
f (u) ⋅ f (v)
f
l 
dato N = 10.000,
l 
l 
se f(u) = f(v) = 1, MI(u, v) = 13,28
se f(u) = f(v) =€10, MI(u, v) = 9,96
14
I limiti della MI
l 
La MI non è molto indicativa quando calcolata su
bigrammi a bassa frequenza
l 
l 
il fatto che due hapax ricorrano una sola volta insieme
nel corpus ci dice molto poco riguardo al loro grado di
associazione
Limite molto grave dato il grande numero di eventi rari
l 
cf. Legge di Zipf
l 
in un testo i bigrammi hapax possono arrivare anche al
75%
15
Oltre la MI
l 
Local Mutual Information
l 
MI moltiplicata per la frequenza del bigramma
l 
l 
privilegia i bigrammi più frequenti
è il termine fondamentale nel calcolo di LogLikelihood Ratio (LLR; Dunning 1993)
p(u,v)
LMI(u,v) ≡ f (< u,v >) * log 2
p(u) p(v)
16
€
Le collocazioni su WEBBIT
17
Le collocazioni su WEBBIT
18
Associazioni Verbo-OGG
Corpus La Repubblica - MI
verbo
nome
f(<v,n>)
f(v)
f(n)
MI
ingobbire-v
impicciare-v
aggradare-v
piagnucolare-v
patinare-v
incogliere-v
baloccare-v
affaccendare-v
monologare-v
riandare-v
perseverare-v
assentire-v
piagare-v
disquisire-v
disquisire-v
deflettere-v
abboccare-v
dolorare-v
placcare-v
raccapezzare-v
pelatello-s
discesismo-s
interlocutorio-a
chiappucciani-s
verdebruna-s
lluvia-s
righelli-s
giraruota-s
figlia-telefono-s
nacora-s
diabolicum-s
softball-s
gassa-s
cartam-s
biscroma-s
super-juventino-s
pescioni-s
anginoso-s
antitaccheggio-s
cybereuforia-s
1
1
1
1
1
1
1
1
1
1
8
1
1
1
1
1
1
1
1
1
7
4
9
10
11
11
12
12
13
14
14
14
15
17
17
17
17
18
19
20
1
2
1
1
1
1
1
1
1
1
8
1
1
1
1
1
1
1
1
1
14.1530
14.0194
13.9017
13.7963
13.7010
13.7010
13.6140
13.6140
13.5339
13.4598
13.4598
13.4598
13.3908
13.2657
13.2657
13.2657
13.2657
13.2085
13.1544
13.1032
19
Associazioni Verbo-OGG
Corpus La Repubblica - MI (f>10)
verbo
nome
f(<v,n>)
f(v)
f(n)
MI
soggiornare-v
arrotare-v
osare-v
virare-v
pascolare-v
equiparare-v
collaborare-v
introitare-v
mungere-v
spalmare-v
scandagliare-v
disboscare-v
affettare-v
sbancare-v
crossare-v
sfrattare-v
perforare-v
rivoltare-v
mungere-v
svitare-v
obbligato-s
erre-s
inosabile-s
probati-s
gregge-s
sionismo-s
giulio-s
pubblicitario-s
vacca-s
crema-s
fondale-s
selva-s
salame-s
botteghino-s
palla-gol-s
inquilino-s
polmone-s
frittata-s
mucca-s
bullone-s
11
22
13
16
13
12
24
12
20
14
15
11
11
34
14
24
21
11
18
14
11
22
25
29
29
33
35
37
38
14
45
45
23
47
50
24
21
27
38
14
11
22
13
16
13
12
24
12
20
41
15
11
22
34
14
55
60
26
32
74
13.2794
12.5863
12.4584
12.3100
12.3100
12.1808
12.1220
12.0664
12.0397
11.9638
11.8707
11.8707
11.8487
11.8272
11.7653
11.6700
11.5830
11.5213
11.4644
11.3733
20
Associazioni Verbo-OGG
Corpus La Repubblica - LMI
verbo
nome
f(<v,n>)
f(v)
f(n)
LMI
rendere-v
prendere-v
correre-v
prendere-v
affrontare-v
raccontare-v
dare-v
dire-v
mettere-v
commettere-v
dare-v
lanciare-v
raggiungere-v
dire-v
dare-v
aprire-v
assumere-v
porre-v
firmare-v
porre-v
conto-s
decisione-s
rischio-s
atto-s
problema-s
storia-s
vita-s
cosa-s
mano-s
errore-s
via-s
appello-s
accordo-s
no-s
risposta-s
porta-s
responsabilità -s
problema-s
contratto-s
fine-s
12103
10140
4790
7274
6863
5437
9567
7899
6835
3251
7670
3883
5053
4333
5908
3867
3497
4376
2947
3191
68070
129224
11894
129224
39517
33125
236164
95251
126541
9798
236164
36226
53770
95251
236164
61047
32283
29290
20503
29290
33807
27931
17149
18089
51086
23861
40631
54220
27360
9320
27695
9998
29889
9030
17512
11134
15408
51086
13163
14362
47726.6842
33627.5960
26056.0862
24866.7689
24068.7517
22899.6724
21816.4850
21392.8482
20255.7651
19037.0407
18735.2461
18077.5914
17326.2489
16900.0854
15597.2500
15552.9152
14804.9178
14688.0698
13774.0838
13752.0288
21
Associazioni mangiare-OGG
Corpus La Repubblica - MI
verbo
nome
f(<v,n>)
f(v)
f(n)
MI
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
zupppa-s
tvorak-s
tiramisu-s
taglioline-s
sugjuek-s
stu-s
strangozzi-s
stangoni-s
sorchette-s
sorbettiera-s
shawerma-s
shashlik-s
scaloppa-s
sauerkraut-s
sano'-s
sandwicj-s
salciccia-s
sachertorte-s
rusumada-s
rosbif-s
1
1
1
1
1
1
1
1
1
1
1
1
2
1
1
1
1
1
1
2
6067
6067
6067
6067
6067
6067
6067
6067
6067
6067
6067
6067
6067
6067
6067
6067
6067
6067
6067
6067
1
1
1
1
1
1
1
1
1
1
1
1
2
1
1
1
1
1
1
2
7.3883
7.3883
7.3883
7.3883
7.3883
7.3883
7.3883
7.3883
7.3883
7.3883
7.3883
7.3883
7.3883
7.3883
7.3883
7.3883
7.3883
7.3883
7.3883
7.3883
22
Associazioni mangiare-OGG
Corpus La Repubblica - LMI
verbo
nome
f(<v,n>)
f(v)
f(n)
LMI
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
mangiare-v
carne-s
panino-s
pizza-s
pane-s
pesce-s
cibo-s
pasta-s
gelato-s
minestra-s
spaghetto-s
hamburger-s
frutta-s
verdura-s
piatto-s
mela-s
foglia-s
pollo-s
panettone-s
uovo-s
insalata-s
266
162
149
154
133
117
89
77
72
68
50
58
56
67
54
53
48
44
45
33
6067
6067
6067
6067
6067
6067
6067
6067
6067
6067
6067
6067
6067
6067
6067
6067
6067
6067
6067
6067
1385
497
472
1303
1010
1847
487
313
237
243
159
439
353
1144
393
460
355
207
878
157
1526.3889
1015.2977
929.0494
808.9299
713.0006
541.6069
506.2886
460.9116
446.1746
415.8002
311.5691
311.1240
310.6402
304.8949
291.7856
277.0484
258.5926
256.9483
198.7776
192.3413
23