Türkçe için Kelime Temsillerinin Ö˘grenimi Learning Word

Türkçe için Kelime Temsillerinin Ö˘grenimi
Learning Word Representations for Turkish
Mehmet Umut Sen, Hakan Erdogan
Elektronik Mühendisli˘gi Bölümü
Sabancı Üniversitesi
{umutsen,haerdogan}@sabanciuniv.edu
Özetçe —Son yıllarda yüksek kaliteli kelime temsillerinin, bir
çok do˘gal dil i¸sleme problemlerinin çözümünde performansı artırmada ba¸sarılı oldukları görülmü¸stür. Kelime temsilleri, sözcük
haznesindeki her bir kelimenin Öklit uzayında gerçel bir vektöre
e¸slemlenmesidir. Ö˘grenilen kelime temsillerinin özgül problem
için faydalı olmasının yanında kelimeler arası do˘grusal ili¸ski
kurdukları da gözlemlenmi¸stir. Yeni tanıtılan atla-gram modeli,
zengin anlamsal ve sözdizimsel kelime temsillerinin güdümsüz
˙
ö˘grenimini daha hızlı ve ba¸sarılı kılmı¸stır. Ingilizce
dili için
sıklıkla kullanılmaya ba¸slanan kelime temsillerinin henüz Türkçe
için bir uygulaması bulunmamaktadır. Bu bildiride, atla-gram
modelini büyük miktardaki bir Türkçe veritabanına uyguladık
ve olu¸sturdu˘gumuz soru bankalarıyla bu temsillerin kelime
anlamları arasında ili¸ski kurma ba¸sarısını nicel olarak ölçtük.
Olu¸sturdu˘gumuz kelime temsilleri ve soru bankaları web sitemiz
üzerinden akademik kullanıma açılmı¸stır.
˙sleme, Derin
Anahtar Kelimeler—Kelime temsilleri, Do˘gal Dil I¸
Ö˘grenme
Abstract—High-quality word representations have been very
successful in recent years at improving performance across a variety of NLP tasks. These word representations are the mappings
of each word in the vocabulary to a real vector in the Euclidean
space. Besides high performance on specific tasks, learned word
representations have been shown to perform well on establishing
linear relationships among words. The recently introduced skipgram model improved performance on unsupervised learning of
word embeddings that contains rich syntactic and semantic word
relations both in terms of accuracy and speed. Word embeddings
that have been used frequently on English language, is not applied
to Turkish yet. In this paper, we apply the skip-gram model to
a large Turkish text corpus and measured the performance of
them quantitatively with the "question" sets that we generated.
The learned word embeddings and the question sets are publicly
available at our website.
Keywords—Word embeddings, Natural Language Processing,
Deep Learning
I.
G ˙IR ˙I S¸
Son yıllarda, derin sinir a˘gları (DSA) kullanılarak geli¸stirilen do˘gal dil i¸sleme (DD˙I) yöntemlerinin farklı DD˙I problemleri üzerindeki ba¸sarısı literatürdeki çe¸sitli bildiriler ile
gösterilmi¸stir. Adlandırılmı¸s varlık tanıma, konu¸sma parçası
etiketleme, metin gövdeleme, anlambilimsel rol etiketlendirme
gibi problemlere uygulanan DSA yöntemleri, ço˘gunlukla
˙Ingilizce veritabanları üzerine uygulanmı¸stır. Bu yöntemlerin önemli bir aya˘gı, büyük metin veritabanlarından kec
978-1-4799-4874-114$31.00 2014
IEEE
limeleri yüksek boyutlu sürekli vektörlere e¸slemleyen güdümsüz ö˘grenme a¸samasıdır. Bu s¸ekilde olu¸sturulan sistemlerde,
her kelime (w) için yo˘gun, dü¸sük boyutlu (d) ve gerçek bir
vektör (v w ∈ Rd ) ö˘grenilir ve bu vektör o kelimenin da˘gıtımlı
temsilini olu¸sturur. Bu s¸ekilde da˘gıtımlı kelime temsillerinin
olu¸sturulmasının faydası bu vektörlerin kelimenin anlambilimsel ve sözdizimsel bilgisini yo˘gun bir s¸ekilde dü¸sük boyutta
kodlamasıdır. Her bir boyutunun bir öznitelik gibi görülebilece˘gi bu vektörler yüksek sayılardaki kelime gruplarını içlerinde
barındırırlar.
Kelime temsilleri genellikle belirli DD˙I problemleri için
ileri beslemeli sinir a˘gları [1] hiyerar¸sik modeller [2], [3] ve
özyineli sinir a˘gları [4], [5] gibi derin ö˘grenme yöntemleri
içinde kullanıldı˘gı gibi çe¸sitli alı¸sılagelmi¸s öznitelik tabanlı
yöntemlerde de [6], [7] kullanılmı¸slardır. Bir çalı¸smada [8]
kelime temsilleri aynı anda birden fazla DD˙I problemine girdi
olarak verilip temsillerin problemler arasında ortakla¸sa ö˘grenimi sa˘glanmı¸s ve do˘gruluk oranlarının arttı˘gı görülmü¸stür.
Ba¸ska bir çalı¸smada [9] ö˘grenilen temsillerin anlambilimsel
olarak do˘grusal ili¸ski içinde oldukları görülmü¸stür. Örne˘gin
Kral ile Kraliçe vektörlerinin arasındaki fark vektörü Erkek
ile Bayan vektörleri arasındaki fark vektörüne yakındır. Bu
çıkarım ile kelime temsillerinin belirli bir DD˙I problemi için
de˘gil ama genel olarak anlambilimsel ve sözdizimsel kalitesini
nicel olarak ölçmek için kelime dörtlülerinden olu¸san sorular
hazırlanmı¸stır. Yeni bir çalı¸smada, kelime temsillerinin sinir
a˘gları kullanılarak ö˘grenilmesinin çok uzun zaman alması
problemine bir çözüm olarak atla-gram modeli geli¸stirilmi¸s
[10], [11] ve kelime temsillerinin büyük veritabanlarından çok
hızlı ö˘grenilmesi sa˘glanmı¸stır.
˙Ingilizce dili için sıklıkla kullanılan ve yüksek ba¸sarısı
çokça kanıtlanmı¸s kelime temsilleri -bildi˘gimiz kadarıylaTürkçe için henüz uygulanmamı¸stır. Çalı¸smamızda bu eksi˘gi
azaltmak ve DD˙I üzerine çalı¸sanların bu konuya ilgisini artırmak amacıyla büyük bir Türkçe veritabanında kelime temsilleri
ö˘grenilmi¸stir. Yeni geli¸stirilen atla-gram modeli kullanılarak
ö˘grenilen kelime temsillerinin kalitesi, olu¸sturulan Türkçe soru
kümeleriyle nicel olarak ölçülmü¸stür. Elde edilen kelime temsil
vektörleri ve olu¸sturulan soru kümeleri web sitesi üzerinden
payla¸sıma açılmı¸stır 1 .
II.
ATLA-GRAM MODEL ˙I
Atla-gram modeli [10], [11], cümle içindeki bir kelimeyi
logaritmik-do˘grusal sınıflandırıcıya girdi olarak alır ve o kelimenin etrafındaki kelimeleri öngörmeye çalı¸sır. Girdi olarak
1 http://myweb.sabanciuniv.edu/umutsen/research/
verilen kelime bir izdü¸süm katmanı ile sürekli bir vektör haline
getirilir ve sınıflandırıcıya verilir. Bu izdü¸süm katmanının
parametreleri, kelime temsillerini olu¸sturur. Matematiksel
olarak göstermek gerekirse, e˘ger elimizde w1 , w2 , . . . wT s¸eklinde bir kelime disizi var ise, atla-gram modeli a¸sa˘gıdaki hedef
fonksiyonunu en-çoklamaktadır:
Φ=
T
1X
T t=1
X
log p(wt+j |wt )
(1)
−c≤j≤c,j6=0
III. bölümde gösterildi˘gi üzere eksi-örnekleme yöntemi
hiyerar¸sik yumu¸sak-maksimum yönteminden do˘gruluk oranı
ve hız olarak daha iyi çalı¸smaktadır ve sonraki deneyler bu
yöntemle yapılmı¸stır.
C. Sık Kelimelerin Seyreltilmesi
Burada c verilen bir kelime için öngörülmeye çalı¸sılan
kom¸su kelime sayısının iki katıdır ve e˘gitim ba˘glamının büyüklü˘günü temsil etmektedir. c sayısını artırdı˘gımızda do˘gruluk
oranları daha yüksek vektörler elde edilmesi beklenmektedir,
ancak e˘gitim süresi uzamaktadır.
Denklem (1)’deki p(wt+j |wt ), yumu¸sak-maksimum formülasyonunu kullanmaktadır:
exp(y TwO v wI )
p(wO |wI ) = PW
T
w=1 exp(y w v wI )
yöntem, verilen bir girdi ve çıktı kelime ikilisi için sözcük
haznesinden rastgele k adet kelimeyi yanlı¸s çıktı kelimesi
olarak örnekler ve ko¸sullu olasılık formülasyonuna eksili bir
ifadeyle yerle¸stirir.
(2)
Burada v w ve y w , w kelimesinin girdi ve çıktı temsil
vektörlerini ve W kelime haznesindeki toplam kelime sayısını
göstermektedir. E˘gitimden sonra v w vektörü w kelimesinin
temsil vektörü olarak kullanılır. Paydadaki de˘gerin hesaplanması çok uzun zaman aldı˘gı için bu formülasyon ile yapılan
ö˘grenme elveri¸ssizdir. Bu problemi çözmek için iki farklı
yöntem önerilmi¸stir:
A. Hiyerar¸sik Yumu¸sak-Maksimum
Bu yöntem [3], yumu¸sak-maksimumun hesapsal olarak etkili bir yakla¸sıklamasıdır ve ikili bir a˘gaçtan olu¸smaktadır. Bu
a˘gaçta, yapraklar kelime haznesindeki kelimelerdir ve yaprak
olmayan dü˘gümlerin de ayrı vektörel temsilleri bulunmaktadır.
Herhangi bir kelimenin (1)’de tanımlanan ko¸sullu olasılı˘gı,
a˘gacın kökünden çıktı-kelimenin bulundu˘gu yapra˘ga kadar her
bir dü˘güm için vektörel iç çarpım yapılarak ve çarpımsal olarak
birle¸stirilerek bulunur. Böylece sözcük haznesindeki her bir kelime için W tane ayrı de˘ger bulmak yerine toplamda log2 (W )
tane de˘ger bulunmaktadır, bu da e˘gitim süresini önemli ölçüde
azaltmaktadır. Bu yöntemin iyi yanlarından bir tanesi her bir
kelimenin sadece bir tane temsil vektörünün bulunmasıdır.
A˘gacın yapısı performansı önemli ölçüde etkilemektedir. Bu
bildiride, daha önceki çalı¸smalarda önerildi˘gi üzere [2], [4],
[11] ikili Huffman a˘gacı kullanılmı¸stır. Ayrıntılar referanslarda
bulunabilir.
Olu¸sturdu˘gumuz veritabanında bazı kelimeler çok sık bulunmaktadır ("ve":10 milyon, "bir":9 milyon). Böyle kelimeler, yüksek bulunma sıklıklarına oranla daha nadir geçen
kelimelerden fazla bilgi vermemektedirler. Ba¸ska bir bakı¸s
açısıyla, ö˘grenme algoritması bir kelimeyi yeterince görmü¸sse
daha fazla görmesi o kelimenin temsil vektörlerini çok fazla de˘gi¸stirmeyecektir. Çok sık geçen ve daha nadir geçen
kelimelerin arasındaki dengesizli˘gi gidermek amacıyla daha
önceden önerilen [11] bulu¸ssal s¸u yöntem kullanılmı¸stır: her
kelime wi a¸sa˘gıdaki ihtimal de˘geriyle orantılı olarak e˘gitimde
girdi olarak kullanılmamı¸stır:
s
t
p(wi ) = 1 −
(4)
f (wi )
Burada f (wi ) kelimenin bulunma frekansı ve t, 0.001 olarak
seçti˘gimiz bir e¸sik de˘gerdir. Bu e¸sik de˘gerin altındaki frekansa
sahip kelimeler seyreltilme kuralına tabi de˘gildir.
III.
D ENEYLER
Kelime temsil vektörlerinin e˘gitilmesi için 2 farklı metin
veritabanı kullanılmı¸stır. Bunlardan ilki vikipedi verileri [14],
ikincisi Bo˘gaziçi Üniversitesi’nden payla¸sılan haber ve ba¸ska
örün sitelerinden toplanılmı¸s ar¸sivlerdir [15]. Vikipedi veritabanı -tablolar ve benzeri "temiz" metin olmayan ö˘geler
çıkarıldı˘gında- yakla¸sık 52 milyon kelime, Bo˘gaziçi-haber
veritabanı 208 milyon ve di˘ger Bo˘gaziçi veritabanı 270 milyon
kelimeden olu¸smaktadırlar.
˙sleme
A. Ön-I¸
(3)
Öncelikle
veritabanları
noktalama
i¸saretlerinden
ve metin olarak kabul edilemeyecek kısımlardan
temizlenmi¸stir. Türkçe’nin zengin morfolojik yapısından
ötürü kelimeleri köklerine ayırmak temsil vektörlerinin
kalitesini etkilemektedir. Bu nedenle veritabanında 1000’den
az sayıda görülmü¸s kelimeler Zemberek [16] araç takımıyla
kök ve eklerine ayrılmı¸stır, gerisi oldu˘gu gibi bırakılmı¸stır.
Ayrı¸stırılamayan kelimeler yine Zemberek araç takımının
ASCII karakter dönü¸stürücüsüne verilerek Türkçe olmayan
klavyeden yazılmı¸s kelimelerin dönü¸stürülmesi sa˘glanmı¸stır.
Dönü¸stürücüden çıkan kelimeler tekrar ayrı¸stırıcıya verilmi¸s ve
ayrı¸stırılamayanlar veritabanında oldu˘gu haliyle bırakılmı¸stır.
Ayrı¸stırıcı birden fazla seçenek verdi˘gi durumda en uzun olan
kök tercih edilmi¸stir ve kelimenin kökten sonraki parçası
tek bir ek olarak alınmı¸stır (geldiklerinde ⇒ gelmek +
_diklerinde).
Burada wi sözcük haznesinden rastgele seçilmi¸s bir kelimedir
ve σ(x) = 1/(1 + exp(−x)) sigmoid fonksiyonudur. Bu
Kelimeler bu s¸ekilde dönü¸stürüldükten ve hepsi küçük
harfe çevrildikten sonra veritabanında 6’dan az sayıda görülen
kelimeler çıkarılmı¸stır. En son elde etti˘gimiz e˘gitim verisinde
B. Eksi Örnekleme
Eksi-örnekleme [11], gürültü kar¸sıtsal kestirim yönteminin
[12], [13] basitle¸stirilmi¸s halidir ve yumu¸sak maksimumdaki
ko¸sullu olasılık de˘gerini (log p(wo |wI )) a¸sa˘gıdaki formülle
de˘gi¸stirmektedir:
log σ(y Two v wI )
+
k
X
log σ(−y Twi v wI )
i=1
Tablo I: Anlambilimsel analoji soru kümeleri
Küme ˙Ismi
Soru Sayısı
Örnek
Akrabalık
Ba¸skentler
E¸s-anlamlı
˙Ilçeler
Para birimleri
Zıt anlamlı
132
2970
3422
6466
156
2756
(kız → o˘gul) ⇔ (gelin → damat)
(Tokyo → Japonya) ⇔ (Brüksel → Belçika)
(sözcük → kelime) ⇔ (ırmak → nehir)
(Konak → ˙Izmir) ⇔ (Beyo˘glu → ˙Istanbul)
(ABD → dolar) ⇔ (Hindistan → rupi)
(barı¸s → sava¸s) ⇔ (büyük → küçük)
Tablo III: Grup soru kümeleri
Ülkeler
Tablo II: Sözdizimsel analoji soru kümeleri
Küme ˙Ismi
Soru Sayısı
Örnek
Ço˘gullar
Olumsuzlar
Geçmi¸s Zaman
Geni¸s Zaman
4830
756
3540
1560
(olay → olaylar) ⇔ (i¸slem → i¸slemler)
(sever → sevmez) ⇔ (döner → dönmez)
(bulmak → buldu) ⇔ (istemek → istedi)
(etkilemek → etkiler) ⇔ (ya¸samak → ya¸sar)
yakla¸sık 530 milyon kelime vardır ve kelime haznesindeki
kelime sayısı -25 bini ek olmak üzere- yakla¸sık 380 bindir.
B. Nicel Do˘gruluk Oranları
Birimler
v Dˆ vektörü bulunduktan sonra kelime haznesindeki, bu vektöre
-kosinüs uzaklı˘gı dikkate alındı˘gında- en yakın temsil vektörüne sahip sözcük (A, B ve C hariç) cevap olarak alınır:
T
ˆ = arg max v w v
Dˆ D
w kv w k v ˆ D
(6)
Analojik çerçevede anlambilimsel ve sözdizimsel do˘gruluk
oranlarını ölçmek için çe¸sitli soru kümeleri hazırladık. Bu soru
kümelerinin tanımları ve çe¸sitli örnekler Tablo-I ve II’de verilmi¸stir. Bu s¸ekilde toplamda 26588 farklı soru elde edilmi¸stir.
˙Ikinci test kategorisi, verilen 6 elemanlı bir kelime
kümesinden kümeye ait olmayan kelimeyi bulmak üzerinedir.
Kümeye ait olmayan kelime bulunurken, tüm kelimelerin temsil vektörlerinin ortalaması alınır ve öklit uzayında ortalama
vektöre -kosinüs uzaklı˘gı dikkate alındı˘gında- en uzak olan
vektöre sahip kelime seçilir. Soruları zorla¸stırmak için anlambilimsel olarak birbirine yakın kelimelerden kümeler olu¸sturulmu¸stur. Örne˘gin ülke isimleri kıtalara göre gruplanmı¸stır
ve verilen bir ülke setinde di˘gerleriyle aynı kıtada bulun˙
mayan ülkenin bulunması istenmi¸stir (ör. Ingiltere,
Fransa,
˙
˙
Hollanda, Irlanda,
Isviçre,
Cezayir) Bu soru kümelerinin türleri Tablo-III’te verilmi¸stir. Bu s¸ekilde toplamda 2172 soru elde
edilmi¸stir.
C. Sonuçlar
1) Yöntem Kar¸sıla¸stırması: Öncelikle, olu¸sturulan soru
bankaları ile eksi-örnekleme ve hiyerar¸sik maksimum yöntemleri kar¸sıla¸stırılmı¸stır. Eksi-örneklemede, her bir kelime için
˙Iller
Hayvanlar
1029
476
31
198
438
Asya
Afrika
Do˘gu Avrupa
Kuzey Avrupa
Güney Avrupa
Batı Avrupa
Güney Amerika
Kuzey Amerika
a˘gırlık
uzunluk
sıcaklık
alan
basınç
hacim
zaman
bilg. hafızası
para
meyve a˘g.
di˘ger a˘g.
ku¸slar
balıklar
sürüngenler
memeliler
Marmara
Ege
Akdeniz
Karadeniz
Do˘gu Anadolu
Güney Do˘gu Anadolu
˙Iç Anadolu
Tablo IV: Do˘gruluk oranları - hiyerar¸sik maksimum ve eksiörnekleme
Grup
Anlambil.
Sözdiz.
Genel
58.83
Süre
Çıkarılan kelime temsillerinin kalitesini nicel olarak
ölçmek için farklı iki kategoride do˘grusal test yapılmı¸stır.
Bunlardan ilki analojik ili¸ski kurmak üzerinedir ve atla-gram
modelinin tanıtıldı˘gı çalı¸smada ingilizce dili için yapılmı¸stır
[10], [11]. Bu kategoride her bir test sorusu 4 kelimeden
olu¸smaktadır ve "A ile B arasındaki ili¸ski C ile ne arasında
vardır?" s¸eklindedir. Bu s¸ekildeki soruları cevaplandırmak için
temsil vektörleri arasındaki do˘grusal ili¸skiye bakılmı¸stır:
(5)
v Dˆ = v B − v A + v C
A˘gaçlar
Hiyerar¸sik-maks.
˙Ilk-1
˙Ilk-3
23.02
28.67
25.29
35.77
43.58
38.91
˙Ilk-10
Grup
Eksi-örnekleme
˙Ilk-1
˙Ilk-3
˙Ilk-10
49.33
58.75
53.11
57.50
29.69
42.25
34.74
56.48
72.78
63.03
642 dakika
43.18
58.97
49.52
459 dakika
Tablo V: Do˘gruluk oranları - ekli ve eksiz veritabanları
Anlambil.
Sözdiz.
Genel
Süre
Grup
Eksiz
˙Ilk-1
˙Ilk-3
˙Ilk-10
Grup
˙Ilk-1
˙Ilk-3
˙Ilk-10
61.00
35.40
43.17
38.52
60.80
74.68
66.38
57.50
29.69
42.25
34.74
43.18
58.97
49.52
56.48
72.78
63.03
48.42
60.21
53.16
453 dakika
Ekli
459 dakika
veritabanından 5 yanlı¸s kelime rastgele seçilmi¸stir (Denklem(3)’te k = 5). Her iki yöntem için de e˘gitim ba˘glamının
büyüklü˘gü 5 seçilmi¸stir (Denklem-(1)’de c = 5). Vektör boyutları 200 alınmı¸stır. Bu s¸ekilde yapılan deneylerin sonuçları
Tablo-IV’te verilmi¸stir. E˘ger algoritmaya verilen herhangi bir
sorunun cevabı ilk n tercih içinde varsa (n ∈ {1, 3, 10}) "˙Ilkn" kategorisinde do˘gru cevap olarak sayılmı¸stır.
Sonuçlara baktı˘gımızda, eksi-örnekleme yönteminin
hiyerar¸sik-maksimum yöntemini hem hız olarak hem de
do˘gruluk oranı olarak geçti˘gini görmekteyiz. Çıkarılacak
ba¸ska bir sonuç da anlambilimsel do˘gruluk oranlarının
sözdizimsel do˘gruluk oranlarından daha dü¸sük oldu˘gudur.
Bunun olası bir sebebi, sözdizimsel sorularda ço˘gunlukla
yüklem bulunması ve yüklem sayılarının veritabanında
genellikle fazla olmasıdır. Ancak "e¸s-anlamlı" ve "zıt-anlamlı"
gibi kelime sorularının -temsili vektörlerin do˘grusal ili¸skileri
açısından- zorlu˘gu da yadsınmamalıdır. Sonraki deneylerin
hepsi eksi-örnekleme yöntemiyle yapılmı¸stır.
2) Eklerin Çıkarılması: Kelime temsillerinin kalitelerini
ölçerken kullanılan sorularda ek olan kelimeler bulunmadı˘gı
için veritabanından eklerin çıkarılması daha temiz veritabanı olu¸sturaca˘gından do˘gruluk oranını artırması beklenmektedir. Bu amaçla ekler veritabanından çıkarılarak kar¸sıla¸stırma
yapılmı¸stır ve sonuçlar Tablo-V’te verilmi¸stir. A¸sa˘gıda gösterilen deneyler eklerin çıkarıldı˘gı veritabanından yapılmı¸stır.
Sozdizimsel Dogruluk Oranlari
Anlambilimsel Dogruluk Oranlari
Toplam Dogruluk Oranlari
70
65
80
65
60
75
60
55
55
50
70
50
45
Dogruluk Orani
Dogruluk Orani
Dogruluk Orani
65
45
40
40
35
35
30
60
55
50
45
30
25
100
ilk−1
ilk−3
ilk−5
ilk−10
grup
25
200
300
400
500
600
40
ilk−1
ilk−3
ilk−5
ilk−10
20
100
700
35
200
300
400
500
600
700
30
100
(a) Toplam
200
300
400
500
600
700
Vektor Boyutu
Vektor Boyutu
Vektor Boyutu
ilk−1
ilk−3
ilk−5
ilk−10
(b) Anlambilimsel
(c) Sözdizimsel
Sekil
¸
1: Do˘gruluk oranlarının vektör boyutuna göre de˘gi¸simi.
Tablo VI: Vektörlerinin boyutlarının e˘gitim sürelerine etkisi
Boyut
100
200
300
400
500
600
700
Süre (dakika)
299
453
539
735
899
994
1171
[5]
[6]
[7]
3) Vektör Boyutlarının Etkisi: Bu bölümde temsil vektörlerinin boyutunun anlambilimsel ve sözdizimsel do˘gruluk
oranlarına etkisi incelenmi¸stir. Bu amaçla eksi-örnekleme yöntemiyle farklı vektör boyutlarında temsiller ö˘grenilmi¸stir. Di˘ger
parametreler önceki deneylerle aynı alınmı¸stır. Vektör boyutunun do˘gruluk oranlarına etkisi Sekil-1’de
¸
gösterilmi¸stir.
Bu sonuçlara bakıldı˘gında, vektör boyutlarındaki de˘gi¸simin
genel olarak do˘gruluk oranlarını etkiledi˘gi görülmü¸stür. Bu
etki anlambilimsel sorularla yapılan testte daha fazladır. Vektör
boyutlarının e˘gitim sürelerine etkisi Tablo-VI’da verilmi¸stir.
IV.
S ONUÇ VE G ELECEK Ç ALI SMALAR
¸
Bu bildiride, büyük bir Türkçe veritabanı üzerinde kelime
temsil vektörleri ö˘grenilmi¸stir. Olu¸sturulan anlambilimsel ve
sözdizimsel kelime ili¸skilerinden olu¸san soru kümeleri ile
vektörlerin do˘grusal ba¸sarısı ölçülmü¸stür. ˙Ingilizcede ba¸sarılı
bir s¸ekilde kullanılan kelime temsilleri ve derin ö˘grenmenin
Türkçe üzerine çalı¸smaları te¸svik etmek amacıyla bu bildiriyi
yayınladık. Herhangi bir DD˙I problemini kelime temsillerini
kullanarak çözen bir sistemin temsillerinin ilklendirilmesi için
bu bildirideki yöntem kullanılabilir. Ayrıca Türkçe’nin zengin
morfolojik yapısını dikkate alan bir model [17] geli¸stirilmesi,
kelime temsillerinin ba¸sarımını önemli ölçüde artıracaktır.
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
K AYNAKÇA
[1]
Yoshua Bengio, Réjean Ducharme, Pascal Vincent, and Christian Janvin,
“A neural probabilistic language model,” J. Mach. Learn. Res., vol. 3,
pp. 1137–1155, Mar. 2003.
[2] Andriy Mnih and Geoffrey Hinton, “A Scalable Hierarchical Distributed
Language Model,” in Advances in Neural Information Processing
Systems, 2008, vol. 21.
[3] Frederic Morin and Yoshua Bengio, “Hierarchical probabilistic neural
network language model,” in AISTATS’05, 2005, pp. 246–252.
[4] Tomas Mikolov, Stefan Kombrink, Lukas Burget, Jan Cernocký, and
Sanjeev Khudanpur, “Extensions of recurrent neural network language
model.,” in ICASSP. 2011, pp. 5528–5531, IEEE.
[16]
[17]
Tomas Mikolov, Martin Karafiát, Lukas Burget, Jan Cernocký, and
Sanjeev Khudanpur, “Recurrent neural network based language model.,”
in INTERSPEECH, Takao Kobayashi, Keikichi Hirose, and Satoshi
Nakamura, Eds. 2010, pp. 1045–1048, ISCA.
Terry Koo, Xavier Carreras, and Michael Collins, “Simple semisupervised dependency parsing,” in In Proc. ACL/HLT, 2008.
Lev Ratinov and Dan Roth, “Design challenges and misconceptions
in named entity recognition,” in Proceedings of the Thirteenth Conference on Computational Natural Language Learning, Stroudsburg, PA,
USA, 2009, CoNLL ’09, pp. 147–155, Association for Computational
Linguistics.
Ronan Collobert and Jason Weston, “A unified architecture for natural
language processing: Deep neural networks with multitask learning,” in
Proceedings of the 25th International Conference on Machine Learning,
New York, NY, USA, 2008, ICML ’08, pp. 160–167, ACM.
Tomas Mikolov, Wen tau Yih, and Geoffrey Zweig, “Linguistic
regularities in continuous space word representations.,” in HLT-NAACL.
2013, pp. 746–751, The Association for Computational Linguistics.
Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean, “Efficient
estimation of word representations in vector space,” CoRR, vol.
abs/1301.3781, 2013.
Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, and
Jeffrey Dean, “Distributed representations of words and phrases and
their compositionality.,” in NIPS, Christopher J. C. Burges, Léon
Bottou, Zoubin Ghahramani, and Kilian Q. Weinberger, Eds., 2013,
pp. 3111–3119.
Michael Gutmann and Aapo Hyvärinen, “Noise-contrastive estimation
of unnormalized statistical models, with applications to natural image
statistics,” Journal of Machine Learning Research, vol. 13, pp. 307–361,
2012.
A. Mnih and Y. W. Teh, “A fast and simple algorithm for training neural
probabilistic language models,” in Proceedings of the International
Conference on Machine Learning, 2012.
“trwikimedia
dump
progress
on
20131221,”
http://dumps.wikimedia.org/trwikimedia/20131221/,
Accessed:
2013-12-25.
Ha¸sim Sak, Tunga Güngör, and Murat Saraçlar, “Turkish language
resources: Morphological parser, morphological disambiguator and web
corpus,” in GoTAL 2008. 2008, vol. 5221 of LNCS, pp. 417–427,
Springer.
Ahmet Afsin Akin and Mehmet Dundar Akin , “Zemberek, an
open source nlp framework for turkic languages,” Yeni versiyon:
https://github.com/ahmetaa/zemberek-nlp, 2007.
Minh-Thang Luong, Richard Socher, and Christopher D. Manning,
“Better word representations with recursive neural networks for morphology,” in CoNLL, Sofia, Bulgaria, 2013.