Türkçe için Kelime Temsillerinin Ö˘grenimi Learning Word Representations for Turkish Mehmet Umut Sen, Hakan Erdogan Elektronik Mühendisli˘gi Bölümü Sabancı Üniversitesi {umutsen,haerdogan}@sabanciuniv.edu Özetçe —Son yıllarda yüksek kaliteli kelime temsillerinin, bir çok do˘gal dil i¸sleme problemlerinin çözümünde performansı artırmada ba¸sarılı oldukları görülmü¸stür. Kelime temsilleri, sözcük haznesindeki her bir kelimenin Öklit uzayında gerçel bir vektöre e¸slemlenmesidir. Ö˘grenilen kelime temsillerinin özgül problem için faydalı olmasının yanında kelimeler arası do˘grusal ili¸ski kurdukları da gözlemlenmi¸stir. Yeni tanıtılan atla-gram modeli, zengin anlamsal ve sözdizimsel kelime temsillerinin güdümsüz ˙ ö˘grenimini daha hızlı ve ba¸sarılı kılmı¸stır. Ingilizce dili için sıklıkla kullanılmaya ba¸slanan kelime temsillerinin henüz Türkçe için bir uygulaması bulunmamaktadır. Bu bildiride, atla-gram modelini büyük miktardaki bir Türkçe veritabanına uyguladık ve olu¸sturdu˘gumuz soru bankalarıyla bu temsillerin kelime anlamları arasında ili¸ski kurma ba¸sarısını nicel olarak ölçtük. Olu¸sturdu˘gumuz kelime temsilleri ve soru bankaları web sitemiz üzerinden akademik kullanıma açılmı¸stır. ˙sleme, Derin Anahtar Kelimeler—Kelime temsilleri, Do˘gal Dil I¸ Ö˘grenme Abstract—High-quality word representations have been very successful in recent years at improving performance across a variety of NLP tasks. These word representations are the mappings of each word in the vocabulary to a real vector in the Euclidean space. Besides high performance on specific tasks, learned word representations have been shown to perform well on establishing linear relationships among words. The recently introduced skipgram model improved performance on unsupervised learning of word embeddings that contains rich syntactic and semantic word relations both in terms of accuracy and speed. Word embeddings that have been used frequently on English language, is not applied to Turkish yet. In this paper, we apply the skip-gram model to a large Turkish text corpus and measured the performance of them quantitatively with the "question" sets that we generated. The learned word embeddings and the question sets are publicly available at our website. Keywords—Word embeddings, Natural Language Processing, Deep Learning I. G ˙IR ˙I S¸ Son yıllarda, derin sinir a˘gları (DSA) kullanılarak geli¸stirilen do˘gal dil i¸sleme (DD˙I) yöntemlerinin farklı DD˙I problemleri üzerindeki ba¸sarısı literatürdeki çe¸sitli bildiriler ile gösterilmi¸stir. Adlandırılmı¸s varlık tanıma, konu¸sma parçası etiketleme, metin gövdeleme, anlambilimsel rol etiketlendirme gibi problemlere uygulanan DSA yöntemleri, ço˘gunlukla ˙Ingilizce veritabanları üzerine uygulanmı¸stır. Bu yöntemlerin önemli bir aya˘gı, büyük metin veritabanlarından kec 978-1-4799-4874-114$31.00 2014 IEEE limeleri yüksek boyutlu sürekli vektörlere e¸slemleyen güdümsüz ö˘grenme a¸samasıdır. Bu s¸ekilde olu¸sturulan sistemlerde, her kelime (w) için yo˘gun, dü¸sük boyutlu (d) ve gerçek bir vektör (v w ∈ Rd ) ö˘grenilir ve bu vektör o kelimenin da˘gıtımlı temsilini olu¸sturur. Bu s¸ekilde da˘gıtımlı kelime temsillerinin olu¸sturulmasının faydası bu vektörlerin kelimenin anlambilimsel ve sözdizimsel bilgisini yo˘gun bir s¸ekilde dü¸sük boyutta kodlamasıdır. Her bir boyutunun bir öznitelik gibi görülebilece˘gi bu vektörler yüksek sayılardaki kelime gruplarını içlerinde barındırırlar. Kelime temsilleri genellikle belirli DD˙I problemleri için ileri beslemeli sinir a˘gları [1] hiyerar¸sik modeller [2], [3] ve özyineli sinir a˘gları [4], [5] gibi derin ö˘grenme yöntemleri içinde kullanıldı˘gı gibi çe¸sitli alı¸sılagelmi¸s öznitelik tabanlı yöntemlerde de [6], [7] kullanılmı¸slardır. Bir çalı¸smada [8] kelime temsilleri aynı anda birden fazla DD˙I problemine girdi olarak verilip temsillerin problemler arasında ortakla¸sa ö˘grenimi sa˘glanmı¸s ve do˘gruluk oranlarının arttı˘gı görülmü¸stür. Ba¸ska bir çalı¸smada [9] ö˘grenilen temsillerin anlambilimsel olarak do˘grusal ili¸ski içinde oldukları görülmü¸stür. Örne˘gin Kral ile Kraliçe vektörlerinin arasındaki fark vektörü Erkek ile Bayan vektörleri arasındaki fark vektörüne yakındır. Bu çıkarım ile kelime temsillerinin belirli bir DD˙I problemi için de˘gil ama genel olarak anlambilimsel ve sözdizimsel kalitesini nicel olarak ölçmek için kelime dörtlülerinden olu¸san sorular hazırlanmı¸stır. Yeni bir çalı¸smada, kelime temsillerinin sinir a˘gları kullanılarak ö˘grenilmesinin çok uzun zaman alması problemine bir çözüm olarak atla-gram modeli geli¸stirilmi¸s [10], [11] ve kelime temsillerinin büyük veritabanlarından çok hızlı ö˘grenilmesi sa˘glanmı¸stır. ˙Ingilizce dili için sıklıkla kullanılan ve yüksek ba¸sarısı çokça kanıtlanmı¸s kelime temsilleri -bildi˘gimiz kadarıylaTürkçe için henüz uygulanmamı¸stır. Çalı¸smamızda bu eksi˘gi azaltmak ve DD˙I üzerine çalı¸sanların bu konuya ilgisini artırmak amacıyla büyük bir Türkçe veritabanında kelime temsilleri ö˘grenilmi¸stir. Yeni geli¸stirilen atla-gram modeli kullanılarak ö˘grenilen kelime temsillerinin kalitesi, olu¸sturulan Türkçe soru kümeleriyle nicel olarak ölçülmü¸stür. Elde edilen kelime temsil vektörleri ve olu¸sturulan soru kümeleri web sitesi üzerinden payla¸sıma açılmı¸stır 1 . II. ATLA-GRAM MODEL ˙I Atla-gram modeli [10], [11], cümle içindeki bir kelimeyi logaritmik-do˘grusal sınıflandırıcıya girdi olarak alır ve o kelimenin etrafındaki kelimeleri öngörmeye çalı¸sır. Girdi olarak 1 http://myweb.sabanciuniv.edu/umutsen/research/ verilen kelime bir izdü¸süm katmanı ile sürekli bir vektör haline getirilir ve sınıflandırıcıya verilir. Bu izdü¸süm katmanının parametreleri, kelime temsillerini olu¸sturur. Matematiksel olarak göstermek gerekirse, e˘ger elimizde w1 , w2 , . . . wT s¸eklinde bir kelime disizi var ise, atla-gram modeli a¸sa˘gıdaki hedef fonksiyonunu en-çoklamaktadır: Φ= T 1X T t=1 X log p(wt+j |wt ) (1) −c≤j≤c,j6=0 III. bölümde gösterildi˘gi üzere eksi-örnekleme yöntemi hiyerar¸sik yumu¸sak-maksimum yönteminden do˘gruluk oranı ve hız olarak daha iyi çalı¸smaktadır ve sonraki deneyler bu yöntemle yapılmı¸stır. C. Sık Kelimelerin Seyreltilmesi Burada c verilen bir kelime için öngörülmeye çalı¸sılan kom¸su kelime sayısının iki katıdır ve e˘gitim ba˘glamının büyüklü˘günü temsil etmektedir. c sayısını artırdı˘gımızda do˘gruluk oranları daha yüksek vektörler elde edilmesi beklenmektedir, ancak e˘gitim süresi uzamaktadır. Denklem (1)’deki p(wt+j |wt ), yumu¸sak-maksimum formülasyonunu kullanmaktadır: exp(y TwO v wI ) p(wO |wI ) = PW T w=1 exp(y w v wI ) yöntem, verilen bir girdi ve çıktı kelime ikilisi için sözcük haznesinden rastgele k adet kelimeyi yanlı¸s çıktı kelimesi olarak örnekler ve ko¸sullu olasılık formülasyonuna eksili bir ifadeyle yerle¸stirir. (2) Burada v w ve y w , w kelimesinin girdi ve çıktı temsil vektörlerini ve W kelime haznesindeki toplam kelime sayısını göstermektedir. E˘gitimden sonra v w vektörü w kelimesinin temsil vektörü olarak kullanılır. Paydadaki de˘gerin hesaplanması çok uzun zaman aldı˘gı için bu formülasyon ile yapılan ö˘grenme elveri¸ssizdir. Bu problemi çözmek için iki farklı yöntem önerilmi¸stir: A. Hiyerar¸sik Yumu¸sak-Maksimum Bu yöntem [3], yumu¸sak-maksimumun hesapsal olarak etkili bir yakla¸sıklamasıdır ve ikili bir a˘gaçtan olu¸smaktadır. Bu a˘gaçta, yapraklar kelime haznesindeki kelimelerdir ve yaprak olmayan dü˘gümlerin de ayrı vektörel temsilleri bulunmaktadır. Herhangi bir kelimenin (1)’de tanımlanan ko¸sullu olasılı˘gı, a˘gacın kökünden çıktı-kelimenin bulundu˘gu yapra˘ga kadar her bir dü˘güm için vektörel iç çarpım yapılarak ve çarpımsal olarak birle¸stirilerek bulunur. Böylece sözcük haznesindeki her bir kelime için W tane ayrı de˘ger bulmak yerine toplamda log2 (W ) tane de˘ger bulunmaktadır, bu da e˘gitim süresini önemli ölçüde azaltmaktadır. Bu yöntemin iyi yanlarından bir tanesi her bir kelimenin sadece bir tane temsil vektörünün bulunmasıdır. A˘gacın yapısı performansı önemli ölçüde etkilemektedir. Bu bildiride, daha önceki çalı¸smalarda önerildi˘gi üzere [2], [4], [11] ikili Huffman a˘gacı kullanılmı¸stır. Ayrıntılar referanslarda bulunabilir. Olu¸sturdu˘gumuz veritabanında bazı kelimeler çok sık bulunmaktadır ("ve":10 milyon, "bir":9 milyon). Böyle kelimeler, yüksek bulunma sıklıklarına oranla daha nadir geçen kelimelerden fazla bilgi vermemektedirler. Ba¸ska bir bakı¸s açısıyla, ö˘grenme algoritması bir kelimeyi yeterince görmü¸sse daha fazla görmesi o kelimenin temsil vektörlerini çok fazla de˘gi¸stirmeyecektir. Çok sık geçen ve daha nadir geçen kelimelerin arasındaki dengesizli˘gi gidermek amacıyla daha önceden önerilen [11] bulu¸ssal s¸u yöntem kullanılmı¸stır: her kelime wi a¸sa˘gıdaki ihtimal de˘geriyle orantılı olarak e˘gitimde girdi olarak kullanılmamı¸stır: s t p(wi ) = 1 − (4) f (wi ) Burada f (wi ) kelimenin bulunma frekansı ve t, 0.001 olarak seçti˘gimiz bir e¸sik de˘gerdir. Bu e¸sik de˘gerin altındaki frekansa sahip kelimeler seyreltilme kuralına tabi de˘gildir. III. D ENEYLER Kelime temsil vektörlerinin e˘gitilmesi için 2 farklı metin veritabanı kullanılmı¸stır. Bunlardan ilki vikipedi verileri [14], ikincisi Bo˘gaziçi Üniversitesi’nden payla¸sılan haber ve ba¸ska örün sitelerinden toplanılmı¸s ar¸sivlerdir [15]. Vikipedi veritabanı -tablolar ve benzeri "temiz" metin olmayan ö˘geler çıkarıldı˘gında- yakla¸sık 52 milyon kelime, Bo˘gaziçi-haber veritabanı 208 milyon ve di˘ger Bo˘gaziçi veritabanı 270 milyon kelimeden olu¸smaktadırlar. ˙sleme A. Ön-I¸ (3) Öncelikle veritabanları noktalama i¸saretlerinden ve metin olarak kabul edilemeyecek kısımlardan temizlenmi¸stir. Türkçe’nin zengin morfolojik yapısından ötürü kelimeleri köklerine ayırmak temsil vektörlerinin kalitesini etkilemektedir. Bu nedenle veritabanında 1000’den az sayıda görülmü¸s kelimeler Zemberek [16] araç takımıyla kök ve eklerine ayrılmı¸stır, gerisi oldu˘gu gibi bırakılmı¸stır. Ayrı¸stırılamayan kelimeler yine Zemberek araç takımının ASCII karakter dönü¸stürücüsüne verilerek Türkçe olmayan klavyeden yazılmı¸s kelimelerin dönü¸stürülmesi sa˘glanmı¸stır. Dönü¸stürücüden çıkan kelimeler tekrar ayrı¸stırıcıya verilmi¸s ve ayrı¸stırılamayanlar veritabanında oldu˘gu haliyle bırakılmı¸stır. Ayrı¸stırıcı birden fazla seçenek verdi˘gi durumda en uzun olan kök tercih edilmi¸stir ve kelimenin kökten sonraki parçası tek bir ek olarak alınmı¸stır (geldiklerinde ⇒ gelmek + _diklerinde). Burada wi sözcük haznesinden rastgele seçilmi¸s bir kelimedir ve σ(x) = 1/(1 + exp(−x)) sigmoid fonksiyonudur. Bu Kelimeler bu s¸ekilde dönü¸stürüldükten ve hepsi küçük harfe çevrildikten sonra veritabanında 6’dan az sayıda görülen kelimeler çıkarılmı¸stır. En son elde etti˘gimiz e˘gitim verisinde B. Eksi Örnekleme Eksi-örnekleme [11], gürültü kar¸sıtsal kestirim yönteminin [12], [13] basitle¸stirilmi¸s halidir ve yumu¸sak maksimumdaki ko¸sullu olasılık de˘gerini (log p(wo |wI )) a¸sa˘gıdaki formülle de˘gi¸stirmektedir: log σ(y Two v wI ) + k X log σ(−y Twi v wI ) i=1 Tablo I: Anlambilimsel analoji soru kümeleri Küme ˙Ismi Soru Sayısı Örnek Akrabalık Ba¸skentler E¸s-anlamlı ˙Ilçeler Para birimleri Zıt anlamlı 132 2970 3422 6466 156 2756 (kız → o˘gul) ⇔ (gelin → damat) (Tokyo → Japonya) ⇔ (Brüksel → Belçika) (sözcük → kelime) ⇔ (ırmak → nehir) (Konak → ˙Izmir) ⇔ (Beyo˘glu → ˙Istanbul) (ABD → dolar) ⇔ (Hindistan → rupi) (barı¸s → sava¸s) ⇔ (büyük → küçük) Tablo III: Grup soru kümeleri Ülkeler Tablo II: Sözdizimsel analoji soru kümeleri Küme ˙Ismi Soru Sayısı Örnek Ço˘gullar Olumsuzlar Geçmi¸s Zaman Geni¸s Zaman 4830 756 3540 1560 (olay → olaylar) ⇔ (i¸slem → i¸slemler) (sever → sevmez) ⇔ (döner → dönmez) (bulmak → buldu) ⇔ (istemek → istedi) (etkilemek → etkiler) ⇔ (ya¸samak → ya¸sar) yakla¸sık 530 milyon kelime vardır ve kelime haznesindeki kelime sayısı -25 bini ek olmak üzere- yakla¸sık 380 bindir. B. Nicel Do˘gruluk Oranları Birimler v Dˆ vektörü bulunduktan sonra kelime haznesindeki, bu vektöre -kosinüs uzaklı˘gı dikkate alındı˘gında- en yakın temsil vektörüne sahip sözcük (A, B ve C hariç) cevap olarak alınır: T ˆ = arg max v w v Dˆ D w kv w k v ˆ D (6) Analojik çerçevede anlambilimsel ve sözdizimsel do˘gruluk oranlarını ölçmek için çe¸sitli soru kümeleri hazırladık. Bu soru kümelerinin tanımları ve çe¸sitli örnekler Tablo-I ve II’de verilmi¸stir. Bu s¸ekilde toplamda 26588 farklı soru elde edilmi¸stir. ˙Ikinci test kategorisi, verilen 6 elemanlı bir kelime kümesinden kümeye ait olmayan kelimeyi bulmak üzerinedir. Kümeye ait olmayan kelime bulunurken, tüm kelimelerin temsil vektörlerinin ortalaması alınır ve öklit uzayında ortalama vektöre -kosinüs uzaklı˘gı dikkate alındı˘gında- en uzak olan vektöre sahip kelime seçilir. Soruları zorla¸stırmak için anlambilimsel olarak birbirine yakın kelimelerden kümeler olu¸sturulmu¸stur. Örne˘gin ülke isimleri kıtalara göre gruplanmı¸stır ve verilen bir ülke setinde di˘gerleriyle aynı kıtada bulun˙ mayan ülkenin bulunması istenmi¸stir (ör. Ingiltere, Fransa, ˙ ˙ Hollanda, Irlanda, Isviçre, Cezayir) Bu soru kümelerinin türleri Tablo-III’te verilmi¸stir. Bu s¸ekilde toplamda 2172 soru elde edilmi¸stir. C. Sonuçlar 1) Yöntem Kar¸sıla¸stırması: Öncelikle, olu¸sturulan soru bankaları ile eksi-örnekleme ve hiyerar¸sik maksimum yöntemleri kar¸sıla¸stırılmı¸stır. Eksi-örneklemede, her bir kelime için ˙Iller Hayvanlar 1029 476 31 198 438 Asya Afrika Do˘gu Avrupa Kuzey Avrupa Güney Avrupa Batı Avrupa Güney Amerika Kuzey Amerika a˘gırlık uzunluk sıcaklık alan basınç hacim zaman bilg. hafızası para meyve a˘g. di˘ger a˘g. ku¸slar balıklar sürüngenler memeliler Marmara Ege Akdeniz Karadeniz Do˘gu Anadolu Güney Do˘gu Anadolu ˙Iç Anadolu Tablo IV: Do˘gruluk oranları - hiyerar¸sik maksimum ve eksiörnekleme Grup Anlambil. Sözdiz. Genel 58.83 Süre Çıkarılan kelime temsillerinin kalitesini nicel olarak ölçmek için farklı iki kategoride do˘grusal test yapılmı¸stır. Bunlardan ilki analojik ili¸ski kurmak üzerinedir ve atla-gram modelinin tanıtıldı˘gı çalı¸smada ingilizce dili için yapılmı¸stır [10], [11]. Bu kategoride her bir test sorusu 4 kelimeden olu¸smaktadır ve "A ile B arasındaki ili¸ski C ile ne arasında vardır?" s¸eklindedir. Bu s¸ekildeki soruları cevaplandırmak için temsil vektörleri arasındaki do˘grusal ili¸skiye bakılmı¸stır: (5) v Dˆ = v B − v A + v C A˘gaçlar Hiyerar¸sik-maks. ˙Ilk-1 ˙Ilk-3 23.02 28.67 25.29 35.77 43.58 38.91 ˙Ilk-10 Grup Eksi-örnekleme ˙Ilk-1 ˙Ilk-3 ˙Ilk-10 49.33 58.75 53.11 57.50 29.69 42.25 34.74 56.48 72.78 63.03 642 dakika 43.18 58.97 49.52 459 dakika Tablo V: Do˘gruluk oranları - ekli ve eksiz veritabanları Anlambil. Sözdiz. Genel Süre Grup Eksiz ˙Ilk-1 ˙Ilk-3 ˙Ilk-10 Grup ˙Ilk-1 ˙Ilk-3 ˙Ilk-10 61.00 35.40 43.17 38.52 60.80 74.68 66.38 57.50 29.69 42.25 34.74 43.18 58.97 49.52 56.48 72.78 63.03 48.42 60.21 53.16 453 dakika Ekli 459 dakika veritabanından 5 yanlı¸s kelime rastgele seçilmi¸stir (Denklem(3)’te k = 5). Her iki yöntem için de e˘gitim ba˘glamının büyüklü˘gü 5 seçilmi¸stir (Denklem-(1)’de c = 5). Vektör boyutları 200 alınmı¸stır. Bu s¸ekilde yapılan deneylerin sonuçları Tablo-IV’te verilmi¸stir. E˘ger algoritmaya verilen herhangi bir sorunun cevabı ilk n tercih içinde varsa (n ∈ {1, 3, 10}) "˙Ilkn" kategorisinde do˘gru cevap olarak sayılmı¸stır. Sonuçlara baktı˘gımızda, eksi-örnekleme yönteminin hiyerar¸sik-maksimum yöntemini hem hız olarak hem de do˘gruluk oranı olarak geçti˘gini görmekteyiz. Çıkarılacak ba¸ska bir sonuç da anlambilimsel do˘gruluk oranlarının sözdizimsel do˘gruluk oranlarından daha dü¸sük oldu˘gudur. Bunun olası bir sebebi, sözdizimsel sorularda ço˘gunlukla yüklem bulunması ve yüklem sayılarının veritabanında genellikle fazla olmasıdır. Ancak "e¸s-anlamlı" ve "zıt-anlamlı" gibi kelime sorularının -temsili vektörlerin do˘grusal ili¸skileri açısından- zorlu˘gu da yadsınmamalıdır. Sonraki deneylerin hepsi eksi-örnekleme yöntemiyle yapılmı¸stır. 2) Eklerin Çıkarılması: Kelime temsillerinin kalitelerini ölçerken kullanılan sorularda ek olan kelimeler bulunmadı˘gı için veritabanından eklerin çıkarılması daha temiz veritabanı olu¸sturaca˘gından do˘gruluk oranını artırması beklenmektedir. Bu amaçla ekler veritabanından çıkarılarak kar¸sıla¸stırma yapılmı¸stır ve sonuçlar Tablo-V’te verilmi¸stir. A¸sa˘gıda gösterilen deneyler eklerin çıkarıldı˘gı veritabanından yapılmı¸stır. Sozdizimsel Dogruluk Oranlari Anlambilimsel Dogruluk Oranlari Toplam Dogruluk Oranlari 70 65 80 65 60 75 60 55 55 50 70 50 45 Dogruluk Orani Dogruluk Orani Dogruluk Orani 65 45 40 40 35 35 30 60 55 50 45 30 25 100 ilk−1 ilk−3 ilk−5 ilk−10 grup 25 200 300 400 500 600 40 ilk−1 ilk−3 ilk−5 ilk−10 20 100 700 35 200 300 400 500 600 700 30 100 (a) Toplam 200 300 400 500 600 700 Vektor Boyutu Vektor Boyutu Vektor Boyutu ilk−1 ilk−3 ilk−5 ilk−10 (b) Anlambilimsel (c) Sözdizimsel Sekil ¸ 1: Do˘gruluk oranlarının vektör boyutuna göre de˘gi¸simi. Tablo VI: Vektörlerinin boyutlarının e˘gitim sürelerine etkisi Boyut 100 200 300 400 500 600 700 Süre (dakika) 299 453 539 735 899 994 1171 [5] [6] [7] 3) Vektör Boyutlarının Etkisi: Bu bölümde temsil vektörlerinin boyutunun anlambilimsel ve sözdizimsel do˘gruluk oranlarına etkisi incelenmi¸stir. Bu amaçla eksi-örnekleme yöntemiyle farklı vektör boyutlarında temsiller ö˘grenilmi¸stir. Di˘ger parametreler önceki deneylerle aynı alınmı¸stır. Vektör boyutunun do˘gruluk oranlarına etkisi Sekil-1’de ¸ gösterilmi¸stir. Bu sonuçlara bakıldı˘gında, vektör boyutlarındaki de˘gi¸simin genel olarak do˘gruluk oranlarını etkiledi˘gi görülmü¸stür. Bu etki anlambilimsel sorularla yapılan testte daha fazladır. Vektör boyutlarının e˘gitim sürelerine etkisi Tablo-VI’da verilmi¸stir. IV. S ONUÇ VE G ELECEK Ç ALI SMALAR ¸ Bu bildiride, büyük bir Türkçe veritabanı üzerinde kelime temsil vektörleri ö˘grenilmi¸stir. Olu¸sturulan anlambilimsel ve sözdizimsel kelime ili¸skilerinden olu¸san soru kümeleri ile vektörlerin do˘grusal ba¸sarısı ölçülmü¸stür. ˙Ingilizcede ba¸sarılı bir s¸ekilde kullanılan kelime temsilleri ve derin ö˘grenmenin Türkçe üzerine çalı¸smaları te¸svik etmek amacıyla bu bildiriyi yayınladık. Herhangi bir DD˙I problemini kelime temsillerini kullanarak çözen bir sistemin temsillerinin ilklendirilmesi için bu bildirideki yöntem kullanılabilir. Ayrıca Türkçe’nin zengin morfolojik yapısını dikkate alan bir model [17] geli¸stirilmesi, kelime temsillerinin ba¸sarımını önemli ölçüde artıracaktır. [8] [9] [10] [11] [12] [13] [14] [15] K AYNAKÇA [1] Yoshua Bengio, Réjean Ducharme, Pascal Vincent, and Christian Janvin, “A neural probabilistic language model,” J. Mach. Learn. Res., vol. 3, pp. 1137–1155, Mar. 2003. [2] Andriy Mnih and Geoffrey Hinton, “A Scalable Hierarchical Distributed Language Model,” in Advances in Neural Information Processing Systems, 2008, vol. 21. [3] Frederic Morin and Yoshua Bengio, “Hierarchical probabilistic neural network language model,” in AISTATS’05, 2005, pp. 246–252. [4] Tomas Mikolov, Stefan Kombrink, Lukas Burget, Jan Cernocký, and Sanjeev Khudanpur, “Extensions of recurrent neural network language model.,” in ICASSP. 2011, pp. 5528–5531, IEEE. [16] [17] Tomas Mikolov, Martin Karafiát, Lukas Burget, Jan Cernocký, and Sanjeev Khudanpur, “Recurrent neural network based language model.,” in INTERSPEECH, Takao Kobayashi, Keikichi Hirose, and Satoshi Nakamura, Eds. 2010, pp. 1045–1048, ISCA. Terry Koo, Xavier Carreras, and Michael Collins, “Simple semisupervised dependency parsing,” in In Proc. ACL/HLT, 2008. Lev Ratinov and Dan Roth, “Design challenges and misconceptions in named entity recognition,” in Proceedings of the Thirteenth Conference on Computational Natural Language Learning, Stroudsburg, PA, USA, 2009, CoNLL ’09, pp. 147–155, Association for Computational Linguistics. Ronan Collobert and Jason Weston, “A unified architecture for natural language processing: Deep neural networks with multitask learning,” in Proceedings of the 25th International Conference on Machine Learning, New York, NY, USA, 2008, ICML ’08, pp. 160–167, ACM. Tomas Mikolov, Wen tau Yih, and Geoffrey Zweig, “Linguistic regularities in continuous space word representations.,” in HLT-NAACL. 2013, pp. 746–751, The Association for Computational Linguistics. Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean, “Efficient estimation of word representations in vector space,” CoRR, vol. abs/1301.3781, 2013. Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, and Jeffrey Dean, “Distributed representations of words and phrases and their compositionality.,” in NIPS, Christopher J. C. Burges, Léon Bottou, Zoubin Ghahramani, and Kilian Q. Weinberger, Eds., 2013, pp. 3111–3119. Michael Gutmann and Aapo Hyvärinen, “Noise-contrastive estimation of unnormalized statistical models, with applications to natural image statistics,” Journal of Machine Learning Research, vol. 13, pp. 307–361, 2012. A. Mnih and Y. W. Teh, “A fast and simple algorithm for training neural probabilistic language models,” in Proceedings of the International Conference on Machine Learning, 2012. “trwikimedia dump progress on 20131221,” http://dumps.wikimedia.org/trwikimedia/20131221/, Accessed: 2013-12-25. Ha¸sim Sak, Tunga Güngör, and Murat Saraçlar, “Turkish language resources: Morphological parser, morphological disambiguator and web corpus,” in GoTAL 2008. 2008, vol. 5221 of LNCS, pp. 417–427, Springer. Ahmet Afsin Akin and Mehmet Dundar Akin , “Zemberek, an open source nlp framework for turkic languages,” Yeni versiyon: https://github.com/ahmetaa/zemberek-nlp, 2007. Minh-Thang Luong, Richard Socher, and Christopher D. Manning, “Better word representations with recursive neural networks for morphology,” in CoNLL, Sofia, Bulgaria, 2013.
© Copyright 2024 Paperzz