Sample presentation slides (Blue bar design)

http://www.tnc.org.tr
Yeşim Aksan, Mustafa Aksan, S. Ayşe Özel, Hakan Yılmazer, Umut
U. Demirhan, Ümit Mersinli, Yasin Bektaş, Serap Altunay
Mersin Üniversitesi, Çukurova Üniversitesi
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Türkçe Ulusal Derlemi (TUD) tasarım
ölçütleri
TUD-Tanıtım Sürümü Yazılım Mimarisi
Genel Özellikler
Derlem Veritabanının Yapısı
Sözcükbirimleştirme ve Evrik Dizin Yapısı
Sorgulama ve Ön Belleğe Yükleme
TUD-Tanıtım Sürümü Arayüz Özellikleri
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Belli bir dili temsil edebilme amacıyla, belli bir
zaman aralığında yazılı ve/veya sözlü dil
kullanım metinlerini/konuşmalarını,
yazar/konuşan özelliklerini (cinsiyet, yaş, eğitim
vb.), iletişim ortamlarının alan ve yayın
ortamlarına (kitap, süreli yayın vb.) göre dengeli
ve katmanlı örnekleme yoluyla derleyip,
belirlediği ölçütleri kapsayan ayrıntılı veribilgisi
ve temel dilbilimsel çözümleme araçlarıyla
birlikte elektronik ortamlarda sunan kaynaklara
derlem denir.
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Derlem dilbilim ölçütlerine uygun
ODTÜ Türkçe Derlemi (Say vd., 2002) – 2
milyon sözcük
TUD (Aksan vd., 2012) – 50 milyon sözcük
Turkish WaC: Turkish Word Sketches
(Ambati vd., 2012) – 42 milyon sözcük
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Doğal dil işleme yazılımlarını sınamaya uygun
TurCo (Dalkılıç ve Çebi, 2002) – 50 milyon sözcük
BOUN Corpus (Sak vd., 2008) – 423 milyon
sözcük
Türk Dilleri için Büyük Derlemler (Large Corpora
for Turkic Languages (Baisa ve Suchomel, 2012)–
3.37 milyar sözcük (Türkiye Türkçesi)
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Derlem dilbilimin, derlem kurma ilkelerine ve
yaklaşımlarına göre geliştirilen;
En iyi uygulamaları örnek alan ve derlem
tasarımı sürecine uyarlayan;
Yıl, konu alanı, metin türü, yayın ortamı
açısından ayrıntılı ve zengin bir çeşitliliğe
sahip olan;
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Web tabanlı, kullanıcı dostu, kendine özgü
arayüz tasarımı olan;
Dili temsil gücüne sahip, dengeli, yazılı ve
sözlü Türkçe örneklerini içeren, Türkçenin ilk
referans derlemi.
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Temsil
“Temsil yeterliliği olmaksızın bir derlem için geçerli
olan yalnızca o derlem için geçerlidir ve başka hiç
bir şeye genellenemez.”
(Leech 2007:135)
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
“Derlem kuranlar, kendi ortamlarında kurabilecekleri
en iyi derlemi kurarlar. Burada en doğru tutum
derlemin içeriği konusunda ayrıntılı ve dürüst
olmalarıdır. Derlem kuranın derlemini nasıl
betimlediğine
bakarak,
derlemi
kullanan
araştırmacılar vardıkları sonuçların ne kadar
güvenilir olacağını ölçebilirler, aynı derlemi
gelecekte kullanacak olanlar da, kendi amaçları
açısından
ne
ölçüde
güvenilir
olduğunu
değerlendirebilirler.”
(Sinclair 2005)
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Derlemin Temsil Gücü
“Derlemi oluşturan örneklemin dil değişkelerini
ne ölçüde kapsadığı temsil gücüdür.” (Biber, 1993:242)
Denge
Denge
Derlemi oluşturucak türlerin (genre) kapsamı.
Örneklem
Her tür için metin parça/bütünlerinin seçimi.
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Zaman İçindeki Değişim
Derlemi durağan ya da dinamik bir dil modeli
olarak görmek.
Denge
Derlem Metinlerini Belirleme
Derlem metinleri ya da metin parçaları dış
ölçütlere göre belirlenmelidir: Durum (situation),
tür (genre), kesit (register).
(Sinclair 1995)
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Alan: Konu Alanı
Kurgusal: Yazın
Bilgilendirici: Toplumbilimleri, sanat, ticaret-finans,
düşünce-inanç, dünya sorunları, uygulamalı bilimler,
doğa-temel bilimler, serbest
Zaman: 1990-2009
Yayın Ortamı
Kitap, süreli yayın, çeşitli (yayımlanmış-yayımlanmamış)
metin, konuşma metinleri
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Kurgusal
Yazın: Şiir, öykü, roman, tiyatro
Bilgilendirici
Toplumbilimleri: Sosyoloji, coğrafya, antropoloji, psikoloji, hukuk, eğitim,
dilbilim
Sanat: Görsel sanatlar, sahne sanatları, mimari, medya, edebiyat, tasarım
Ticaret-finans: İş dünyası, finans, endüstri, meslek, istihdam
Düşünce-inanç: Din, felsefe, mitoloji, halkbilim, metafizik inançlar
Dünya sorunları: Tarih, politika, askeri, arkeoloji, ekonomi, hükümet, kalkınma
Uygulamalı bilimler: Mühendislik, tıp, iletişim, bilgisayar, teknoloji, enerji
Doğa-temel bilimler: Matematik, fizik, kimya, biyoloji, astronomi
Serbest: Yemek, gezi, moda, spor, ev ve bahçe, hobiler
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Kitap
Toplumbilimleri: Sosyoloji
Süreli Yayın
Gazete: Ulusal
Dergi: Bilimsel dergiler, popüler dergiler
Çeşitli Yayınlanmış
Rapor, reklam metni, broşür, yasa-yönetmelik
Çeşitli Yayınlanmamış
Öğrenci denemeleri, bloglar, e-postalar, twitter
Konuşma Metinleri
Film senaryoları, röportajlar, açılış konuşmaları
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Alan
Kurgusal : % 19.00
Bilgilendirici: % 81.00
Yayın Ortamı
Kitap
Diğer
:
:
% 58.00
% 42.00
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Kurgusal:
Bilgilendirici:
~% 19.00
~% 81.00
Toplumbilimleri:
Sanat:
Ticaret-finans:
Düşünce-inanç:
Dünya sorunları:
Uygulamalı bilimler:
Doğa-temel bilimler:
Serbest:
% 14.55
% 7.50
% 9.21
% 4.31
% 20.05
% 7.19
% 2.96
% 14.96
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Alan
Sözcük Sayısı
Sözcük Sayısı Oranı
(%)
19.22
Kurgusal Düzyazı
9.194.674
Toplum Bilimleri
6.961.521
14.55
Doğa ve Temel Bilimler
1.419.861
2,96
Uygulamalı Bilimler
3.441.050
7,19
Dünya Sorunları
9.591.797
20.05
Ticaret ve Finans
4.404.453
9.21
Sanat
3.586.866
7.50
Düşünce ve İnanç
2.061.068
4.31
Serbest
7.155.998
14.96
TOPLAM
47.817.288
100
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
004%
006%
003%
003%
003%
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
003%
003%
007%
004%
008%
004%
004%
007%
005%
006%
005%
005%
006%
006%
006%
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Ortam
Kitap
Sözcük sayısı
31.287.371
Oran
64,19
Süreli Yayın
16.214.712
33,27
Çeşitli: Yayınlanmış
60.432
1,25
Çeşitli: Yayınlanmamış
61.657
1,27
TOPLAM
47.624.172
100
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Genel Özellikler
Derlem Veritabanının Yapısı
Sözcükbirimleştirme ve Evrik Dizin Yapısı
Sorgulama ve Ön Belleğe Yükleme
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Güçlü Bir Sunucu, Arama Sorgularının hızlı
gerçekleşmesi,
Açık Kaynak Kodlu Yazılımlar
Web Tabanlı Uygulama
British National Corpus (BNC web) kullanım
alışkanlıklarını göz önünde bulunduran,
Web 2.0 ve HTML 5 standartlarına uygun
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Free-BSD 9.0 İşletim Sistemi
Apache Web Sunucusu (Apache/2.2.22)
MySQL Veritabanı Sunucusu (MySQL 5.5.22)
PHP Betik Dili (PHP 5.4.21)
PERL Programlama Dili
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
MySQL Veritabanı Sunucusu (MySQL 5.5.22)
MyISAM tablo yapısı
Full Text arama özelliği
UTF-8 karakter kodlaması
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
PHP – APC extension
Teksözcük tablosunun RAM'e aktarımı
Sorgulama terimlerinin RAM'de saklanması
APC - Serializing
Neden Igbinary Serializing ?
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
PHP Laravel Framework
Cache
Kullanıcı ayarları
Rapor güncellemeleri
Optimize edilmiş veritabanları
Etkin RAM kullanımı (Evrik dizin)
Hızlı sorgu sonuçlarının gösterimi (Düzenli ifade,
joker karakter, sözcük türü-ek araması)
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
#InternetteSansüreHayır #ab2014
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Yıllara Göre Kullanıcı Sayısı Dağılımı
Kurumlara Göre Kullanıcı Sayısı Dağılımı
4
27
19
46
26
194
107
377
394
Eylül 2012-Aralık 2012
Ocak 2014-Şubat 2014
Ocak 2013-Aralık 2013
Yurtiçi Üniversiteler
Yurtdışı Üniversiteler
Belirtmeyenler
Özel Şirketler
Devlet Kurumları
Bireysel
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Çalışma Alanlarına Göre Kullanıcı Sayıları
600
500
495
400
300
200
78
100
8
3
2
2
9
0
Çalışma Alanları
Sosyal Bilimler
Fen Bilimleri-Teknik Bilimler-Mühendislik
Sağlık Bilimleri
Eğitim Teknolojileri
Beşeri Bilimler
İşletme Ekonomi
Belirtilmemiş
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Güncel bir doğal dil işleme (DDİ) sözlüğü
oluşturmak,
Oluşturulan sözlük yardımıyla otomatik
işaretlenen TUD metinleri kullanılarak derlemtemelli bir sözcük ve ek sıklığı sözlüğü
hazırlamak,
Çevrimiçi çalışan morfolojik işaretleyici
tasarlamak ve geliştirmek,
TUD’un 2. versiyonunu kullanıcılara sunmak.
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
49 milyon yazılı, 1 milyon sözlü Türkçe veri
üzerinden sorgu yapabilme
Biçimbirim işaretlemesi: Sözcük türü,
başsözcük ve çekim ekine özel sorgu
yapabilme
Kullanıcıya özgü ayarlar : Sorgu geçmişi ;
kaydedilmiş aramalar
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Aksan, Y., Aksan, M., Koltuksuz, A. ve diğ. 2012. Construction of the Turkish National Corpus
(TNC). In Proceedings of the Eight International Conference on Language Resources
and Evaluation (LREC 2012) İstanbul, Turkiye.
http://www.lrecconf.org/proceedings/lrec2012/papers.html
Aksan, Y., Demirhan U. U. (baskıda) Türkçe Ulusal Derlemi (TUD) arayüz özellikleri:
Tanıtım ve uygulama. 27. Ulusal Dilbilim Kurultayı Bildirileri. Ankara: Hacettepe
Üniversitesi.
Ambati, B. S.Reddy, ve A. Kilgarriff. 2012. Word Sketches for Turkish. Proceedings of the
Eighth International Conference on Language Resources and Evaluation (LREC’12),
Istanbul, Turkey, European Language Resources Association (ELRA).
Biber, D. 1993. Representativeness in corpus design. Literary and Linguistic Computing, 8:4,
243-257.
Dalkılıç, G., Çebi,Y. 2002. A 300 mb turkish corpus and word analysis. Advances in Information
Systems, pages 205–212.
Hoffmann, S. ve diğ. 2008. Corpus linguistics with BNCweb-A practical guide. Frankfurt: Peter
Lang.
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
Leech, G. 2007. New resources, or just better old ones? The Holy Grail of representativeness,
Hundt, M. ve diğ. (eds). 133-149, Corpus linguistics and the Web. Amsterdam:
Rodopi.
Sak,H, Güngör, T., Saraçlar, M. 2008. Turkish language resources: Morphological parser,
morphological disambiguator and web corpus. Advances in natural language
processing, pages 417–427.
Say, B..Zeyrek,D. Oflazer, K., Özge, U. 2002.Development of a corpus and a treebank for
present-day written Turkish. Proceedings of the eleventh international conference
of Turkish linguistics, pages 183–192.
Sinclair, J. 1995. Paper presented at XI Econtro da Associacao Portuguesa de Linguistica.
Lisbon. 2-4 October 1995.
Sinclair, J. 2005. Developing linguistic corpora: A guide to good practice.
http://www.ahds.ac.uk/guides/linguistic-corpora/appendix
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
TÜBİTAK (113K039) : 2013 - 2015
TÜBİTAK (108K242) : 2008 - 2011
ME.Ü, BAP-FEF İDEB (SYA) 2009 - 3 : 2009- 2010
ME.Ü, BAP-FEF İDEB (MA) 2009 - 3 : 2009 - 2010
ME.Ü , BAP-FEF İDEB (SYA) 2010 -3 : 2010 - 2011
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014
http://www.tnc.org.tr
Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin
#InternetteSansüreHayır #ab2014