http://www.tnc.org.tr Yeşim Aksan, Mustafa Aksan, S. Ayşe Özel, Hakan Yılmazer, Umut U. Demirhan, Ümit Mersinli, Yasin Bektaş, Serap Altunay Mersin Üniversitesi, Çukurova Üniversitesi Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Türkçe Ulusal Derlemi (TUD) tasarım ölçütleri TUD-Tanıtım Sürümü Yazılım Mimarisi Genel Özellikler Derlem Veritabanının Yapısı Sözcükbirimleştirme ve Evrik Dizin Yapısı Sorgulama ve Ön Belleğe Yükleme TUD-Tanıtım Sürümü Arayüz Özellikleri Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Belli bir dili temsil edebilme amacıyla, belli bir zaman aralığında yazılı ve/veya sözlü dil kullanım metinlerini/konuşmalarını, yazar/konuşan özelliklerini (cinsiyet, yaş, eğitim vb.), iletişim ortamlarının alan ve yayın ortamlarına (kitap, süreli yayın vb.) göre dengeli ve katmanlı örnekleme yoluyla derleyip, belirlediği ölçütleri kapsayan ayrıntılı veribilgisi ve temel dilbilimsel çözümleme araçlarıyla birlikte elektronik ortamlarda sunan kaynaklara derlem denir. Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Derlem dilbilim ölçütlerine uygun ODTÜ Türkçe Derlemi (Say vd., 2002) – 2 milyon sözcük TUD (Aksan vd., 2012) – 50 milyon sözcük Turkish WaC: Turkish Word Sketches (Ambati vd., 2012) – 42 milyon sözcük Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Doğal dil işleme yazılımlarını sınamaya uygun TurCo (Dalkılıç ve Çebi, 2002) – 50 milyon sözcük BOUN Corpus (Sak vd., 2008) – 423 milyon sözcük Türk Dilleri için Büyük Derlemler (Large Corpora for Turkic Languages (Baisa ve Suchomel, 2012)– 3.37 milyar sözcük (Türkiye Türkçesi) Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Derlem dilbilimin, derlem kurma ilkelerine ve yaklaşımlarına göre geliştirilen; En iyi uygulamaları örnek alan ve derlem tasarımı sürecine uyarlayan; Yıl, konu alanı, metin türü, yayın ortamı açısından ayrıntılı ve zengin bir çeşitliliğe sahip olan; Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Web tabanlı, kullanıcı dostu, kendine özgü arayüz tasarımı olan; Dili temsil gücüne sahip, dengeli, yazılı ve sözlü Türkçe örneklerini içeren, Türkçenin ilk referans derlemi. Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Temsil “Temsil yeterliliği olmaksızın bir derlem için geçerli olan yalnızca o derlem için geçerlidir ve başka hiç bir şeye genellenemez.” (Leech 2007:135) Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 “Derlem kuranlar, kendi ortamlarında kurabilecekleri en iyi derlemi kurarlar. Burada en doğru tutum derlemin içeriği konusunda ayrıntılı ve dürüst olmalarıdır. Derlem kuranın derlemini nasıl betimlediğine bakarak, derlemi kullanan araştırmacılar vardıkları sonuçların ne kadar güvenilir olacağını ölçebilirler, aynı derlemi gelecekte kullanacak olanlar da, kendi amaçları açısından ne ölçüde güvenilir olduğunu değerlendirebilirler.” (Sinclair 2005) Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Derlemin Temsil Gücü “Derlemi oluşturan örneklemin dil değişkelerini ne ölçüde kapsadığı temsil gücüdür.” (Biber, 1993:242) Denge Denge Derlemi oluşturucak türlerin (genre) kapsamı. Örneklem Her tür için metin parça/bütünlerinin seçimi. Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Zaman İçindeki Değişim Derlemi durağan ya da dinamik bir dil modeli olarak görmek. Denge Derlem Metinlerini Belirleme Derlem metinleri ya da metin parçaları dış ölçütlere göre belirlenmelidir: Durum (situation), tür (genre), kesit (register). (Sinclair 1995) Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Alan: Konu Alanı Kurgusal: Yazın Bilgilendirici: Toplumbilimleri, sanat, ticaret-finans, düşünce-inanç, dünya sorunları, uygulamalı bilimler, doğa-temel bilimler, serbest Zaman: 1990-2009 Yayın Ortamı Kitap, süreli yayın, çeşitli (yayımlanmış-yayımlanmamış) metin, konuşma metinleri Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Kurgusal Yazın: Şiir, öykü, roman, tiyatro Bilgilendirici Toplumbilimleri: Sosyoloji, coğrafya, antropoloji, psikoloji, hukuk, eğitim, dilbilim Sanat: Görsel sanatlar, sahne sanatları, mimari, medya, edebiyat, tasarım Ticaret-finans: İş dünyası, finans, endüstri, meslek, istihdam Düşünce-inanç: Din, felsefe, mitoloji, halkbilim, metafizik inançlar Dünya sorunları: Tarih, politika, askeri, arkeoloji, ekonomi, hükümet, kalkınma Uygulamalı bilimler: Mühendislik, tıp, iletişim, bilgisayar, teknoloji, enerji Doğa-temel bilimler: Matematik, fizik, kimya, biyoloji, astronomi Serbest: Yemek, gezi, moda, spor, ev ve bahçe, hobiler Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Kitap Toplumbilimleri: Sosyoloji Süreli Yayın Gazete: Ulusal Dergi: Bilimsel dergiler, popüler dergiler Çeşitli Yayınlanmış Rapor, reklam metni, broşür, yasa-yönetmelik Çeşitli Yayınlanmamış Öğrenci denemeleri, bloglar, e-postalar, twitter Konuşma Metinleri Film senaryoları, röportajlar, açılış konuşmaları Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Alan Kurgusal : % 19.00 Bilgilendirici: % 81.00 Yayın Ortamı Kitap Diğer : : % 58.00 % 42.00 Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Kurgusal: Bilgilendirici: ~% 19.00 ~% 81.00 Toplumbilimleri: Sanat: Ticaret-finans: Düşünce-inanç: Dünya sorunları: Uygulamalı bilimler: Doğa-temel bilimler: Serbest: % 14.55 % 7.50 % 9.21 % 4.31 % 20.05 % 7.19 % 2.96 % 14.96 Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Alan Sözcük Sayısı Sözcük Sayısı Oranı (%) 19.22 Kurgusal Düzyazı 9.194.674 Toplum Bilimleri 6.961.521 14.55 Doğa ve Temel Bilimler 1.419.861 2,96 Uygulamalı Bilimler 3.441.050 7,19 Dünya Sorunları 9.591.797 20.05 Ticaret ve Finans 4.404.453 9.21 Sanat 3.586.866 7.50 Düşünce ve İnanç 2.061.068 4.31 Serbest 7.155.998 14.96 TOPLAM 47.817.288 100 Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 004% 006% 003% 003% 003% 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 003% 003% 007% 004% 008% 004% 004% 007% 005% 006% 005% 005% 006% 006% 006% Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Ortam Kitap Sözcük sayısı 31.287.371 Oran 64,19 Süreli Yayın 16.214.712 33,27 Çeşitli: Yayınlanmış 60.432 1,25 Çeşitli: Yayınlanmamış 61.657 1,27 TOPLAM 47.624.172 100 Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Genel Özellikler Derlem Veritabanının Yapısı Sözcükbirimleştirme ve Evrik Dizin Yapısı Sorgulama ve Ön Belleğe Yükleme Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Güçlü Bir Sunucu, Arama Sorgularının hızlı gerçekleşmesi, Açık Kaynak Kodlu Yazılımlar Web Tabanlı Uygulama British National Corpus (BNC web) kullanım alışkanlıklarını göz önünde bulunduran, Web 2.0 ve HTML 5 standartlarına uygun Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Free-BSD 9.0 İşletim Sistemi Apache Web Sunucusu (Apache/2.2.22) MySQL Veritabanı Sunucusu (MySQL 5.5.22) PHP Betik Dili (PHP 5.4.21) PERL Programlama Dili Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 MySQL Veritabanı Sunucusu (MySQL 5.5.22) MyISAM tablo yapısı Full Text arama özelliği UTF-8 karakter kodlaması Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 PHP – APC extension Teksözcük tablosunun RAM'e aktarımı Sorgulama terimlerinin RAM'de saklanması APC - Serializing Neden Igbinary Serializing ? Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 PHP Laravel Framework Cache Kullanıcı ayarları Rapor güncellemeleri Optimize edilmiş veritabanları Etkin RAM kullanımı (Evrik dizin) Hızlı sorgu sonuçlarının gösterimi (Düzenli ifade, joker karakter, sözcük türü-ek araması) Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 #InternetteSansüreHayır #ab2014 Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Yıllara Göre Kullanıcı Sayısı Dağılımı Kurumlara Göre Kullanıcı Sayısı Dağılımı 4 27 19 46 26 194 107 377 394 Eylül 2012-Aralık 2012 Ocak 2014-Şubat 2014 Ocak 2013-Aralık 2013 Yurtiçi Üniversiteler Yurtdışı Üniversiteler Belirtmeyenler Özel Şirketler Devlet Kurumları Bireysel Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Çalışma Alanlarına Göre Kullanıcı Sayıları 600 500 495 400 300 200 78 100 8 3 2 2 9 0 Çalışma Alanları Sosyal Bilimler Fen Bilimleri-Teknik Bilimler-Mühendislik Sağlık Bilimleri Eğitim Teknolojileri Beşeri Bilimler İşletme Ekonomi Belirtilmemiş Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Güncel bir doğal dil işleme (DDİ) sözlüğü oluşturmak, Oluşturulan sözlük yardımıyla otomatik işaretlenen TUD metinleri kullanılarak derlemtemelli bir sözcük ve ek sıklığı sözlüğü hazırlamak, Çevrimiçi çalışan morfolojik işaretleyici tasarlamak ve geliştirmek, TUD’un 2. versiyonunu kullanıcılara sunmak. Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 49 milyon yazılı, 1 milyon sözlü Türkçe veri üzerinden sorgu yapabilme Biçimbirim işaretlemesi: Sözcük türü, başsözcük ve çekim ekine özel sorgu yapabilme Kullanıcıya özgü ayarlar : Sorgu geçmişi ; kaydedilmiş aramalar Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Aksan, Y., Aksan, M., Koltuksuz, A. ve diğ. 2012. Construction of the Turkish National Corpus (TNC). In Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC 2012) İstanbul, Turkiye. http://www.lrecconf.org/proceedings/lrec2012/papers.html Aksan, Y., Demirhan U. U. (baskıda) Türkçe Ulusal Derlemi (TUD) arayüz özellikleri: Tanıtım ve uygulama. 27. Ulusal Dilbilim Kurultayı Bildirileri. Ankara: Hacettepe Üniversitesi. Ambati, B. S.Reddy, ve A. Kilgarriff. 2012. Word Sketches for Turkish. Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC’12), Istanbul, Turkey, European Language Resources Association (ELRA). Biber, D. 1993. Representativeness in corpus design. Literary and Linguistic Computing, 8:4, 243-257. Dalkılıç, G., Çebi,Y. 2002. A 300 mb turkish corpus and word analysis. Advances in Information Systems, pages 205–212. Hoffmann, S. ve diğ. 2008. Corpus linguistics with BNCweb-A practical guide. Frankfurt: Peter Lang. Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 Leech, G. 2007. New resources, or just better old ones? The Holy Grail of representativeness, Hundt, M. ve diğ. (eds). 133-149, Corpus linguistics and the Web. Amsterdam: Rodopi. Sak,H, Güngör, T., Saraçlar, M. 2008. Turkish language resources: Morphological parser, morphological disambiguator and web corpus. Advances in natural language processing, pages 417–427. Say, B..Zeyrek,D. Oflazer, K., Özge, U. 2002.Development of a corpus and a treebank for present-day written Turkish. Proceedings of the eleventh international conference of Turkish linguistics, pages 183–192. Sinclair, J. 1995. Paper presented at XI Econtro da Associacao Portuguesa de Linguistica. Lisbon. 2-4 October 1995. Sinclair, J. 2005. Developing linguistic corpora: A guide to good practice. http://www.ahds.ac.uk/guides/linguistic-corpora/appendix Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 TÜBİTAK (113K039) : 2013 - 2015 TÜBİTAK (108K242) : 2008 - 2011 ME.Ü, BAP-FEF İDEB (SYA) 2009 - 3 : 2009- 2010 ME.Ü, BAP-FEF İDEB (MA) 2009 - 3 : 2009 - 2010 ME.Ü , BAP-FEF İDEB (SYA) 2010 -3 : 2010 - 2011 Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014 http://www.tnc.org.tr Akademik Bilişim 2014, 1-7 Şubat 2014, Mersin #InternetteSansüreHayır #ab2014
© Copyright 2024 Paperzz