Kamyar Rafati - Seminar.ppt

‫شبکه واژگان فارسی‬
‫و کاربرد آن در گسترش پرسش جستجو‬
‫کاميار رفعتی‬
‫استاد مشاور‪ :‬دکتر موقر‬
‫استاد راهنما ‪ :‬دکتر ابوالحسنی‬
‫دانشکده کامپيوتر – دانشگاه صنعتی شريف‬
‫چشم انداز‬
‫• گسترش پرسش جستجو‬
‫• شبکه واژگان فارسی‬
‫– معرفی‬
‫– روشهای ساخت شبکههای واژگان‬
‫• ادغام‬
‫• توسعه‬
‫– معرفی‬
‫– روشهای موجود‬
‫• نقاط ضعف و قوت‬
‫– روش مورد استفاده در اين پروژه‬
‫– کارهای انجام شده و آتی‬
‫– معيارهای ارزيابی‬
‫– روش انتخابی‬
‫– مراحل کار‬
‫• مراجع‬
‫‪2‬‬
‫دانشکده کامپيوتر – دانشگاه صنعتی شريف‬
‫‪ 2‬دی ‪1385‬‬
‫شبکه واژگان فارسی ‪-‬‬
‫معرفی‬
‫• يک سيستم مرجع واژگانی ‪ ،‬دارای طراحی شبيه به ساختار واژگانی‬
‫ذهن انسان‬
‫• سازماندهی در قالب روابط معنايي‬
‫– مجموعههای هممعنی‬
‫– زير معنايي ‪ /‬اَبَر معنايي‬
‫– شامل شدن‬
‫• کاربردها‪ :‬زبانشناسی‪ ،‬پردازش متون‪ ،‬بازيابی اطالعات و ‪...‬‬
‫• شبکه واژگان اروپايي – شبکه واژگان جهانی – شبکه واژگان بالکانی‬
‫‪3‬‬
‫دانشکده کامپيوتر – دانشگاه صنعتی شريف‬
‫‪ 2‬دی ‪1385‬‬
‫شبکه واژگان فارسی ‪-‬‬
‫روشهای ساخت‬
‫• ساخت در يک فرآيند چرخشی – افزايشی‬
‫• مراحل ساخت (شبکه واژگان اروپايي)‬
‫– ايجاد هسته اوليه (کلمات سطوح باالی سلسله مراتب معنايي)‬
‫– گسترش هسته تا رسيدن به شبکه واژگان کامل‬
‫• کلمات پر استفاده در متون‬
‫• کلمات مکمل سلسله مراتب معنايي‬
‫• کلمات واقع در سطوح پائينتر سلسله مراتب معنايي‬
‫‪4‬‬
‫دانشکده کامپيوتر – دانشگاه صنعتی شريف‬
‫‪ 2‬دی ‪1385‬‬
‫شبکه واژگان فارسی ‪-‬‬
‫• روش ادغام‬
‫• روش گسترش‬
‫– ساخت هسته به کمک مراجع‬
‫زبانی زبان مقصد‬
‫ِ‬
‫– اتصال به شبکه واژگان انگليسی‬
‫از طريق برقراری پيوندهای‬
‫معنايي‬
‫– نيازمندیها‬
‫• فرهنگ جامع زبانی (‪)Thesaurus‬‬
‫• منابع الکترونيکی کافی‬
‫– مزيت مهم‪ :‬انطباق کامل با‬
‫ساختار زبان مقصد‬
‫‪5‬‬
‫روشهای ساخت هسته‬
‫– ترجمه هسته شبکه واژگان يک‬
‫زبان ديگر‬
‫– تصحيح ناسازگاریهای موجود‬
‫در هسته ايجاد شده با توجه به‬
‫زبان مقصد‬
‫– نيازمندیها‬
‫• بررسی سازگاری با زبان مقصد‬
‫– مزيت مهم‪ :‬مناسب برای زبانهای‬
‫فاقد منابع زبانی کافی‬
‫دانشکده کامپيوتر – دانشگاه صنعتی شريف‬
‫‪ 2‬دی ‪1385‬‬
‫شبکه واژگان فارسی ‪-‬‬
‫روش مورد استفاده‬
‫• عدم استفاده از روش ادغام‬
‫–‬
‫–‬
‫–‬
‫–‬
‫نبود فرهنگ جامع لغات فارسی (‪)Thesaurus‬‬
‫نبود منابع الکترونيکی‬
‫نبود فرهنگ لغات دارای سلسله مراتب معنايي‬
‫نبود فرهنگ شامل ارتباطات معنايي‬
‫• همکاری با دانشکده ادبيات دانشگاه تهران‬
‫‪6‬‬
‫دانشکده کامپيوتر – دانشگاه صنعتی شريف‬
‫‪ 2‬دی ‪1385‬‬
‫شبکه واژگان فارسی ‪-‬‬
‫کارهای انجام شده و آتی‬
‫‪ ‬شناخت روش های موجود برای ساخت شبکه واژگان‬
‫‪ ‬انتخاب روش مناسب برای ساخت شبکه واژگان فارسی‬
‫مطالعه در مورد ابزارهای الزم و ساخت آنها‬
‫مطالعه در مورد ساختارهای زبان فارسی و زبانشناسی زبان فارسی‬
‫‪ ‬ساخت يک هسته اوليه از شبکه واژگان فارسی‬
‫‪ ‬گسترش هسته اوليه تا رسيدن به شبکه کامل‬
‫‪7‬‬
‫دانشکده کامپيوتر – دانشگاه صنعتی شريف‬
‫‪ 2‬دی ‪1385‬‬
‫گسترش پرسش جستجو ‪-‬‬
‫معرفی‬
‫• پيکربندی مجدد يک پرسش به هدف افزايش کارآيي بازيابی در عمليات‬
‫بازيابی اطالعات‬
‫• انواع روشهای مورد استفاده‬
‫– بر مبنای آمار‬
‫– بر مبنای پيوندهای وب‬
‫– بر مبنای وقايع ثبت شده‬
‫• بر مبنای بازخورد کاربر‬
‫– بر مبنای تحليل واژگانی و معنايي‬
‫• اين تحقيق به دسته آخر میپردازد‬
‫‪8‬‬
‫دانشکده کامپيوتر – دانشگاه صنعتی شريف‬
‫‪ 2‬دی ‪1385‬‬
‫گسترش پرسش جستجو ‪-‬‬
‫روشهای موجود‬
‫• استفاده از شبکه واژگان برای رفع ابهام‬
‫معنای کلمات (]‪)[3],[8‬‬
‫• گسترش به کمک کلمات‬
‫–‬
‫–‬
‫–‬
‫–‬
‫هممعنی‬
‫اَبَر معنا‬
‫توضيحات‬
‫گرههای مشترک گرافهای معنا‬
‫• بهترين نتايج از گسترش به کمک کلمات‬
‫توضيحات‬
‫‪9‬‬
‫دانشکده کامپيوتر – دانشگاه صنعتی شريف‬
‫‪ 2‬دی ‪1385‬‬
‫گسترش پرسش جستجو ‪-‬‬
‫روشهای موجود‬
‫• نحوه اعمال کلمات گسترش (]‪)[5‬‬
‫– عملگر عطف (‪)AND‬‬
‫– عملگر فصل (‪)OR‬‬
‫• استفاده همزمان از شبکه واژگان و اطالعات حضور همزمان کلمات‬
‫)‬
‫(]‪[4‬‬
‫‪ttf t   tf t     tf t‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪tf‬‬
‫‪t‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪Hyponyms‬‬
‫‪Hypernyms‬‬
‫‪   tf t Synonyms     tf t Co occurance ‬‬
‫‪10‬‬
‫دانشکده کامپيوتر – دانشگاه صنعتی شريف‬
‫‪ 2‬دی ‪1385‬‬
‫گسترش پرسش جستجو ‪-‬‬
‫روشهای موجود‬
‫• پرسشهای با طول بزرگتر از يک (]‪)[7‬‬
‫– گروهبندی معنايي کلمات‬
‫– گسترش برای کلمات پدر هر گروه‬
‫– استفاده از صافی حضور همزمان‬
‫• شبکه مفاهيم و شبکه واژگان (]‪)[9‬‬
‫– شبکه مفاهيم شامل اطالعات حضور همزمان کلمات در جمالت رايج است‬
‫– شبکه واژگان برای گسترش مناسبتر است‬
‫– بهترين نتيجه در استفاده همزمان‬
‫‪11‬‬
‫دانشکده کامپيوتر – دانشگاه صنعتی شريف‬
‫‪ 2‬دی ‪1385‬‬
‫گسترش پرسش جستجو ‪-‬‬
‫نقاط ضعف و قوت‬
‫• استفاده همزمان از روابط معنايي متفاوت‬
‫• استفاده از تمام روابط معنايي موجود در شبکه واژگان‬
‫–‬
‫–‬
‫–‬
‫–‬
‫هممعنايي‬
‫ابر معنايي‬
‫شامل شدن‬
‫توضيحات‬
‫• استفاده از صافیهای معنايي‬
‫• استفاده از اطالعات آماری غير معنايي در کنار اطالعات معنايي‬
‫‪12‬‬
‫دانشکده کامپيوتر – دانشگاه صنعتی شريف‬
‫‪ 2‬دی ‪1385‬‬
‫گسترش پرسش جستجو ‪-‬‬
‫روش انتخابی‬
‫• استفاده از ساير ارتباطات معنايي‬
‫– شامل شدن‬
‫– سبب شدن‬
‫• بررسی مدلهای مختلف اعمال کلمات گسترش‬
‫– عملگر عطف و عملگر فصل‬
‫– روش بردار کلمات‬
‫– روش تلفيقی‬
‫• استفاده از مجموعه متون ‪ TREC‬به عنوان نمونه بررسی‬
‫‪13‬‬
‫دانشکده کامپيوتر – دانشگاه صنعتی شريف‬
‫‪ 2‬دی ‪1385‬‬
‫گسترش پرسش جستجو ‪-‬‬
‫مراحل کار‬
‫‪ ‬مطالعه کارهای انجام شده تا کنون‬
‫‪ ‬بررسی نقاط قوت و ضعف آنها‬
‫انتخاب يک راه حل مناسب‬
‫توسعه يک بستر ارزيابی‬
‫‪ ‬ارزيابی راه حل و مقايسه با کارهای انجام شده‬
‫‪ ‬گزارش نتايج‬
‫‪14‬‬
‫دانشکده کامپيوتر – دانشگاه صنعتی شريف‬
‫‪ 2‬دی ‪1385‬‬
‫از توجه شما متشکرم‬
‫‪15‬‬
‫دانشکده کامپيوتر – دانشگاه صنعتی شريف‬
‫‪ 2‬دی ‪1385‬‬
‫مراجع‬
1.
Billerbeck, B. and Zobel, J. 2003. "When query expansion fails.", In Proceedings of the 26th Annual international
ACM SIGIR Conference on Research and Development in information Retrieval (Toronto, Canada, July 28 August 01, 2003). SIGIR '03. ACM Press, New York, NY, 387-388.
2.
Wang, S. and Tanaka, Y. 2006. "Topic-oriented query expansion for web search", In Proceedings of the 15th
international Conference on World Wide Web (Edinburgh, Scotland, May 23 - 26, 2006). WWW '06. ACM Press, New York,
NY, 1029-1030.
3.
Navigli, R. and Velardi, P. 2003. "An analysis of ontology-based query expansion strategies.", In Proceedings of the
14th European Conference on Machine Learning, Workshop on Adaptive Text Extraction and Mining.
4.
Gong, h., Wa Cheang, C. and Hou U., L. 2005. "Web Query Expansion by WordNet", In Proceedings of the 16th
International Conference on Database and Expert Systems Applications (Copenhagen, Demark, August 22-26).
DEXA 2005. Lecture Notes in Computer Science 3588, Springer 2005. pp.166-175.
5.
Parapar, D., Barreiro, A. and Losada, D. 2005. "Query expansion using Wordnet with a logical model of
information retrieval.", IADIS International Conference (Algarve (Portugal), Feb 2005), IADIS'2005.
6.
Buscaldi, D., Rosso, P. and Arnal, E. S. 2005. "A WordNet-based Query Expansion method for Geographical
Information Retrieval", Cross-Language Evaluation Forum 2005 WORKSHOP (Vienna, Austria).
7.
Voorhees, E. M. 1993. "Using WordNet to disambiguate word senses for text retrieval." In Proceedings of the 16th
Annual international ACM SIGIR Conference on Research and Development in information Retrieval (Pittsburgh,
Pennsylvania, United States, June 27 - July 01, 1993). R. Korfhage, E. Rasmussen, and P. Willett, Eds. SIGIR '93.
ACM Press, New York, NY, 171-180.
1385 ‫ دی‬2
‫دانشکده کامپيوتر – دانشگاه صنعتی شريف‬
16
‫مراجع‬
8.
Gong, Z., Wa Cheang, C. and Hou U., L. 2006. "Multi-term Web Query Expansion Using WordNet.", DEXA
2006. 379-388.
9.
Hsu, M. H., Tsai, M. F. and Chen, H. H. 2006. "Query Expansion with ConceptNet and WordNet: An Intrinsic
Comparison", AIRS 2006. 1-13.
10.
Bilgin, O., Çetinoğlu, Ö. and Oflazer, K. 2004. "Building a Wordnet for Turkish", in Romanian Journal of Information
Science and Technology, Vol. 7, Num. 1-2.
11.
Miller, G. A., Beckwith, R., Fellbaum, C., Gross, D. and Miller, K. J. 1990. "Introduction to WordNet: an on-line
lexical database.", In International Journal of Lexicography 3 (4), (Revised August 1993).
12.
Tufis, D., Cristea, D., and Stamou, S. 2004. "BalkaNet: Aims, Methods, Results and Perspectives. A General
Overview.", Romanian Journal on Information Science and Technology, Special Issue on BalkaNet, Romanian Academy, 7 (1-2),
7-41.
13.
Fellbaum C., Alkhalifa, M., Black, W., Elkateb, S., Pease, A., Rodriguez, H., Vossen, P. 2006. "Introducing the
Arabic WordNet project.", In Proceedings of the 3rd Global Wordnet Conference (Jeju Island, Korea, South Jeju, January 22-26,
2006).
14.
Vossen, P. 1999. "EuroWordNet General Document", EuroWordnet Doncuments.
15.
Vossen, P. 2004. "EuroWordNet: a multilingual database of autonomous and language-specific wordnets connected
via an Inter-Lingual-Index", In special issue on multilingual databases. International Journal of Linguistics 17/2.
16.
Balkova, V., Sukhonogov, A.M. and Yablonsky, S.A. 2004. "Russian WordNet: From UML-notation to
Internet/Intranet Database Implementation", GWC 2004 (Masaryk University, Brno.), P. 31-38.
1385 ‫ دی‬2
‫دانشکده کامپيوتر – دانشگاه صنعتی شريف‬
17