به نام خدا مباحث علمي در پياده سازي موتور جستجوي قرآني وب دانشگاه صنعتي شريف دانشکده مهندس ي کامپيوتر سمينار کارشناس ي ارشد استاد راهنما :دکتر قدس ي استاد مشاور :دکتر ابوالحسني ارائه دهنده :مجتبي محمدي نصيري 84206861 فهرست تعريف پروژه جستجو در وب کارهاي مرتبط اجزاي موتور جستجو راهکارهاي پيشنهادي نتيجهگيري مراجع 2 مجتبی محمدی نصیری -موتور جستجوی قرآنی وب دی 1385 تعريف پروژه جستجويي قرآني وب موتور موتورجستجو وب موتور جستجوي وب سيستم بازيابي اطالعات وب بر اساس کليد واژه 3 نتايج قرآني :مستنداتي که قسمتي از قرآن در آنها آمده است پرس جوي قرآني :کليد واژهها عربي و از کلمات موجود در قرآن مجتبی محمدی نصیری -موتور جستجوی قرآنی وب دی 1385 مشکالت اطالعات وب و راه حلها حجم باالي اطالعات نياز به موتورهاي جستجو براي کاربر امروزي نتايج متنوع و در زمينههاي مختلف نياز به موتورهاي خاص منظوره و ّ تخصص ي مثل شيمی و بيولوژی اطالعات غلط و غيرعلمي 4 ايجاد پايگاههاي ّ تخصص ي وب و مرجع مجتبی محمدی نصیری -موتور جستجوی قرآنی وب دی 1385 علوم اسالمي در وب همان مشکالت گفته شده راه حلهاي گفته شده هنوز انجام نشدهاند کم بودن پايگاههاي ّ تخصص ي قرآني در وب وجود نداشتن پايگاه مرجع قوي در پژوهشهاي قرآني ديگر پروژه کار بردهاي ِ ِ 5 جستجو در متون اسالمي جستجو در يک اينترانت بر روي مستندات معتبر مجتبی محمدی نصیری -موتور جستجوی قرآنی وب دی 1385 کارهاي مرتبط جستجوي عربي وب http://www.google.com/intl/ar جستجو در متن قرآن و کتابهاي اسالمي 6 http://www.searchquran.org ارتباط بين قرآن و متون اسالمي ()2006 /10 مجتبی محمدی نصیری -موتور جستجوی قرآنی وب دی 1385 ساختمان يک موتور جستجو URL Server Store Server Crawler Crawler Repository URL Revolver Indexer Indexer Lexicon انديسگذار Barrels Links Doc Index Searcher & Ranker Sorter Page Rank زير سيستمهاي موتور جستجو خزشگر Anchors جستجوگرو رتبهبند Searcher 1385 دی موتور جستجوی قرآنی وب- مجتبی محمدی نصیری 7 خزشگر)(Crawler هدف جمعآوري و ذخيره مستندات وب چالشها نياز به منابع شبکه زياد تعيين اولويت پيمايش صفحات آدرسهاي تکراري و پيموده شده صفحات متقلب همزماني دسترس ي به منابع (در خزشگرهاي موازي) 8 مجتبی محمدی نصیری -موتور جستجوی قرآنی وب دی 1385 انديسگذار)(Indexer هدف ايجاد فهرستي از اطالعات الزم مستندات براي جستجوي درست و سريع مسائل 9 روش انديسگذاري :مستقيم يا معکوس تعيين اطالعات الزم يک مستند نحوه نگهداري انديسها (ساختار دادهي مناسب) ً تعيين کلمات بسيار متداول و يا اصطالحا کلمات توقف()stop words فشردهکردن انديسها ريشهيابي کلمات ()stemming بروزرساني يا افزايش :انديسگذاري دستهاي مجتبی محمدی نصیری -موتور جستجوی قرآنی وب دی 1385 جستجو و رتبهبند )(Searcher & Ranker هدف ارائه نتايج جستجو، به ترتيب اهميت و ميزان ارتباط با پرسجو اطالعات رتبهبندي اطالعات مربوط به متن صفحه اطالعات مربوط به لينکهاي بين اين صفحه و صفحات ديگر انواع رتبهبندي بر اساس لينکها 10 شبکههاي اجتماعي()Social Networks PageRank مجتبی محمدی نصیری -موتور جستجوی قرآنی وب دی 1385 جستجو و رتبهبند ) (Searcher & Rankerادامه... مسائل جستجوي ترکيب منطقي از کلمات (و ،يا ،نفي)... ، گسترش پرسجو ريشهيابي کلمات پرسجو، اضافه کردن کلمات مترادف يک کلمه اضافه کردن کلماتي که از نظر امالئي نزديک به کلمه مورد نظر هستند؛ چون ممکن است کاربر يا نويسنده مستند ،در امالي کلمه اشتباه کرده باشد. 11 ترجمه کردن کلمات به زبان مستندات مجتبی محمدی نصیری -موتور جستجوی قرآنی وب دی 1385 راهکارهاي انجام پروژه خزشگر کانوني ()Focus Crawler فوق موتور جستجو )Search Engine ( Meta انديسگذاري بر اساس رابطهي آيات و مستندات 12 مجتبی محمدی نصیری -موتور جستجوی قرآنی وب دی 1385 خزشگر کانوني()Focus Crawler تعريف : الگوريتم جستجوي بهترين اول()Best First Search جمعآوري مستندات مرتبط با يک زمينهي خاص مزايا حذف بسياري از صفحات وب قبل از جمعآوری کنترل مرتبط با قرآن بودن نتايج از همين ابتدا نياز کمتر به منابع شبکهاي معايب 13 پيچيدگي الگوريتمي و نياز به منابع پردازش ي مجتبی محمدی نصیری -موتور جستجوی قرآنی وب دی 1385 فوق موتور جستجو ()Meta Search Engine سه رويکرد مزايا پيادهسازي سادهتر معايب 14 رتبهبندي دوباره فيلترکردن نتايج گسترش پرسجو زمان پاسخگويي سيستم باال نياز به منابع شبکهي زياد عدم تضمين مربوط بودن نتايج به قرآن مجتبی محمدی نصیری -موتور جستجوی قرآنی وب دی 1385 انديسگذاري بر اساس رابطهي آيات و مستندات دو مرحله مدلکردن رابطههاي بين آيات مدلکردن ارتباط مستندات و آيات سه پيشنهاد استفاده از کلمات مشترک استفاده از محل کلمات مشترک هستانشناس ي براي مفاهيم قرآن و ايجاد پايگاه دانش 15 مجتبی محمدی نصیری -موتور جستجوی قرآنی وب دی 1385 انديسگذاري بر اساس رابطهي آيات و مستندات (ادامه)... مزايا تضمين ارتباط مستندات بازيابي شده با قرآن با اجرای پيشنهاد سوم امکان گسترش پروژه به حالت پرسجوهاي به زبانهاي ديگر گسترش پروژه به بازيابی صفحات در مورد مفاهيم اسالمي و قرآني (با اجرای پيشنهاد سوم) معايب 16 مشکل بودن و هزينه و زمان بر بودن بخصوص ايجاد هستانشناس ي نياز به تخصص بااليي درعلوم قرآني بخصوص در پيشنهاد سوم مجتبی محمدی نصیری -موتور جستجوی قرآنی وب دی 1385 نتيجهگيري سه راهکار باال در تضاد با هم نيستند و با کمي تطبيق ميتوان در يک موتور به کار روند. با توجه به مزايا و معايب راهکار سوم قابل اجرا در يک سال نيست راهکار دوم نتايج مطلوب را ايجاد نمیکند تمرکز ما در اين مرحله بر روي خزشگر کانوني است 17 مجتبی محمدی نصیری -موتور جستجوی قرآنی وب دی 1385 مراجع Blaz N. A survey of focused web crawling algorithm. SIKDD'04, 2004. Brin S. and Page L. The Anatomy of a Large-Scale Hyper textual Web Search Engine.1998(Extended in 2003). Noordin, M.F. Othman, R. An Information Retrieval System for Quranic Texts: A Proposed System Design. ICTTA'06. 2nd Information and Communication Technologies, 2006. Pretschner A. Ontology Based Personalized Search. Master 's thesis, The University of Kansas, Lawrence, KS, 1999. 1385 دی موتور جستجوی قرآنی وب- مجتبی محمدی نصیری 18 )...مراجع (ادامه Ah Chung Tsoi. Forsali, D. Gori, M. Hagenbuchner, M. Scarselli F. A Simple Focused Crawler. 2003. Aljlayl, M. and Frieder, O. On Arabic Search: Improving the Retrieval Effectiveness via a Light Stemming Approach, ACM Eleventh Conference on Information and Knowledge Management, Mclean, VA, November, 2002. Angkawattanawit N., Rungsawang A., Learnable Crawling: An Efficient Approach to Topic-specific Web Resource Discovery. 2002. Charu C. Aggarwal, Fatima Al-Garawi, and Philip S. Yu. Intelligent crawling on the World Wide Web with arbitrary predicates. In Proceedings of the 10 th International World Wide Web Conference, Hong Kong, May 2001. Ehrig M. and Maedche A.. Ontology-focused crawling of Web documents. In Proc. of the 2003 ACM symposium on Applied computing, Melbourne, Florida, 2003. Rachidi, T. Iraqi, O. Bouzoubaa, M. Khattab, A.B.E. Kourdi, M.E. Zahi, A. Bensaid, A. Barq: distributed multilingual internet search engine with focus on Arabic language. IEEE International Conference on Systems, Man and Cybernetics, 2003. 1385 دی موتور جستجوی قرآنی وب- مجتبی محمدی نصیری 19 پايگاههاي مرجع http://www.searchquran.org/ http://www.google.com/intl/ar/ http://scholar.google.com http://www.searchengineguide.com/pages/Science/Biology http://scitech.quickfound.net/biology_medical_news_search.html http://chemfinder.cambridgesoft.com/ http://www.chemindustry.com/ 1385 دی موتور جستجوی قرآنی وب- مجتبی محمدی نصیری 20 با تشکر از توجه شما 21 مجتبی محمدی نصیری -موتور جستجوی قرآنی وب دی 1385
© Copyright 2024 Paperzz