جستجو در وب عميق ارائهدهنده :حسين شريفيپناه استاد راهنما :دكتر علي موقر گزارش درس سمينار دانشكدهي مهندسي كامپيوتر دانشگاه صنعتي شريف زمستان 1385 فهرست • • • • • • مقدمه آناتومي پيشنهادي براي موتور جستجوي وب عميق مرزهاي پروژه نحوهي ارزيابي چشمانداز آينده زمانبندي زمستان 1385 جستجو در وب عميق صفحهي 2 مقدمه • اهميت موتورهاي جستجو • افزايش نرخ شكست در جستجوها – چرا؟ • كشف موجوديت جديد در وب – وب عميق • وب عميق = وب مخفي = وب غيرقابلشاخصگذاري زمستان 1385 جستجو در وب عميق صفحهي 3 مقدمه (ادامه) • اندازهي وب عميق 400 :تا 550برابر وب سطحي ! • مقايسهي اندازه و كيفيت وب عميق با وب سطحي • سهم موتورهاي جستجوي بزرگ در حل اين مشكل: – گوگل% 03/0 : • هزينههاي سرسامآور تحميلي بر سايتهاي عميق • راهحل چيست؟ زمستان 1385 جستجو در وب عميق صفحهي 4 راه حل !! موتور جستجوي وب سطحي موتور جستجوي وب عميق زمستان 1385 جستجو در وب عميق صفحهي 5 آناتومي پيشنهادي براي موتور جستجوي وب عميق زمستان 1385 جستجو در وب عميق صفحهي 6 -1بازيابي صفحات وب عميق • يك صفحهي Pپويا گفته ميشود اگر بعضي يا تمام محتواي آن در زمان اجرا (زمان بعد از دريافت درخواست صفحه در خدمتگذار) توسط برنامهاي بر روي خدمتگذار يا مشتري توليد شود. – تشخيص فرمها – تشخيص اسكريپتها زمستان 1385 جستجو در وب عميق صفحهي 7 -2تشخيص فيلدهاي فرم • كار بسيار دشواري است! • اكثر تكنيكها براساس روشهاي مكاشفهاي است. • خوشبختانه ،در اكثر فرمها از عناصر يكساني استفاده شده است. زمستان 1385 جستجو در وب عميق صفحهي 8 -3تكميل خودكار فيلدها • انتصاب مقدار مناسب به فيلدهاي استخراج شده براي كشف محتويات داخل دادهپايگاه • تكنيك اول: – استفاده از پرسوجوهاي از پيش تعيين شده • تكنيك دوم: – استفاده از مقادير موجود در فيلدها بصورت جايگشتي • تكنيك سوم: – آموزش خزشگر با استفاده از پااليش صفحهي جستجو زمستان 1385 جستجو در وب عميق صفحهي 9 -3تكميل خودكار فيلدها -ادامه • تكنيك چهارم: – استفاده از تكنيكهاي يادگيري ماشين • تكنيك پنجم: – تبديل مسألهي پيدا كردن بهترين پرسوجو براي يك داده پايگاه به مسألهي پوشش مجموعه در گرافها – تبديل به مسألهي مجموعهي غالب وزندار كمينه • تكنيك ششم: – كار با اسكريپتهاي سمت مشتري زمستان 1385 جستجو در وب عميق صفحهي 10 -4آناليز نتايج دريافتي از دادهپايگاهها • داليل: – بدست آوردن كلمات كليدي جديد – تخمين تعداد مستندات دادهپايگاه در يك زمينهي خاص زمستان 1385 جستجو در وب عميق صفحهي 11 -5دستهبندي يا خوشهبندي دادهپايگاهها • دستهبندي يا خوشهبندي؟ • روشهاي مختلف دستهبندي: – دستهبندي مبتني بر پرسوجو – دستهبندي مبتني بر خزش – دستهبندي با استفاده از توصيفات كالس سرويس زمستان 1385 جستجو در وب عميق صفحهي 12 مرزهاي پروژه زمستان 1385 جستجو در وب عميق صفحهي 13 نحوهي ارزيابي • معرفي معيارهاي ارزيابي: – پوشش – ميزان ارتباط – كارآمدي ارسال فرم N success N total SE • مقايسهي دستهبندي بدست آمده با دستهبنديهاي موجود زمستان 1385 جستجو در وب عميق صفحهي 14 چشمانداز آينده • ارائهي يك مدل براي دادهپايگاهها – حل مسألهي پيدا كردن پرسوجوهاي بهينه • استفاده از تكنيكهاي دستهبندي فازي – بدليل: • عدم قطعيت در دستهبندي • همپوشاني دادهپايگاهها – مانندC-Means : زمستان 1385 جستجو در وب عميق صفحهي 15 زمانبندي زمان الزم نام فعاليت تمركز برروي حوزههاي پروژه و تكميل مطالعات 1ماه تهيهي مقاله (كنفرانس داخلي) 1ماه طراحي الگوريتمهاي الزم 2ماه پيادهسازي الگوريتمها 1ماه ارزيابي كارايي 1ماه تهيهي مستندات پاياننامه 1ماه زمستان 1385 جستجو در وب عميق صفحهي 16 نتيجهگيري • عدم كارايي موتورهاي جستجوي سنتي در برخورد با دنياي وب امروزي • نياز به تحوالت جديد • لزوم ظهور يك موتور جستجوي وب عميق براي دستيابي به دريايي از دادههاي با كيفيت زمستان 1385 جستجو در وب عميق صفحهي 17 مراجع • • • • • • The Deep Web: Surfacing Hidden Value. December 2006. See www.dad.be/library/pdf/BrightPlanet.pdf Zhang, Z., He, B., and Chang, K. C. 2004. Understanding Web query interfaces: besteffort parsing with hidden syntax. In Proceedings of the 2004 ACM SIGMOD international Conference on Management of Data. Ntoulas, A., Zerfos, P., and Cho, J. Downloading textual hidden web content through keyword queries. In Proceedings of the 5th ACM/IEEE-CS Joint Conference on Digital Libraries, 2005. Ping Wu, Ji-Rong Wen, Huan Liu, Wei-Ying Ma, Query Selection Techniques for Efficient Crawling of Structured Web Sources, icde, p. 47, 22nd International Conference on Data Engineering (ICDE'06), 2006. R. Krishnapuram, A. Joshi, O. Nasraoui, and L. Yi, Low complexity fuzzy relational clustering algorithms for web mining, IEEE Transactions on Fuzzy Systems, vol. 9, pp. 595-607, 2001. W. Pedryez, Conditional fuzzy c-means, Pattern Recognition Letters, Vol. 17, pp. 625632, 1996. 18 صفحهي جستجو در وب عميق 1385 زمستان سپاسگذاري از توجه شما متشكرم! زمستان 1385 جستجو در وب عميق صفحهي 19 ? زمستان 1385 جستجو در وب عميق صفحهي 20
© Copyright 2024 Paperzz