Searching The Deep Web(Nazanin).ppt

‫جستجو در وب عميق‬
‫ارائهدهنده‪ :‬حسين شريفيپناه‬
‫استاد راهنما‪ :‬دكتر علي موقر‬
‫گزارش درس سمينار‬
‫دانشكدهي مهندسي كامپيوتر‬
‫دانشگاه صنعتي شريف‬
‫زمستان ‪1385‬‬
‫فهرست‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫مقدمه‬
‫آناتومي پيشنهادي براي موتور جستجوي وب عميق‬
‫مرزهاي پروژه‬
‫نحوهي ارزيابي‬
‫چشمانداز آينده‬
‫زمانبندي‬
‫زمستان ‪1385‬‬
‫جستجو در وب عميق‬
‫صفحهي ‪2‬‬
‫مقدمه‬
‫• اهميت موتورهاي جستجو‬
‫• افزايش نرخ شكست در جستجوها‬
‫– چرا؟‬
‫• كشف موجوديت جديد در وب‬
‫– وب عميق‬
‫• وب عميق = وب مخفي = وب غيرقابلشاخصگذاري‬
‫زمستان ‪1385‬‬
‫جستجو در وب عميق‬
‫صفحهي ‪3‬‬
‫مقدمه (ادامه)‬
‫• اندازهي وب عميق ‪ 400 :‬تا ‪ 550‬برابر وب سطحي !‬
‫• مقايسهي اندازه و كيفيت وب عميق با وب سطحي‬
‫• سهم موتورهاي جستجوي بزرگ در حل اين مشكل‪:‬‬
‫– گوگل‪% 03/0 :‬‬
‫• هزينههاي سرسامآور تحميلي بر سايتهاي عميق‬
‫• راهحل چيست؟‬
‫زمستان ‪1385‬‬
‫جستجو در وب عميق‬
‫صفحهي ‪4‬‬
‫راه حل !!‬
‫موتور جستجوي وب سطحي‬
‫موتور جستجوي وب عميق‬
‫زمستان ‪1385‬‬
‫جستجو در وب عميق‬
‫صفحهي ‪5‬‬
‫آناتومي پيشنهادي براي موتور جستجوي وب عميق‬
‫زمستان ‪1385‬‬
‫جستجو در وب عميق‬
‫صفحهي ‪6‬‬
‫‪-1‬بازيابي صفحات وب عميق‬
‫• يك صفحهي ‪ P‬پويا گفته ميشود اگر بعضي يا تمام‬
‫محتواي آن در زمان اجرا (زمان بعد از دريافت‬
‫درخواست صفحه در خدمتگذار) توسط برنامهاي بر‬
‫روي خدمتگذار يا مشتري توليد شود‪.‬‬
‫– تشخيص فرمها‬
‫– تشخيص اسكريپتها‬
‫زمستان ‪1385‬‬
‫جستجو در وب عميق‬
‫صفحهي ‪7‬‬
‫‪-2‬تشخيص فيلدهاي فرم‬
‫• كار بسيار دشواري است!‬
‫• اكثر تكنيكها براساس روشهاي مكاشفهاي است‪.‬‬
‫• خوشبختانه‪ ،‬در اكثر فرمها از عناصر يكساني استفاده‬
‫شده است‪.‬‬
‫زمستان ‪1385‬‬
‫جستجو در وب عميق‬
‫صفحهي ‪8‬‬
‫‪-3‬تكميل خودكار فيلدها‬
‫• انتصاب مقدار مناسب به فيلدهاي استخراج شده براي‬
‫كشف محتويات داخل دادهپايگاه‬
‫• تكنيك اول‪:‬‬
‫– استفاده از پرسوجوهاي از پيش تعيين شده‬
‫• تكنيك دوم‪:‬‬
‫– استفاده از مقادير موجود در فيلدها بصورت جايگشتي‬
‫• تكنيك سوم‪:‬‬
‫– آموزش خزشگر با استفاده از پااليش صفحهي جستجو‬
‫زمستان ‪1385‬‬
‫جستجو در وب عميق‬
‫صفحهي ‪9‬‬
‫‪-3‬تكميل خودكار فيلدها ‪ -‬ادامه‬
‫• تكنيك چهارم‪:‬‬
‫– استفاده از تكنيكهاي يادگيري ماشين‬
‫• تكنيك پنجم‪:‬‬
‫– تبديل مسألهي پيدا كردن بهترين پرسوجو براي يك داده‬
‫پايگاه به مسألهي پوشش مجموعه در گرافها‬
‫– تبديل به مسألهي مجموعهي غالب وزندار كمينه‬
‫• تكنيك ششم‪:‬‬
‫– كار با اسكريپتهاي سمت مشتري‬
‫زمستان ‪1385‬‬
‫جستجو در وب عميق‬
‫صفحهي ‪10‬‬
‫‪-4‬آناليز نتايج دريافتي از دادهپايگاهها‬
‫• داليل‪:‬‬
‫– بدست آوردن كلمات كليدي جديد‬
‫– تخمين تعداد مستندات دادهپايگاه در يك زمينهي خاص‬
‫زمستان ‪1385‬‬
‫جستجو در وب عميق‬
‫صفحهي ‪11‬‬
‫‪-5‬دستهبندي يا خوشهبندي دادهپايگاهها‬
‫• دستهبندي يا خوشهبندي؟‬
‫• روشهاي مختلف دستهبندي‪:‬‬
‫– دستهبندي مبتني بر پرسوجو‬
‫– دستهبندي مبتني بر خزش‬
‫– دستهبندي با استفاده از توصيفات كالس سرويس‬
‫زمستان ‪1385‬‬
‫جستجو در وب عميق‬
‫صفحهي ‪12‬‬
‫مرزهاي پروژه‬
‫زمستان ‪1385‬‬
‫جستجو در وب عميق‬
‫صفحهي ‪13‬‬
‫نحوهي ارزيابي‬
‫• معرفي معيارهاي ارزيابي‪:‬‬
‫– پوشش‬
‫– ميزان ارتباط‬
‫– كارآمدي ارسال فرم‬
‫‪N success‬‬
‫‪N total‬‬
‫‪SE ‬‬
‫• مقايسهي دستهبندي بدست آمده با دستهبنديهاي موجود‬
‫زمستان ‪1385‬‬
‫جستجو در وب عميق‬
‫صفحهي ‪14‬‬
‫چشمانداز آينده‬
‫• ارائهي يك مدل براي دادهپايگاهها‬
‫– حل مسألهي پيدا كردن پرسوجوهاي بهينه‬
‫• استفاده از تكنيكهاي دستهبندي فازي‬
‫– بدليل‪:‬‬
‫• عدم قطعيت در دستهبندي‬
‫• همپوشاني دادهپايگاهها‬
‫– مانند‪C-Means :‬‬
‫زمستان ‪1385‬‬
‫جستجو در وب عميق‬
‫صفحهي ‪15‬‬
‫زمانبندي‬
‫زمان الزم‬
‫نام فعاليت‬
‫تمركز برروي حوزههاي پروژه و تكميل مطالعات‬
‫‪ 1‬ماه‬
‫تهيهي مقاله (كنفرانس داخلي)‬
‫‪ 1‬ماه‬
‫طراحي الگوريتمهاي الزم‬
‫‪ 2‬ماه‬
‫پيادهسازي الگوريتمها‬
‫‪ 1‬ماه‬
‫ارزيابي كارايي‬
‫‪ 1‬ماه‬
‫تهيهي مستندات پاياننامه‬
‫‪ 1‬ماه‬
‫زمستان ‪1385‬‬
‫جستجو در وب عميق‬
‫صفحهي ‪16‬‬
‫نتيجهگيري‬
‫• عدم كارايي موتورهاي جستجوي سنتي در برخورد با‬
‫دنياي وب امروزي‬
‫• نياز به تحوالت جديد‬
‫• لزوم ظهور يك موتور جستجوي وب عميق براي‬
‫دستيابي به دريايي از دادههاي با كيفيت‬
‫زمستان ‪1385‬‬
‫جستجو در وب عميق‬
‫صفحهي ‪17‬‬
‫مراجع‬
•
•
•
•
•
•
The Deep Web: Surfacing Hidden Value. December 2006. See
www.dad.be/library/pdf/BrightPlanet.pdf
Zhang, Z., He, B., and Chang, K. C. 2004. Understanding Web query interfaces: besteffort parsing with hidden syntax. In Proceedings of the 2004 ACM SIGMOD international
Conference on Management of Data.
Ntoulas, A., Zerfos, P., and Cho, J. Downloading textual hidden web content through
keyword queries. In Proceedings of the 5th ACM/IEEE-CS Joint Conference on Digital
Libraries, 2005.
Ping Wu, Ji-Rong Wen, Huan Liu, Wei-Ying Ma, Query Selection Techniques for Efficient
Crawling of Structured Web Sources, icde, p. 47, 22nd International Conference on Data
Engineering (ICDE'06), 2006.
R. Krishnapuram, A. Joshi, O. Nasraoui, and L. Yi, Low complexity fuzzy relational
clustering algorithms for web mining, IEEE Transactions on Fuzzy Systems, vol. 9, pp.
595-607, 2001.
W. Pedryez, Conditional fuzzy c-means, Pattern Recognition Letters, Vol. 17, pp. 625632, 1996.
18 ‫صفحهي‬
‫جستجو در وب عميق‬
1385 ‫زمستان‬
‫سپاسگذاري‬
‫از توجه شما متشكرم!‬
‫زمستان ‪1385‬‬
‫جستجو در وب عميق‬
‫صفحهي ‪19‬‬
‫?‬
‫زمستان ‪1385‬‬
‫جستجو در وب عميق‬
‫صفحهي ‪20‬‬