haghir.ppt

‫خوشه بندي ساختاروب‬
‫مرتض ي حقير چهرقاني‬
‫دي ماه ‪1385‬‬
‫‪1‬‬
‫فهرست‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫تعريف مساله‬
‫معيارهاي خوشه بندي‬
‫الگوريتم هاي خوشه بندي‬
‫ارزيابي نتايج خوشه بندي‬
‫نتيجه گيري‬
‫• پيشنهادات وکارهاي آينده‬
‫‪2‬‬
‫تعريف مساله‬
‫– عدم وجود تعريف بطور سراسري پذيرفته شده‬
‫– قرار دادن داده ها در گروه هاي مختلف‬
‫• کمينه کردن شباهت بين گروه ها‬
‫• بيشينه کردن شباهت درون گروهي‬
‫– تعريف خوشه ها توسط الگوريتم خوشه بندي‬
‫– محدوده خوشه بندي در وب‬
‫• ‪ ‬خوشه بندي صفحات وب در دامنه خاص‬
‫• ‪ ‬خوشه بندي نتايج جستجو‬
‫‪3‬‬
‫تعريف مساله ‪ -‬ادامه‬
‫• مزاياي خوشه بندي وب‬
‫– پيش پردازش‬
‫– بهبود جستجو‬
‫• مبتني بر خوشه‬
‫• خوشه گرا‬
‫– سازمان دهي اطالعات و ارائه دانش‬
‫– بهبود عمليات خزش وب‬
‫‪4‬‬
‫تعريف مساله ‪ -‬ادامه‬
‫• چالش هاي خوشه بندي وب‬
‫معيار‬
‫خوشه بندي‬
‫– معيارهاي خوشه بندي‬
‫• چگونگي استفاده از معيارهاي‬
‫مختلف‬
‫الگوريتم‬
‫خوشه بندي‬
‫انجام عمليات خوشه بندي‬
‫– الگوريتم هاي خوشه بندي‬
‫• کدام الگوريتم؟‬
‫خوشه ها‬
‫– ارزيابي نتايج خوشه بندي‬
‫ارزيابي نتايج‬
‫‪5‬‬
‫وب‬
‫معيارهاي خوشه بندي‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪6‬‬
‫معيارهاي مبتني بر پيوند‬
‫معيارهاي مبتني بر محتوا‬
‫معيارهاي مبتني بر ساختار‬
‫معيارهاي ترکيبي‬
‫معيارهاي مبتني برپيوند‬
‫•‬
‫•‬
‫•‬
‫•‬
‫پيوند مستقيم‬
‫هم پيوندي‬
‫جفت شدگي‬
‫مسائل‬
‫–‬
‫–‬
‫–‬
‫–‬
‫–‬
‫وجود رقابت مانع از برقراري پيوند مناسب مي شود‬
‫نظرات جانبدارانه در برقراري پيوند‬
‫عدم وجود پيوند در صفحات تازه بوجود آمده‬
‫پيوند به سايتهاي عمومي‬
‫ارتباط فقط ‪ 7‬درصد زوج دامنه ها توسط پيوندها‬
‫• در نتيجه معيارهاي ديگر‬
‫‪7‬‬
‫معيارهاي مبتني برپيوند ‪ -‬ادامه‬
‫• ارتباط معيارهاي پيوندي با يکديگر‬
‫– عامل اصلي‪ ،‬استفاده از پيوندها‬
‫• تاثير در دقت‬
‫– نقش حاشيه اي هم پيوندي و جفت شدگي‬
‫• تاثير در يادآوري‬
‫• بکارگيری معيارهاي مبتني بر پيوند‬
‫–‬
‫–‬
‫–‬
‫–‬
‫‪8‬‬
‫تشکيل بردار با تعداد ابعاد برابر با تعداد پيوندها‬
‫چگالي محلي و نسبي‬
‫نسبت مقادير هم پيوندي و‪/‬يا جفت شدگي به کل پيوندهاي خروجي و‪/‬يا ورودي‬
‫طول مسير‪ ،‬توزيع يالها و اشيا وب و ‪...‬‬
‫معيارهاي مبتني برمحتوا و ساختار‬
‫– انواع اطالعات‬
‫•‬
‫•‬
‫•‬
‫•‬
‫متن مستندات‬
‫استخراج عنوان‪ ،‬کلمات کليدي‪ ،‬اشکال‪ ،‬جداول و ‪...‬‬
‫متن موجود در اطراف پيوند‬
‫متن اطراف کلمات جستجو (در نتايج جستجو)‬
‫– نمايش گرافي محتوا‬
‫• استفاده از عمليات يافتن زيرگراف مشترک براي شباهت‬
‫‪9‬‬
‫معيارهاي ترکيبي‬
‫• ترکيب محتوا و پيوند‪ :‬تاکيد يا نفی؟‬
‫• ارتباط محتوا و پيوند‪:‬‬
‫–‬
‫–‬
‫–‬
‫–‬
‫‪10‬‬
‫در درون شعاعي در حدود ‪ 3‬پيوند‬
‫کلمات‪ :‬حذف صفحات نويز و درصدي از صفحات که مي توانند‬
‫خوشه بندي شوند‬
‫جفت شدگي‪ :‬اندازه خوشه (بزرگ) و تعداد خوشه هاي توليد شده‬
‫هم پيوندي‪ :‬درصد از صفحه که خوشه بندي مي شود‬
‫الگوريتم هاي خوشه بندي‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪11‬‬
‫الگوريتم هاي سلسله مراتبي در مقابل الگوريتم هاي يک سطحي‬
‫الگوريتم هاي مبتني بر يافتن نقاط نماينده‬
‫الگوريتم هاي مبتني بر يافتن اجتماعات‬
‫الگوريتم هاي مبتني بر تئوري گراف ها‬
‫الگوريتم هاي درختي‬
‫الگوريتم هاي مبتني بر يادگيري‬
‫خوشه بندي ماتريس هاي خلوت‬
‫الگوريتم هاي مبتني بر چگالي‬
‫الگوريتم هاي سلسله مراتبي و يک سطحي‬
‫• الگوريتم هاي سلسله مراتبي‬
‫–‬
‫–‬
‫–‬
‫–‬
‫نمايش بهتر از دانش به کاربر‬
‫پيچيدگي باال‬
‫خطا در طول ترکيب حريصانه‬
‫استفاده از الگوريتم هاي يک سطحي براي تشکيل خوشه هاي اوليه‬
‫– انجام چند گذر برای بهبود سلسله مراتب‬
‫‪12‬‬
‫الگوريتم هاي مبتني بريافتن نقاط نماينده‬
‫–‬
‫–‬
‫–‬
‫–‬
‫تعيين تعدادي نقطه (مرکز) و انتساب داده ها به آن‬
‫تعيين تعدادي مرکز محدود و افزايش تدريجي‬
‫استفاده از مفاهيم هم پيوندي و جفت شدگي برای تشکيل خوشه‬
‫اوليه‬
‫ارتباط با ساير الگوريتم ها‬
‫• الگوريتم ‪ EM‬بر روي ترکيبي از ‪ K‬توزيع نرمال‬
‫• برش کمينه نرمال شده‬
‫‪13‬‬
‫الگوريتم هاي مبتني بريافتن اجتماعات‬
‫– تفاوت و شباهت خوشه و اجتماع‬
‫• مفهوم عام تر خوشه نسبت به اجتماع‬
‫– استخراج اجتماع با استفاده از خوشه بندی‬
‫• معيار شباهت يک معيار پيوندي‬
‫• پيش‪/‬پس پردازش جهت کاهش اندازه و يا حذف خوشه ها‬
‫– ايفاي نقش هسته خوشه ها توسط اجتماعات‬
‫‪14‬‬
‫الگوريتم هاي مبتني برتئوري گراف‬
‫• راهکارهاي عمده در توسعه الگوريتم هاي گرافي‬
‫– تشکيل خوشه با حذف يالها‬
‫• تشکيل درخت پوشاي کمينه گراف و حذف طوالني ترين يال ها‬
‫• خوشه بندي مبتني بر مياني بودن‬
‫• برش کمينه و برش کمينه نرمال شده‬
‫– استخراج مولفه ها و گروه هاي متصل‬
‫• شمارش گروه هاي دوبخش ي و محفل ها‬
‫• گروه بندي گره هاي مجاور بر اساس‬
‫– برقراري تطبيق و روابط تناسب‬
‫‪15‬‬
‫الگوريتم هاي درختي ‪ +‬ماتريس خلوت‬
‫• درخت پسوندي‬
‫– استفاده از ‪tri‬‬
‫– تشکيل درخت مبتني بر عبارت هاي پسوندي‬
‫– محتواي هر گره‬
‫• اتصال برچسبهاي يال هاي موجود در مسير ريشه تا گره‬
‫• مستندات محتوي برچسب گره‬
‫– ترکيب دو گره در صورت اشتراک بين اعضا‬
‫• ماتريس خلوت‬
‫– ‪RCM‬‬
‫– کينگ‬
‫– ‪MMD‬‬
‫‪16‬‬
‫الگوريتم هاي مبتني بريادگيري و چگالی‬
‫• روش های يادگيری‬
‫– بهينه سازي با استفاده از يک تابع تناسب يا هدف‬
‫– بهبود کارايي ساير الگوريتم ها (تنظيم پارامترها و ‪)...‬‬
‫• روشها‪:‬‬
‫– چگالي محلي و چگالي نسبي (شبيه سازي گرم و سرد کردن)‬
‫– ‪ :MajorClust‬انتساب تکراري هر گره به سمت خوشه نزديک تر‬
‫– شبکه هاي عصبي‪ ،‬مدل مارکف مخفي و ‪ ...‬براي بهبود پارامتر‬
‫• الگوريتم های مبتنی بر چگالی‬
‫– توسعه کم در محيط وب‬
‫• مراحل‪:‬‬
‫– پيدا کردن فاصله هاي همسايگي چگال در مجموعه داده ها‬
‫– ترکيب آنها براي ايجاد خوشه هاي بزرگ تر‬
‫‪17‬‬
‫ويژگي هاي تکميلي براي خوشه بندي وب‬
‫• رابطه چند به چند بين خوشه ها و صفحات وب‬
‫• بهنگام کردن افزايش ي خوشه ها‬
‫• محلي بودن روش خوشه بندي‬
‫• استفاده از مزاياي وب معنايي‬
‫‪18‬‬
‫ارزيابي نتايج حاصله ازخوشه بندي وب‬
‫• دشوار و معموال وابسته به کاربرد‬
‫• معيارهاي خارجي‬
‫–‬
‫–‬
‫–‬
‫–‬
‫–‬
‫مش ي استاندارد طاليي‬
‫مش ي وظيفه گرا‬
‫دقت و يادآوري‬
‫انتروپي‪ :‬بهم پيوستگي دروني خوشه ها‬
‫‪ :F-Measure‬ترکيب دقت و يادآوري‬
‫• معيارهاي داخلي‬
‫‪19‬‬
‫نتيجه گيري‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪20‬‬
‫عدم کارايي پيوند تنها‬
‫استفاده از متن و پيوند با مقياس هاي متفاوت‬
‫استفاده از کاهش ابعاد‬
‫امکان انجام الگوريتم هاي مبتني بر چگالي بر روي وب‬
‫قابليت هاي مفيد براي خوشه بندي‬
‫معيارهاي ارزيابي‬
‫پيشنهادات و کارهاي آينده‬
‫• توسعه روش هاي جديد براساس ناحيه هاي چگال و ساختار پيوندي و‬
‫متني صفحات وب‬
‫–‬
‫–‬
‫–‬
‫–‬
‫تعميم الگوريتم هاي مبتني بر چگالي براي تشکيل خوشه هاي سلسله مراتبي‬
‫تعريف توابع تناسب براي بهبود خوشه بندي‬
‫در نظر گرفتن مقياس هاي مختلف براي پيوند و متن‬
‫بررس ي استفاده از خوشه هاي پيوندي متراکم بعنوان نواحي چگال اوليه‬
‫• استفاده از روش هاي يادگيري براي بهبود الگوريتم هاي مبتني بر چگالي‬
‫– تعيين پارامترهای مناسب برای تعريف نواحی چگال‬
‫‪21‬‬
‫با قدرداني و تشکراز‬
‫توجه و همراهی شما‬
‫و‬
‫راهنمايي هاي ارزشمند اساتيد ارجمند‬
‫دکتر محمد قدس ي‬
‫دکتر حسن ابوالحسني‬
‫‪22‬‬
23