HW2.pdf

‫بازیابی پیشرفتهی اطالعات‬
‫دانشکده مهندسی کامپیوتر‬
‫دانشگاه صنعتی شریف‬
‫تمرین کتبی دوم‬
‫موعد تحویل‪ :‬دوشنبه ‪ 51‬دی ‪39‬‬
‫‪۱‬‬
‫به سواالت زیر به صورت کوتاه پاسخ دهید (‪ 8‬نمره)‪:‬‬
‫‪ .a‬چرا داشتن یک خزندهی چند ریسمانه‪ ،1‬حتی زمانی که روی یک پردازندهی تکهستهای اجرا میشود‪ ،‬اهمیت دارد؟‬
‫‪ .b‬مزیت روش دستهبندی ‪ kNN‬بر ‪ Rocchino‬از لحاظ دقت دستهبندی در چیست؟‬
‫‪ .c‬مزیت اصلی روش خوشهبندی ‪ K-means‬بر روش سلسله مراتبی ‪ agglomerative‬چیست؟‬
‫‪۲‬‬
‫ماتریس زیر تعداد تکرار کلمات ‪ e ،d ،c ،b ،a‬و ‪ f‬را در اسناد ‪ d3 ،d2 ،d1‬و ‪( d4‬سطرها) نشان میدهد‪ .‬به عنوان مثال کلمهی ‪a‬‬
‫در سند ‪ d1‬صفر بار آمده است‪ .‬فرض کنید نسبت اسنادی که در آنها هر یک از این کلمات آمدهاند به کل اسناد‪ ،‬به ترتیب برابر‬
‫‪ ٪۵۱ ،٪۵ ،٪۰۱ ،٪1۱ ،٪1۱‬و ‪ ٪۰۱‬باشد‪.‬‬
‫‪7‬‬
‫)‪5‬‬
‫‪7‬‬
‫‪2‬‬
‫‪1‬‬
‫‪0‬‬
‫‪1‬‬
‫‪1‬‬
‫‪2‬‬
‫‪0‬‬
‫‪0‬‬
‫‪0‬‬
‫‪0‬‬
‫‪0‬‬
‫‪0‬‬
‫‪0‬‬
‫‪1‬‬
‫‪2‬‬
‫‪0‬‬
‫‪1‬‬
‫‪0‬‬
‫‪(1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪ 4( .a‬نمره) برای پرسمان ”‪ “a b f‬اسناد را بر اساس معیار ‪ tf( tf.idf‬بدون مقیاسدهی لکاریتمی) مرتب کنید‪.‬‬
‫‪Multi Thread 1‬‬
‫‪1‬‬
‫‪ 6( .b‬نمره) حال فرض کنید نیمهی اول اسناد در رتبهبندی به دست آمده از قسمت قبل‪ ،‬به عنوان اسناد مرتبط با‬
‫این پرسمان و مابقی اسناد به عنوان اسناد نامرتبط مشخص شوند‪ .‬مجددا این اسناد را با استفاده از روش احتمالی‬
‫‪ BIM‬رتبهبندی کنید‪.‬‬
‫‪۳‬‬
‫برای بازیابی احتمالی با استفاده از مدل زبانی تکگرم‪:۰‬‬
‫‪ 1۱( .a‬نمره) نشان دهید استفاده از مدل هموار شده زیر برای احتمال رخداد واژهها در اسناد‪ ،‬یعنی )𝑑|𝑡(𝑃‪:‬‬
‫) 𝑐𝑀|𝑡(𝑃)𝜆 ‪𝑃(𝑡|𝑑) = 𝜆𝑃(𝑡|𝑀𝑑 ) + (1 −‬‬
‫معادل با به کار گیری میار شباهت زیر است‪:‬‬
‫𝑑𝐿‪𝜆 𝑡𝑓𝑡,𝑑 /‬‬
‫)‬
‫𝑇‪1 − 𝜆 𝑐𝑓𝑡 /‬‬
‫𝑑∈𝑡∧𝑞∈𝑡‬
‫‪ ۵( .b‬نمره) مشخص کنید در دوحالت حدی‪ ،‬یعنی هنگامی که 𝜆 نزدیک صفر یا یک است‪ ،‬استفاده از این مدل در‬
‫‪log⁡(1 +‬‬
‫∑ = )𝑞 ‪𝑠𝑐𝑜𝑟𝑒(𝑑,‬‬
‫بازیابی چه تعبیری دارد و برای چه پرسمانهایی مناسبتر است؟‬
‫‪۴‬‬
‫تیترهای خبری دستهبندی شدهی زیر را در نظر بگیرید‪:‬‬
‫دسته‬
‫تیتر‬
‫اخبار جهانی‬
‫‪Iraq election‬‬
‫اخبار جهانی‬
‫‪French executive injured‬‬
‫تجارت‬
‫‪Chief executive smiles‬‬
‫تجارت‬
‫‪Krispy Kreme executive resigns‬‬
‫‪ 6( .a‬نمره) با استفاده از روش ‪ ،3NN‬عبارت ‪ executive suite‬به کدام دسته تعلق میگیرد؟ از ‪( tf‬بدون ‪)idf‬‬
‫و معیار شباهت کسینوسی استفاده نمایید‪.‬‬
‫‪ 4( .b‬نمره) آیا استفاده از روش ‪ 1NN‬نتیجهی یکسان میدهد؟ چرا؟‬
‫‪۵‬‬
‫نقاط زیر را در نظر بگیرید که در دو دسته قرار گرفتهاند‪:‬‬
‫)‪C1: (2, 7), (3, 8), (1, 6‬‬
‫‪Unigram ۰‬‬
‫‪۰‬‬
‫)‪C2: (5, 9), (7, 11), (4, 7), (8, 9‬‬
‫‪ 4( .a‬نمره) با استفاده از روش ‪ Rocchino‬نتیجه دستهبندی به دو دسته روی همین داده ها را مشخص کنید‪ .‬آیا‬
‫با استفاده از این دستهبند‪ ،‬دادهی (از بین دادههای باال) هست که نادرست دستهبندی شود؟ اگر بله‪ ،‬کدام؟‬
‫‪ 6( .b‬نمره) بر اساس روش ‪ ،Rocchino‬تابع تصمیمگیری را به صورت 𝑏 ‪ 𝑦 ≥ 𝑎𝑥 +‬به دست آورید و مشخص‬
‫کنید نقاطی که در این نامساوی صدق میکنند متعلق به کدام دستهاند (برای این منظور‪ ،‬از این نکته استفاده‬
‫کنید که دستهبند ‪ Rocchnio‬بر اساس فاصلهی اقلیدسی داده از مراکز ثقل دو دسته را با هم مقایسه میکند)‪.‬‬
‫‪۶‬‬
‫اسناد زیر را در فضای برداری ‪( tf‬بدون استفاده از ‪ )idf‬در نظر بگیرید‪:‬‬
‫‪d1: go Longhorns go‬‬
‫‪d2: go Texas‬‬
‫‪d3: Texas Longhorns‬‬
‫‪d4: Longhorns Longhorns‬‬
‫همچنین از معیار شباهت کسینوسی بهره گیرید‪.‬‬
‫‪ 1۱( .a‬نمره) خوشه بندی با استفاده از روش ‪ K-means‬در حالتی که ‪ K=2‬و مراکز دو خوشه در ابتدا ‪ d1‬و ‪ d2‬هستند را‬
‫انجام دهید‪.‬‬
‫‪ 1۱( .b‬نمره) چنانچه از روش سلسله مراتبی ‪ single-link‬استفاده شود‪ ،‬نتیجه حاصل را به صورت یک ‪dendrogram‬‬
‫به همراه محاسبه شباهتهای الزم نشان دهید‪.‬‬
‫‪۷‬‬
‫پنج صفحه به صورت زیر به یکدیگر پیوند دارند‪:‬‬
‫‪A‬‬
‫‪B‬‬
‫‪E‬‬
‫‪D‬‬
‫‪C‬‬
‫‪3‬‬
‫‪ 1۵( .a‬نمره) الگوریتم ‪ PageRank‬را به ازای سه تکرار اجرا کرده و مقادیر ‪ PageRank‬را در هر مرحله نشان‬
‫دهید‪ .‬از دوربری‪ α = 0.1 3‬استفاده نمایید‪.‬‬
‫‪ 1۰( .b‬نمره) الگوریتم ‪ HITS‬را به ازای سه تکرار اجرا نموده و مقادیر ‪ hub‬و ‪ authority‬را برای هر صفحه به‬
‫دست آورید‪ .‬در هر مرحله مقادیر ‪ )authority( hub‬را بر بیشینهی ‪ )authority( hub‬تقسیم نمایید‪.‬‬
‫‪Teleporting 3‬‬
‫‪4‬‬