بازیابی پیشرفتهی اطالعات دانشکده مهندسی کامپیوتر دانشگاه صنعتی شریف تمرین کتبی دوم موعد تحویل :دوشنبه 51دی 39 ۱ به سواالت زیر به صورت کوتاه پاسخ دهید ( 8نمره): .aچرا داشتن یک خزندهی چند ریسمانه ،1حتی زمانی که روی یک پردازندهی تکهستهای اجرا میشود ،اهمیت دارد؟ .bمزیت روش دستهبندی kNNبر Rocchinoاز لحاظ دقت دستهبندی در چیست؟ .cمزیت اصلی روش خوشهبندی K-meansبر روش سلسله مراتبی agglomerativeچیست؟ ۲ ماتریس زیر تعداد تکرار کلمات e ،d ،c ،b ،aو fرا در اسناد d3 ،d2 ،d1و ( d4سطرها) نشان میدهد .به عنوان مثال کلمهی a در سند d1صفر بار آمده است .فرض کنید نسبت اسنادی که در آنها هر یک از این کلمات آمدهاند به کل اسناد ،به ترتیب برابر ٪۵۱ ،٪۵ ،٪۰۱ ،٪1۱ ،٪1۱و ٪۰۱باشد. 7 )5 7 2 1 0 1 1 2 0 0 0 0 0 0 0 1 2 0 1 0 (1 1 1 4( .aنمره) برای پرسمان ” “a b fاسناد را بر اساس معیار tf( tf.idfبدون مقیاسدهی لکاریتمی) مرتب کنید. Multi Thread 1 1 6( .bنمره) حال فرض کنید نیمهی اول اسناد در رتبهبندی به دست آمده از قسمت قبل ،به عنوان اسناد مرتبط با این پرسمان و مابقی اسناد به عنوان اسناد نامرتبط مشخص شوند .مجددا این اسناد را با استفاده از روش احتمالی BIMرتبهبندی کنید. ۳ برای بازیابی احتمالی با استفاده از مدل زبانی تکگرم:۰ 1۱( .aنمره) نشان دهید استفاده از مدل هموار شده زیر برای احتمال رخداد واژهها در اسناد ،یعنی )𝑑|𝑡(𝑃: ) 𝑐𝑀|𝑡(𝑃)𝜆 𝑃(𝑡|𝑑) = 𝜆𝑃(𝑡|𝑀𝑑 ) + (1 − معادل با به کار گیری میار شباهت زیر است: 𝑑𝐿𝜆 𝑡𝑓𝑡,𝑑 / ) 𝑇1 − 𝜆 𝑐𝑓𝑡 / 𝑑∈𝑡∧𝑞∈𝑡 ۵( .bنمره) مشخص کنید در دوحالت حدی ،یعنی هنگامی که 𝜆 نزدیک صفر یا یک است ،استفاده از این مدل در log(1 + ∑ = )𝑞 𝑠𝑐𝑜𝑟𝑒(𝑑, بازیابی چه تعبیری دارد و برای چه پرسمانهایی مناسبتر است؟ ۴ تیترهای خبری دستهبندی شدهی زیر را در نظر بگیرید: دسته تیتر اخبار جهانی Iraq election اخبار جهانی French executive injured تجارت Chief executive smiles تجارت Krispy Kreme executive resigns 6( .aنمره) با استفاده از روش ،3NNعبارت executive suiteبه کدام دسته تعلق میگیرد؟ از ( tfبدون )idf و معیار شباهت کسینوسی استفاده نمایید. 4( .bنمره) آیا استفاده از روش 1NNنتیجهی یکسان میدهد؟ چرا؟ ۵ نقاط زیر را در نظر بگیرید که در دو دسته قرار گرفتهاند: )C1: (2, 7), (3, 8), (1, 6 Unigram ۰ ۰ )C2: (5, 9), (7, 11), (4, 7), (8, 9 4( .aنمره) با استفاده از روش Rocchinoنتیجه دستهبندی به دو دسته روی همین داده ها را مشخص کنید .آیا با استفاده از این دستهبند ،دادهی (از بین دادههای باال) هست که نادرست دستهبندی شود؟ اگر بله ،کدام؟ 6( .bنمره) بر اساس روش ،Rocchinoتابع تصمیمگیری را به صورت 𝑏 𝑦 ≥ 𝑎𝑥 +به دست آورید و مشخص کنید نقاطی که در این نامساوی صدق میکنند متعلق به کدام دستهاند (برای این منظور ،از این نکته استفاده کنید که دستهبند Rocchnioبر اساس فاصلهی اقلیدسی داده از مراکز ثقل دو دسته را با هم مقایسه میکند). ۶ اسناد زیر را در فضای برداری ( tfبدون استفاده از )idfدر نظر بگیرید: d1: go Longhorns go d2: go Texas d3: Texas Longhorns d4: Longhorns Longhorns همچنین از معیار شباهت کسینوسی بهره گیرید. 1۱( .aنمره) خوشه بندی با استفاده از روش K-meansدر حالتی که K=2و مراکز دو خوشه در ابتدا d1و d2هستند را انجام دهید. 1۱( .bنمره) چنانچه از روش سلسله مراتبی single-linkاستفاده شود ،نتیجه حاصل را به صورت یک dendrogram به همراه محاسبه شباهتهای الزم نشان دهید. ۷ پنج صفحه به صورت زیر به یکدیگر پیوند دارند: A B E D C 3 1۵( .aنمره) الگوریتم PageRankرا به ازای سه تکرار اجرا کرده و مقادیر PageRankرا در هر مرحله نشان دهید .از دوربری α = 0.1 3استفاده نمایید. 1۰( .bنمره) الگوریتم HITSرا به ازای سه تکرار اجرا نموده و مقادیر hubو authorityرا برای هر صفحه به دست آورید .در هر مرحله مقادیر )authority( hubرا بر بیشینهی )authority( hubتقسیم نمایید. Teleporting 3 4
© Copyright 2026 Paperzz