Assignment3.pdf

‫تمرین سوم‬
‫کاهش بعد‪:‬‬
‫با در نظر گرفتن دادههای ‪ comment‬به عنوان محتوای تحلیل آماری‪ ،‬پیش پردازشهای (حذف ‪،stopwords‬‬
‫‪ stemming‬و ایجاد ماتریس متن‪-‬ترم) الزم برای استفاده از این دادهها را انجام دهید‪.‬‬
‫با توجه به آنکه این داده ها بسیار پراکنده است (‪ )sparse‬از روشهای ممکن برای کاهش بعد و استخراج دادههای‬
‫مفید استفاده نمایید‪.‬‬
‫نتیجهی کار را با تگ و ‪ post‬مقایشه نمایید‪ ،‬چه نتیجهای می گیرید‪.‬‬
‫قواعد انجمنی‪:‬‬
‫الف) درختی از کاربران با توجه به تگهای اختصاص داده شده و زمان ایجاد نماید‪ .‬این جنگل چه خواصی دارد‬
‫(توصیف شهودی کافی است)‪.‬‬
‫ب) با توجه به تگهایی که بر روی یک پست قرار گرفته است‪ ،‬پیش بینی کنند که چه تگهای دیگری می توان بر‬
‫روی آن پست زد‪.‬‬
‫ج) گراف ارتباط بین پستها را ایجاد نمایید‪ .‬خواص این گراف چیست(مرتبه گره‪ ،‬انواع یالها‪ ،‬طول بزرگترین‬
‫مسیر و ‪)...‬؟‬
‫موارد زیر را در گراف ایجاد شده بیابید‪.‬‬
‫‪ .1‬یشترین درجه نودها (‪)Maximum Degree‬‬
‫‪ .2‬میانگین درجه نودها (‪)Average Degree‬‬
‫‪ .3‬میانگین فاصله (‪)Average Distance‬‬
‫این معیار میانگین فاصله بین نودهای شبکه است‪ .‬فرض کنید )‪ d(u,v‬فاصله بین‪ u‬و ‪ v‬باشد که برابر با تعداد‬
‫یالهای بین آنها در کوتاهترین مسیر بین ‪ u‬و ‪ v‬است‪ .‬میانگین فاصله بین ‪ u‬و تمام نودهای شبکه با )‪d(u‬و میانگین‬
‫فاصله در کل شبکه با ‪ d‬تعریف میشود‪:‬‬
‫‪1‬‬
‫) 𝑣 ‪∑ 𝑑 (𝑢.‬‬
‫𝑛‬
‫= ) 𝑢( 𝑑‬
‫𝑣‬
‫‪1‬‬
‫‪1‬‬
‫)𝑣 ‪∑ 𝑑 (𝑢) = 2 ∑ 𝑑(𝑢,‬‬
‫𝑛‬
‫𝑛‬
‫𝑣‪𝑢,‬‬
‫=𝑑‬
‫𝑢‬
‫‪ .4‬قطر (‪ :)Diameter‬بیشترین فاصله بین دو نود در یک شبکه یا گراف قطر شبکه میباشد که به صورت‬
‫زیر تعریف میشود‪.‬‬
‫‪ .5‬چگالی)‪ :(Density‬چگالی در شبکه یا گراف تعداد یالهای گراف تقسیم بر تعداد یالهای ممکن میباشد‬
‫که به صورت زیر تعریف میشود‪.:‬‬
‫| 𝐸|‬
‫)‪|𝑉 |(|𝑉 | − 1‬‬
‫=𝐷‬
‫‪. Max (Rich-Club Coefficient): .6‬‬
‫در محیطهای دانشگاهی و پژوهشی‪ ،‬محققان هر حوزه عالقهمند به همکاری با یکدیگر هستند‪ .‬این تمایل در‬
‫شبکههای دیگر هم مشاهده شده است و‪ hub‬ها با هم ارتباط قویتری نسبت به باقی نودها دارند‪ .‬این فرضیه‬
‫میتواند نشاندهنده‪ club‬های مهم در شبکههای معتبر باشند‪ .‬برای محاسبه این ویژگی‪ ،‬به این نکته توجه کنید‬
‫که‪ club‬های مهم درجه ‪ k‬در یک شبکه شامل رئوسی است که درجه آنها از ‪ k‬بیشتر باشد‪:‬‬
‫}𝑘 > 𝑣𝑘|)𝐺(𝑁 ∈ 𝑣{ = ) 𝑘(𝑅‬
‫که ‪ kv‬نشاندهنده درجه رأس ‪ v‬است‪ .‬حال ‪ Rich-Club Coefficient‬به صورت زیر تعریف میشود‪:‬‬
‫𝑗𝑖𝑎 ∑‬
‫)𝑘(𝑅∈𝑗‪𝑖,‬‬
‫‪1‬‬
‫)‪|𝑅(𝑘)|(|𝑅(𝑘)| − 1‬‬
‫= )𝑘(𝜑‬
‫با توجه به ننتایج حاصل چه نتیجهای گرفته میشود‪.‬‬
‫موارد قابل تحویل‪:‬‬
‫‪ ‬مستندی شامل تمام مراحل انجام کار تهیه نمایید‪.‬‬
‫‪ ‬در این تمرین تنها استفاده از برنامه ‪ R‬مجاز می باشد‪ .‬می بایست هر مورد خواسته شده را در قالب تابع‬
‫قابل فراخوانی تعریف نمایید‪.‬‬
‫‪ ‬برای هر بخش نتایج را در قالب اسکریپت ‪ R‬تحویل دهید‪.‬‬
‫‪ ‬برای هر بخش رسم شکل اجبرای است‪.‬‬
‫زمان تحویل‪:‬‬
‫‪ ‬یک شنبه ‪ 22‬آذر‬