پایان نامه رهيافتي براي نظرکاوي در متون خبري فارسي

‫استخراج دقيق آنها و ضعف سيستمهاي فعلي‪ ،‬لزوم افزايش‬
‫دقت سيستمهاي تشخيص خودکار را مشخص ميکند‪.‬‬
‫در مورد قيود استخراجشده بهصورت انساني اگرچه استفاده‬
‫از اين مشخصه به صورت تکي گاهي خوب و گاهي بسيار بد بوده‬
‫است اما بهترين نتيجه زماني بهدست آمده است که از آن‬
‫استفاده شده است‪.‬‬
‫اصالح‬
‫نظير‬
‫پيشپردازش‬
‫عمليات‬
‫از‬
‫برخي‬
‫انجام‬
‫فاصلهگذاريها‪ ،‬تبديل حاالت محاورهاي به معيار‪ ،‬و اصالح‬
‫غلطهاي امالئي بهصورت انساني در اين کار‪ ،‬درکنار در دسترس‬
‫نبودن مطلوب سيستمهايي که اين اعمال را بهصورت خودکار‬
‫انجام دهند و از عهدهي رفع ابهامات موجود در لغات زبان‬
‫فارسي هم بر آيند‪ ،‬اهميت کار در راستاي تهيهي اين سيستمها‬
‫را نشان ميدهد‪.‬‬
‫لحاظ کردن برخي از لغاتي که گرايش آنها با استفاده از‬
‫بررسي زمينه مشخص ميشد‪ ،‬و انجام مجدد برخي از آزمايشها‬
‫نتوانست به بهبود نتايج کمک کند‪ ،‬هرچند اين موضوع نياز‬
‫به بررسي بيشتري دارد‪.‬‬
‫‪ .2-5‬کارهاي آتي‬
‫در روند مطالعات انجام شده غير از مشخصههاي‬
‫بهکارگرفتهشده‪ ،‬مشخصههاي جالب توجه ديگري نيز بهنظر رسيد‬
‫که بررسي آنها ميتواند مفيد باشد ازجملهي اين مشخصهها‬
‫ميتوان به "لغات تاثيرگذار غير از صفت و قيد"‪" ،‬آغازگر‬
‫جمالت داخلي نظرات"‪ ،‬و ضربالمثلها اشاره کرد‪.‬‬
‫تعيين گرايش مثبت يا منفي لغات‪ ،‬اگر بهصورت خودکار‬
‫انجام شود ميتواند حجم قابل توجهي از کار انساني الزم را‬
‫کاهش داده و انجام مطالعات آتي را تسهيل کند‪.‬‬
‫کار در مورد ابعاد ديگر بحثهاي مهم در رابطه با تحليل‬
‫احساس‪ ،‬عليالخصوص شناسايي هدف مورد اظهارنظر توسط کاربر‬
‫از جمله مطالعاتي است که نياز و اهميت آن احساس ميشود‪.‬‬
‫پيادهسازي اوليهي معماري ارائهشده در فصل ‪ 3‬نيز از‬
‫کارهايي است که پرداختن به آن داراي جذابيت و اهميت‬
‫قابلتوجهي است ‪.‬‬
‫مراجع و ماخذ‬
[1]
Pang B and Lee L. January 2008. Opinion Mining and Sentiment Analysis. Found. Trends Inf. Retr.
2, 1-2, 1-135.
]2[
Liu B. 2011. Web Data Mining, Exploring HyperLinks, contents, and Usage Data. Springer.
]3[
Wiegand M and Klakow D. 2010. Convolution kernels for opinion holder extraction. In Human
Language Technologies: The Annual Conference of the North American Chapter of the Association
for Computational Linguistics (HLT). Association for Computational Linguistics, Stroudsburg, PA,
USA, 795-803.
]4[
Lu B. 2010. Identifying opinion holders and targets with dependency parser in Chinese news texts.
In Proceedings of the NAACL HLT Student Research Workshop (HLT-SRWS). Association for
Computational Linguistics, Stroudsburg, PA, USA, 46-51.
]5[
Awadallah R, Ramanath M, and Weikum G. 2011. OpinioNetIt: understanding the opinions-people
network for politically controversial topics. In Proceedings of the 20th ACM international
conference on Information and knowledge management (CIKM), Bettina Berendt, Arjen de Vries,
Wenfei Fan, Craig Macdonald, Iadh Ounis, and Ian Ruthven (Eds.). ACM, New York, NY, USA,
2481-2484.
]6[
Goujon B. 2011. Text Mining for Opinion Target Detection. In Proceedings of the European
Intelligence and Security Informatics Conference (EISIC). IEEE Computer Society, Washington,
DC, USA, 322-326.
]7[
Mukund S, Ghosh D, and Srihari R. 2011. Using sequence kernels to identify opinion entities in
Urdu. In Proceedings of the Fifteenth Conference on Computational Natural Language Learning
(CoNLL '11). Association for Computational Linguistics, Stroudsburg, PA, USA, 58-67.
]8[
Jiang L, Yu M, Zhou M, Liu X, and Zhao T. 2011. Target-dependent Twitter sentiment
classification. In Proceedings of the 49th Annual Meeting of the Association for Computational
Linguistics: Human Language Technologies - Volume 1 (HLT), Vol. 1. Association for
Computational Linguistics, Stroudsburg, PA, USA, 151-160.
]9[
Wang H, Lu Y, and Zhai C. 2011. Latent aspect rating analysis without aspect keyword supervision.
In Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and
data mining (KDD). ACM, New York, NY, USA, 618-626.
]10[
Yohan J and Alice H. 2011. Aspect and sentiment unification model for online review analysis. In
Proceedings of the fourth ACM international conference on Web search and data mining (WSDM).
ACM, New York, NY, USA, 815-824.
]11[
Baccianella S, Esuli A, and Sebastiani F. 2009. Multi-facet Rating of Product Reviews. In
Proceedings of the 31th European Conference on IR Research on Advances in Information
Retrieval (ECIR), Mohand Boughanem, Catherine Berrut, Josiane Mothe, and Chantal SouleDupuy (Eds.). Springer-Verlag, Berlin, Heidelberg, 461-472.
]12[
Shimada K and Endo T. 2008. Seeing several stars: a rating inference task for a document
containing several evaluation criteria. In Proceedings of the 12th Pacific-Asia conference on
Advances in knowledge discovery and data mining (PAKDD). Springer-Verlag, Berlin, Heidelberg,
1006-1014.
]13[
1[
]4
1[
]5
1[
]6
1[
]7
1[
]8
[1
9]
[2
0]
2[
]1
2[
]2
2[
]3
2[
]4
2[
]5
2[
]6
2[
]7
Liu J and Seneff S. 2009. Review sentiment scoring via a parse-and-paraphrase paradigm. In
Proceedings of the Conference on Empirical Methods in Natural Language Processing: Volume 1
- Volume 1 (EMNLP), Vol. 1. Association for Computational Linguistics, Stroudsburg, PA, USA,
161-169.
Baykan E, Henzinger M, Marian L, and Weber I. 2011. A Comprehensive Study of Features and
Algorithms for URL-Based Topic Classification. ACM Trans. Web 5, 3, Article 15, 29 pages.
July
Baykan E, Henzinger M, and Weber I. August 2008. Web page language identification based on
URLs. Proc. VLDB Endow. 1, 1, 176-187.
Zubaryeva O and Savoy J. 2009. Investigation in statistical language-independent approaches for
opinion detection in English, Chinese and Japanese. In Proceedings of the Third International
Workshop on Cross Lingual Information Access: Addressing the Information Need of
Multilingual Societies (CLIAWS3). Association for Computational Linguistics, Stroudsburg,
PA, USA, 38-45.
Osman D, Yearwood J, and Vamplew P. 2007. Using corpus analysis to inform research into
opinion detection in blogs. In Proceedings of the sixth Australasian conference on Data mining
and analytics - Volume 70 (AusDM), Vol. 70. Australian Computer Society, Inc., Darlinghurst,
Australia, 65-75.
Yu N and Kübler S. 2011. Filling the gap: semi-supervised learning for opinion detection across
domains. In Proceedings of the Fifteenth Conference on Computational Natural Language
Learning (CoNLL). Association for Computational Linguistics, Stroudsburg, PA, USA, 200-209.
Gongshen L, Huoyao L, Jun L, Jiuchuan L. 2010. Predicting the Semantic Orientation of Movie
Reviews. Seventh International Conference on Fuzzy Systems and Knowledge Discovery (FSKD).
Pang B, Lee L, Vaithyanathan S. 2002. Thumbs up? Sentiment classification using machine
learning techniques. In Proceedings of the 2002 Conference on Empirical Methods in Natural
Language Processing (EMNLP).
Meena A and Prabhakar T. 2007. Sentence level sentiment analysis in the presence of conjuncts
using linguistic analysis. In Proceedings of the 29th European conference on IR research (ECIR).
Springer-Verlag, Berlin, Heidelberg, 573-580.
Fu G and Wang X. 2010. Chinese sentence-level sentiment classification based on fuzzy sets. In
Proceedings of the 23rd International Conference on Computational Linguistics: Posters
(COLING). Association for Computational Linguistics, Stroudsburg, PA, USA, 312-319.
Engonopoulos N, Lazaridou A, Paliouras G, and Chandrinos K. 2011. ELS: a word-level method
for entity-level sentiment analysis. In Proceedings of the International Conference on Web
Intelligence, Mining and Semantics (WIMS). ACM, New York, NY, USA, Article 12, 9 pages.
Thet T, Cheon J, and Khoo C. December 2010. Aspect-based sentiment analysis of movie
reviews on discussion boards. J. Inf. Sci. 36, 6, 823-848.
Esuli A and Sebastiani F. 2006. “SentiWordNet: A publicly available lexical resource for
opinion mining”, in Proceedings of Language Resources and Evaluation (LREC).
Baccianella A and Sebastiani F. 2010. SentiWordNet 3.0: An Enhanced Lexical Resource for
Sentiment Analysis and Opinion Mining, in 'Proceedings of the Seventh conference on
International Language Resources and Evaluation (LREC), European Language Resources
Association (ELRA), Valletta, Malta.
MEJOVA, Y., SRINIVASAN, P. 2011. Exploring Feature Definition and Selection for
Sentiment Classifiers. International AAAI Conference on Weblogs and Social Media, North
America, jul.
]28[
Hu X and Wu B. 2009. Classification and Summarization of Pros and Cons for Customer Reviews.
In Proceedings of IEEE/WIC/ACM International Joint Conference on Web Intelligence and
Intelligent Agent Technology - Volume 03 (WI-IAT), Vol. 3. IEEE Computer Society, Washington,
DC, USA, 73-76.
]29[
Lerman K, Goldensohn S, and McDonald R. 2009. Sentiment summarization: evaluating and
learning user preferences. In Proceedings of the 12th Conference of the European Chapter of the
Association for Computational Linguistics (EACL). Association for Computational Linguistics,
Stroudsburg, PA, USA, 514-522.
]30[
Zhang Z and Varadarajan B. 2006. Utility scoring of product reviews. In Proceedings of the 15th
ACM international conference on Information and knowledge management (CIKM). ACM, New
York, NY, USA, 51-57.
]31[
Huang S, Shen D, Feng W, Zhang Y, and Baudin C. 2009. Discovering clues for review quality
from author's behaviors on e-commerce sites. In Proceedings of the 11th International Conference
on Electronic Commerce (ICEC). ACM, New York, NY, USA, 133-141.
]32[
Lu Y, Tsaparas P, Ntoulas A, and Polanyi L. 2010. Exploiting social context for review quality
prediction. In Proceedings of the 19th international conference on World wide web (WWW). ACM,
New York, NY, USA, 691-700.
]33[
Lau R, Liao S, Kwok R, Xu K, Xia Y, and Li Y. January 2012. Text mining and probabilistic
language modeling for online review spam detection. ACM Trans. Manage. Inf. Syst. 2, 4, Article
25, 30 pages.
]34[
Jindal N and Liu B. 2008. Opinion spam and analysis. In Proceedings of the international
conference on Web search and web data mining (WSDM). ACM, New York, NY, USA, 219-230.
]35[
Lim E, Nguyen V, Jindal N, Liu B, and Lauw H. 2010. Detecting product review spammers using
rating behaviors. In Proceedings of the 19th ACM international conference on Information and
knowledge management (CIKM). ACM, New York, NY, USA, 939-948.
]36[
Jindal N, Liu B, and Lim E. 2010. Finding unusual review patterns using unexpected rules. In
Proceedings of the 19th ACM international conference on Information and knowledge management
(CIKM). ACM, New York, NY, USA, 1549-1552.
]37[
Shamsfard M, Jafari H, Ilbeygi M. 2010. STeP-1: A Set of Fundamental Tools for Persian Text
Processing, LREC 2010-8th Language Resources and Evaluation Conference, Malta.
[38]
Manning C, Raghavan P, Schütze H. 2008. Introduction to Information Retrieval. Cambridge UP.
‫پيوست الف‬
‫‪30‬‬
‫‪ 50‬اظهارنظر استفاده شده (از‬
‫مشخصههاي استخراجشده از داخل آنها‬
‫‪-1‬‬
‫طلبه جوان ديگري در دفاع از ناموس‬
‫عنوان خبر ‪:‬‬
‫مردم‪ ،‬چاقو خورد ‪ +‬دستگيري عوامل‬
‫به نظر من بيشترين تنبيه بايد متوجه‬
‫نظر ‪:‬‬
‫بيمارستانهايي بشه که بنده خدارو پذيرش نکرنند ‪ .‬عدم‬
‫پذيرش بيمار با چاقو بش زدن چه فرق داره؟‬
‫صفات مثبت ‪:‬‬
‫بيمار‬
‫صفات منفي ‪:‬‬
‫قيود مثبت ‪:‬‬
‫قيود منفي ‪:‬‬
‫صفات و قيود مثبت (استخراج خودکار) ‪:‬‬
‫خبر)‪،‬‬
‫بههمراه‬
‫صفات و قيود منفي (استخراج خودکار) ‪:‬‬
‫آغازگر جهت دار ‪:‬‬
‫? – چه‬
‫نشانه هاي سوال ‪:‬‬
‫بيمار ‪-‬‬
‫‪-2‬‬
‫بياييد قهرماني "مهران" را در جام‬
‫عنوان خبر ‪:‬‬
‫جهاني ايثار و شهادت جشن بگيريم‬
‫بجاي اينكه ازمهران بگوييد مانندرزمندگاني‬
‫نظر ‪:‬‬
‫باشيد كه مهران راآزادكردند‪.‬نه براي گمراه كردن مردم‬
‫ازمهران بگوييد وازپيروان مافياي اقتصادي باشيد‪.‬‬
‫رزمندگاني ‪ -‬آزاد‬
‫صفات مثبت ‪:‬‬
‫گمراه‬
‫صفات منفي ‪:‬‬
‫قيود مثبت ‪:‬‬
‫قيود منفي ‪:‬‬
‫رزمندگاني‬
‫صفات و قيود مثبت (استخراج خودکار) ‪:‬‬
‫‬‫گمراه ‪-‬‬
‫صفات و قيود منفي (استخراج خودکار) ‪:‬‬
‫بجاي اينكه‬
‫آغازگر جهت دار ‪:‬‬
‫نشانه هاي سوال ‪:‬‬
‫‪-3‬‬
‫چرا آقايان وقتي کم مي آورند از‬
‫عنوان خبر ‪:‬‬
‫اسالم و ايمان هزينه مي کنند؟‬
‫آخه بابا اين که نشد تيم هاي تهراني تالش‬
‫نظر ‪:‬‬
‫کنند با هزار هزينه و بدبختي به ليگ برتر صعود کنند اونوقت‬
‫چشم ديدنشون رو در تهران نداشته باشند و به زور منتقل‬
‫کنند به شهر ديگه‪ .‬چرا فقط با تيم هاي تهراني اين کار رو‬
‫مي کنند؟!‬
‫صفات مثبت ‪:‬‬
‫بدبختي‬
‫صفات منفي ‪:‬‬
‫قيود مثبت ‪:‬‬
‫بهزور‬
‫قيود منفي ‪:‬‬
‫برتر ‪-‬‬
‫صفات و قيود مثبت (استخراج خودکار) ‪:‬‬
‫بدبختي ‪-‬‬
‫صفات و قيود منفي (استخراج خودکار) ‪:‬‬
‫بهزور ‪-‬‬
‫آخه بابا‬
‫آغازگر جهت دار ‪:‬‬
‫? – چرا‬
‫نشانه هاي سوال ‪:‬‬
‫‪-4‬‬
‫واكنش‬
‫عنوان خبر ‪:‬‬
‫شكست تحريم؟‬
‫ال سعود نوکري‬
‫نظر ‪:‬‬
‫صفات مثبت ‪:‬‬
‫نوکري‬
‫صفات منفي ‪:‬‬
‫قيود مثبت ‪:‬‬
‫قيود منفي ‪:‬‬
‫صفات و قيود مثبت (استخراج‬
‫صفات و قيود منفي (استخراج‬
‫آغازگر جهت دار ‪:‬‬
‫نشانه هاي سوال ‪:‬‬
‫آمريكا به مانور نظامي يا‬
‫بيش نيستند‪.‬‬
‫خودکار) ‪:‬‬
‫خودکار) ‪:‬‬
‫‪-5‬‬
‫موذن معروف به لقاء هللا شتافت‬
‫عنوان خبر ‪:‬‬
‫خدايش رحمت كند ‪.‬‬
‫نظر ‪:‬‬
‫رحمت‬
‫صفات مثبت ‪:‬‬
‫صفات منفي ‪:‬‬
‫قيود مثبت ‪:‬‬
‫قيود منفي ‪:‬‬
‫صفات و قيود مثبت (استخراج خودکار) ‪:‬‬
‫صفات و قيود منفي (استخراج خودکار) ‪:‬‬
‫خدايش رحمت‬
‫آغازگر جهت دار ‪:‬‬
‫نشانه هاي سوال ‪:‬‬
‫‪-6‬‬
‫ايراني که هواپيما را بدون چرخ فرود‬
‫عنوان خبر ‪:‬‬
‫آورد که بود؟‬
‫دست مريزاد خلبان شهبازي‪ ،‬خدا تو رو براي‬
‫نظر ‪:‬‬
‫خانواده ات و اين مردم نجيب حفظ کنه‪ .‬ما عليرغم محروم‬
‫بودن در زمينه هاي فني ولي از لحاظ داشتن خلبان و تيم فني‬
‫در دنيا بي نظيريم‪ .‬من بارها و با پروازهاي مختلف ايراني‬
‫و خارجي به خارج از کشور پرواز داشتم‪ .‬واقعا خلبان هاي‬
‫ايراني بخصوص در موقع فرود هواپيما از تمام پروازهاي‬
‫خارجي بهتر و نرمتر به زمين مي نشينند‪ .‬فقط متاسفانه‬
‫بدليل کهنه بودن هواپيماها مسافران استرس دارند که انشاء‬
‫ا‪ ...‬يه راهکاري براش پيدا کنند‬
‫نجيب ‪ -‬بينظيريم‬
‫صفات مثبت ‪:‬‬
‫محروم ‪ -‬کهنه‬
‫صفات منفي ‪:‬‬
‫بهتر ‪ -‬نرمتر‬
‫قيود مثبت ‪:‬‬
‫متاسفانه‬
‫قيود منفي ‪:‬‬
‫نجيب ‪ -‬فني‬
‫صفات و قيود مثبت (استخراج خودکار) ‪:‬‬
‫ فني ‪ -‬بينظيريم ‪ -‬بهتر ‪ -‬نرمتر ‪-‬‬‫محروم ‪-‬‬
‫صفات و قيود منفي (استخراج خودکار) ‪:‬‬
‫متاسفانه ‪ -‬كهنه ‪-‬‬
‫دست مريزاد‬
‫آغازگر جهت دار ‪:‬‬
‫نشانه هاي سوال ‪:‬‬
‫‪-7‬‬
‫طلبه جوان ديگري در دفاع از ناموس‬
‫عنوان خبر ‪:‬‬
‫مردم‪ ،‬چاقو خورد ‪ +‬دستگيري عوامل‬
‫اين همه مسئولين دم از ترويج امر به مهعروف‬
‫نظر ‪:‬‬
‫و نهي از منكر مي كنند‪ .‬خدا وكيلي همين آقايون براي اين‬
‫مضورب امر به معروف چي كار مي كنند‪ .‬وقتي دروغ همه گير‬
‫مي شه آخرش همينه‪ .‬اصوالا با اين وضعيت اين امر مقدس هم در‬
‫جمهوري اسالمي مثل خيلي چيز هاي ديگه تعطيل خواهد شد‪ .‬اين‬
‫است قاطعيت علي(ع)‬
‫معروف – معروف ‪ -‬مقدس ‪ -‬قاطعيت‬
‫صفات مثبت ‪:‬‬
‫منکر ‪ -‬مضروب‬
‫صفات منفي ‪:‬‬
‫قيود مثبت ‪:‬‬
‫قيود منفي ‪:‬‬
‫معروف ‪-‬‬
‫صفات و قيود مثبت (استخراج خودکار) ‪:‬‬
‫معروف ‪ -‬مقدس ‪ -‬اسالمي ‪ -‬قاطعيت ‪-‬‬
‫منكر ‪-‬‬
‫صفات و قيود منفي (استخراج خودکار) ‪:‬‬
‫آغازگر جهت دار ‪:‬‬
‫چکار‬
‫نشانه هاي سوال ‪:‬‬
‫‪-8‬‬
‫بلندمردان واليبال ايران تاريخساز‬
‫عنوان خبر ‪:‬‬
‫شدند‬
‫واقعا پيروزي قاطعانه و دلچسبي بود درود‬
‫نظر ‪:‬‬
‫به غيرت اين دالور مردان‬
‫پيروزي ‪ -‬دلچسب ‪ -‬غيرت ‪ -‬دالورمرد‬
‫صفات مثبت ‪:‬‬
‫صفات منفي ‪:‬‬
‫قاطعانه‬
‫قيود مثبت ‪:‬‬
‫قيود منفي ‪:‬‬
‫صفات و قيود مثبت (استخراج خودکار) ‪:‬‬
‫دلچسبي ‪ -‬غيرت ‪ -‬دالورمردان ‪-‬‬
‫صفات و قيود منفي (استخراج خودکار) ‪:‬‬
‫آغازگر جهت دار ‪:‬‬
‫نشانه هاي سوال ‪:‬‬
‫‪-9‬‬
‫قاطعانه ‪-‬‬