عنوان پایاننامه
کاوش وب برای گرد آوری نظرات در زبان فارسی
- رشته تحصیلی
- مهندسی فناوری اطلاعات
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2410;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 61271
- تاریخ دفاع
- ۱۲ شهریور ۱۳۹۲
- دانشجو
- سمانه کریمی
- استاد راهنما
- آزاده شاکری
- چکیده
- امروزه، نظرات افراد پیرامون مسائل مختلف، یکی از پرکاربردترین دادههای متنی محسوب میشود. در بسیاری از کاربردها، افراد برای تصمیمگیری در مورد یک موضوع، تمایل زیادی به اطلاع از نظرات سایرین در ارتباط با آن موضوع دارند. با گسترش شبکههای اجتماعی، انجمنهای گفتوگو و سایر کاربردهای وب که امکان تبادل نظرات بین کاربران را فراهم میآورند، حجم دادههای نظرمند موجود در سطح وب، به طور قابل ملاحظهای افزایش یافته و وجود روشهای خودکار برای تشخیص اینگونه دادهها از سایر دادههای متنی اهمیت ویژهای پیدا کردهاست. از طرف دیگر، استخراج مطالب نظرمند از بین محتوای بههم آمیختهی موجود در سطح وب، از جمله مسائل چالشبرانگیز محسوب میشود. زبانی که افراد به کمک آن نظرات، دیدگاهها و تمایلات خود را بیان میکنند، از ویژگیهای خاصی برخوردار است که مسالهی تشخیص متن نظرمند از غیرنظر را دشوار میسازد. در این پژوهش، دو روش برای بازیابی نظرات در زبان فارسی ارائه میگردد که از قابلیتهای مدل زبانی برای مقابله با دشواریهای انجام این فرایند استفاده میکند. از آنجا که هدف اصلی در این پژوهش، بازیابی نظرات در زبان فارسی بودهاست و مسالهی کمبود منابع اطلاعات در زبان فارسی از جمله مهمترین چالشها محسوب میشود، به این ترتیب دو روش بازیابی نظرات، به صورت نیمهسرپرست و باسرپرست ارائه میگردد تا بتوان به تناسب میزان منابع اطلاعات در دسترس، از یکی از روشهای پیشنهادی برای انجام بازیابی نظرات استفاده نمود. در هر دو روش، برای هر سند امتیازی که بیانکنندهی میزان برخورداری آن سند از جنبهی نظر است، محاسبه میگردد و همهی سندها بر اساس این امتیاز رتبهبندی میشوند. این امتیاز برای هر سند، بر اساس میزان شباهت آن سند با مدل نظرمند مرجع و نیز شباهت آن سند با مدل بدون نظر مرجع محاسبه میشود. عملکرد روشهای پیشنهادی با استفاده از پنج مجموعه دادهی مختلف شامل دو مجموعه دادهی انگلیسی و سه مجموعه دادهی فارسی ارزیابی شد. نتایج آزمایشهای انجامشده، نشان میدهد که روشهای پیشنهادی در تشخیص سندهای نظرمند از سندهای فاقد نظر در هر دو زبان فارسی و انگلیسی، از عملکرد مناسبی برخوردار است. کلمات کلیدی: نظر کاوی، بازیابی نظرات، لغت نامه نظر کاوی، مدل زبانی
- Abstract
- Since growing web 2.0 applications, the amount of opinionated data on the web, has increased widely and researches in the domain of subjectivity detection and opinion mining have attracted a great deal of attention. Extracting people’s opinions across the mixed content on the web is a challenging problem. Since the language used by people to express their opinions, beliefs and emotions has some special characteristics which makes the subjectivity detection task difficult. In this thesis, we propose an opinion retrieval method for Persian language which uses the language model capabilities to overcome some of the challenges in this task. As one of the main problems of researches in Persian is the lack of datasets, our method is proposed in two versions including semi-supervised and supervised. In this way, the appropriate version of the method can be used for opinion retrieval according to the amount of available resources. Our method defines a subjectivity score for each document and ranks them according to their scores. Subjectivity score of each document is computed based on the similarity of each document and a subjective collection and the similarity of each document and an objective collection. The proposed method is tested using five datasets including three datasets in Persian and two datasets in English. Our experimental results showed that the proposed method performs well in distinguishing subjective documents from objective ones. Keywords: Opinion Mining, Opinion Retrieval, Sentiment Lexicon, Language Model