عنوان پایاننامه
اندیشه کاوی و تحلیل نظرات در مستندات فارسی
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه دانشکده برق و کامپیوتر شماره ثبت: E2054;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 53518;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2054
- تاریخ دفاع
- ۰۵ تیر ۱۳۹۱
- دانشجو
- محمدرضا شمس نجف آبادی
- استاد راهنما
- هشام فیلی, آزاده شاکری
- چکیده
- اندیشه¬کاوی، فرآیند تحلیل نظرات، عقاید و احساسات کاربران است که از مستنداتی که کاربران در مورد یک موضوع خاص نوشته¬اند استخراج می¬شود. در بسیاری کاربردها، دانستن نظرات افراد در یک حوزه¬ی خاص نقش مهمی در تصمیم¬گیری¬های کلان آن حوزه دارد. برای مثال کاربران فروشگاه¬های الکترونیکی معمولاً می¬توانند نظر خود را در مورد محصولات مختلف فروشگاه بنویسند. این نظرات منابع ارزشمندی جهت اندیشه¬کاوی هستند که با تحلیل آن¬ها، مدیران فروشگاه علاوه بر این¬که قادر خواهند بود محصولات مورد نیاز کاربران را فراهم کنند، با علایق و خواسته-های آنان نیز آشنا می¬شوند. تعیین قطبیت مستندات مهم-ترین بخش اندیشه¬کاوی است که با استفاده از آن جهت¬گیری کلی هر مستند مشخص می¬شود. در این پژوهش برای اولین بار، روشی بدون سرپرست جهت تعیین قطبیت مستندات فارسی ارائه شده است. روش پیشنهادی شامل سه گام اصلی است. گام اول ایجاد لغت-نامه¬ی اندیشه¬کاوی برای زبان فارسی است که در آن هر کلمه به همراه قطبیت آن می¬آید. منظور از قطبیت، استنباطی است که از مثبت، منفی و یا خنثی بودن یک کلمه، در ذهن شکل می¬گیرد. در گام دوم و با توجه به این نکته که قطبیت کلمات بسیار وابسته به موضوع است، هر کلمه بر مبنای موضوعی که در آن قرار دارد وزن می-گیرد. این وزن برای هر کلمه به شرط هر موضوع و هر قطبیت جداگانه محاسبه می¬شود. در این گام دو روش وزن¬دهی PLSASA و LDASA ارائه شده است که اولی بر مبنای تحلیل احتمالاتی معنایی مخفی (PLSA) و دومی بر مبنای توزیع دیریکله است. نهایتاً، پس از وزن¬دهی به کلمات، گام سوم که پس¬پردازش است انجام می¬شود. در این گام هر مستند ابتدا به جملات تشکیل دهنده شکسته می¬شود، سپس با تعیین قطبیت هر جمله و بررسی نقش منفی¬کننده¬ها، قطبیت کلی مستند تعیین می¬گردد. برای ارزیابی روش پیشنهادی، مجموعه¬ داده¬ای در سه حوزه¬ی هتل، دوربین دیجیتال و تلفن همراه از روی نظرات کاربران در فروشگاه¬های الکترونیکی جمع¬آوری شده و نتایج حاصل از روش پیشنهادی با دقیق¬ترین روش¬های پایه¬ای موجود مقایسه شده است. آزمایشات انجام شده، نشان¬دهنده پیشرفت چشمگیر دقت روش پیشنهادی در تعیین قطبیت مستندات نسبت به روش¬های پایه است.
- Abstract
- Opinion mining is the process of analyzing the characteristics of opinions, feelings and emotions which are expressed in textual data, provided for a certain topic or object. It is also called sentiment analysis. In several and diverse applications, understanding “what others think” is one of the most important pieces of knowledge in the decision-making process. An example is online shopping solutions; Users of such systems can write down textual reviews about goods. Such data can be considered as a valuable source of information for a proper sentiment analysis process. Outcomes can help managers to understand user’s particular interests and preferences. In addition, this knowledge enables them to provide their users with more suitable items. Polarity classification is the basic task in sentiment analysis which identifies the polarity of each review. This study presents a novel unsupervised polarity classification method for Persian language. There are three main steps in this method. In the first phase, a preliminary polarity lexicon composed of terms with their associated semantic orientations (positive, negative or neutral) has been constructed for Persian language. In the second step, polarity weight of each term is determined based on the intuition that positivity/negativity weight of each term is tightly associated to its topic. In this step, the PLSASA and LDASA weighting algorithms have been presented that are based on probabilistic latent semantic analysis and Dirichlet distribution respectively. Finally, in the third step, post-processing is applied on the reviews and the polarity of each review is determined; in this stage, each review is firstly broken down into its constituting sentences and then polarity of each document is determined considering negations and sentence polarity. To evaluate the proposed method, three resources about hotels, cell phones and digital cameras have been manually gathered from the e-shopping websites and the results of sentiment analysis on these resources are compared with the most accurate existing baselines. The experimental results demonstrate improvements in polarity classification compared to the base systems. Keywords: opinion mining, sentiment analysis, polarity lexicon, probabilistic latent semantic analysis, Dirichlet distribution, negation