عنوان پایاننامه
تحلیل خودکار قطبیت اسناد در مستندات فارسی
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2749
- تاریخ دفاع
- ۱۲ شهریور ۱۳۹۳
- دانشجو
- ایمان دهداربهبهانی
- استاد راهنما
- هشام فیلی, آزاده شاکری
- چکیده
- آگاهی از نظر و عقیده دیگران و دانستن اینکه دیگران چه احساسی نسبت به یک موضوع خاص دارند، به ما کمک میکند تا تصمیمگیریهای بهتری درباره آن موضوع داشته باشیم. تحلیل نظر کاربرها، این امکان را برای ما فراهم میکند تا دیدگاهها و نظرهای دیگران را از وبنوشتهها استخراج و دستهبندی نماییم. پردازش حجم بالای وبنوشتهها برای یافتن نظر دیگران در مورد یک موضوع خاص، از چالشهای اساسی است که مورد توجه بسیاری از پژوهشگرها قرار گرفته است. این پایاننامه برروی دو زیروظیفه از زمینه پژوهشی تحلیل نظر کاربرها «ساخت واژهنامه نظرمند» و «ردهبندی نظر کاربرها» با محوریت زبان فارسی متمرکز شده است. واژهنامه نظرمند منبعی ارزشمند برای تحلیل نظر کاربرها محسوب میشود. در این واژهنامهها، جهت احساسی ورودیها که ممکن است در سطوح مختلفی مانند کلمه و عبارت باشند، از نظر مثبت، منفی و یا خنثی بودن مشخص شده است. در بسیاری از پژوهشهای پیشین از منابع غنی مانند شبکه واژگان و یا پیکرههای نظرمند، برای ساخت این واژهنامهها استفاده شده است. این منابع گاه در زبانهای با منابع محدود در دسترس نیستند، به همین خاطر در این پژوهش، یک راهکار نیمهناظر ارائه شده است که از منابع سایر زبانها برای ساخت واژهنامه بهره میبرد. برای این کار از وردنت انگلیسی و یک وردنت زبان خارجی برای ساخت یک گراف چندزبانه، جهتدار و وزندار استفاده میکنیم. سپس برای محاسبه جهت احساسی کلمهها از یک قدمزن تصادفی برروی گراف ساخته شده استفاده میکنیم. در نهایت در یک مرحله پسپردازش از برخی رابطههای موجود در وردنت زبان خارجی برای پالایش نتایج بهره میبریم. ردهبندی نظر کاربرها از نظر جهت احساسی از دیگر زیروظیفههایی است که در این پژوهش مورد بررسی قرار گرفته است. در این پژوهش، یک روش مبتنی بر مدل زبانی ارائه شده است که به صورت باناظر عمل میکند. روش پیشنهادی، برای ترکیب مزیتهای روشهای باناظر و نیمهناظر چارچوب یکپارچهای را ارائه نموده است. این روش قادر است ساختارهای پیچیده زبانی را که برروی تعیین جهت احساسی نظرها تاثیرگذار هستند، در فرآیند یادگیری مدل ادغام نماید. در پایان، آزمایشهای گستردهای برای بررسی کارایی و ارزیابی روشهای پیشنهادی انجام شده است. نتیجههای بدستآمده نشان میدهد که روشهای پیشنهادی توانستهاند در مقایسه با روشهای پیشین بهتر عمل کنند.
- Abstract
- Automatic Sentiment Analysis in Persian Documents By: Iman Dehdarbehbahani Supervisor: Azadeh Shakery, Heshaam Faili Field: Computer Engineering, Software Date: Knowing the others’ experiences, feelings and opinions about a subject, help to make better decisions. Sentiment analysis provides a convenient infrastructure to exploit people’s experiences and point of views through processing the huge amount of reviews, tweets and comments on the web. In this thesis, we concentrate on ``building a sentiment lexicon'' and ``sentiment classification'', with centrality of Persian language as two main tasks in sentiment analysis. A sentiment lexicon aggregates sentiment words and assigns a polarity to each one of them. Having a high quality sentiment lexicon can substantially affect the analysis of opinions, emotions and beliefs. In this thesis, we present a method which exploits a language with rich subjectivity analysis resources (English) to identify the polarity of words in a resource-lean foreign language. The English WordNet and a sparse foreign WordNet infrastructure are used to create a heterogeneous, multilingual and weighted semantic network. To identify the semantic orientation of foreign words, a random walk based method is applied to the semantic network along with a set of automatically weighted English positive and negative seeds. In a post-processing phase, synonym and antonym relations in the foreign WordNet are used to filter the random walk results. In this thesis, we further investigate the classification of the subjective sentence as one of the tasks in sentiment analysis. To process opinions, we present a unified framework which is founded on statistical language modeling approach. A positive and a negative reference language model (LM) are estimated based on training samples. The divergence from these two reference LMs is computed as the measure of documents polarities. The proposed method allows us to combine linguistic patterns and external polarity evidence in a learning process through a new opinionated LM. Finally, we conducted several experiments to evaluate the proposed methods' efficiency and effectiveness. The achieved results show that the proposed methods improve the performance compared to the previous methods.