عنوان پایان‌نامه

تحلیل خودکار قطبیت اسناد در مستندات فارسی



    دانشجو در تاریخ ۱۲ شهریور ۱۳۹۳ ، به راهنمایی ، پایان نامه با عنوان "تحلیل خودکار قطبیت اسناد در مستندات فارسی" را دفاع نموده است.


    محل دفاع
    کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2749
    تاریخ دفاع
    ۱۲ شهریور ۱۳۹۳

    آگاهی از نظر و عقیده‌ دیگران و دانستن این‌که دیگران چه احساسی نسبت به یک موضوع خاص دارند، به ما کمک می‌کند تا تصمیم‌گیری‌های بهتری درباره‌ آن موضوع داشته باشیم. تحلیل نظر کاربر‌ها، این امکان را برای ما فراهم می‌کند تا دیدگاه‌ها و نظر‌های دیگران را از وب‌نوشته‌ها استخراج و دسته‌بندی نماییم. پردازش حجم بالای وب‌نوشته‌ها برای یافتن نظر دیگران در مورد یک موضوع خاص، از چالش‌های اساسی است که مورد توجه بسیاری از پژوهش‌گرها قرار گرفته است. این پایان‌نامه برروی دو زیروظیفه‌ از زمینه پژوهشی تحلیل نظر کاربرها «ساخت واژه‌نامه نظرمند» و «رده‌بندی نظر کاربر‌ها» با محوریت زبان فارسی متمرکز شده است. واژه‌نامه‌ نظرمند منبعی ارزشمند برای تحلیل نظر کاربر‌ها محسوب می‌شود. در این واژه‌نامه‌ها، جهت احساسی ورودی‌ها که ممکن است در سطوح مختلفی مانند کلمه و عبارت باشند، از نظر مثبت، منفی و یا خنثی بودن مشخص شده است. در بسیاری از پژوهش‌های پیشین از منابع غنی مانند شبکه‌ واژگان‌ و یا پیکره‌های نظرمند، برای ساخت این واژه‌نامه‌ها استفاده شده است. این منابع گاه در زبان‌های با منابع محدود در دسترس نیستند، به همین خاطر در این پژوهش، یک را‌ه‌کار نیمه‌ناظر ارائه شده است که از منابع سایر زبان‌ها برای ساخت واژه‌نامه بهره می‌برد. برای این‌ کار از وردنت انگلیسی و یک وردنت زبان خارجی برای ساخت یک گراف چند‌زبانه، جهت‌دار و وزن‌دار استفاده می‌کنیم. سپس برای محاسبه جهت احساسی کلمه‌ها از یک قدم‌زن تصادفی برروی گراف ساخته شده استفاده می‌کنیم. در نهایت در یک مرحله پس‌پردازش از برخی رابطه‌های موجود در وردنت زبان خارجی برای پالایش نتایج بهره می‌بریم. رده‌بندی نظر کاربر‌ها از نظر جهت احساسی از دیگر زیروظیفه‌هایی است که در این پژوهش مورد بررسی قرار گرفته است. در این پژوهش، یک روش مبتنی بر مدل زبانی ارائه شده است که به صورت باناظر عمل می‌کند. روش پیشنهادی، برای ترکیب مزیت‌های روش‌های با‌ناظر و نیمه‌ناظر چارچوب یکپارچه‌ای را ارائه نموده است. این روش قادر است ساختارهای پیچیده زبانی را که برروی تعیین جهت احساسی نظر‌ها تاثیر‌گذار هستند، در فرآیند یادگیری مدل ادغام نماید. در پایان، آزمایش‌های گسترده‌ای برای بررسی کارایی و ارزیابی روش‌های پیشنهادی انجام شده است. نتیجه‌های بدست‌آمده نشان می‌دهد که روش‌های پیشنهادی توانسته‌اند در مقایسه با روش‌های پیشین بهتر عمل کنند.
    Abstract
    Automatic Sentiment Analysis in Persian Documents By: Iman Dehdarbehbahani Supervisor: Azadeh Shakery, Heshaam Faili Field: Computer Engineering, Software Date: Knowing the others’ experiences, feelings and opinions about a subject, help to make better decisions. Sentiment analysis provides a convenient infrastructure to exploit people’s experiences and point of views through processing the huge amount of reviews, tweets and comments on the web. In this thesis, we concentrate on ``building a sentiment lexicon'' and ``sentiment classification'', with centrality of Persian language as two main tasks in sentiment analysis. A sentiment lexicon aggregates sentiment words and assigns a polarity to each one of them. Having a high quality sentiment lexicon can substantially affect the analysis of opinions, emotions and beliefs. In this thesis, we present a method which exploits a language with rich subjectivity analysis resources (English) to identify the polarity of words in a resource-lean foreign language. The English WordNet and a sparse foreign WordNet infrastructure are used to create a heterogeneous, multilingual and weighted semantic network. To identify the semantic orientation of foreign words, a random walk based method is applied to the semantic network along with a set of automatically weighted English positive and negative seeds. In a post-processing phase, synonym and antonym relations in the foreign WordNet are used to filter the random walk results. In this thesis, we further investigate the classification of the subjective sentence as one of the tasks in sentiment analysis. To process opinions, we present a unified framework which is founded on statistical language modeling approach. A positive and a negative reference language model (LM) are estimated based on training samples. The divergence from these two reference LMs is computed as the measure of documents polarities. The proposed method allows us to combine linguistic patterns and external polarity evidence in a learning process through a new opinionated LM. Finally, we conducted several experiments to evaluate the proposed methods' efficiency and effectiveness. The achieved results show that the proposed methods improve the performance compared to the previous methods.