عنوان پایان‌نامه

کاوش وب برای گرد آوری نظرات در زبان فارسی



    دانشجو در تاریخ ۱۲ شهریور ۱۳۹۲ ، به راهنمایی ، پایان نامه با عنوان "کاوش وب برای گرد آوری نظرات در زبان فارسی" را دفاع نموده است.


    مقطع تحصیلی
    کارشناسی ارشد
    محل دفاع
    کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2410;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 61271
    تاریخ دفاع
    ۱۲ شهریور ۱۳۹۲
    دانشجو
    سمانه کریمی
    استاد راهنما
    آزاده شاکری

    امروزه، نظرات افراد پیرامون مسائل مختلف، یکی از پرکاربردترین داده‌های متنی محسوب می‌شود. در بسیاری از کاربردها، افراد برای تصمیم‌گیری در مورد یک موضوع، تمایل زیادی به اطلاع از نظرات سایرین در ارتباط با آن موضوع دارند. با گسترش شبکه‌های اجتماعی، انجمن‌های گفت‌وگو و سایر کاربردهای وب که امکان تبادل نظرات بین کاربران را فراهم می‌آورند، حجم داده‌های نظرمند موجود در سطح وب، به طور قابل ملاحظه‌ای افزایش یافته و وجود روش‌های خودکار برای تشخیص این‌گونه داده‌ها از سایر داده‌های متنی اهمیت ویژه‌ای پیدا کرده‌است. از طرف دیگر، استخراج مطالب نظرمند از بین محتوای به‌هم آمیخته‌ی موجود در سطح وب، از جمله مسائل چالش‌برانگیز محسوب می‌شود. زبانی که افراد به کمک آن نظرات، دیدگاه‌ها و تمایلات خود را بیان می‌کنند، از ویژگی‌های خاصی برخوردار است که مساله‌ی تشخیص متن نظرمند از غیرنظر را دشوار می‌سازد. در این پژوهش، دو روش برای بازیابی نظرات در زبان فارسی ارائه می‌گردد که از قابلیت‌های مدل زبانی برای مقابله با دشواری‌های انجام این فرایند استفاده می‌کند. از آن‌جا که هدف اصلی در این پژوهش، بازیابی نظرات در زبان فارسی بوده‌است و مساله‌ی کمبود منابع اطلاعات در زبان فارسی از جمله مهم‌ترین چالش‌ها محسوب می‌شود، به این ترتیب دو روش بازیابی نظرات، به صورت نیمه‌سرپرست و باسرپرست ارائه می‌گردد تا بتوان به تناسب میزان منابع اطلاعات در دسترس، از یکی از روش‌های پیشنهادی برای انجام بازیابی نظرات استفاده نمود. در هر دو روش، برای هر سند امتیازی که بیان‌کننده‌ی میزان برخورداری آن سند از جنبه‌ی نظر است، محاسبه می‌گردد و همه‌ی سندها بر اساس این امتیاز رتبه‌بندی می‌شوند. این امتیاز برای هر سند، بر اساس میزان شباهت آن سند با مدل نظرمند مرجع و نیز شباهت آن سند با مدل بدون نظر مرجع محاسبه می‌شود. عملکرد روش‌های پیشنهادی با استفاده از پنج مجموعه داده‌ی مختلف شامل دو مجموعه داده‌ی انگلیسی و سه مجموعه داده‌ی فارسی ارزیابی شد. نتایج آزمایش‌های انجام‌شده، نشان می‌دهد که روش‌های پیشنهادی در تشخیص سندهای نظرمند از سندهای فاقد نظر در هر دو زبان فارسی و انگلیسی، از عملکرد مناسبی برخوردار است. کلمات کلیدی: نظر کاوی، بازیابی نظرات، لغت نامه نظر کاوی، مدل زبانی
    Abstract
    Since growing web 2.0 applications, the amount of opinionated data on the web, has increased widely and researches in the domain of subjectivity detection and opinion mining have attracted a great deal of attention. Extracting people’s opinions across the mixed content on the web is a challenging problem. Since the language used by people to express their opinions, beliefs and emotions has some special characteristics which makes the subjectivity detection task difficult. In this thesis, we propose an opinion retrieval method for Persian language which uses the language model capabilities to overcome some of the challenges in this task. As one of the main problems of researches in Persian is the lack of datasets, our method is proposed in two versions including semi-supervised and supervised. In this way, the appropriate version of the method can be used for opinion retrieval according to the amount of available resources. Our method defines a subjectivity score for each document and ranks them according to their scores. Subjectivity score of each document is computed based on the similarity of each document and a subjective collection and the similarity of each document and an objective collection. The proposed method is tested using five datasets including three datasets in Persian and two datasets in English. Our experimental results showed that the proposed method performs well in distinguishing subjective documents from objective ones. Keywords: Opinion Mining, Opinion Retrieval, Sentiment Lexicon, Language Model