عنوان پایان‌نامه

کشف تقلب در اسناد فارسی



    دانشجو در تاریخ ۱۷ دی ۱۳۹۳ ، به راهنمایی ، پایان نامه با عنوان "کشف تقلب در اسناد فارسی" را دفاع نموده است.


    محل دفاع
    کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2650;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 67918
    تاریخ دفاع
    ۱۷ دی ۱۳۹۳
    دانشجو
    سمیرا آب نار
    استاد راهنما
    آزاده شاکری

    گسترش تکنولوژی‌های انتشار اطلاعات نوشتاری و فراهم شدن امکانات دسترسی آسان به این اطلاعات سبب شده که پدیده‌ی تقلب نوشتاری به مشکلی پر اهمیت تبدیل شود. از همین رو تحقیق‌های متعددی با هدف پیشنهاد روش‌های خودکار کشف تقلب نوشتاری انجام گرفته‌اند. در این پژوهش نیز راهکاری برای تشخیص تقلب نوشتاری در زبان فارسی‌ ارایه گشته است. با در نظر گرفتن زبان فارسی به عنوان زبانی با منابع محدود، رویکرد اصلی ما پیشنهاد راهکارهایی بوده است که نیاز به منابع زبانی خاص ندارند. در این پژوهش دو مساله‌ی اصلی در تشخیص تقلب نوشتاری، یعنی بازیابی سندهای منبع و هم‌ترازی نوشتارهای سندهای منبع و مظنون مورد بررسی قرار گرفته است. بازیابی سندهای منبع تقلب را می‌توان به عنوان کاربردی از روش‌های بازیابی اطلاعات نوشتاری در نظر گرفت. در بازیابی سندهای منبع، هدف پیدا کردن سندهایی است که نه تنها از نظر معنا و مفهوم، بلکه از نظر شیوه‌ی نگارش و واژگان به کار رفته در آن‌ها به سند مظنون شباهت دارند. در این پژوهش یک راهکار سه مرحله‌‌ای برای حل این مساله پیشنهاد شده است. گام‌های این روش به ترتیب عبارتند از: نگاشت سند مظنون به تعدادی پرس‌وجو، ترکیب نتایج پرس‌وجو، و بازرتبه‌بندی سندهای بازیابی شده. آزمایش‌های انجام شده بیانگر این امر هستند که روش‌های پیشنهادی، نتایج روش پایه را به گونه‌ای قابل توجه بهبود داده‌اند. رویکرد ما در این پژوهش برای حل مساله‌ی هم‌ترازی نوشتارهای سندهای مظنون و منبع، بر پایه‌ی انتخاب پویای پارامترها و ویژگی‌ها بر اساس چگونگی توزیع ویژگی‌های مشترک بین دو سند است. از آنجا که چگونگی توزیع ویژگی‌ها به نحوی بیانگر نوع تقلبی است که بین سندها رخ داده است، رده‌بندی طراحی شده است، که بر اساس چگونگی توزیع ویژگی‌ها، نوع تقلب بین دو سند مظنون و منبع را تشخیص می‌دهد. نتایج ارزیابی این رده‌بند، بیانگر دقت بالای آن است. در گام بعدی پس از تشخیص نوع تقلب بین دو سند، از پارامترها و ویژگی‌های تعیین شده برای آن نوع تقلب، استفاده شده تا بخش‌های متناظر دو سند تشخیص داده شوند. در این پژوهش از nگرام‌های واژگان سندها به عنوان ویژگی‌های آن‌ها استفاده شده، و روشی جدید برای تخمین شباهت معنایی بین دو nگرام معرفی گشته است. از دستاوردهای مهم این پژوهش همچنین می‌توان به ساخت اولین پیکره‌های فارسی برای ارزیابی روش‌های تشخیص تقلب نوشتاری اشاره نمود. سامانه‌هایی که برای ساخت این پیکره‌ها طراحی و پیاده‌سازی گشته‌اند گسترش این پیکره‌ها یا ساخت پیکره‌های جدید را آسان کرده‌اند. واژه‌های کلیدی: تشخیص تقلب نوشتاری، بازیابی سندهای منبع تقلب، هم‌ترازی نوشتارها، رتبه‌بندی سندهای منبع تقلب، تشخیص نوع تقلب، هموارسازی موضعی پرس‌وجوها، مقایسه‌ی معنایی nگرام‌ها
    Abstract
    With the rapid spread of the technologies for publishing textual information and improvements in the accessibility of this information, plagiarism in natural language text has turned to be an important issue. Therefor, researchers are working to propose methods for automatic plagiarism detection. In this reaserch, we address the problem of plagiarism detection in Persian texts. Persian is a resource lean language, thus our proposed method does not rely on rich language resources. In this project, two important steps of plagiarism detection are studied. These steps are plagiarism source retrieval and text alignment. Plagiarism source retrieval, can be viewed as a document retrieval problem customized for the task of plagiarism detection. In plagiarism source retrieval the goal is to find similar documents not only in terms of concepts and semantics but also in terms of how the concepts and meanings are presented. We propose a mechanism based on common text retrieval process for detecting sources of plagiarism for a given suspicious document. The proposed mechanism consists of three steps, mapping a given suspicious document into a set of queries, merging and filtering results of queries, and reranking the final result. Our experiments indicate that the proposed method in each step outperforms the baselines. Our solution for text alignment is based on dynamic feature selection for comparing source and suspicious documents. The feature selection is according to the distribution of common features in the documents. Since distribution of common features in two documents is a reflection of the type of plagiarism, we have designed a classifier for detecting the type of plagiarism between two given documents. As the experiments show, this classifier can achieve a high precision. In the following step, parameters are set and features are selected considering the predicted type of plagiarism, thus the plagiarized text and its corresponding source are determined. In this project word n?gram of documents are exploited as the features and a new method is introduced so as to estimate the similarity of two n?grams. Moreover, constructing the first Persian corpora for plagiarism detection is one of the main achievments of this project. The applications developed for creating these corpora have fascilitated further expansion of these corpora or creating new ones. Keywords: Text Plagiarism Detection, Source Retrieval, Text Alignment, Plagiarism Source Ranking, Plagiarism Type Detection, Positional Smoothing, Semantic Comparison of n?grams