عنوان پایاننامه
کشف تقلب در اسناد فارسی
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2650;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 67918
- تاریخ دفاع
- ۱۷ دی ۱۳۹۳
- دانشجو
- سمیرا آب نار
- استاد راهنما
- آزاده شاکری
- چکیده
- گسترش تکنولوژیهای انتشار اطلاعات نوشتاری و فراهم شدن امکانات دسترسی آسان به این اطلاعات سبب شده که پدیدهی تقلب نوشتاری به مشکلی پر اهمیت تبدیل شود. از همین رو تحقیقهای متعددی با هدف پیشنهاد روشهای خودکار کشف تقلب نوشتاری انجام گرفتهاند. در این پژوهش نیز راهکاری برای تشخیص تقلب نوشتاری در زبان فارسی ارایه گشته است. با در نظر گرفتن زبان فارسی به عنوان زبانی با منابع محدود، رویکرد اصلی ما پیشنهاد راهکارهایی بوده است که نیاز به منابع زبانی خاص ندارند. در این پژوهش دو مسالهی اصلی در تشخیص تقلب نوشتاری، یعنی بازیابی سندهای منبع و همترازی نوشتارهای سندهای منبع و مظنون مورد بررسی قرار گرفته است. بازیابی سندهای منبع تقلب را میتوان به عنوان کاربردی از روشهای بازیابی اطلاعات نوشتاری در نظر گرفت. در بازیابی سندهای منبع، هدف پیدا کردن سندهایی است که نه تنها از نظر معنا و مفهوم، بلکه از نظر شیوهی نگارش و واژگان به کار رفته در آنها به سند مظنون شباهت دارند. در این پژوهش یک راهکار سه مرحلهای برای حل این مساله پیشنهاد شده است. گامهای این روش به ترتیب عبارتند از: نگاشت سند مظنون به تعدادی پرسوجو، ترکیب نتایج پرسوجو، و بازرتبهبندی سندهای بازیابی شده. آزمایشهای انجام شده بیانگر این امر هستند که روشهای پیشنهادی، نتایج روش پایه را به گونهای قابل توجه بهبود دادهاند. رویکرد ما در این پژوهش برای حل مسالهی همترازی نوشتارهای سندهای مظنون و منبع، بر پایهی انتخاب پویای پارامترها و ویژگیها بر اساس چگونگی توزیع ویژگیهای مشترک بین دو سند است. از آنجا که چگونگی توزیع ویژگیها به نحوی بیانگر نوع تقلبی است که بین سندها رخ داده است، ردهبندی طراحی شده است، که بر اساس چگونگی توزیع ویژگیها، نوع تقلب بین دو سند مظنون و منبع را تشخیص میدهد. نتایج ارزیابی این ردهبند، بیانگر دقت بالای آن است. در گام بعدی پس از تشخیص نوع تقلب بین دو سند، از پارامترها و ویژگیهای تعیین شده برای آن نوع تقلب، استفاده شده تا بخشهای متناظر دو سند تشخیص داده شوند. در این پژوهش از nگرامهای واژگان سندها به عنوان ویژگیهای آنها استفاده شده، و روشی جدید برای تخمین شباهت معنایی بین دو nگرام معرفی گشته است. از دستاوردهای مهم این پژوهش همچنین میتوان به ساخت اولین پیکرههای فارسی برای ارزیابی روشهای تشخیص تقلب نوشتاری اشاره نمود. سامانههایی که برای ساخت این پیکرهها طراحی و پیادهسازی گشتهاند گسترش این پیکرهها یا ساخت پیکرههای جدید را آسان کردهاند. واژههای کلیدی: تشخیص تقلب نوشتاری، بازیابی سندهای منبع تقلب، همترازی نوشتارها، رتبهبندی سندهای منبع تقلب، تشخیص نوع تقلب، هموارسازی موضعی پرسوجوها، مقایسهی معنایی nگرامها
- Abstract
- With the rapid spread of the technologies for publishing textual information and improvements in the accessibility of this information, plagiarism in natural language text has turned to be an important issue. Therefor, researchers are working to propose methods for automatic plagiarism detection. In this reaserch, we address the problem of plagiarism detection in Persian texts. Persian is a resource lean language, thus our proposed method does not rely on rich language resources. In this project, two important steps of plagiarism detection are studied. These steps are plagiarism source retrieval and text alignment. Plagiarism source retrieval, can be viewed as a document retrieval problem customized for the task of plagiarism detection. In plagiarism source retrieval the goal is to find similar documents not only in terms of concepts and semantics but also in terms of how the concepts and meanings are presented. We propose a mechanism based on common text retrieval process for detecting sources of plagiarism for a given suspicious document. The proposed mechanism consists of three steps, mapping a given suspicious document into a set of queries, merging and filtering results of queries, and reranking the final result. Our experiments indicate that the proposed method in each step outperforms the baselines. Our solution for text alignment is based on dynamic feature selection for comparing source and suspicious documents. The feature selection is according to the distribution of common features in the documents. Since distribution of common features in two documents is a reflection of the type of plagiarism, we have designed a classifier for detecting the type of plagiarism between two given documents. As the experiments show, this classifier can achieve a high precision. In the following step, parameters are set and features are selected considering the predicted type of plagiarism, thus the plagiarized text and its corresponding source are determined. In this project word n?gram of documents are exploited as the features and a new method is introduced so as to estimate the similarity of two n?grams. Moreover, constructing the first Persian corpora for plagiarism detection is one of the main achievments of this project. The applications developed for creating these corpora have fascilitated further expansion of these corpora or creating new ones. Keywords: Text Plagiarism Detection, Source Retrieval, Text Alignment, Plagiarism Source Ranking, Plagiarism Type Detection, Positional Smoothing, Semantic Comparison of n?grams