عنوان پایان‌نامه

تشخیص شباهت اسناد با رویکرد مبتنی بر گراف



    دانشجو در تاریخ ۰۷ مهر ۱۳۹۵ ، به راهنمایی ، پایان نامه با عنوان "تشخیص شباهت اسناد با رویکرد مبتنی بر گراف" را دفاع نموده است.


    محل دفاع
    کتابخانه دانشکده علوم و فنون نوین شماره ثبت: 537;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 78142;کتابخانه دانشکده علوم و فنون نوین شماره ثبت: 537;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 78142
    تاریخ دفاع
    ۰۷ مهر ۱۳۹۵
    دانشجو
    مژگان ممتاز
    استاد راهنما
    مصطفی صالحی, هادی ویسی

    امروزه اهمیت‌دادن به تحلیل داده‌ متنی با توجه به افزایش اطلاعات در صفحات وب و پایگاه‌های داده سازمان‌ها بسیار مهم است، به همین دلیل متن‌کاوی نیز در این سال‌ها پیشرفت زیادی در تولید دانش از داده‌ خام داشته ‌است. متن‌کاوی کاربردهای زیادی از جمله خوشه‌بندی اسناد، تحلیل نظرات کاربران در شبکه‌های اجتماعی و تشخیص سرقت علمی دارد. در سال‌های اخیر تحقیقات قابل توجهی در حوزه پردازش زبان طبیعی، به عنوان ابزار پایه متن‌کاوی انجام شده است. هدف ما از این تحقیق، ترکیب روش‌های پردازش زبان طبیعی و الگوریتم‌های گراف در تشخیص اسناد مشابه و شناسایی سرقت علمی(لغوی و معنایی) می‌باشد. شیوه‌های نوین در سرقت علمی دلیل ناکارامدی روش‌های پیشین در تشخیص اسناد مشابه می‌باشد. یکی از روش‌های جدید برای تشخیص اسناد مشابه، استفاده از رویکرد گراف می‌باشد. برای استفاده از رویکرد گراف در روش پیشنهادی، در ابتدا باید یک متن را با یکی از روش‌های تبدیل متن به گراف، به یک گراف متناظر نمود (ما در این پژوهش از روش پنجره با اندازه ثابت استفاده‌ نموده‌ایم) و سپس گراف‌های به‌دست آمده را می‌توان به عنوان ورودی‌های الگوریتم شناسایی گراف‌های متشابه در نظر گرفت. برای شناسایی گراف‌های متشابه چندین روش ارائه شده است و در این پژوهش ما از ایده روش تکراری استفاده نموده‌ایم. پس از پیاده‌سازی و اجرای روش پیشنهادی روی مجموعه داده‌های سرقت علمی زبان فارسی PAN2015 (اولین مجموعه داده‌ای که به طور عمومی برای تشخیص سرقت علمی در اسناد فارسی منتشر شده است)، روش پیشنهادی روی مجموعه داده بازیابی اسناد در تشخیص سرقت علمی نوع معنایی و با درجه ابهام بالا، نسبت به روش استفاده شده در نرم‌افزار سمیم نور (که یک روش مبتنی بر n-گرام می‌باشد) 23 درصد بهبود یافته است و در حالت کلی برای سطوح مختلف سرقت علمی، دارای معیار f 87.8 درصد می‌باشد. همچنین در بخش ترازبندی معیارf90 درصد حاصل شده است. در مجموعه داده‌های ترازبندی تشخیص سرقت علمی اسناد انگلیسی PAN2013 سطح سرقت علمی با ابهام خلاصه، معیارf روش پیشنهادی 83 درصد می‌باشد که نسبت به بهترین روش پیشین، 14 درصد بهبود یافته است و در حالت کلی برای سطوح مختلف ترازبندی اسناد انگلیسی معیار f روش پیشنهادی 87 درصد می‌باشد. نتایج نشان می‌دهند که این روش برای تشخیص سرقت علمی، عملکرد خوبی دارد. همچنین توانایی مقابله با داده نویز آن بهتر می‌باشد.
    Abstract
    Today analyzing textual data due to the growing of web and various databases of organizations is very important. Many advances in Text Mining for making knowledge from raw data have been made in recent years. Text mining has several fields like clustering, opinion mining in social media and plagiarism. In recent years there are so many researches in natural language processing as the base field for text mining. Our goal is to detect plagiarism using both NLP methods and graph-based approaches. New techniques are improving shortcomings of the older ones. To use graph based approaches first one should convert the text into graph with any technique among various techniques of converting text to graph in which we use window based approach with constant size. graphs of suspicious text and source text can be used as inputs for finding similar graphs algorithms. For finding similar graphs there are several approaches in which we use repetitive graph approach. Evaluating our approach with Persian dataset of plagiarism PAN2015 (first data set for plagiarism in Persian with open access), it is improved SamimNoor approach 23 percent in finding semantic plagiarism with high ambiguity rate and in general its F-measure for all levels of plagiarism is 87.8 percent. In alignment the F-measure is 90 percent. We also evaluate our approach on English dataset PAN2013, which has produced 83 percent F measure and it is improved the old method 14 percent. For all English text with alignment, F-measure is 87 percent. Results have shown this method has good functionality. keywords: Plagiarism, Graph analysis, matching and similarity, Text graph, Text similarity, Natural language processing