عنوان پایاننامه
تشخیص شباهت اسناد با رویکرد مبتنی بر گراف
- رشته تحصیلی
- مهندسی فناوری اطلاعات - سامانه های شبکه ای
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه دانشکده علوم و فنون نوین شماره ثبت: 537;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 78142;کتابخانه دانشکده علوم و فنون نوین شماره ثبت: 537;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 78142
- تاریخ دفاع
- ۰۷ مهر ۱۳۹۵
- دانشجو
- مژگان ممتاز
- استاد راهنما
- مصطفی صالحی, هادی ویسی
- چکیده
- امروزه اهمیتدادن به تحلیل داده متنی با توجه به افزایش اطلاعات در صفحات وب و پایگاههای داده سازمانها بسیار مهم است، به همین دلیل متنکاوی نیز در این سالها پیشرفت زیادی در تولید دانش از داده خام داشته است. متنکاوی کاربردهای زیادی از جمله خوشهبندی اسناد، تحلیل نظرات کاربران در شبکههای اجتماعی و تشخیص سرقت علمی دارد. در سالهای اخیر تحقیقات قابل توجهی در حوزه پردازش زبان طبیعی، به عنوان ابزار پایه متنکاوی انجام شده است. هدف ما از این تحقیق، ترکیب روشهای پردازش زبان طبیعی و الگوریتمهای گراف در تشخیص اسناد مشابه و شناسایی سرقت علمی(لغوی و معنایی) میباشد. شیوههای نوین در سرقت علمی دلیل ناکارامدی روشهای پیشین در تشخیص اسناد مشابه میباشد. یکی از روشهای جدید برای تشخیص اسناد مشابه، استفاده از رویکرد گراف میباشد. برای استفاده از رویکرد گراف در روش پیشنهادی، در ابتدا باید یک متن را با یکی از روشهای تبدیل متن به گراف، به یک گراف متناظر نمود (ما در این پژوهش از روش پنجره با اندازه ثابت استفاده نمودهایم) و سپس گرافهای بهدست آمده را میتوان به عنوان ورودیهای الگوریتم شناسایی گرافهای متشابه در نظر گرفت. برای شناسایی گرافهای متشابه چندین روش ارائه شده است و در این پژوهش ما از ایده روش تکراری استفاده نمودهایم. پس از پیادهسازی و اجرای روش پیشنهادی روی مجموعه دادههای سرقت علمی زبان فارسی PAN2015 (اولین مجموعه دادهای که به طور عمومی برای تشخیص سرقت علمی در اسناد فارسی منتشر شده است)، روش پیشنهادی روی مجموعه داده بازیابی اسناد در تشخیص سرقت علمی نوع معنایی و با درجه ابهام بالا، نسبت به روش استفاده شده در نرمافزار سمیم نور (که یک روش مبتنی بر n-گرام میباشد) 23 درصد بهبود یافته است و در حالت کلی برای سطوح مختلف سرقت علمی، دارای معیار f 87.8 درصد میباشد. همچنین در بخش ترازبندی معیارf90 درصد حاصل شده است. در مجموعه دادههای ترازبندی تشخیص سرقت علمی اسناد انگلیسی PAN2013 سطح سرقت علمی با ابهام خلاصه، معیارf روش پیشنهادی 83 درصد میباشد که نسبت به بهترین روش پیشین، 14 درصد بهبود یافته است و در حالت کلی برای سطوح مختلف ترازبندی اسناد انگلیسی معیار f روش پیشنهادی 87 درصد میباشد. نتایج نشان میدهند که این روش برای تشخیص سرقت علمی، عملکرد خوبی دارد. همچنین توانایی مقابله با داده نویز آن بهتر میباشد.
- Abstract
- Today analyzing textual data due to the growing of web and various databases of organizations is very important. Many advances in Text Mining for making knowledge from raw data have been made in recent years. Text mining has several fields like clustering, opinion mining in social media and plagiarism. In recent years there are so many researches in natural language processing as the base field for text mining. Our goal is to detect plagiarism using both NLP methods and graph-based approaches. New techniques are improving shortcomings of the older ones. To use graph based approaches first one should convert the text into graph with any technique among various techniques of converting text to graph in which we use window based approach with constant size. graphs of suspicious text and source text can be used as inputs for finding similar graphs algorithms. For finding similar graphs there are several approaches in which we use repetitive graph approach. Evaluating our approach with Persian dataset of plagiarism PAN2015 (first data set for plagiarism in Persian with open access), it is improved SamimNoor approach 23 percent in finding semantic plagiarism with high ambiguity rate and in general its F-measure for all levels of plagiarism is 87.8 percent. In alignment the F-measure is 90 percent. We also evaluate our approach on English dataset PAN2013, which has produced 83 percent F measure and it is improved the old method 14 percent. For all English text with alignment, F-measure is 87 percent. Results have shown this method has good functionality. keywords: Plagiarism, Graph analysis, matching and similarity, Text graph, Text similarity, Natural language processing