عنوان پایاننامه
خوشه بندی اسناد فارسی با استفاده از شبکه معنائی کلمات
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه دانشکده برق و کامپیوتر شماره ثبت: E2078;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 54058
- تاریخ دفاع
- ۱۱ مهر ۱۳۹۰
- دانشجو
- اسماعیل خامه یار
- استاد راهنما
- مسعود رهگذر
- چکیده
- در این پژوهش، هدف توسعه و بهبود خوشهبندی اسناد متنی توسط شبکهی معنایی کلمات، وردنت فارسی میباشد. خوشهبندی اسناد متنی امری بسیار پرکاربرد و مهم در بازیابی اطلاعات، دادهکاوی و یادگیری ماشین میباشد. برای گسترش خوشهبندی با استفاده از وُردنت، در ابتدا اسناد متنی منتخب از مجموعهی همشهری را با الگوریتم Expectation-Maximization (EM)، خوشهبندی میکنیم. سپس بردار نمایش سندها را با استفاده از وُردنت، توسعه میدهیم و سپس مجددا الگوریتم خوشهبندی EM را روی آنها پیادهسازی مینماییم. بدین ترتیب و پس از سنجیدن کیفیت خوشهبندی با سه معیار خلوص خوشه، آنتروپی و FMeasure، مقادیر به دست آمده از دو مرحلهی فوق را با یکدیگر مقایسه مینماییم. روش پیشنهادی این پژوهش برای استفاده از وُردنت در خوشهبندی اسناد متنی در دو مورد ارائه گشته است. در روش اول، کلمات مهم هر سند متنی بدون توجه به متنهای دیگر استخراج شده است. نتایج نشان میدهد که خوشهبندی اسناد در روش دوم که در آن هر سند متنی به دستهی خاصی از کلمات نگاشته میشدند، چه با استفاده از وُردنت و چه بدون استفاده از آن، از کیفیت بهتری برخوردار است. همچنین میتوان گفت که استفادهی درست از وُردنت در سندهایی که نویز و دادهی نامربوط زیادی نداشته باشند، میتواند در بهبود کیفیت خوشهبندی مؤثر باشد. همچنین با توجه به تفاوت زبانهای طبیعی با یکدیگر و تفاوت وُردنتها در زبانهای مختلف، نمیتوان نتیجهی یکسانی را برای هر زبان انتظار داشت. برای انجام این پژوهش از ابزارهای Lucene و Weka استفاده شده است. همچنین از مجموعهی همشهری و فارسنت (که یک شبکهی معنایی به زبان فارسی است) به عنوان ابزارهایی برای انجام پژوهش بهره گرفته شده است. وُردنت فارسی مورد استفاده (فارسنت) به تازگی ارائه شده است و برای غنیتر شدن راه درازی را در پیش دارد. بدیهی است که غنای این شبکهی معنایی فارسی در آینده، میتواند تأثیر بسزایی در نتیجهی چنین پژوهشی داشته باشد.
- Abstract
- The aim of this research is to develop and improve an algorithm for clustering of text documents using Persian WordNet. Word clustering is a considerable and useful issue in information retrieval, data mining and machine learning. To enhance clustering algorithm using WordNet, first we cluster some text documents selected from the database of Hamshahri corpus using Expectation-Maximization (EM) algorithm. Afterward, we enhance the vector representing documents with WordNet and implement again EM clustering algorithm. Then, after evaluating the clustering quality using cluster purity, entropy and F-Measure criteria, we compare the two obtained results from preceding steps. The proposed method which uses WordNet is presented in two ways. In the first method, the most important words of each document are extracted independently. Results show that document clustering in the second method which each document maps into special set of words, gives better quality whether or not using WordNet. Moreover, we can observe that the proper usage of WordNet in less noisy documents and those with less outlier can be more effective in improving the clustering quality. Considering the differences among natural languages and the differences among WordNets in various languages, it is not expected to obtain the same results in all languages. This research is done using Weka and Lucene data mining tools, Hamshahri corpus and also FarsNet as a Persian WordNet. The employed Persian WordNet (FarsNet) has been recently released, and it has a long way to become perfect. Obviously the perfection of WordNet can have a large impact on the result of such researches.