عنوان پایان‌نامه

خوشه بندی اسناد فارسی با استفاده از شبکه معنائی کلمات



    دانشجو در تاریخ ۱۱ مهر ۱۳۹۰ ، به راهنمایی ، پایان نامه با عنوان "خوشه بندی اسناد فارسی با استفاده از شبکه معنائی کلمات" را دفاع نموده است.


    محل دفاع
    کتابخانه دانشکده برق و کامپیوتر شماره ثبت: E2078;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 54058
    تاریخ دفاع
    ۱۱ مهر ۱۳۹۰
    استاد راهنما
    مسعود رهگذر

    در این پژوهش، هدف توسعه و بهبود خوشه‌بندی اسناد متنی توسط شبکه‌ی معنایی کلمات، وردنت فارسی می‌باشد. خوشه‌بندی اسناد متنی امری بسیار پرکاربرد و مهم در بازیابی اطلاعات، داده‌کاوی و یادگیری ماشین می‌باشد. برای گسترش خوشه‌بندی با استفاده از وُردنت، در ابتدا اسناد متنی منتخب از مجموعه‌ی همشهری را با الگوریتم Expectation-Maximization (EM)، خوشه‌بندی می‌کنیم. سپس بردار نمایش سندها را با استفاده از وُردنت، توسعه می‌دهیم و سپس مجددا الگوریتم خوشه‌بندی EM را روی آن‌ها پیاده‌سازی می‌نماییم. بدین ترتیب و پس از سنجیدن کیفیت خوشه‌بندی با سه معیار خلوص خوشه، آنتروپی و FMeasure، مقادیر به دست آمده از دو مرحله‌ی فوق را با یکدیگر مقایسه می‌نماییم. روش پیشنهادی این پژوهش برای استفاده از وُردنت در خوشه‌بندی اسناد متنی در دو مورد ارائه گشته است. در روش اول، کلمات مهم هر سند متنی بدون توجه به متن‌های دیگر استخراج شده است. نتایج نشان می‌دهد که خوشه‌بندی اسناد در روش دوم که در آن هر سند متنی به دسته‌ی خاصی از کلمات نگاشته می‌شدند، چه با استفاده از وُردنت و چه بدون استفاده از آن، از کیفیت بهتری برخوردار است. همچنین می‌توان گفت که استفاده‌ی درست از وُردنت در سندهایی که نویز و داده‌ی نامربوط زیادی نداشته باشند، می‌تواند در بهبود کیفیت خوشه‌بندی مؤثر باشد. همچنین با توجه به تفاوت زبان‌های طبیعی با یکدیگر و تفاوت وُردنت‌ها در زبان‌های مختلف، نمی‌توان نتیجه‌ی یکسانی را برای هر زبان انتظار داشت. برای انجام این پژوهش از ابزارهای Lucene و Weka استفاده شده است. همچنین از مجموعه‌ی همشهری و فارس‌نت (که یک شبکه‌ی معنایی به زبان فارسی است) به عنوان ابزارهایی برای انجام پژوهش بهره گرفته شده است. وُردنت فارسی مورد استفاده (فارس‌نت) به تازگی ارائه شده است و برای غنی‌تر شدن راه درازی را در پیش دارد. بدیهی است که غنای این شبکه‌ی معنایی فارسی در آینده، می‌تواند تأثیر بسزایی در نتیجه‌ی چنین پژوهشی داشته باشد.
    Abstract
    The aim of this research is to develop and improve an algorithm for clustering of text documents using Persian WordNet. Word clustering is a considerable and useful issue in information retrieval, data mining and machine learning. To enhance clustering algorithm using WordNet, first we cluster some text documents selected from the database of Hamshahri corpus using Expectation-Maximization (EM) algorithm. Afterward, we enhance the vector representing documents with WordNet and implement again EM clustering algorithm. Then, after evaluating the clustering quality using cluster purity, entropy and F-Measure criteria, we compare the two obtained results from preceding steps. The proposed method which uses WordNet is presented in two ways. In the first method, the most important words of each document are extracted independently. Results show that document clustering in the second method which each document maps into special set of words, gives better quality whether or not using WordNet. Moreover, we can observe that the proper usage of WordNet in less noisy documents and those with less outlier can be more effective in improving the clustering quality. Considering the differences among natural languages and the differences among WordNets in various languages, it is not expected to obtain the same results in all languages. This research is done using Weka and Lucene data mining tools, Hamshahri corpus and also FarsNet as a Persian WordNet. The employed Persian WordNet (FarsNet) has been recently released, and it has a long way to become perfect. Obviously the perfection of WordNet can have a large impact on the result of such researches.