خوشه بندی منظر نگر مستندات به منظور تسهیل در امر بازیابی
- رشته تحصیلی
- مهندسی کامپیوتر- آلگوریتم ها و محاسبات
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه پردیس یک فنی شماره ثبت: 19.;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 47367
- تاریخ دفاع
- ۱۲ اسفند ۱۳۸۹
- دانشجو
- مرجان حسینیا
- چکیده
- امروزه نیاز به دستیابی اطلاعات مورد نیاز امری اجتناب ناپذیر است. اما از آنجا که رشد بی وقفه منابع اطلاعاتی، هر روز به حجم آنها می¬افزاید، بدون بکارگیری مکانیزم¬های سازماندهی اطلاعات، برآورده شدن این نیاز تقریبا غیر ممکن است. در این میان خوشه¬بندی اسناد یکی از روش¬های مهم بدون ناظر متن کاوی برای سازمان ¬دهی اطلاعات است که سعی درگروه¬بندی مجموعه اسناد به خوشه¬های معنی¬دار دارد. با توجه به قدمت مسئله خوشه¬بندی اسناد، تا کنون روش¬های زیادی با رویکردهای مختلف برای حل این مسئله ارائه شده است اما این موضوع، ما را در یافتن روش¬های موثرتر بی¬نیاز نکرده است. ما در این پایان نامه ابتدا مسئله خوشه¬بندی اسناد و مسائل مرتبط با آن نظیر بازنمایی سند، مراحل پیش پردازش، انواع روش¬های خوشه¬بندی و ... را معرفی می¬کنیم و سپس تلاشی در زمینه بهبود بازنمایی محتوای سند متنی بعنوان یک امر تاثیر گذار در عملکرد خوشه¬بندی اسناد بکار می گیریم. برای این منظور اسناد را به کمک یک منبع اطلاعاتی غنی، گسترده و در دسترس، ویکی¬پدیا، غنی¬سازی و بازنمایی می¬کنیم و این بازنمایی جدید را بر روی دو دادگان متنی آزمایش می¬کنیم. نتایج بدست آمده که حاکی از ارتقاء عملکرد خوشه¬بندی است، ما را در ارائه روشی با رویکردی نوین برای خوشه¬بندی مستندات که هدف اصلی این پایان-نامه است، هدایت می¬کند. این روش را که هدف از ارائه آن تسهیل امر بازیابی اطلاعات است، تحت عنوان خوشه¬بندی منظر نگر مستندات معرفی می¬کنیم و در آن مجموعه اسناد را بر پایه شباهت ذاتی آنها با یکدیگر، بر اساس یک منظر خاص گروه¬بندی می¬کنیم. اهمیت خوشه¬بندی منظرنگر زمانی مشخص می¬شود که در گروه¬بندی اسناد حاصل از بازیابی، یک پرس و جوی حاوی منظر بکارگرفته شود. نتایج ارزیابی خوشه-بندی منظرنگر بر روی اسناد منتخب از دو دادگان نیز نشان می¬دهد که روش پیشنهادی، بطور موثری قادر به ارتقاء عملکرد خوشه¬بندی مستنداتی است که می¬توانند هم ارز با نتایج بازیابی شده از پرس و جوهای منظرنگر باشند. این پرس و جوها سعی در دریافت اطلاعات درباره یک موضوع از منظر موضوع دیگر دارند. کلمات کلیدی: خوشه¬بندی اسناد، بازنمایی سند، ویکی¬پدیا، خوشه¬بندی منظرنگر مستندات
- Abstract
- Information is essential to us all times in our lives but achieving information needed without organizing them is impossible while its sources are growing quickly. Document clustering is an unsupervised text mining task for organizing information through which documents are grouped into meaningful clusters. Although clustering is an old research topic and so many clustering approaches have been proposed until now, it is still needed to improve its performance. This thesis is an attempt to solve the problem of clustering text documents. In this thesis, we first present a review of document clustering including problem definition, clustering processes, document representation and properties of clustering algorithms. For improving our approach we first tried to enrich text documents using Wikipedia, a huge information resource. Then we evaluated them with two datasets. Results which show that enriching document context has good effect on clustering performance, guide us to propose our new approach for document clustering to facilitate retrieval process, called aspect-oriented document clustering. In this approach similarity between documents is computed based on a special aspect which has been enriched using Wikipedia. We evaluated the approach with two popular datasets. Results demonstrate that the aspect-oriented clustering enhances clustering performance significantly when we applied it for grouping those documents which can be equivalent to a part of retrieved documents from frequent aspect based queries, queries which tries to find information about an issue from the aspect of another issue. Keywords: document clustering, document representation, Wikipedia, aspect-oriented document clustering