عنوان پایاننامه
مدلسازی موضوعی با استفاده از خوشه بندی برای اسناد دامنه خاص
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 3069;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 78497;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 3069;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 78497
- تاریخ دفاع
- ۰۲ شهریور ۱۳۹۵
- دانشجو
- رضا شکرچیان چالشتری
- استاد راهنما
- ناصر یزدانی
- چکیده
- دانش بشر رو به دیجیتالی شدن میرود و پیدا کردن آنچه که کاربران به دنبال آن هستند دشوارتر میشود. نیاز به ابزارهای جدیدی برای جستجو، سازماندهی و فهم حجم بسیار اطلاعات اجتناب ناپذیر است. یک راه برای تحلیل مجموعهی اسناد دستهبندی نشده مدلسازی موضوعی میباشد. مدلسازی موضوعی میتواند کلماتی را که از نظر معنایی مشابه هستند کنار هم قرار دهد. این روش یک روش بدون ناظر میباشد. ضعف اصلی مدلسازی موضوعی نیاز به تعداد زیاد سند برای تولید موضوعات منسجم میباشد. حتی در صورت وجود چنین حجم دادهای، به خاطر یادگیری بدون ناظر مدلسازی موضوعی، کیفیت موضوعات میتواند رضایتبخش نباشد. برخی از روشها از دانش پایگاههای دانشی همچون وردنت و ویکیپدیا و یا پرسش از کاربران برای فراهم کردن دانش اولیهای از مجموعه، استفاده کردهاند تا کیفیت موضوعات را بالا ببرند. ما نگاه متفاوتی در این تحقیق داریم. ما از دانش استخراج شده از خود مجموعه استفاده میکنیم. در این تحقیق روش جدیدی برای خوشهبندی مجموعه به صورت موضوعی ارائه میشود. دانش اولیه از موضوعات خوشهها استخراج میشود و برای مدلسازی موضوعی نهایی مورد استفاده قرار میگیرد. دانش استخراج شده قابل اعتمادتر میشود، اگر که موضوعات خوشهها به اندازهی کافی منسجم و با کیفیت باشند. برای اطمینان از انسجام موضوعات خوشهها، از آنها در بازیابی اطلاعات استفاده شد. از موضوعات خوشهها برای هموارسازی مدل زبانی اسناد کمک گرفته شد. نتایج نشان میدهد که موضوعات خوشههایی که از خوشهبندی پیشنهادی به دست آمدهاند باعث بهتر شدن نتایچ بازیابی شدهاند. این بهبود نسبت به روش شباهت پرسش و همچنین روشی که از موضوعات کل مجموعه برای هموارسازی استفاده میکند، میباشد. تقسیم مجموعه به چند خوشهی موضوعی و استفاده از موضوعات خوشهها در بازیابی اطلاعات میتواند به عنوان روش مقیاسپذیر جدیدی در بازیابی اطلاعات معرفی شود. همچنین تلاش شد از عبارتهای پرتکرار اسناد به عنوان منبع دانشی دیگر استفاده شود. روش پایه در این تحقیق تنها از متن اسناد برای مدلسازی استفاده میکند. فرض انجام شده در این تحقیق این است که جز متن اسناد اطلاعات دیگری در دسترس نیست. در صورت وجود اطلاعات بیشتری از مجموعه سندی میتوان از این اطلاعات در کنار دانش داخلی مجموعه برای بالا بردن انسجام موضوعات استفاده کرد. واژههای کلیدی: مدلسازی موضوعی، بازیابی اطلاعات، هموارسازی موضوعی مدل زبانی،خوشهبندی موضوعی، انسجام موضوعات
- Abstract
- As data continues to be digitized, it becomes more difficult to find users interest. This requires new tools to help search, organize and manipulate this vast amount of information. One way to analyze unclassified collections of documents is topic modeling. Topic modeling connects words with similar meanings with an unsupervised algorithm. A key weakness of topic modeling is the need to large amount of data for generating coherent topics. Even with a large volume of data, unsupervised learning of topic models can still produce unsatisfactory results. To produce better topics, some models use knowledge from knowledge-bases like Wordnet or Wikipedia or ask human users to provide some prior domain knowledge. We use a different approach and exploit extracted knowledge from collection. We also introduce a new method for clustering the collection topically. The prior knowledge is extracted from topics of clusters and used for the final topic modeling. The extracted knowledge becomes more reliable if topics to be coherent enough. To test the coherence of produced clusters’ topics, we used them in information retrieval by document language model smoothing. Using the topics of clusters improves performance of retrieval results. Dividing collection to topical clusters and using the topics of cluster in information retrieval could be introduced as a new scalable method for document retrieval. Also frequent phrases of collection are used as another knowledge source. Results show using this knowledge source improves topics coherence. We used the assumption that text of documents is the only information of collection. In the presence of more information of collection, it could be used beside our method to improve coherence of topics. Keywords: Topic modeling, Information retrieval, Topical language model smoothing, Topical clustering, Topic coherence