عنوان پایان‌نامه

مدلسازی موضوعی با استفاده از خوشه بندی برای اسناد دامنه خاص



    دانشجو در تاریخ ۰۲ شهریور ۱۳۹۵ ، به راهنمایی ، پایان نامه با عنوان "مدلسازی موضوعی با استفاده از خوشه بندی برای اسناد دامنه خاص" را دفاع نموده است.


    محل دفاع
    کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 3069;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 78497;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 3069;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 78497
    تاریخ دفاع
    ۰۲ شهریور ۱۳۹۵
    استاد راهنما
    ناصر یزدانی

    دانش بشر رو به دیجیتالی شدن می‌رود و پیدا کردن آنچه که کاربران به دنبال آن هستند دشوارتر می‌شود. نیاز به ابزارهای جدیدی برای جستجو، سازمان‌دهی و فهم حجم بسیار اطلاعات اجتناب ناپذیر است. یک راه برای تحلیل مجموعه‌ی اسناد دسته‌بندی نشده مدل‌سازی موضوعی می‌باشد. مدل‌سازی موضوعی می‌تواند کلماتی را که از نظر معنایی مشابه هستند کنار هم قرار دهد. این روش یک روش بدون ناظر می‌باشد. ضعف اصلی مدل‌سازی موضوعی نیاز به تعداد زیاد سند برای تولید موضوعات منسجم می‌باشد. حتی در صورت وجود چنین حجم داده‌ای، به خاطر یادگیری بدون ناظر مدل‌سازی موضوعی، کیفیت موضوعات می‌تواند رضایت‌بخش نباشد. برخی از روش‌ها از دانش پایگاه‌های دانشی همچون وردنت و ویکی‌پدیا و یا پرسش از کاربران برای فراهم کردن دانش اولیه‌ای از مجموعه، استفاده کرده‌اند تا کیفیت موضوعات را بالا ببرند. ما نگاه متفاوتی در این تحقیق داریم. ما از دانش استخراج شده از خود مجموعه استفاده می‌کنیم. در این تحقیق روش جدیدی برای خوشه‌بندی مجموعه به صورت موضوعی ارائه می‌شود. دانش اولیه از موضوعات خوشه‌ها استخراج می‌شود و برای مدل‌سازی موضوعی نهایی مورد استفاده قرار می‌گیرد. دانش استخراج شده قابل اعتمادتر می‌شود، اگر که موضوعات خوشه‌ها به اندازه‌ی کافی منسجم و با کیفیت باشند. برای اطمینان از انسجام موضوعات خوشه‌ها، از آن‌ها در بازیابی اطلاعات استفاده شد. از موضوعات خوشه‌ها برای هموارسازی مدل زبانی اسناد کمک گرفته شد. نتایج نشان می‌دهد که موضوعات خوشه‌هایی که از خوشه‌بندی پیشنهادی به دست آمده‌اند باعث بهتر شدن نتایچ بازیابی شده‌اند. این بهبود نسبت به روش شباهت پرسش و همچنین روشی که از موضوعات کل مجموعه برای هموارسازی استفاده می‌کند، می‌باشد. تقسیم مجموعه به چند خوشه‌ی موضوعی و استفاده از موضوعات خوشه‌ها در بازیابی اطلاعات می‌تواند به عنوان روش مقیاس‌پذیر جدیدی در بازیابی اطلاعات معرفی شود. همچنین تلاش شد از عبارت‌های پر‌تکرار اسناد به عنوان منبع دانشی دیگر استفاده شود. روش پایه در این تحقیق تنها از متن اسناد برای مدل‌سازی استفاده می‌کند. فرض انجام شده در این تحقیق این است که جز متن اسناد اطلاعات دیگری در دسترس نیست. در صورت وجود اطلاعات بیشتری از مجموعه سندی می‌توان از این اطلاعات در کنار دانش داخلی مجموعه برای بالا بردن انسجام موضوعات استفاده کرد. واژه‌های کلیدی: مدل‌سازی موضوعی، بازیابی اطلاعات، هموارسازی موضوعی مدل زبانی،خوشه‌بندی موضوعی، انسجام موضوعات
    Abstract
    As data continues to be digitized, it becomes more difficult to find users interest. This requires new tools to help search, organize and manipulate this vast amount of information. One way to analyze unclassified collections of documents is topic modeling. Topic modeling connects words with similar meanings with an unsupervised algorithm. A key weakness of topic modeling is the need to large amount of data for generating coherent topics. Even with a large volume of data, unsupervised learning of topic models can still produce unsatisfactory results. To produce better topics, some models use knowledge from knowledge-bases like Wordnet or Wikipedia or ask human users to provide some prior domain knowledge. We use a different approach and exploit extracted knowledge from collection. We also introduce a new method for clustering the collection topically. The prior knowledge is extracted from topics of clusters and used for the final topic modeling. The extracted knowledge becomes more reliable if topics to be coherent enough. To test the coherence of produced clusters’ topics, we used them in information retrieval by document language model smoothing. Using the topics of clusters improves performance of retrieval results. Dividing collection to topical clusters and using the topics of cluster in information retrieval could be introduced as a new scalable method for document retrieval. Also frequent phrases of collection are used as another knowledge source. Results show using this knowledge source improves topics coherence. We used the assumption that text of documents is the only information of collection. In the presence of more information of collection, it could be used beside our method to improve coherence of topics. Keywords: Topic modeling, Information retrieval, Topical language model smoothing, Topical clustering, Topic coherence