عنوان پایاننامه
تولید خودکار عبارت های کلیدی برای اسناد علمی با استفاده از روابط معنایی
- رشته تحصیلی
- مهندسی فناوری اطلاعات
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2642;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 67943
- تاریخ دفاع
- ۱۱ خرداد ۱۳۹۳
- دانشجو
- بهاره داودآبادی فراهانی
- استاد راهنما
- سیدامید فاطمی
- چکیده
- امروزه با رشد روز افزون اسناد علمی الکترونیکی به زبان فارسی در پایگاه های اینترنتی، نیاز به دسترسی سریع به این اسناد بیش از پیش اهمیت یافته است. در این میان تولید عبارت های کلیدی به عنوان روشی برای توصیف اسناد، بخش عظیمی از تحقیقات در این زمینه را به خود اختصاص داده است. عبارت های کلیدی نقش مهمی را در کاربردهایی مانند نمایه سازی، دسته بندی، خلاصه-سازی و بازیابی اطلاعات ایفا می کنند. تا به حال روش های بسیاری برای تولید خودکار عبارت های کلیدی ارائه گردیده است؛ اما اکثر این روش ها وابسته به منابع زبان شناسی، فرآیندهای یادگیری و مجموعه های آموزشی می باشند. از این رو در این تحقیق روشی ارائه شده¬است، که با استفاده از روابط معنایی بین کلمات سند عبارت هایی را به عنوان عبارت کلیدی معرفی می کند، به طوری که هم از نظر معنایی و هم از نظر دستوری صحیح باشند. در الگوریتم ارائه شده پس از پیش پردازش سند، ارتباطات معنایی بین کلمات متن از گنجینه اصطلاحات استخراج می گردد. با استفاده از این ارتباطات، کلمات متن از لحاظ معنایی گروه بندی می شوند، به طوری که این گروه ها مفاهیم اصلی سند را تشکیل می دهند. سپس با ترکیب گروه های کلمات مرتبط مجموعه ای از عبارت های اولیه تولید می گردد. در نهایت نیز با بررسی عبارت های کاندید در متن و گنجینه اصطلاحات، و همچنین وزن دهی آنها با استفاده از مجموعه ای از ویژگی-ها عبارت های کلیدی نهایی تولید می شوند. نتایج ارزیابی های انجام شده بهبود قابل توجه عملکرد روش پیشنهادی نسبت به روش های مشابه را نشان داده است. به طوری که میانگین هارمونیک دقت و بازخوانی در روش پیشنهادی به %85 رسیده است. همچنین روش پیشنهادی با استفاده از معیار سازگاری میان-نمایه ساز با 4 نمایه سازی دستی مقایسه گردید. در این حالت نیز روش پیشنهادی نسبت به روش های مشابه بهبود قابل توجهی داشته است. واژههای کلیدی: بازیابی اطلاعات، متن کاوی، تولید خودکار عبارت های کلیدی، نمایه سازی خودکار، گنجینه اصطلاحات، ارتباطات معنایی.
- Abstract
- Nowadays with the development of electronic scientific documents in Persian on the internet, the need for quick access to these documents is more important. The key phrase generation method as a way to describe documents is one of the most effective approaches to satisfy this challenge. Key phrases have important role in applications such as indexing, classification, summarization and information retrieval. Many methods have been proposed to automatically generate key phrases, but most of them are dependent on the linguistic resources, learning processes and training sets. This thesis proposes a method which uses semantic relation between words to generate key phrases of a document. The key phrases generated by the proposed method, are semantically and grammatically correct. In the proposed algorithm, after pre-processing document, relationship between words will be extracted from Thesaurus. Words will be grouped semantically by means of the relationships, so that the groups constitute basic concepts of document. Then, a set of basic phrases will be formed by combining groups of the related words. Finally, by checking candidate phrases through the document and Thesaurus, and also weighting them via a set of attributes, the key phrases will be generated. The result of assessments shows improvements of the proposed method in comparison to similar approaches so that the average harmonic of precision and recall is increased up to 80%. In order to verify the proposed method, it has been compared with 4 manual indexers by means of inter-indexer consistency which results significant improvement in this case compared to similar methods. Keywords : Information retrieval, Text mining, Key phrases, Automatic indexing, Thesaurus, Semantic relations.