عنوان پایان‌نامه

تولید خودکار کلمات کلیدی برای اسناد علمی با استفاده از روابط معنایی و خوشه بندی



    دانشجو در تاریخ ۰۷ تیر ۱۳۹۴ ، به راهنمایی ، پایان نامه با عنوان "تولید خودکار کلمات کلیدی برای اسناد علمی با استفاده از روابط معنایی و خوشه بندی" را دفاع نموده است.


    مقطع تحصیلی
    کارشناسی ارشد
    محل دفاع
    کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2760;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 69884
    تاریخ دفاع
    ۰۷ تیر ۱۳۹۴
    دانشجو
    شکیب صفری
    استاد راهنما
    سیدامید فاطمی

    استخراج اطلاعات نقش حیاتی را در زندگی امروز ایفا می کند. کارایی و مؤثر بودن اسناد مرتبط استخراج شده از شبکه جهانی وب یک موضوع چالش برانگیز است. امروزه با رشد روز افزون اسناد علمی الکترونیکی به زبان فارسی در پایگاه های اینترنتی، نیاز به دسترسی سریع به این اسناد بیش از پیش اهمیت یافته است. در این میان تولید کلمات کلیدی به عنوان روشی برای توصیف اسناد، بخش عظیمی از تحقیقات در این زمینه را به خود اختصاص داده است. کلمات کلیدی نقش مهمی را در کاربردهایی مانند نمایه سازی، دسته بندی، خلاصه سازی و بازیابی اطلاعات ایفا می کنند. تا به حال روش های بسیاری برای تولید خودکار کلمات کلیدی ارائه گردیده است؛ اما اکثر این روش ها وابسته به منابع زبان شناسی، فرآیندهای یادگیری و مجموعه های آموزشی می باشند، و همچنین تنها از زبان نمایه‌سازی طبیعی برای استخراج کلمات کلیدی استفاده کرده‌اند. از این رو در این تحقیق روشی ارائه شده است، که با استفاده از روابط معنایی موجود در اصطلاحنامه و استفاده از خوشه‌بندی اسناد و کلمات، کلماتی را به عنوان کلمات کلیدی معرفی می کند، که تنها محدود به کلمات متن در حال پردازش نبوده و شامل کلمات کلیدی کنترل‌شده و خارج از متن مرتبط نیز می‌باشد. در واقع در این تحقیق، از ترکیبی از زبان‌های نمایه‌سازی (زبان نمایه‌سازی طبیعی، زبان نمایه‌سازی آزاد و زبان نمایه‌سازی کنترل شده) استفاده خواهد شد. در این روش پس از پیش پردازش سند، ابتدا کلمات شاخص در متن با استفاده از روش های آماری انتخاب می شوند، سپس با بررسی عبارت‌های حاصل از جایگشت کلمات شاخص در متن و اصطلاحنامه، و همچنین وزن‌دهی آنها براساس معیار هم‌رخدادی، عبارت‌‌های کلیدی ثانویه تولید می‌شوند. در انتها با استفاده از روابط هم‌ارزی و روابط سلسله‌مراتبی موجود در اصطلاحنامه و به کمک روش‌های خوشه‌بندی، کلمات کلیدی نهایی انتخاب می‌شوند. نتایج ارزیابی های انجام شده بهبود قابل توجه عملکرد روش پیشنهادی نسبت به روش های مشابه را نشان داده است. به‌طوری که روش پیشنهادی با استفاده از معیار سازگاری میان-نمایه ساز با 4 نمایه سازی دستی مقایسه گردید و نسبت به روش های مشابه بطور میانگین بهبود 13% را داشته است. کلمات کلیدی: بازیابی اطلاعات، متن کاوی، استخراج کلمات کلیدی، نمایه سازی خودکار، اصطلاحانامه، روابط معنایی، خوشه‌بندی، زبان‌های نمایه‌سازی.
    Abstract
    Information extraction plays a vital ro¬¬le in today’s life. How efficiently and effectively the relevant documents are extracted from World Wide Web is a challenging issue. Nowadays with the development of electronic scientific documents in Persian on the internet, the need for quick access to these documents is more important. The key phrase generation method as a way to describe documents is one of the most effective approaches to satisfy this challenge. Key phrases have important role in applications such as indexing, classification, summarization and information retrieval. Many methods have been proposed to automatically generate keywords, but most of them are dependent on the linguistic resources, learning processes and training sets and also only use natural indexing language for extracting keywords. So in this thesis a new method is introduced which suggests keywords that uses semantic relation which is existed in Thesauri and also document and word clustering. These keywords are not limited to the words included in the text under the process but also includes some controlled keywords and the out of context’s ones. In other word, this thesis uses a combination of indexing languages (natural indexing languages, free indexing languages and controlled indexing languages). In this method after preprocessing of the document, firstly the significant words in the document are selected using statistical methods, then secondary key phrases are produced by exploring significant words Permutation in the document and Thesauri, and also weighting of them based on co-occurrence criteria. At the end, final keywords are selected using Equivalence relationships and hierarchical provided by the Thesauri and clustering methods. The results of the assessment done through this thesis shows significant improvement using the proposed methods in comparison by similar methods. In other word the results, using the proposed method by means of the inter-indexers consistency was compared with the results of the 4 manual indexers and it shows a 13% average improvement compared to similar methods. Keywords: Information retrieval, Text mining, Keywords Extraction, Automatic indexing, Thesaurus, Semantic relations, Clustering, Indexing languages.