عنوان پایاننامه
ارائه روش بدون مربی برچسب گذاری نقش های معنایی جملات زبان فارسی
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه پردیس 2 فنی شماره ثبت: E 2119;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 54538
- تاریخ دفاع
- ۱۳ تیر ۱۳۹۱
- دانشجو
- پریسا سعیدی
- استاد راهنما
- هشام فیلی, آزاده شاکری
- چکیده
- یکی از پردازش¬های میانی از متن خام به بازنمایی کامل معنایی، استخراج ساختار گزاره-آرگومان¬ در جمله می¬باشد. با توجه به اهمیت پردازش¬های معنایی متون در کاربردهای پردازش زبان طبیعی مثل ترجمه ماشینی و سیستم¬های پرسش و پاسخ خودکار، در حال حاضر تلاش¬های زیادی در زبان-های مختلف برای این وظیفه انجام شده است. در این وظیفه، با پردازش معنایی در سطح جمله، متمم-های گزاره¬های فعلی مثل کنشگر، کنش پذیر، زمان، مکان و چگونگی انجام فعل استخراج می¬شود. در این پژوهش، سه روش برچسب¬گذاری نقش معنایی برای گزارههای فعلی بر روی جملات زبان فارسی پیاده سازی و مورد بررسی قرار گرفت. در روش اول، از روش¬های بین زبانی برای انتقال نقش معنایی استفاده شده است که نقش معنایی کلمات انگلیسی را به همتراز آن در سمت فارسی منتقل می¬کند. این روش برای زبان¬هایی که منابع ترجمه مورد نیاز در دسترس باشد روش مناسبی می¬باشد، ولی خطاهای ترجمه و تفاوت ساختاری زبان¬ها، منجر به خطا در انتقال نقش معنایی می¬شود. در روش دوم، با تبدیل برچسب¬گذاری نقش معنایی به مسئله طبقه¬بندی، به استخراج ویژگی¬های موثر برای طبقه¬بندی نمونه آرگومان¬های معنایی گزاره¬ها می¬پردازیم. مشکل این روش¬ها نیاز به دادگان با حجم بالا برای مدلسازی می¬باشد. در این روش مجموعه دادگان آموزشی برچسب¬خورده روی 1000 جمله مربوط به افعال انتخابی به صورت دستی آماده شده است. در برچسب¬گذاری نقش معنایی با توجه به دادگان موجود، به دقت 81.9 % در معیار F1 رسیده¬ ایم. در روش آخر، مدل احتمالاتی تولید آرگومان¬های گزاره¬های فعلی را ارائه می¬کنیم و به خوشه¬بندی نمونه آرگومان¬های معنایی می¬پردازیم که نیازی به دادگان برچسب¬خورده ندارد. برای برچسب¬گذاری و ارزیابی این روش، حدود 1500 جمله از افعال انتخابی به صورت دستی برچسب¬گذاری شده اند. در این روش حجم برچسب¬گذاری نقش معنایی از سطح نمونه آرگومان به سطح خوشه نقش معنایی آرگومان¬ها کاهش پیدا می¬کند. در این روش پیشنهادی، معیارهای خلوص و خلوص معکوس که جزء معیارهای ارزیابی خوشه¬بندی به حساب می¬آیند، نسبت به روش پایه که نگاشت قطعی روابط نحوی به نقشهای معنایی میباشد، بهبود پیدا می¬کنند. این روش می¬تواند به عنوان روش پایه برچسب¬گذاری نقش معنایی بدون ناظر در زبان فارسی، در پژوهش¬های بعدی مورد استفاده قرار گیرد.
- Abstract
- Extracting predicate-argument structure is in the middle of natural language processing from raw text into full semantic representation. Because of the importance of the semantic processing of the text in the applications of natural language processing such as machine translation (MT) and question answering systems (QA), recently there is much effort on this task. In the sentence level semantic analysis of text, the semantic complements of predicates such as “Agent”, “Patient”, “Time”, “Location” and “Manner” are extracted. Three approaches are implemented in this research in Persian Language. In the first approach, we use cross-lingual methods to project the semantic roles from English words into aligned Persian word. This approach is suitable for annotation projection in languages which have nessesary resources such as parallel corpus, but the alignment errors and structural divergence between two languages lead to role projection errors. In the second approach, semantic role labeling is treated as a classification problem. The argument instances of verbal predicates are classified using the syntactic, semantic and lexical features. The large volume of role annotated data is needed for modeling purpose. We have prepared a role annotated dataset contains 1000 sentences of selected verbs and achieve to perecentage of 81.9 % in F1 score. In the last approach, we design a Bayesian model to generate semantic arguments of the verbs and cluster the argument instances. In this approach, the effort of annotation is decreased from argument instance to semantic role cluster. The clustering evaluation measures such as purity and inverse purity are improved in this approach. It is a strong baseline method in unsupervised approaches of semantic role labeling in Persian Language which can be used by later researches of this field.