عنوان پایاننامه
ابهام زدایی معنایی کلمات با استفاده از پیکره های موازی
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2887;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 73025;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2887;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 73025
- تاریخ دفاع
- ۰۷ بهمن ۱۳۹۴
- دانشجو
- آزاده هاشمی
- استاد راهنما
- هشام فیلی, آزاده شاکری
- چکیده
- در زبانهای طبیعی کلمات بسیاری وجود دارند که بسته به بافتاری که در آن قرار گرفتهاند، تفاسیر مختلفی از معنی آنها به عمل میآید. این دسته از کلمات در متن، مبهم شناخته میشوند. از این رو عمل تعیین معنای صحیح کلمه را با توجه به بافتار، ابهامزدایی معنایی کلمه مینامند. کلمات اجزای اولیهی ساختار زبان طبیعی هستند، بنابراین درک و فهم آنها لازمهی پردازش خودکار زبان طبیعی است. ابهامزدایی معنایی کلمات یک عملیات میانی ضروری برای کاربردهای مختلفی نظیر ترجمهی ماشینی، بازیابی اطلاعات، پرسش و پاسخ و خلاصهسازی محسوب میشود. به همین علت یک موضوع کلیدی در زمینهی زبانشناسی رایانشی است. حروف اضافه از جمله پرکاربردترین کلمات زبان هستند که در نوع خود میتوانند از نظر معنایی مبهم باشند و به طور معمول تعداد معانی بیشتری نسبت به اسامی و افعال دارند. ابهامزدایی معنایی حروف اضافه کاربردهای متعددی را تحت تاثیر قرار میدهد که به خصوص در ترجمهی ماشینی از اهمیت بالایی برخوردار است. در صورتی که رفع ابهام معنایی حروف اضافه به درستی انجام بگیرد میتواند در بهبود کیفیت ترجمه تاثیر داشته باشد. ابهامزدایی معنایی حروف اضافه برای استخراج اطلاعات نیز با ارزش است. در این پایاننامه، نخست یک روش مبتنی بر دانش برای ابهامزدایی معنایی کلمات ارائه شده است که از پیکرههای موازی به عنوان منبع دانش استفاده میکند. پس از آن به طور خاص مسئلهی ابهامزدایی معنایی حروف اضافه و کاربرد آن در یک مترجم ماشینی انگلیسی به فارسی مورد بررسی قرار گرفته است. به منظور رفع ابهام این دسته از کلمات از یک رویکرد باناظر استفاده شده است که نیاز به تعریف مجموعهی ویژگی مناسب دارد. به همین جهت تلاشی برای انتخاب بهترین مجموعهی ویژگی، مختص هر حرف اضافه صورت گرفته است. پس از آن یک راهبرد پیشپردازشی با استفاده از پیکرههای موازی و یک راهبرد پسپردازشی، برای در نظر گرفتن عملیات رفع ابهام معنایی حروف اضافه در مترجم ماشینی در نظر گرفته شده است. بدین ترتیب، هم ارزیابی داخلی و هم ارزیابی خارجی برای این مسئله قابل انجام است. دقت ابهامزدایی روش پیشنهادی با یک مترجم ماشینی آماری، یک مترجم ماشینی ترکیبی و همچنین روش پایهی پرتکرارترین معنا مقایسه شده است. به علاوه تاثیر اعمال رفع ابهام معنایی حروف اضافه در مترجم ماشینی مورد بررسی قرار گرفته است و میزان 1/5 واحد بهبود کیفیت ترجمه با استفاده از معیار بلو حاصل شده است. واژههای کلیدی : ابهامزدایی معنایی کلمات، ترجمهی ماشینی، پیکرهی موازی، پردازش زبان طبیعی
- Abstract
- In natural languages, there are many words that could have different senses depending on the context of use. These words are recognized as ambiguous words. The process of identifying proper word sense based on context is called Word Sense Disambiguation. Since words are units of language structure, it is important to comprehend them for the purpose of automated natural language processing. Word Sense Disambiguation is an intermediate process for different applications such as Machine Translation, Information Retrieval, Question and Answering, and Summarizing. Thus, it is a key area in linguistic computation. Prepositions are of the most common words in languages and could have sense ambiguity and usually have more senses compared to nouns and verbs. Preposition sense disambiguation could be useful in different application including Machine Translation, in particular. In the case preposition sense disambiguation is properly applied, it could significantly improve quality of translation. Preposition Sense Disambiguation is useful for Information Retrieval, as well. In this thesis, first, a knowledge-based approach is proposed for Word Sense Disambiguation, which leverage parallel corpora as the knowledge resources. Then, the problem of Preposition Sense Disambiguation and its application in the English to Persian Machine Translation is studied. A supervised approach is used for sense disambiguation of this type of words (i.e. prepositions), which requires a well-defined feature set. Therefore, it was aimed to select the most proper feature set for each preposition. Then a per-processing approach that utilizes parallel corpora and a post- processing approach using direct mappings, is proposed for preposition sense disambiguation in Machine Translators. In this way, it is possible to evaluate the system both intrinsic and extrinsic. Disambiguation accuracy of the proposed model was compared to a Statistical Machine Translator, a Hybrid Machine Translation system, and the baseline method of Most Frequent Sense. In addition, effect of integration of Preposition Sense Disambiguation with Machine Translator was studied. The results revealed improvement in terms of translation quality using BLEU metric. Keywords: Word Sense Disambiguation, Machine Translation, Parallel Corpora, Natural Language Processing.