عنوان پایان‌نامه

ابهام زدایی معنایی کلمات با استفاده از پیکره های موازی



    دانشجو در تاریخ ۰۷ بهمن ۱۳۹۴ ، به راهنمایی ، پایان نامه با عنوان "ابهام زدایی معنایی کلمات با استفاده از پیکره های موازی" را دفاع نموده است.


    محل دفاع
    کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2887;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 73025;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2887;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 73025
    تاریخ دفاع
    ۰۷ بهمن ۱۳۹۴
    دانشجو
    آزاده هاشمی
    استاد راهنما
    هشام فیلی, آزاده شاکری

    در زبان‌های طبیعی کلمات بسیاری وجود دارند که بسته به بافتاری که در آن قرار گرفته‌اند، تفاسیر مختلفی از معنی آن‌ها به عمل می‌آید. این دسته از کلمات در متن، مبهم شناخته می‌شوند. از این رو عمل تعیین معنای صحیح کلمه را با توجه به بافتار، ابهام‌زدایی معنایی کلمه می‌نامند. کلمات اجزای اولیه‌ی ساختار زبان طبیعی هستند، بنابراین درک و فهم آن‌ها لازمه‌ی پردازش خودکار زبان طبیعی است. ابهام‌زدایی معنایی کلمات یک عملیات میانی ضروری برای کاربردهای مختلفی نظیر ترجمه‌ی ماشینی، بازیابی اطلاعات، پرسش و پاسخ و خلاصه‌سازی محسوب می‌شود. به همین علت یک موضوع کلیدی در زمینه‌ی زبان‌شناسی رایانشی است. حروف اضافه از جمله پرکاربردترین کلمات زبان هستند که در نوع خود می‌توانند از نظر معنایی مبهم باشند و به طور معمول تعداد معانی بیش‌تری نسبت به اسامی و افعال دارند. ابهام‌زدایی معنایی حروف اضافه کاربردهای متعددی را تحت تاثیر قرار می‌دهد که به خصوص در ترجمه‌ی ماشینی از اهمیت بالایی برخوردار است. در صورتی که رفع ابهام معنایی حروف اضافه به درستی انجام بگیرد می‌تواند در بهبود کیفیت ترجمه تاثیر داشته باشد. ابهام‌زدایی معنایی حروف اضافه برای استخراج اطلاعات نیز با ارزش است. در این پایان‌نامه، نخست یک روش مبتنی بر دانش برای ابهام‌زدایی معنایی کلمات ارائه شده است که از پیکره‌های موازی به عنوان منبع دانش استفاده می‌کند. پس از آن به طور خاص مسئله‌ی ابهام‌زدایی معنایی حروف اضافه و کاربرد آن در یک مترجم ماشینی انگلیسی به فارسی مورد بررسی قرار گرفته است. به منظور رفع ابهام این دسته از کلمات از یک رویکرد باناظر استفاده شده است که نیاز به تعریف مجموعه‌ی ویژگی‌ مناسب دارد. به همین جهت تلاشی برای انتخاب بهترین مجموعه‌ی ویژگی، مختص هر حرف اضافه صورت گرفته است. پس از آن یک راهبرد پیش‌پردازشی با استفاده از پیکره‌های موازی و یک راهبرد پس‌پردازشی، برای در نظر گرفتن عملیات رفع ابهام معنایی حروف اضافه در مترجم ماشینی در نظر گرفته شده است. بدین ترتیب، هم ارزیابی داخلی و هم ارزیابی خارجی برای این مسئله قابل انجام است. دقت ابهام‌زدایی روش پیشنهادی با یک مترجم ماشینی آماری، یک مترجم ماشینی ترکیبی و هم‌چنین روش پایه‌ی پرتکرارترین معنا مقایسه شده است. به علاوه تاثیر اعمال رفع ابهام‌ معنایی حروف اضافه در مترجم ماشینی مورد بررسی قرار گرفته است و میزان 1/5 واحد بهبود کیفیت ترجمه با استفاده از معیار بلو حاصل شده است. واژه‌های کلیدی : ابهام‌زدایی معنایی کلمات، ترجمه‌ی ماشینی، پیکره‌ی موازی، پردازش زبان طبیعی
    Abstract
    In natural languages, there are many words that could have different senses depending on the context of use. These words are recognized as ambiguous words. The process of identifying proper word sense based on context is called Word Sense Disambiguation. Since words are units of language structure, it is important to comprehend them for the purpose of automated natural language processing. Word Sense Disambiguation is an intermediate process for different applications such as Machine Translation, Information Retrieval, Question and Answering, and Summarizing. Thus, it is a key area in linguistic computation. Prepositions are of the most common words in languages and could have sense ambiguity and usually have more senses compared to nouns and verbs. Preposition sense disambiguation could be useful in different application including Machine Translation, in particular. In the case preposition sense disambiguation is properly applied, it could significantly improve quality of translation. Preposition Sense Disambiguation is useful for Information Retrieval, as well. In this thesis, first, a knowledge-based approach is proposed for Word Sense Disambiguation, which leverage parallel corpora as the knowledge resources. Then, the problem of Preposition Sense Disambiguation and its application in the English to Persian Machine Translation is studied. A supervised approach is used for sense disambiguation of this type of words (i.e. prepositions), which requires a well-defined feature set. Therefore, it was aimed to select the most proper feature set for each preposition. Then a per-processing approach that utilizes parallel corpora and a post- processing approach using direct mappings, is proposed for preposition sense disambiguation in Machine Translators. In this way, it is possible to evaluate the system both intrinsic and extrinsic. Disambiguation accuracy of the proposed model was compared to a Statistical Machine Translator, a Hybrid Machine Translation system, and the baseline method of Most Frequent Sense. In addition, effect of integration of Preposition Sense Disambiguation with Machine Translator was studied. The results revealed improvement in terms of translation quality using BLEU metric. Keywords: Word Sense Disambiguation, Machine Translation, Parallel Corpora, Natural Language Processing.