عنوان پایان‌نامه

ارائه یک سیستم مترجم ماشینی آماری فارسی به انگلیسی



    دانشجو در تاریخ ۲۱ اسفند ۱۳۹۱ ، به راهنمایی ، پایان نامه با عنوان "ارائه یک سیستم مترجم ماشینی آماری فارسی به انگلیسی" را دفاع نموده است.


    محل دفاع
    کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2209;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 57408
    تاریخ دفاع
    ۲۱ اسفند ۱۳۹۱
    استاد راهنما
    هشام فیلی

    ترجمه خودکار متون یکی از مهمترین زمینه‌های پردازش زبان طبیعی است. متأسفانه فعالیت‌های کمی برای ترجمه فارسی به انگلیسی صورت گرفته است. در این پروژه علاوه بر بررسی این فعالیت‌ها، با استفاده از ترکیب رویکردهای مبتنی‌ بر قاعده و آماری، یک مترجم ماشینی فارسی به انگلیسی پیاده‌سازی شده است. برای آموزش مترجم ماشینی آماری کمک شد تا پیکره‌ای با بیش از 5/5 میلیون کلمه ساخته شود. تحلیل‌کننده‌های تصریفی نیز برای تقطیع تکواژه‌های تصریفی وابسته از واژه‌های فارسی و انگلیسی پیاده‌سازی شده‌اند. با توجه به نتایج وقتی ساختار کلمات دو زبان از لحاظ تصریفی یکسان شوند، ترجمه بهتری به دست می‌آید. در این پروژه طرح‌های مختلف برای تقطیع تکواژه‌ها در ترجمه فارسی به انگلیسی ارائه شده است. در طرح تقطیع تکواژی آگاه به فعل مرکب، افعال مرکب زبان‌های انگلیسی و فارسی نیز به روش مبتنی ‌بر قاعده تشخیص داده شده‌اند. مجموعه‌ی آزمون استانداردی با 393 جمله که از پیکره موازی استخراج گردیده، تهیه شده است و این مجموعه دارای 4 منبع (ترجمه‌های مختلف) است. طرح‌های پیشنهاد شده، ترجمه‌های بهتری برای این مجموعه آزمون نسبت به مترجم گوگل ارائه داده‌اند. با توجه به نتایج، طرح دانه‌بندی شده‌ی آگاه به فعل مرکب منجر به بهبود سیستم پایه به مقدار 4 واحد در معیار ارزیابی BLEU بوده است. همچنین عمل آموزش روی پیکره‌های با اندازه‌های کوچک، متوسط و بزرگ انجام شده است که در تمامی این آموزش‌ها بهبود کیفیت ترجمه با استفاده از تقطیع تکواژه‌های تصریفی وابسته اثبات شده است. واژه‌های خارج از واژه‌نامه نیز به نصف کاهش یافته‌اند و معیارهای ارزیابی دیگر مانند ارزیابی ترازبندی‌ها بهبود چشمگیری داشته‌اند.
    Abstract
    One of the most important fields of natural language processing is automatic translation of text. Unfortunately, a few activities have been done in translating Persian to English. Here by combining statistical and rule based approaches, a Persian to English machine translator is implemented. In order to train statistical-based machine translator, a large parallel corpus containing nearly 5.5 million tokens was built. In this project, for both English and Persian languages, two morphological analyzers are implemented for analyzing dependent inflectional morphemes. According to the results, when inflection structures of the words in both languages are the same, a considerable improvement in the results is achieved. This project has prepared various schemes for segmenting morphemes in translation of Persian to English. Also, compound verbs in both languages have determined in compound verb-aware scheme. A set of standard test with 393 sentences from a parallel corpus has collected. The set includes 4 resources. Also, by using the proposed schemes, better translation can be acquired than using Google Translator. By using compound verb-aware scheme, an improvement about 4 points respect to BLEU measure is retrieved. The system is trained on different size corpora. In each case the translation quality measure is improved while OOV rate is reduced to half and other evaluation criteria such as alignment quality are improved significantly.