عنوان پایان‌نامه

ارائه یک سیستم مترجم ماشینی انگلیسی به فارسی به روش ترکیبی



    دانشجو در تاریخ ۱۳ تیر ۱۳۹۱ ، به راهنمایی ، پایان نامه با عنوان "ارائه یک سیستم مترجم ماشینی انگلیسی به فارسی به روش ترکیبی" را دفاع نموده است.


    محل دفاع
    کتابخانه دانشکده برق و کامپیوتر شماره ثبت: E2075;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 54043
    تاریخ دفاع
    ۱۳ تیر ۱۳۹۱
    دانشجو
    امین منصوری
    استاد راهنما
    هشام فیلی

    توسعه محتوای فارسی در شبکه‌های جهانی و محیط رایانه از جنبه حفظ فرهنگ و اعتقادات ملی از اهمیت خاصی برخوردار است. وجود ابزارهای پایه مناسب می‌تواند شتاب این توسعه را افزایش دهد. مترجم ماشینی انگلیسی به فارسی، از جمله مهمترین این ابزارها می‌باشد که علاوه بر اهمیت آن به عنوان بخشی از سیستم‌های فارسی مانند پردازشگرهای متن، جویشگرها و کتابخانه‌های دیجیتال، خود به تنهایی می‌تواند مورد استفاده قرار بگیرد. با توجه به اهمیت مترجم ماشینی در این پروژه سعی شده است که روش‌های مختلف ترکیب رویکردهای مبتنی‌برقاعده و آماری مورد بررسی قرار گیرد. به منظور آموزش مترجم ماشینی آماری یک پیکره با بیش از 5/4 میلیون کلمه در هر سمت ساخته شد. در ساخت این پیکره موازی از یک سیستم رفع نویز با استفاده از طبقه‌بندی Maximum Entropy استفاده شده که با کمک آن جفت جملات صحیح و اشتباه تشخیص داده شده‌اند. تشخیص مبتنی‌برقاعده افعال مرکب در زبان‌های انگلیسی و فارسی به نام سیستم آگاه به فعل، تشخیص مبتنی‌برقاعده عبارات ساده و ایجاد جملات انگلیسی با ترتیب کلمات فارسی قبل از آموزش با رویکرد آماری، نمونه‌هایی از سیستم‌های ارائه شده هستند. به منظور ایجاد جملات انگلیسی با ترتیب فارسی روشی برای استخراج قواعد نحوی ارائه شده است که قواعد استخراج شده می‌تواند علاوه بر رویکرد ترکیبی، در مترجم ماشینی مبتنی‌برقاعده نیز کاربرد داشته باشد. سیستم‌های مترجم ماشینی با سه مجموعه تست دادگان ارزیابی شده‌اند، که یکی از آنها به صورت تصادفی از پیکره موازی استخراج گردیده است، دیگری از یک کتاب آموزش گرامر انگلیسی انتخاب شده است و یک مجموعه دیگر که شامل اطلاعات اخبار است. به منظور ارزیابی مترجم‌های ماشینی معیارهای TER و BLEU انتخاب شده‌اند. نتایج بدست آمده بیانگر بهبود سیستم پایه آماری توسط سیستم‌های پیشنهادی بوده و همچنین بیشتر سیستم‌های پیشنهادی ترجمه‌هایی بهتر از مترجم گوگل انجام داده‌اند. با توجه به این نتایج، سیستم آگاه به فعل روی دادگان استخراج شده از پیکره موازی منجر به بهبود سیستم پایه به مقدار 78/2 واحد در معیار ارزیابی BLEU بوده است. تشخیص مبتنی‌برقاعده عبارات ساده نیز منجر به بهبود 77/1 روی دادگان اخبار شده است. همچنین تغییر ترتیب کلمات انگلیسی روی سه مجموعه دادگان پیکره موازی، آموزش گرامر انگلیسی و اخبار به ترتیب منجر بهبود سیستم پایه به مقدار 78/2 واحد در معیار ارزیابی BLEU بوده است. تشخیص مبتنی‌برقاعده عبارات ساده نیز منجر به بهبود 77/1 روی دادگان اخبار شده است. همچنین تغییر ترتیب کلمات انگلیسی روی سه مجموعه دادگان پیکره موازی، آموزش گرامر انگلیسی و اخبار به ترتیب منجر به بهبود 78/1، 24/0 و 34/1 در معیار ارزیابی BLEU شده است.
    Abstract
    Development of Persian content is very important in global networks and computer environment for preservation of national culture and beliefs. The development could be increasable by using basic tools. English to Persian machine translation is one of these tools, and it is important as part of the Persian systems, such as text processing, search in digital libraries. Also, English to Persian machine translation can be used alone for translating text. Comparison of several kinds of proposed hybrid machine translation is reported in this project. A large parallel corpus containing about 4.5 million tokens on each side has been developed for training the proposed SMT system. In development of the parallel corpus, a noisy filtering system based on Maximum Entropy classifier bas been innovated to distinguish between correct and incorrect sentence pairs. By using the generated parallel corpus, a variety of SMT systems on English to Persian languages has been developed. Several variations on SMT, such as hybrid MT or statistical post editing an existing of rule based MT has been proposed in this report. Also an automatic method is developed to learn rules that reorder words order of source sentences to more closely match to target language word order. Synchronous tree adjoining grammar is used for reordering source sentence and rules are extracted from word aligned parallel corpus. The extracted synchronous tree adjoining grammar can be used in rule based machine translations. The whole systems were tested on three different types of test set, one extracted randomly from parallel corpus, and the other containing formal English sentences extracted from a standard English learning book, and finally the sentence extracted from news sites. Our results that show that a hybrid system of trained reordering rules and pure SMT retrieves a better result than Phrase-based SMT on BLEU and TER measure. The results shows that proposed Verb-aware system improve base line system 2.78 on BLEU metric when extracted parallel corpus data set was used. Translation of news data set is improved 1.77 on BLEU metric by rule based simple phrase detection system. Also, rule-based word reordering with synchronous tree adjoining grammar is caused 1.78, 0.24 and 1.34 on BLEU on PCTS, EGIU and News data sets.