عنوان پایاننامه
ارائه یک سیستم مترجم ماشینی انگلیسی به فارسی به روش ترکیبی
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه دانشکده برق و کامپیوتر شماره ثبت: E2075;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 54043
- تاریخ دفاع
- ۱۳ تیر ۱۳۹۱
- دانشجو
- امین منصوری
- استاد راهنما
- هشام فیلی
- چکیده
- توسعه محتوای فارسی در شبکههای جهانی و محیط رایانه از جنبه حفظ فرهنگ و اعتقادات ملی از اهمیت خاصی برخوردار است. وجود ابزارهای پایه مناسب میتواند شتاب این توسعه را افزایش دهد. مترجم ماشینی انگلیسی به فارسی، از جمله مهمترین این ابزارها میباشد که علاوه بر اهمیت آن به عنوان بخشی از سیستمهای فارسی مانند پردازشگرهای متن، جویشگرها و کتابخانههای دیجیتال، خود به تنهایی میتواند مورد استفاده قرار بگیرد. با توجه به اهمیت مترجم ماشینی در این پروژه سعی شده است که روشهای مختلف ترکیب رویکردهای مبتنیبرقاعده و آماری مورد بررسی قرار گیرد. به منظور آموزش مترجم ماشینی آماری یک پیکره با بیش از 5/4 میلیون کلمه در هر سمت ساخته شد. در ساخت این پیکره موازی از یک سیستم رفع نویز با استفاده از طبقهبندی Maximum Entropy استفاده شده که با کمک آن جفت جملات صحیح و اشتباه تشخیص داده شدهاند. تشخیص مبتنیبرقاعده افعال مرکب در زبانهای انگلیسی و فارسی به نام سیستم آگاه به فعل، تشخیص مبتنیبرقاعده عبارات ساده و ایجاد جملات انگلیسی با ترتیب کلمات فارسی قبل از آموزش با رویکرد آماری، نمونههایی از سیستمهای ارائه شده هستند. به منظور ایجاد جملات انگلیسی با ترتیب فارسی روشی برای استخراج قواعد نحوی ارائه شده است که قواعد استخراج شده میتواند علاوه بر رویکرد ترکیبی، در مترجم ماشینی مبتنیبرقاعده نیز کاربرد داشته باشد. سیستمهای مترجم ماشینی با سه مجموعه تست دادگان ارزیابی شدهاند، که یکی از آنها به صورت تصادفی از پیکره موازی استخراج گردیده است، دیگری از یک کتاب آموزش گرامر انگلیسی انتخاب شده است و یک مجموعه دیگر که شامل اطلاعات اخبار است. به منظور ارزیابی مترجمهای ماشینی معیارهای TER و BLEU انتخاب شدهاند. نتایج بدست آمده بیانگر بهبود سیستم پایه آماری توسط سیستمهای پیشنهادی بوده و همچنین بیشتر سیستمهای پیشنهادی ترجمههایی بهتر از مترجم گوگل انجام دادهاند. با توجه به این نتایج، سیستم آگاه به فعل روی دادگان استخراج شده از پیکره موازی منجر به بهبود سیستم پایه به مقدار 78/2 واحد در معیار ارزیابی BLEU بوده است. تشخیص مبتنیبرقاعده عبارات ساده نیز منجر به بهبود 77/1 روی دادگان اخبار شده است. همچنین تغییر ترتیب کلمات انگلیسی روی سه مجموعه دادگان پیکره موازی، آموزش گرامر انگلیسی و اخبار به ترتیب منجر بهبود سیستم پایه به مقدار 78/2 واحد در معیار ارزیابی BLEU بوده است. تشخیص مبتنیبرقاعده عبارات ساده نیز منجر به بهبود 77/1 روی دادگان اخبار شده است. همچنین تغییر ترتیب کلمات انگلیسی روی سه مجموعه دادگان پیکره موازی، آموزش گرامر انگلیسی و اخبار به ترتیب منجر به بهبود 78/1، 24/0 و 34/1 در معیار ارزیابی BLEU شده است.
- Abstract
- Development of Persian content is very important in global networks and computer environment for preservation of national culture and beliefs. The development could be increasable by using basic tools. English to Persian machine translation is one of these tools, and it is important as part of the Persian systems, such as text processing, search in digital libraries. Also, English to Persian machine translation can be used alone for translating text. Comparison of several kinds of proposed hybrid machine translation is reported in this project. A large parallel corpus containing about 4.5 million tokens on each side has been developed for training the proposed SMT system. In development of the parallel corpus, a noisy filtering system based on Maximum Entropy classifier bas been innovated to distinguish between correct and incorrect sentence pairs. By using the generated parallel corpus, a variety of SMT systems on English to Persian languages has been developed. Several variations on SMT, such as hybrid MT or statistical post editing an existing of rule based MT has been proposed in this report. Also an automatic method is developed to learn rules that reorder words order of source sentences to more closely match to target language word order. Synchronous tree adjoining grammar is used for reordering source sentence and rules are extracted from word aligned parallel corpus. The extracted synchronous tree adjoining grammar can be used in rule based machine translations. The whole systems were tested on three different types of test set, one extracted randomly from parallel corpus, and the other containing formal English sentences extracted from a standard English learning book, and finally the sentence extracted from news sites. Our results that show that a hybrid system of trained reordering rules and pure SMT retrieves a better result than Phrase-based SMT on BLEU and TER measure. The results shows that proposed Verb-aware system improve base line system 2.78 on BLEU metric when extracted parallel corpus data set was used. Translation of news data set is improved 1.77 on BLEU metric by rule based simple phrase detection system. Also, rule-based word reordering with synchronous tree adjoining grammar is caused 1.78, 0.24 and 1.34 on BLEU on PCTS, EGIU and News data sets.