عنوان پایاننامه
ارایه یک مدل جابه¬جایی براساس ساختارهای وابستگی برای مترجم¬های آماری مبتنی بر عبارت
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- دکتری تخصصی PhD
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2866;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 72351;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2866;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 72351
- تاریخ دفاع
- ۱۶ دی ۱۳۹۴
- چکیده
- امروزه مترجمهای ماشینی یکی از مهمترین زمینههای تحقیقاتی بهشمار میروند. مترجم ماشینی آماری با وجود تواناییهای بیشمار، همچنان از مشکل جابهجایی کلمهها در رنج است. در مترجم آماری عبارتی، مشکل جابهجایی کوتاه فاصله با استفاده از عبارت بهعنوان کوچکترین واحد ترجمه تا حدودی بر طرف شده است. اما جابهجایی بلند فاصله یا سراسری همچنان یک چالش است. در پژوهش پیشرو، برای غلبه بر مشکل جابهجایی یک مدل لغوی- نحوی معرفی شده که توسط اطلاعات لغوی، آماری و نحوی استخراج شده از درخت وابستگی عبارتی تصمیمات جابهجایی را اتخاذ میکند. درخت وابستگی عبارتی، یک سازه نحوی نوین معرفی شده در این پژوهش است که وابستگی نحوی بین عبارتهای موجود در جمله را مشخص مینماید. مدل پیشنهادی به دو صورت توکار و سیستم بازرتبهبند روی مترجمهای آلمانی به انگلیسی و فارسی به انگلیسی مورد ارزیابی قرار گرفته است. نتایج نشان از برتری مدل پیشنهادی نسبت به مدلهای مدل اعوجاج فاصلهای، مدل لغوی و مدل سلسله مراتبی دارد. انتخاب سرآیند یک عبارت مهمترین چالش مدل پیشنهادی است. از این رو، با توسعه مدل به استفاده از اطلاعات زبان مبداء و همچنین انتقال آن به فضای پیوسته، دو مدل جابهجایی جدید معرفی شده است. مدل نخست، مدلی پیشجابهجایی است که از اطلاعات درخت وابستگی زبان مبداء استفاده می کند و مدل دوم از انتقال مدل پیشین از فضایی گسسته به فضایی پیوسته بر پایه تعبیه عبارت به برداری از اعداد حقیقی، ایجاد میگردد. با کمک شبکه عصبی خودرمزگذار بازگشتی علاوه بر تعبیه عبارتها، یک طبقهبند احتمالاتی برای پیشبینی سوی ترجمه عبارتها ایجاد گردید. با ارزیابی هر دو مدل روی مترجم انگلیسی به فارسی و انگلیسی به آلمانی و مقایسه آنها با مدلهای اعوجاج فاصلهای، لغوی و سلسله مراتبی بهبودی چشمگیری گزارش شد. واژههای کلیدی: مترجم ماشینی عبارتی، مدل جابهجایی، وابستگیهای عبارتی، درخت وابستگی عبارتی.
- Abstract
- Nowadays, the machine translators are considered as one of the most important areas of research. Statistical Machine Translator is one of the most popular machine translators. They suffer from a variety of problems, such as word reordering problems. In the Statistical Machine Translator the local reordering problem is somewhat handled by using phrases as the smallest unit of translation. However, the global reordering problem is still a challenge. In this study, in order to overcome the reordering problem, a lexical-syntactic model is introduced by lexical, statistic and syntactic information derived from phrasal dependency trees. The phrasal dependency tree, which is a new syntactic structure introduced in this research, determines the dependency relations between phrases in a sentence. The proposed reordering model in the integrated and post-reordering forms is evaluated on German ? English and Persian ? English translators by BLEU, TER, and LRscore metrics. The results show the superiority of the proposed model over the distortion, lexical and hierarchical models. Determining the head of a phrase is the most important challenge of the proposed model. Hence, by using the source language information and transferring it to a continuous space two new reordering models are introduced. The first model is a pre-reordering model that tries to reorder the source phrases via on source phrasal dependency tree. The second model is based on embedding the phrase into real vectors. The results show improvements on English ? Persian and English ? German translators. Keywords: Phrase based machine translator, Reordering model, Phrase dependencies and Phrasal dependency tree