ستفاده از مترجم ماشین آماری در خطا یاب دستوری و معنایی در زبان فارسی

عنوان پایان‌نامه

ستفاده از مترجم ماشین آماری در خطا یاب دستوری و معنایی در زبان فارسی

دانشجو در تاریخ ۱۱ شهریور ۱۳۹۳ ، به راهنمایی ، پایان نامه با عنوان "ستفاده از مترجم ماشین آماری در خطا یاب دستوری و معنایی در زبان فارسی" را دفاع نموده است.

رشته تحصیلی: مهندسی کامپیوتر -نرم افزار

مقطع تحصیلی: کارشناسی ارشد

محل دفاع: کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2529;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 64842

تاریخ دفاع: ۱۱ شهریور ۱۳۹۳

دانشجو: بهزاد میرزابابایی

استاد راهنما: هشام فیلی

چکیده

لینک فایل چکیده

در عصر فناوری، روزانه حجم زیادی از سند های الکترونیکی تولید می شود. سندهای الکترونیکی مزایایی همچون تسهیل سازمان‌دهی و مدیریت داده‌ها را در پی دارد. از آنجا که این سند ها توسط افراد مختلفی تولید می شوند، دارای خطاهای نوشتاری هستند. وجود این‌گونه خطاها باعث کاهش کیفیت سند ها می شود از این ‌رو، وجود سیستم‌های خودکار خطایابی می‌توانند در بالا بردن کیفیت تولید سندهای الکترونیکی بسیار سودمند باشند. خطاهای موجود در متن را می توان به سه دسته خطاهای املایی، نحوی و معنایی تقسیم کرد. هدف از انجام این پایان نامه، طراحی یک مدل خطایابی نحوی و معنایی به کمک مترجم ماشینی آماری برای زبان فارسی می‌باشد. در این روش از مترجم ماشینی آماری به منظور ترجمه ی جمله ی خطادار به صحیح استفاده شده است. در ادامه نیز یک رتبه بند متمایزگر برای رتبه بندی نتایج مترجم ماشینی آماری ارائه شده است. در خطایابی نحوی از ویژگی های برچسب اجزای کلام و نوع وابستگی و در خطایابی معنایی از هم رخدادی لغات با یکدیگر استفاده شده است. نتایج ارزیابی رتبه بندی مجدد برای خطایابی نحوی و معنایی برای زبان فارسی مورد بررسی قرار گرفته است. نتایج آزمایش‌ها نشان داده است که رتبه بندی مجدد خروجی روش¬های مبنا باعث بهبود نتایج می شود. با رتبه بندی نتایج مترجم ماشینی آماری در خطایابی معنایی، بهبود 5/9% و 4/8% در فراخوانی تشخیص و تصحیح به دست آمده است. همچنین از آنجا که روش آماری پیشنهادی در این پژوهش مستقل از زبان است، نتایج آن در زبان انگلیسی نیز مورد ارزیابی قرار گرفته و با یک خطایاب مبتنی بر مترجم ماشینی آماری مقایسه شده است. واژه‌های کلیدی: خطایاب، خطای معنایی، خطای نحوی، مترجم ماشینی آماری، رتبه بندی آگاه به متن، رتبه بندی آگاه به نحو

Abstract

Nowadays, a large amount of documents is generated daily. These documents may contain some spelling errors which should be detected and corrected by a proofreading tool. Therefore, the existence of automatic writing assistance tools such as spell checkers/correctors could help to improve the quality of electronic documents. Spelling errors could be categorized into three categories, isolated, syntactic and real-worr errors. In this research, we proposed a syntactic and real-word spell checker. In grammatical errors, we focus on preposition errors. A syntax-based statistical machine translation (SMT) approach was used for detecting and correcting preposition errors. We also improved the results by a discriminative reranker. We augment the proposed reranker into two existing SMT based approaches. Part-of-speech tags and typed dependencies between the words of the sentence are considered as features in this approach. We also proposed a discourse-aware discriminative model to improve the results of context-sensitive spell checkers by reranking their resulted n-best lists. We augment the proposed reranker into two existing context-sensitive spellcheckers; one of them is based on SMT and the other is based on language model. We chose the keywords of the whole document as contextual features of the our model and improved the results of both systems by employing the features in a log-linear reranking system. We evaluated the system on two different languages: English and Persian. The results of the experiments in Persian show improvements of 9.5% and 8.4% in detection and correction recall respectively, in comparison to the baseline method. Keywords: Spellchecker, Real-word error, Grammatical error, Statistical machine translation, Discourse-aware reranking, Syntax-aware reranking