عنوان پایاننامه
طراحی و پیاده سازی خطا یاب املایی و دستوری و معنایی در زبان فارسی
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه دانشکده برق و کامپیوتر شماره ثبت: E1924;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 49289;کتابخانه دانشکده برق و کامپیوتر شماره ثبت: E1924
- تاریخ دفاع
- ۲۶ اردیبهشت ۱۳۹۰
- چکیده
- با رشد سریع و روز افزون صنعت و تکنولوژی اطلاعات، روزانه حجم زیادی از نوشتارهای الکترونیکی چون روزنامهها، نامهها، وبنگاشتها، سایتهای اینترنتی، کتابها و پایاننامهها تولید میشوند. تهیه مستندات الکترونیکی مزایای قابل توجهی چون تسهیل سازماندهی و مدیریت دادهها را در پی دارد. از این رو، وجود سیستمهای خودکاری چون خطایاب املایی و خطایاب نحوی میتوانند در کاهش هزینه و بالا بردن کیفیت و سرعت تولید نوشتارهای الکترونیکی بسیار سودمند باشند. خطاهای موجود در متن به سه دسته خطاهای املایی، نحوی و معنایی تقسیم میشوند. هدف از انجام این طرح، طراحی و پیادهسازی خطایاب املایی و نحوی و معنایی خودکار برای زبان فارسی میباشد. در این پژوهش تلاش شده است که با بررسی چالشهای موجود در زبان فارسی به ارائه راهحلهایی برای ایجاد خطایاب برای متون در زبان فارسی پرداخته شود. خطایاب املایی از اطلاعات فاصله ویرایش کلمات و میزان رایج بودن کلمات در زبان برای اصلاح کلمات استفاده میکند. در زمینه خطایابی نحوی دو روش مبتنی بر قاعده و مبتنی بر آمار مورد آزمایش قرار گرفته است و در این پژوهش به ارائه یک روش نوین مستقل از زبان بر اساس استفاده از مدل ترجمههای ماشینی آماری برای خطایابی نحوی و معنایی پرداخته شده است. نتایج آزمایشات نشان داده است که روش آماری پیشنهاد شده و مدل مبتنی بر قاعده تکمیل کننده یکدیگر در تشخیص خطاهای نحوی میباشند و ترکیب این دو روش در ایجاد خطایاب نحوی میتواند مفید واقع شود. نتایج ارزیابی این روش برای خطایابی نحوی و معنایی به تفصیل برای زبان فارسی مورد بررسی قرار گرفته است. همچنین از آنجا که روش آماری پیشنهادی در این پژوهش مستقل از زبان است نتایج آن در زبان انگلیسی نیز مورد ارزیابی قرار گرفته است و با یک خطایاب مبتنی بر قاعده انگلیسی مقایسه شده است. ترکیب مدل آماری و مبتنی بر قاعده باعث بهبود 24 درصد در میزان فراخوانی با دقت قابل مقایسه با قبل در زبان انگلیسی شده است. واژههای کلیدی: پردازش متن، خطایاب املایی، خطایاب نحوی، خطایاب معنایی، مترجم ماشینی آماری
- Abstract
- Abstract- With advancements in industry and information technology, large volumes of electronic documents such as newspapers, emails, weblogs, books and theses are produced daily. Producing electronic documents has considerable benefits such as easy organizing and data management. Therefore, existence of automatic writing assistance tools such as spell and grammar checker/corrector can help to improve their quality. The errors in a text can be classified into spelling errors, grammatical errors and real-word errors. The aim of this research is development of an automatic spell, grammatical and real-word error checker for Persian (Farsi) language. By considering Persian writing challenges, we attempted to develop effective writing assistance tools. For detecting spelling errors edit distance information and word frequencies are used. The grammar checker part uses both rule-based and statistical approaches. In this research, we will explain a language-independent approach based on statistical machine translation framework to develop a proofreading tool which detects grammatical errors as well as context-sensitive spelling mistakes (real-word errors). From the best of our knowledge this is the first work on Persian grammar checking. Results indicate that rule-based and statistical approaches are complementary in detecting and correcting syntactic errors. The experimental results are demonstrated in detail in this research. Since the proposed approach is language independent, the experiments are also done for English language. Experimental results of a hybrid grammar checker system on English texts show an improvement of about 24% respect to recall metric with comparable precision.