عنوان پایان‌نامه

طراحی و پیاده سازی خطا یاب املایی و دستوری و معنایی در زبان فارسی



    دانشجو در تاریخ ۲۶ اردیبهشت ۱۳۹۰ ، به راهنمایی ، پایان نامه با عنوان "طراحی و پیاده سازی خطا یاب املایی و دستوری و معنایی در زبان فارسی" را دفاع نموده است.


    محل دفاع
    کتابخانه دانشکده برق و کامپیوتر شماره ثبت: E1924;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 49289;کتابخانه دانشکده برق و کامپیوتر شماره ثبت: E1924
    تاریخ دفاع
    ۲۶ اردیبهشت ۱۳۹۰
    دانشجو
    نوا احسان
    استاد راهنما
    هشام فیلی

    با رشد سریع و روز افزون صنعت و تکنولوژی اطلاعات، روزانه حجم زیادی از نوشتارهای الکترونیکی چون روزنامه‌ها، نامه‌ها، وب‌نگاشت‌ها، سایت‌های اینترنتی، کتاب‌ها و پایان‌نامه‌ها تولید می‌شوند. تهیه مستندات الکترونیکی مزایای قابل توجهی چون تسهیل سازمان‌دهی و مدیریت داده‌ها را در پی دارد. از این ‌رو، وجود سیستم‌های خودکاری چون خطایاب املایی و خطایاب نحوی می‌توانند در کاهش هزینه و بالا بردن کیفیت و سرعت تولید نوشتارهای الکترونیکی بسیار سودمند باشند. خطاهای موجود در متن به سه دسته خطاهای املایی، نحوی و معنایی تقسیم می‌شوند. هدف از انجام این طرح، طراحی و پیاده‌سازی خطایاب املایی و نحوی و معنایی خودکار برای زبان فارسی می‌باشد. در این پژوهش تلاش شده است که با بررسی چالش‌های موجود در زبان فارسی به ارائه راه‌حل‌هایی برای ایجاد خطایاب برای متون در زبان فارسی پرداخته شود. خطایاب املایی از اطلاعات فاصله ویرایش کلمات و میزان رایج بودن کلمات در زبان برای اصلاح کلمات استفاده می‌کند. در زمینه خطایابی نحوی دو روش مبتنی بر قاعده و مبتنی بر آمار مورد آزمایش قرار گرفته است و در این پژوهش به ارائه یک روش نوین مستقل از زبان بر اساس استفاده از مدل ترجمه‌های ماشینی آماری برای خطایابی نحوی و معنایی پرداخته شده است. نتایج آزمایشات نشان داده است که روش آماری پیشنهاد شده و مدل مبتنی بر قاعده تکمیل کننده یکدیگر در تشخیص خطاهای نحوی می‌باشند و ترکیب این دو روش در ایجاد خطایاب نحوی می‌تواند مفید واقع شود. نتایج ارزیابی این روش برای خطایابی نحوی و معنایی به تفصیل برای زبان فارسی مورد بررسی قرار گرفته است. همچنین از آنجا که روش آماری پیشنهادی در این پژوهش مستقل از زبان است نتایج آن در زبان انگلیسی نیز مورد ارزیابی قرار گرفته است و با یک خطایاب مبتنی بر قاعده انگلیسی مقایسه شده است. ترکیب مدل آماری و مبتنی بر قاعده باعث بهبود 24 درصد در میزان فراخوانی با دقت قابل مقایسه با قبل در زبان انگلیسی شده است. واژه‌های کلیدی: پردازش متن، خطایاب املایی، خطایاب نحوی، خطایاب معنایی، مترجم ماشینی آماری
    Abstract
    Abstract- With advancements in industry and information technology, large volumes of electronic documents such as newspapers, emails, weblogs, books and theses are produced daily. Producing electronic documents has considerable benefits such as easy organizing and data management. Therefore, existence of automatic writing assistance tools such as spell and grammar checker/corrector can help to improve their quality. The errors in a text can be classified into spelling errors, grammatical errors and real-word errors. The aim of this research is development of an automatic spell, grammatical and real-word error checker for Persian (Farsi) language. By considering Persian writing challenges, we attempted to develop effective writing assistance tools. For detecting spelling errors edit distance information and word frequencies are used. The grammar checker part uses both rule-based and statistical approaches. In this research, we will explain a language-independent approach based on statistical machine translation framework to develop a proofreading tool which detects grammatical errors as well as context-sensitive spelling mistakes (real-word errors). From the best of our knowledge this is the first work on Persian grammar checking. Results indicate that rule-based and statistical approaches are complementary in detecting and correcting syntactic errors. The experimental results are demonstrated in detail in this research. Since the proposed approach is language independent, the experiments are also done for English language. Experimental results of a hybrid grammar checker system on English texts show an improvement of about 24% respect to recall metric with comparable precision.