عنوان پایان‌نامه

تولید یک پیکره موازی فارسی - انگلیسی با استفاده از دادگان استخراج شده ازوب



    دانشجو در تاریخ ۲۷ دی ۱۳۹۱ ، به راهنمایی ، پایان نامه با عنوان "تولید یک پیکره موازی فارسی - انگلیسی با استفاده از دادگان استخراج شده ازوب" را دفاع نموده است.


    محل دفاع
    کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2194;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 56719
    تاریخ دفاع
    ۲۷ دی ۱۳۹۱

    پیکره‌های موازی یکی از منابع با ارزش در بسیاری از کاربردهای پردازش زبان طبیعی و همچنین بازیابی اطلاعات بین‌زبانی هستند. در بسیاری موارد لازمه استفاده از این پیکره‌ها، هم‌ترازی آن‌ها در سطح جمله است. اما جمع‌آوری یا تولید این پیکره‌ها و همچنین هم‌ترازی آن‌ها بسیار پرهزینه است. علاوه بر آن دامنه مورد پوشش هر پیکره تأثیر به سزایی در کاربردهای آن پیکره خواهد داشت. لذا با توجه به گستردگی و قابلیت دسترسی رایگان صفحات وب دوزبانه، جمع‌آوری پیکره‌های موازی از وب و هم‌ترازی آن‌ها به صورت خودکار بسیار مطلوب است. ما در این پژوهش یک پیکره موازی فارسی– انگلیسی با استفاده از دادگان استخراج شده از وب در سطح جملات تولید می‌نماییم. برای تولید جملات موازی، ابتدا به شناسایی و جمع‌آوری متون حاوی جملات موازی در وب می‌پردازیم. برای این منظور به بررسی دو منبع با ارزش وب شامل مجموعه مقالات دانشنامه ویکی‌پدیا و مجموعه صفحات در دامنه .ir می‌پردازیم. این دو منبع تاکنون برای تولید پیکره موازی فارسی- انگلیسی مورد توجه قرار نگرفته‌اند. برای استخراج پیکره موازی ابتدا در سطح سند و سپس در سطح جمله دادگان موازی کاندیدا را تشخیص می‌دهیم. پس از آن، به کمک یک طبقه‌بند دودویی جملات موازی را از بین دادگان کاندیدا، استخراج می‌کنیم. برای بهبود این روش، در این پژوهش یک روش نوین ارائه شده‌است که به کمک اطلاعات سراسری نتایج طبقه‌بند را پالایش می‌نماید. ویژگی‌های تعریف شده برای طبقه‌بند، محلی هستند، به این معنا که در این ویژگی‌ها تنها به محتوای دو جمله کاندیدا توجه می‌شود، مستقل از این که در کجای متن قرار دارند و چه ارتباطی با جملات موازی دیگر دارند. برای استفاده از اطلاعات سراسری و رابطه جملات موازی با یکدیگر، از الگوریتم برنامه‌ریزی پویای طولانی‌ترین زیررشته مشترک(LCS) بهره جسته‌ایم. در این پژوهش نشان می‌دهیم که این روش، می‌تواند نتایج طبقه‌بند را پالایش کند و نتایج آن را بهبود دهد. نتیجه نهایی پیکره‌ای به حجم حدود سه میلیون کلمه در هر طرف است. برای ارزیابی پیکره موازی تولید شده علاوه بر ارزیابی دستی، این پیکره را در کاربردهای متفاوت پردازش زبان طبیعی و بازیابی اطلاعات بین‌زبانی نیز آزمودیم. در ارزیابی دستی دقت پیکره حاصل ?? درصد است. همچنین این پیکره بهبود بهتری نسبت به پیکره‌های مشابه در کاربرد‌های بازیابی هوشمند اطلاعات بین‌زبانی و ماشین ترجمه بدست آورده است.
    Abstract
    A Parallel corpus is a set of bilingual sentences that are translation of each other. This resource is very valuable in different linguistic applications. Manually building a parallel corpus is expensive in terms of time and cost. Moreover, domains of a parallel corpus strongly influence the quality of translations extracted from the corpus. By con-sidering these problems, it is desirable to automatically build a parallel corpus from the Web, in which the domain of the parallel corpus is in control. In this thesis, we propose an approach to extract a parallel Persian-English corpus from the Web. Our approach includes two main steps; Extracting Webpages with paral-lel content and extracting parallel sentences from the pages. Analyzing different bilin-gual webpages showed that the dotIR web corpus and Wikipedia are two important re-sources with substantial parallel Persian-English sentences. To extract parallel sentences from the bilingual webpages, we propose to combine a classifier with the Longest Common Subsequence (LCS) algorithm. The classifier uses local information, infor-mation based on the content of two sentences independent of other alignments, while LCS handles global information, information in the sequence of sentences’ alignments. After applying our approach, we acquired a parallel corpus with 3 million words. Manual evaluation of parallel sentences shows that the corpus has a precision over 95%. The corpus is also used in two different linguistic applications, cross language information retrieval and statistical machine translation, which shows improvements over using other existing parallel Persian-English corpora.