عنوان پایاننامه
تولید یک پیکره موازی فارسی - انگلیسی با استفاده از دادگان استخراج شده ازوب
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2194;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 56719
- تاریخ دفاع
- ۲۷ دی ۱۳۹۱
- دانشجو
- خدیجه براتعلی پور
- استاد راهنما
- هشام فیلی, آزاده شاکری
- چکیده
- پیکرههای موازی یکی از منابع با ارزش در بسیاری از کاربردهای پردازش زبان طبیعی و همچنین بازیابی اطلاعات بینزبانی هستند. در بسیاری موارد لازمه استفاده از این پیکرهها، همترازی آنها در سطح جمله است. اما جمعآوری یا تولید این پیکرهها و همچنین همترازی آنها بسیار پرهزینه است. علاوه بر آن دامنه مورد پوشش هر پیکره تأثیر به سزایی در کاربردهای آن پیکره خواهد داشت. لذا با توجه به گستردگی و قابلیت دسترسی رایگان صفحات وب دوزبانه، جمعآوری پیکرههای موازی از وب و همترازی آنها به صورت خودکار بسیار مطلوب است. ما در این پژوهش یک پیکره موازی فارسی– انگلیسی با استفاده از دادگان استخراج شده از وب در سطح جملات تولید مینماییم. برای تولید جملات موازی، ابتدا به شناسایی و جمعآوری متون حاوی جملات موازی در وب میپردازیم. برای این منظور به بررسی دو منبع با ارزش وب شامل مجموعه مقالات دانشنامه ویکیپدیا و مجموعه صفحات در دامنه .ir میپردازیم. این دو منبع تاکنون برای تولید پیکره موازی فارسی- انگلیسی مورد توجه قرار نگرفتهاند. برای استخراج پیکره موازی ابتدا در سطح سند و سپس در سطح جمله دادگان موازی کاندیدا را تشخیص میدهیم. پس از آن، به کمک یک طبقهبند دودویی جملات موازی را از بین دادگان کاندیدا، استخراج میکنیم. برای بهبود این روش، در این پژوهش یک روش نوین ارائه شدهاست که به کمک اطلاعات سراسری نتایج طبقهبند را پالایش مینماید. ویژگیهای تعریف شده برای طبقهبند، محلی هستند، به این معنا که در این ویژگیها تنها به محتوای دو جمله کاندیدا توجه میشود، مستقل از این که در کجای متن قرار دارند و چه ارتباطی با جملات موازی دیگر دارند. برای استفاده از اطلاعات سراسری و رابطه جملات موازی با یکدیگر، از الگوریتم برنامهریزی پویای طولانیترین زیررشته مشترک(LCS) بهره جستهایم. در این پژوهش نشان میدهیم که این روش، میتواند نتایج طبقهبند را پالایش کند و نتایج آن را بهبود دهد. نتیجه نهایی پیکرهای به حجم حدود سه میلیون کلمه در هر طرف است. برای ارزیابی پیکره موازی تولید شده علاوه بر ارزیابی دستی، این پیکره را در کاربردهای متفاوت پردازش زبان طبیعی و بازیابی اطلاعات بینزبانی نیز آزمودیم. در ارزیابی دستی دقت پیکره حاصل ?? درصد است. همچنین این پیکره بهبود بهتری نسبت به پیکرههای مشابه در کاربردهای بازیابی هوشمند اطلاعات بینزبانی و ماشین ترجمه بدست آورده است.
- Abstract
- A Parallel corpus is a set of bilingual sentences that are translation of each other. This resource is very valuable in different linguistic applications. Manually building a parallel corpus is expensive in terms of time and cost. Moreover, domains of a parallel corpus strongly influence the quality of translations extracted from the corpus. By con-sidering these problems, it is desirable to automatically build a parallel corpus from the Web, in which the domain of the parallel corpus is in control. In this thesis, we propose an approach to extract a parallel Persian-English corpus from the Web. Our approach includes two main steps; Extracting Webpages with paral-lel content and extracting parallel sentences from the pages. Analyzing different bilin-gual webpages showed that the dotIR web corpus and Wikipedia are two important re-sources with substantial parallel Persian-English sentences. To extract parallel sentences from the bilingual webpages, we propose to combine a classifier with the Longest Common Subsequence (LCS) algorithm. The classifier uses local information, infor-mation based on the content of two sentences independent of other alignments, while LCS handles global information, information in the sequence of sentences’ alignments. After applying our approach, we acquired a parallel corpus with 3 million words. Manual evaluation of parallel sentences shows that the corpus has a precision over 95%. The corpus is also used in two different linguistic applications, cross language information retrieval and statistical machine translation, which shows improvements over using other existing parallel Persian-English corpora.