عنوان پایاننامه
بازیابی اطلاعات بین زبانی انگلیسی - فارسی مبتنی بر لغت نامه
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2814;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 71077
- تاریخ دفاع
- ۰۸ شهریور ۱۳۹۴
- دانشجو
- جاوید داداش کریمی
- استاد راهنما
- هشام فیلی, آزاده شاکری
- چکیده
- طی چند دههی اخیر تلاشهای زیادی در جهت حل مشکل تطبیق صورتهای تصریفی اصطلاحات در سیستم بازیابی اطلاعات شده است. دیدگاه رایج برای حل این مساله ریشهیابی اسناد و پرسوجوهاست. اگرچه این روش باعث افزایش recall میشود، طی این فرایند precision سیستم مذبور معمولا کاهش مییابد. این رخداد در morphologically rich languages مثل زبان فارسی بسیار رایج است. از آنجایی که پرسوجوهای کاربران در بازیابی اطلاعات تک زبانه عموما از قواعد ریختشناسی زبان تبعیت میکنند، پرسوجوها به شکلی که تعریف میشوند، معمولا نمایش دقیقی از نیاز اطلاعاتی کاربران است و عدم انجام پردازشهای متنی مثل ریشهیابی تاثیرات جزئی در کیفیت اسناد بازیابی شده خواهد داشت. این در حالی است که در بازیابی اطلاعات بین زبانی مبتنی بر لغتنامه که صرفا صورتهای پایهای ترجمهها در لغتنامهها موجود است، شناسایی صورت دقیق پرسوجوی کاربران در target language الزامی است. از این رو پژوهشگران این حوزه اغلب دو نگرش متفاوت را پیش میگیرند؛ نگراش اول بر ریشهیابی اسناد و ترجمههای پرسوجو و شاخصگذاری اسناد بعد از انجام ریشهیابی و سپس انجام عمل بازیابی اطلاعات تکیه دارد. دیدگاه دوم نیز مبتنی بر شاخصگذاری اسناد به صورت کامل و دستنخورده و انجام عمل بازیابی اطلاعات است. نگرش اول از جهت افزایش recall و کاهش precision تاثیر مشابه با اثر از دست دادن معنی کلمه دارد که در بازیابی اطلاعات تک زبانه نیز اتفاق میافتد. از طرفی نگرش دوم، حذف بخشی از نیاز اطلاعاتی کاربران را به دنبال دارد که به دلیل عدم حضور همهی صورتهای تصریفی ترجمهها در منبع ترجمه رخ میدهد. در بخش اول این پژوهش، یک روش آماری برای توسعهی پرسوجو با صورتهای تصریفی ترجمهها ارائه میشود. روش پیشنهادی که مبتنی بر MED:fa کلمههاست، الگوهای وندی را از یک پیکرهی target language استخراج میکند و پس از طی یک فرآیند حذف noise پرسوجو را به کمک آنها توسعه میدهد. نتایج آزمایشها بر روی مجموعهی دادهای CLEF کیفیت مطلوب روش پیشنهادی در سیستم بازیابی اطلاعات بین زبانی انگلیسی-فارسی مبتنی بر لغتنامه را نشان میدهد. در بخش دیگر این پژوهش، یک روش مبتنی بر Expectation Maximization ارائه میشود که در آن از مجموعهی Pseudo-Relevant Documents در زبان مبدا و زبان مقصد برای وزندهی ترجمهها استفاده میکنند. اسناد شبه مرتبط اسنادی با رتبهی بالا هستند که در پاسخ به پرسوجوی کاربران و یا ترجمهی پرسوجوی کاربران بازیابی شدهاند. این اسناد میتوانند حاوی اطلاعات ارزشمندی از نیاز کاربران باشند. استفادهی همزمان از مجموعهی بازیابی شده سمت زبان مبدا و مجموعهی بازیابی شده سمت زبان مقصد میتواند در استخراج دانش ترجمه موثر باشد. دانش ترجمهی مستخرج از این اسناد زمینهی پرسوجو را نیز به صورت غیر مستقیم در نظر میگیرد. روش پیشنهادی EM4QT بر اساس این فرض که اصطلاحات در مجموعهی زبان مقصد یا ترجمهای از یک کلمه در مجموعهی source language است و یا یک کلمهی noise، global optimum وزندهیها را با داشتن مجموعهی ورودی ثابت بدست میآورد. نتایج آزمایشها بر روی چهار مجموعهی بین زبانی CLEF (زبانهای فارسی، اسپانیایی، فرانسوی، و آلمانی) نشان میدهد که روش پیشنهادی نسبت به همهی روشهای پایهای رفع ابهام مبتنی بر لغتنامه بسیار موثرتر عمل کرده است. واژههای کلیدی: بازیابی اطلاعات بین زبانی، اسناد شبه مرتبط، صورتهای تصریفی، بیشینهسازی امید ریاضی.
- Abstract
- There have been multiple attempts to resolve the various formation matching problem in information retrieval (IR). A common strategy is to stem the queries and documents simultaneously and reduce all formations of a query term into a single one. Although this kind of process results in a reasonable recall for most languages, such a reduction strategy is non-functional in Persian; because it leads to loss of some crucial senses from the formations and reduction in accuracy as a result. In monolingual IR task, since the user-specified queries usually obey the morphological rules of the language usually, this problem is not highlighted. But, in dictionary-based cross-language information retrieval (CLIR) task, exclusively when the target language is highly inflected, all inflectional formations of translations are not available in the dictionary and we are obliged either to use the stemming strategy or to leave the queries and documents intact. In this article, we study the effect of stemming in dictionary-based English-Persian CLIR and scrutinize the sense losing effect in the task. We also present a query expansion method based on inflectional formations of translations to make all the relevant formations available in the context of the query. The proposed statistical affix generation method first extracts a number of affix rules from a Persian corpus; affix characters, positions of those characters (initial, middle, and final), operations which transform a morpheme into its derivation (\textit{insertion} or \textit{deletion}), and part-of-speech tag of the morpheme are attributes of a rule. Then, after applying multiple noise elimination processes, the query is expanded by inflectional formations of the query. Our experimental results on CLEF 2008 and CLEF 2009 English-Persian CLIR task indicate that the proposed method significantly outperforms all the baselines in terms of mean average precision; thus we recommend to use the expansion strategy instead of stemming for dictionary based English-Persian CLIR. Availability of bilingual dictionaries and useful information which is provided in pseudo relevant documents (top retrieved documents), motivate us to use only a bilingual dictionary and two independent collections in source and target languages for query translation. We exploit pseudo-relevant documents for a given query in both languages and propose an expectation-maximization algorithm for improving the query translation quality (EM4QT) which assumes that each target term is either translated from the source pseudo-relevant documents or came from a noisy collection. Since EM4QT does not directly consider term coherency, we investigate a crucial question: can EM4QT be improved using coherency-based methods? To answer this question, we combine different translation models via simple linear interpolation and a proposed divergence minimization method. The evaluation results over four CLEF collections indicate that EM4QT significantly outperforms the baselines in all collections. Our experiments also suggest that since EM4QT indirectly considers term coherency, combining translation models cannot significantly improve the retrieval performance.