عنوان پایان‌نامه

بازیابی اطلاعات بین زبانی انگلیسی - فارسی مبتنی بر لغت نامه



    دانشجو در تاریخ ۰۸ شهریور ۱۳۹۴ ، به راهنمایی ، پایان نامه با عنوان "بازیابی اطلاعات بین زبانی انگلیسی - فارسی مبتنی بر لغت نامه" را دفاع نموده است.


    محل دفاع
    کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2814;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 71077
    تاریخ دفاع
    ۰۸ شهریور ۱۳۹۴

    طی چند دهه‌ی اخیر تلاش‌های زیادی در جهت حل مشکل تطبیق صورت‌های تصریفی اصطلاحات در سیستم بازیابی اطلاعات شده است. دیدگاه رایج برای حل این مساله ریشه‌یابی اسناد و پرس‌وجوهاست. اگرچه این روش باعث افزایش recall می‌شود، طی این فرایند precision سیستم مذبور معمولا کاهش می‌یابد. این رخداد در morphologically rich languages مثل زبان فارسی بسیار رایج است. از آنجایی که پرس‌وجوهای کاربران در بازیابی اطلاعات تک زبانه عموما از قواعد ریخت‌شناسی زبان تبعیت می‌کنند، پرس‌وجوها به شکلی که تعریف می‌شوند، معمولا نمایش دقیقی از نیاز اطلاعاتی کاربران است و عدم انجام پردازش‌های متنی مثل ریشه‌یابی تاثیرات جزئی در کیفیت اسناد بازیابی شده خواهد داشت. این در حالی است که در بازیابی اطلاعات بین زبانی مبتنی بر لغت‌نامه که صرفا صورت‌های پایه‌ای ترجمه‌ها در لغت‌نامه‌ها موجود است، شناسایی صورت دقیق پرس‌وجوی کاربران در target language الزامی است. از این رو پژوهشگران این حوزه اغلب دو نگرش متفاوت را پیش می‌گیرند؛ نگراش اول بر ریشه‌یابی اسناد و ترجمه‌های پرس‌وجو و شاخص‌‌گذاری اسناد بعد از انجام ریشه‌یابی و سپس انجام عمل بازیابی اطلاعات تکیه دارد. دیدگاه دوم نیز مبتنی بر شاخص‌گذاری اسناد به صورت کامل و دست‌نخورده و انجام عمل بازیابی اطلاعات است. نگرش اول از جهت افزایش recall و کاهش precision تاثیر مشابه با اثر از دست دادن معنی کلمه دارد که در بازیابی اطلاعات تک زبانه نیز اتفاق می‌افتد. از طرفی نگرش دوم، حذف بخشی از نیاز اطلاعاتی کاربران را به دنبال دارد که به دلیل عدم حضور همه‌ی صورت‌های تصریفی ترجمه‌ها در منبع ترجمه رخ می‌دهد. در بخش اول این پژوهش، یک روش آماری برای توسعه‌ی پرس‌وجو با صورت‌های تصریفی ترجمه‌ها ارائه می‌شود. روش پیشنهادی که مبتنی بر MED:fa کلمه‌هاست، الگوهای وندی را از یک پیکره‌ی target language استخراج می‌کند و پس از طی یک فرآیند حذف noise پرس‌وجو را به کمک آن‌ها توسعه می‌دهد. نتایج آزمایش‌ها بر روی مجموعه‌ی داده‌ای CLEF کیفیت مطلوب روش پیشنهادی در سیستم بازیابی اطلاعات بین زبانی انگلیسی-فارسی مبتنی بر لغت‌نامه را نشان می‌دهد. در بخش دیگر این پژوهش، یک روش مبتنی بر Expectation Maximization ارائه می‌شود که در آن از مجموعه‌ی Pseudo-Relevant Documents در زبان مبدا و زبان مقصد برای وزن‌دهی ترجمه‌ها استفاده می‌کنند. اسناد شبه مرتبط اسنادی با رتبه‌ی بالا هستند که در پاسخ به پرس‌وجوی کاربران و یا ترجمه‌ی پرس‌وجوی کاربران بازیابی شده‌اند. این اسناد می‌توانند حاوی اطلاعات ارزشمندی از نیاز کاربران باشند. استفاده‌ی همزمان از مجموعه‌ی بازیابی شده سمت زبان مبدا و مجموعه‌ی بازیابی شده سمت زبان مقصد می‌تواند در استخراج دانش ترجمه‌ موثر باشد. دانش ترجمه‌ی مستخرج از این اسناد زمینه‌ی پرس‌وجو را نیز به صورت غیر مستقیم در نظر می‌گیرد. روش پیشنهادی EM4QT بر اساس این فرض که اصطلاحات در مجموعه‌ی زبان مقصد یا ترجمه‌ای از یک کلمه در مجموعه‌ی source language است و یا یک کلمه‌ی noise، global optimum وزن‌دهی‌ها را با داشتن مجموعه‌ی ورودی ثابت بدست می‌آورد. نتایج آزمایش‌ها بر روی چهار مجموعه‌ی بین زبانی CLEF (زبان‌های فارسی، اسپانیایی، فرانسوی، و آلمانی) نشان می‌دهد که روش پیشنهادی نسبت به همه‌ی روش‌های پایه‌ای رفع ابهام مبتنی بر لغت‌نامه بسیار موثرتر عمل کرده است. واژه‌های کلیدی: بازیابی اطلاعات بین زبانی، اسناد شبه مرتبط، صورت‌های تصریفی، بیشینه‌سازی امید ریاضی.
    Abstract
    There have been multiple attempts to resolve the various formation matching problem in information retrieval (IR). A common strategy is to stem the queries and documents simultaneously and reduce all formations of a query term into a single one. Although this kind of process results in a reasonable recall for most languages, such a reduction strategy is non-functional in Persian; because it leads to loss of some crucial senses from the formations and reduction in accuracy as a result. In monolingual IR task, since the user-specified queries usually obey the morphological rules of the language usually, this problem is not highlighted. But, in dictionary-based cross-language information retrieval (CLIR) task, exclusively when the target language is highly inflected, all inflectional formations of translations are not available in the dictionary and we are obliged either to use the stemming strategy or to leave the queries and documents intact. In this article, we study the effect of stemming in dictionary-based English-Persian CLIR and scrutinize the sense losing effect in the task. We also present a query expansion method based on inflectional formations of translations to make all the relevant formations available in the context of the query. The proposed statistical affix generation method first extracts a number of affix rules from a Persian corpus; affix characters, positions of those characters (initial, middle, and final), operations which transform a morpheme into its derivation (\textit{insertion} or \textit{deletion}), and part-of-speech tag of the morpheme are attributes of a rule. Then, after applying multiple noise elimination processes, the query is expanded by inflectional formations of the query. Our experimental results on CLEF 2008 and CLEF 2009 English-Persian CLIR task indicate that the proposed method significantly outperforms all the baselines in terms of mean average precision; thus we recommend to use the expansion strategy instead of stemming for dictionary based English-Persian CLIR. Availability of bilingual dictionaries and useful information which is provided in pseudo relevant documents (top retrieved documents), motivate us to use only a bilingual dictionary and two independent collections in source and target languages for query translation. We exploit pseudo-relevant documents for a given query in both languages and propose an expectation-maximization algorithm for improving the query translation quality (EM4QT) which assumes that each target term is either translated from the source pseudo-relevant documents or came from a noisy collection. Since EM4QT does not directly consider term coherency, we investigate a crucial question: can EM4QT be improved using coherency-based methods? To answer this question, we combine different translation models via simple linear interpolation and a proposed divergence minimization method. The evaluation results over four CLEF collections indicate that EM4QT significantly outperforms the baselines in all collections. Our experiments also suggest that since EM4QT indirectly considers term coherency, combining translation models cannot significantly improve the retrieval performance.