عنوان پایاننامه
استفاده ازپیکره های تطبیقی برای بازیابی اطلاعات بین زبانی فارسی - انگلیسی
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه دانشکده برق و کامپیوتر شماره ثبت: E1871;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 48441
- تاریخ دفاع
- ۰۹ اسفند ۱۳۸۹
- دانشجو
- هما برادران هاشمی
- استاد راهنما
- آزاده شاکری
- چکیده
- امروزه با افزایش حجم اطلاعات به زبان های مختلف در وب؛ تقاضا برای سیستم های بازیابی اطلاعات که بتوانند از مرز بین زبانها عبور کنند رشد فزاینده ای داشته است. با استفاده از چنین سیستم هایی می توان تنها با دادن پرس وجو و اسناد در یک زبان اسنادی با زبانهای مختلف را بازیابی کرد. از آنجایی که پروس و جو و اسناد در زبانهای متفاوتی هستند پیش از انجام تطابق باید از نوعی ترجمه استفاده کرد. به این منظور معمول ترین منابع ترجمه ای که استفاده می شوند؛ واژه نامه ها ماشین های ترجمه پیکره های موازی و پیکره های تطبیقی می باشند. واژه نامه های؛ ماشین های ترجمه و پیکره های موازی منابع پرهزینه ای هستند و برای تعداد زیادی از جفت زبانها یاقلیت وجود ندارند. این درحالی است که پیکرده های تطبیقی بین زبانها را می توان بسیار راحت تر فراهم نمود. پیکره های تطبیقی؛ اسنادی با موضوعهای مشابه در دو زبان متفاوت را شامل می شوند. به عنوان مثال؛ اخبار منتشر شده بر روی وقایع مشترک در زبانهای مختلف؛ نمونه ای از این نوع پیکرده ها می باشند. در این پایان نامه ؛ مساله بازیابی اطلاعات بین زبانی با استفاده از پیکره های تطبیقی؛ بین دو زبان فارسی و انگلیسی بررسی شده است. برترین مزیت این گونه از منابع در دسترس بودن آنها است که باعث شده ایجاد و استفاده از پیکره های به عنوان زمینه پژوهشی ارزشمندی در بازیابی اطلاعات بین زبانی مطرح گردد. همچنین لازم به ذکر است که تا کنون پژوهشی در زمینه ی استفاده از پیکره های تطبیقی به منظور بازیابی اطلاعات بین زبانی در زبان فارسی صورت نگرفته است. در این پژوهش؛ نخستین پیکرده تطبیقفی بزرگ فارسی-انگلیسی (UTPECC) با هم ترازی اخبار فارسی روزنامه همشهری و اخبار انگلیسی خبرگزاری بی بی سی؛ بر اساس تاریخ انتشار و شباهت اسناد؛ ساخته و ارزیابی شده است. در بخش دیگر پژوهش از پیکره های تطبیقی ساخته شده برای بازیابی اطلاعات بین زبانی فارسی- انگلیسی استفاده می گردد. به منظور استخراج دانش ترجمه از پیکره های تطبیقی روشی مبتنی بر شبکه وابستگی اصطلاحات ارائه شده است که هم از ارتباطات اصطلاحات در یک زبان و هم از ارتباطات آنها بین دو زبان بهره می برد. از آنجایی که اصطلاحات هم می توانند کلمات و هم عبارات را شامل شوند؛ در نهتیجه ترجمه های بدست آمده از این روش می توانند برای ترجمه پرس و جو ها در بازبانبی اطلاعات بین زبانی موثر باشند. همچنین در این پژوهش نشان داده شده است که می توان صحت ترجمه های استخراج شده را توسط کشف برون هشته ها بررسی کرد. نتایج آزمایش ها بر اساس مدل زبانی پرس وجو؛ نشان می دهند که ترجمه های استخراج شده از پیکره های تطبیقی روشی موثر برای بازیابی اطلاعات بین زبانی هستند و می توانند با ترجمه ی کلماتی که در واژه نامه ها نیستند و همچنین با استخراج کلمات مرتبط به آنها؛ دقت بازیابی را بهبود دهند. واژه های کلیدی: بازیابی اطلاعات بین زبانی؛ پیکره تطبیقی فارسی- انگلیسی؛ شبکه ارتباطی کلمات
- Abstract
- The fast growth of the World Wide Web and the availability of information in different languages have attracted much attention in research on cross-language information retrieval (CLIR). CLIR concerns the problem of expressing queries in one language and finding documents in different languages. Since queries and documents are in different languages, some kind of translation must take place before matching. Dictionaries, machine translators, parallel corpora and comparable corpora are common translation resources in CLIR. However, dictionaries, machine translators and parallel corpora are expensive resources and do not exist for all language pairs. While, comparable corpora are far easier to obtain. In this thesis, cross-language information retrieval using comparable corpora is studied in Persian and English languages. Comparable corpora are collections of texts in different languages that are about similar topics. For example, news articles about the same events published in different languages create comparable corpora. The availability of such linguistic resources is one of its advantages that causes the construction and use of comparable corpora to be considered as a valid field in CLIR. So far, there has not been conducted any research on doing cross-language information retrieval in Persian language using comparable corpora. In this research, the first big Persian-English comparable corpus (UTPECC) is built from two independent news collections: BBC News in English and Hamshahri news in Persian. The similarity of the document topics and their publication dates are used to align the documents in these sets and several alternatives are tried for constructing and assessing the comparable corpora. We mine the comparable corpus to extract high quality translation knowledge by presenting a novel way of extracting translations based on Terms Association Network (TAN) which exploits word co-occurrences in monolingual data as well as word associations in different languages. The extracted translation knowledge may be in forms of words and phrases, thus they can be effective for cross-language information retrieval. Further, we do translation validity check by detecting the mistranslated terms as outliers. Evaluation results on different data sets show that translating queries using UTPECC and constructing query language models significantly outperforms using simple dictionary-based method. Moreover, the presented methods are specially effective in translating Out Of Vocabulary words and also expanding query words based on their related words. Keywords: cross-language information retrieval, Persian-English comparable corpus, term association network.