بهبود ترجمه برای خبره یابی در محیطهای چند زبانی
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 3052;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 77835;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 3052;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 77835
- تاریخ دفاع
- ۱۵ شهریور ۱۳۹۵
- دانشجو
- حسین نصراصفهانی
- استاد راهنما
- آزاده شاکری
- چکیده
- طی چند دههی اخیر روشهای فراوانی برای بازیابی اطلاعات در محیطهای چندزبانه ارائه شده است. یکی از چالشهای مهم در بازیابی اطلاعات چندزبانه، استفاده از مدل ترجمهی مناسب برای ترجمهی کلمات است. مدلهای ترجمهی رایج در بازیابی اطلاعات عموما با استفاده از دانش عمومی ایجاد میشوند و به طور کلی در زمینهی خاصی نیستند که این موضوع باعث میشود که در ترجمهی متون در دامنهی خاص، کیفیت ترجمه کاهش پیدا کند. علاوه بر این کلماتی با معنای متفاوت ولی با نگارش یکسان در اکثر زبانها وجود دارند. این موضوع باعث میشود که هنگام ترجمهی کلمات، ترجمههای متفاوتی برای هر کلمه وجود داشتهباشد و وجود ترجمههای مختلف باعث ایجاد ابهام در ترجمه میشود که در نهایت کاهش کیفیت بازیابی اطلاعات را به دنبال دارد. بازیابی افراد خبره، یک زیرمجموعه از بازیابی اطلاعات است که در آن هدف ارائه کردن یک رتبهبندی از افرادی است که دارای دانش در زمینهی خاص هستند. برای خبرهیابی معمولا از ارتباط بین افراد خبره و اسناد پشتیبان کاندیدای خبرگی استفاده میشود. همانند بازیابی اطلاعات، خبرهیابی نیز میتواند در محیطهای چندزبانه صورت بگیرد. در این محیطها به دلیل این که عموما اسناد در زمینههای تخصصی نوشته میشوند، استفاده از لغتنامههای عمومی میتواند باعث کاهش کیفیت خبرهیابی شود. در این پایاننامه روشهایی برای رفع ابهام ترجمهی کلمات در خبرهیابی چندزبانه معرفی شده است. در واقع این موضوع مورد بررسی قرار گرفتهاست که آیا میتوان با استفاده از اطلاعات خبرگی افراد یک مدل مناسب برای ترجمهی اسناد افراد خبره ایجاد کرد یا خیر. دلیل این پژوهش این است که معمولا زمانی که اطلاعات خبرگی برای یک فرد در زبانهای مختلف وجود دارد، این اطلاعات در یک یا چند موضوع مشترک هستند و در نتیجه با بررسی آنها میتوان مدلهای ترجمهی عمومی را متناسب با پیکرهی خبرهیابی و یا متناسب با خود خبره تغییر داد. برای این منظور دو روش برای ایجاد یک مدل ترجمه با استفاده از اطلاعات خبرگی افراد ایجاد شده است. در روش اول سعی شده است تا با استفاده از کلمات بافتار یک کلمه و همچنین اطلاعات خبرگی افراد یک مدل ترجمه منطبق با پیکرهی خبرهیابی ارائه شود. در روش دوم نیز با استفاده از اطلاعات خبرگی افراد برای هر فرد یک شناسنامه ایجاد شده است. سپس ترجمهی کلمات به کمک شناسنامهی ایجادشده برای افراد خبره انجام میگیرد. همچنین روشی برای استخراج یک همترازی بین اسناد موجود در پیکرهی خبرهیابی معرفی شده است تا به کمک آن بتوان کیفیت روشهای ارائهشده را بهبود داد. ارزیابی روشها بر روی یک پیکرهی چندزبانهی خبرهیابی نشان داد که استفاده از روشهای بالا میتواند باعث افزایش کیفیت ترجمهی اسناد شود.
- Abstract
- In recent years, several methods have been proposed for multilingual information retrieval. One of the major challenges in this task is using an appropriate translation model to translate terms and documents. Common translation models used in information retrieval are usually built based on general data. Using general translation models for translating domain specific text could cause translation error. Furthermore, there are lots of terms with different meanings and similar spellings in each language. Therefore, each term may have multiple translations. Existence of various translations for each term could cause translation ambiguity, which may degrade the performance of information retrieval. One of the interesting tasks in information retrieval is expert finding. Expert finding is the process of recognizing people having sufficient knowledge and expertise in a specific field. Like information retrieval, expert finding can run in multilingual environments. Since documents that present the expertise of each expert are usually specialized in a certain topic, using general translation models can reduce the effectiveness of the system. In this research, a translation model has been built to disambiguate translations for multilingual expert finding. To this end, the possibility of using expertise data for building an appropriate translation model for translating the expert’s documents is investigated. If multiple resources of expertise information in different languages exist for an expert, all of these resources usually cover similar topics. Therefore, it is possible to adjust a general translation model to a user or domain centered translation model. For this purpose, two methods have proposed. In the first method context terms and expertise information are used to translate each word. In the second method, first a language dependent profile is built for each expert and then terms of each expert’s document are translated using its translation profile. Furthermore, a method to extract document alignment has been proposed in order to improve performance of provided methods. Experimental results on a multilingual expertise retrieval dataset show the effectiveness of the proposed method.