عنوان پایاننامه
گسترش پرس و جوهای فارسی در موتورهای جستجو
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه دانشکده برق و کامپیوتر شماره ثبت: E1980;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 50623
- تاریخ دفاع
- ۱۲ مهر ۱۳۹۰
- دانشجو
- پیام کریسانی
- استاد راهنما
- مسعود رهگذر
- چکیده
- در این پژوهش، نقش شبکه¬ی معنایی لغات در گسترش پرس¬و-جوهای فارسی مورد بررسی قرار گرفته است. همچنین مدلی برای استفاده از قابلیت¬های شبکه¬های معنایی جهت بهبود کارایی سیستم¬های بازیابی اطلاعات در زبان فارسی ارائه داده شده است. روش¬های دیگری که برای گسترش پرس¬و¬جو با استفاده از شبکه¬های لغات ارائه گردیده¬اند، برای وزن¬دهی به کلمات کاندیدا معمولاً از سه روشِ فاصله¬ی کلمات از یکدیگر در شبکه-ی معنایی، میزان محتوای اطلاعاتی مشترکِ بین دو کلمه و یا استفاده از مشخصات کلمات، بهره می¬گیرند. در این پژوهش برای وزن¬دهی به کلمات کاندیدا، از میزان ارتباط بین این کلمه¬ها و پرس¬و¬جوی اولیه کاربر استفاده شده است، برای این منظور، از مجموعه اسنادی که با پرس¬و¬جوی اولیه ارتباط دارند استفاده می¬گردد. به بیان دیگر، برای وزن¬دهی به کلماتی که از شبکه¬ی معنایی حاصل می¬گردند، از مجموعه اسنادی که حاصل از بازخورد اولیه می¬باشند استفاده می¬شود. یعنی از یک روش Global برای تشکیل کلمات کاندیدا و از یک روش Local برای وزن¬دهی به این کلمات استفاده شده است. در حال حاضر، مشکلی که در شبکه¬ی معنایی لغات فارسی وجود دارد، مقیاس کوچک این شبکه نسبت به شبکه¬ی معنایی لغات انگلیسی است. مدلی که برای گسترش کلمات یک پرس¬و¬جو ارائه شده است، تا حدودی امکان استفاده از شبکه¬ی لغوی کلمات انگلیسی را در زبان فارسی فراهم نموده است، لذا می-توان برای گسترش کلمات فارسی از شبکه¬ی لغات انگلیسی استفاده نمود. این کار را از طریق ترجمه¬ی کلمات به انگلیسی و گسترش آنها با استفاده از WordNet انگلیسی و ترجمه¬ی دوباره¬ی کلمات گسترش یافته به فارسی انجام داده¬ایم. استفاده از WordNet انگلیسی در زبان فارسی به دلیل سنجش میزان ارتباط هر کلمه¬ی کاندیدا و پرس¬و¬جوی اولیه فراهم گردیده است، لذا کلماتی که ارتباط کمتری با پرس¬و¬جو دارند را از این طریق می¬توان حذف نمود. برای بهبود کارایی سیستم نیز، مدلی برای تلفیق نتایج حاصل از گسترش¬های مختلف یک پرس¬و¬جو ارائه شده است. در این مدل، برای وزن¬دهی نهایی به هر سند، از میزان انحراف هر پرس¬و¬جوی گسترش یافته و همچنین وزن¬های مختلف آن سند در نتایج استفاده شده است. نتایج آزمایش¬های انجام¬شده نشان می¬دهد که با استفاده از روش¬های پیشنهادی می¬توان در بهترین حالت 60% پرس¬و¬جوها را گسترش داد و در مجموعه¬ی گسترش¬یافته 85/5% معیار MAP را افزایش داد.
- Abstract
- In this research, the role of Wordnet in Persian query expansion is studied. A model is also presented for using Wordnet to improve performance of information retrieval systems in Persian language. The recently designed methods for expanding queries using Wordnet, weight candidate words in these ways: word distances in Wordnet, amount of common information between two words and using word charisteristics. In this study, to weight the candidate words we used the amount of relevance between words and initial user query. These relevancies are extracted from documents related to user query. In other words, the documents resulted from primary feedback were used to weight the words acquired from Wordnet. i.e. a global method obtains the candidate words and a local method weights them. However, a problem in Persian Wordnet is its small size in contrast to the English Wordnet. To remedy this problem, our model, can take the benefit of the English Wordnet for expanding Persian queries. This process is performed by translating a Persian word to English, expand them using Wordnet and translate the expanded words back to Persian. Applying English Wordnet in Persian is based on measuring the relevancy of each candidate word and the primary query; therefore we can omit words which are less relevant to the query. A model to improve the efficiency of system is represented by joining the results of different expansions of a query. In this model, the deviation of each expanded query and different weights of each document are used to weight the documents.