عنوان پایاننامه
گسترش شبکه معنایی وردنت برای زبان فارسی
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2983;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 76915;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2983;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 76915
- تاریخ دفاع
- ۰۳ شهریور ۱۳۹۴
- دانشجو
- پریسا برنگی
- استاد راهنما
- هشام فیلی, آزاده شاکری
- چکیده
- شبکههای لغوی-معنایی، از جمله منابع دانش مهم و پرکاربرد در پردازش متن و زبان طبیعی بهشمار میرود. وُردنت نمونهای از این شبکههای لغوی-معنایی است که بهصورت یک پایگاه دانش بزرگ از کلمههای زبان و مفاهیم متناظرشان گردآوری میگردد. امروزه برای بسیاری از زبانهای زندهی دنیا وردنتهایی با اندازههای مختلف تولید شده و در اختیار کاربران قرار گرفته است. به همین جهت در این تحقیق، بر روی مسئلهی ساخت و گسترش وردنت در زبان فارسی تمرکز کردهایم. هدف اصلی در این تحقیق استفاده از چند منبع زبانی موجود در زبان فارسی (نظیر پیکرههای تکزبانه و موازی)، به منظور ارائهی روشهایی جهت تولید وردنت فارسی با سایز بزرگ و دقت بالاست. از همین رو در این پایاننامه دو روش خودکار جهت ساخت وردنت فارسی ارائه شده است. روش ارائه شدهی اوّل، که از پیکرهی تکزبانه جهت آموزش مدل بهره میبرد، از ترکیب دو روش PageRank شخصیسازی شده و بیشینهسازی امید ریاضی استفاده میکند تا کلمههای فارسی را به همنشیمهای وردنت انگلیسی متصل کند و همچنین احتمال این نگاشتها را تخمین میزند. روش ارائه شدهی دوم نیز روشی جهت ساخت وردنت با استفاده از پیکرههای موازی ارائه میدهد. این روش از یک الگوریتم ابهامزدایی معنایی مبتنی بر دانش استفاده میکند تا نگاشتهای میان کلمههای فارسی و همنشیمهای مناسب انگلیسی را شکل دهد و همچنین از ترکیب صافیهای مختلفی جهت بهبود دقت نگاشتها استفاده میکند. به منظور ارزیابی روشهای پیشنهادی مجموعهای بر اساس دادههای طلایی ساخته شده است. همچنین معیارهای ارزیابی متعددی بر روی وردنتهای ساخته شده به کارگرفتهایم تا کارایی وردنت از ابعاد مختلف سنجیده شود. علاوه بر اینها، دو روش خودکار دیگر که دارای برترین نتایج در این زمینه بودهاند، را بهعنوان دو روش پایه در نظر گرفته و نتایج روشهای خودمان را با نتایج آنها مقایسه کردهایم. در ارزیابی دقت وردنت فارسی ساخته شده، دقت روش اوّل 93/61درصد و دقت روش دوم 93/87 درصد به دست آمده است. همچنین در روش اوّل اندازهی وردنت حدود 40.000 نگاشت کلمه-همنشیم و در روش دوم اندازهی وردنت فارسی حدود 35.000 نگاشت بوده است. در نهایت نیز با ادغام نتایج دو روش پیشنهادی، وردنت فارسی نهایی دارای حدود 68.000 نگاشت و دقت 93/71 درصد است که بهبود مطلوبی نسبت به سایر روشهای مشابه دارد و از بهترین نتایج در زمینهی ساخت خودکار وردنت فارسی بالاتر است.
- Abstract
- Lexical-semantic network is considered as one of the most important and useful knowledge resources in text and natural language processing. WordNet is a kind of such networks which is a large knowledge base containing words and their corresponding concepts. Nowadays many languages have provided their own WordNets with different size which are available for users. Therefore in this thesis, we concentrate on the construction and extension of Persian WordNet. Our main goal is proposing some approaches in order to construct a Persian WordNet with large size and high precision. In this thesis, we have presented two automatic approaches for Persian WordNet construction. The first proposed approach, which uses a monolingual corpus, combines Personalized PageRank algorithm and Expectation-Maximization method, in order to link Persian words to their corresponding Princeton3.0 synsets and estimate the links probability. In addition, the second proposed approach benefits from a bilingual parallel corpus. In this approach we use a knowledge-based word-sense disambiguation algorithm, in order to link Persian words and their corresponding Princeton3.0 synsets. In order to evaluate the proposed approaches, we have used a gold standard and analyzed our two approaches by testing multiple evaluation measures. Additionally, we have employed two state-of-the-art approaches as our baselines and compared our results with them. In the evaluation, the first approach achieved to the precision of 93.61 percent and the second one obtained the precision of 93.87 percent. In addition, the size of acquired WordNet in the first approach is about 40,000 links and in the second one our WordNet size is about 35,000 links. Finally, the results of these two approaches are merged and our final Persian WordNet is acquired. The final Persian WordNet contains more than 68,000 word-synset links with the precision of 93.71 percent, which shows a great improvement in comparison with previous created Persian WordNets. Keywords: WordNet, Word-synset link, Sense disambiguation, Personalized PageRank, Expectation-maximization.