عنوان پایان‌نامه

گسترش شبکه معنایی وردنت برای زبان فارسی



    دانشجو در تاریخ ۰۳ شهریور ۱۳۹۴ ، به راهنمایی ، پایان نامه با عنوان "گسترش شبکه معنایی وردنت برای زبان فارسی" را دفاع نموده است.


    محل دفاع
    کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2983;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 76915;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2983;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 76915
    تاریخ دفاع
    ۰۳ شهریور ۱۳۹۴
    دانشجو
    پریسا برنگی
    استاد راهنما
    هشام فیلی, آزاده شاکری

    شبکه‌ها‌ی لغوی-معنایی، از جمله منابع دانش مهم و پرکاربرد در پردازش متن و زبان طبیعی به‌شمار می‌رود. وُردنت نمونه‌ای از این شبکه‌ها‌ی لغوی-معنایی است که به‌صورت یک پایگاه دانش بزرگ از کلمه‌های زبان و مفاهیم متناظرشان گردآوری ‌می‌گردد. امروزه برای بسیاری از زبان‌های زنده‌ی دنیا وردنت‌هایی با اندازه‌های مختلف تولید شده و در اختیار کاربران قرار گرفته است. به همین جهت در این تحقیق، بر روی مسئله‌ی ساخت و گسترش وردنت در زبان فارسی تمرکز کرده‌ایم. هدف اصلی در این تحقیق استفاده از چند منبع زبانی موجود در زبان فارسی (نظیر پیکره‌های تک‌زبانه و موازی)، به منظور ارائه‌ی روش‌هایی جهت تولید وردنت فارسی با سایز بزرگ و دقت بالاست. از همین رو در این پایان‌نامه دو روش خودکار جهت ساخت وردنت فارسی ارائه شده است. روش ارائه‌ شده‌ی اوّل، که از پیکره‌ی تک‌زبانه جهت آموزش مدل بهره می‌برد، از ترکیب دو روش PageRank شخصی‌سازی شده و بیشینه‌سازی امید ریاضی استفاده می‌کند تا کلمه‌های فارسی را به هم‌نشیم‌های وردنت انگلیسی متصل کند و هم‌چنین احتمال‌ این نگاشت‌ها را تخمین ‌می‌زند. روش ارائه شده‌ی دوم نیز روشی جهت ساخت وردنت با استفاده از پیکره‌های موازی ارائه می‌دهد. این روش از یک الگوریتم ابهام‌زدایی معنایی مبتنی بر دانش استفاده می‌کند تا نگاشت‌های میان کلمه‌های فارسی و هم‌نشیم‌های مناسب انگلیسی را شکل دهد و هم‌چنین از ترکیب صافی‌های مختلفی جهت بهبود دقت نگاشت‌ها استفاده می‌کند. به منظور ارزیابی روش‌های پیشنهادی مجموعه‌ای بر اساس داده‌های طلایی ساخته شده‌ است. هم‌چنین معیارهای ارزیابی متعددی بر روی وردنت‌‌های ساخته شده به کارگرفته‌ایم تا کارایی وردنت از ابعاد مختلف سنجیده شود. علاوه بر اینها، دو روش خودکار دیگر که دارای برترین نتایج در این زمینه بوده‌اند، را به‌عنوان دو روش‌ پایه در نظر گرفته و نتایج روش‌های خودمان را با نتایج آنها مقایسه کرده‌ایم. در ارزیابی دقت وردنت فارسی ساخته شده، دقت روش اوّل 93/61درصد و دقت روش دوم 93/87 درصد به ‌دست آمده است. هم‌چنین در روش اوّل اندازه‌ی وردنت حدود 40.000 نگاشت کلمه-‌هم‌نشیم و در روش دوم اندازه‌ی وردنت فارسی حدود 35.000 نگاشت بوده است. در نهایت نیز با ادغام نتایج دو روش پیشنهادی، وردنت فارسی نهایی دارای حدود 68.000 نگاشت و دقت 93/71 درصد است که بهبود مطلوبی نسبت به سایر روش‌های مشابه دارد و از بهترین نتایج در زمینه‌ی ساخت خودکار وردنت فارسی بالاتر است.
    Abstract
    Lexical-semantic network is considered as one of the most important and useful knowledge resources in text and natural language processing. WordNet is a kind of such networks which is a large knowledge base containing words and their corresponding concepts. Nowadays many languages have provided their own WordNets with different size which are available for users. Therefore in this thesis, we concentrate on the construction and extension of Persian WordNet. Our main goal is proposing some approaches in order to construct a Persian WordNet with large size and high precision. In this thesis, we have presented two automatic approaches for Persian WordNet construction. The first proposed approach, which uses a monolingual corpus, combines Personalized PageRank algorithm and Expectation-Maximization method, in order to link Persian words to their corresponding Princeton3.0 synsets and estimate the links probability. In addition, the second proposed approach benefits from a bilingual parallel corpus. In this approach we use a knowledge-based word-sense disambiguation algorithm, in order to link Persian words and their corresponding Princeton3.0 synsets. In order to evaluate the proposed approaches, we have used a gold standard and analyzed our two approaches by testing multiple evaluation measures. Additionally, we have employed two state-of-the-art approaches as our baselines and compared our results with them. In the evaluation, the first approach achieved to the precision of 93.61 percent and the second one obtained the precision of 93.87 percent. In addition, the size of acquired WordNet in the first approach is about 40,000 links and in the second one our WordNet size is about 35,000 links. Finally, the results of these two approaches are merged and our final Persian WordNet is acquired. The final Persian WordNet contains more than 68,000 word-synset links with the precision of 93.71 percent, which shows a great improvement in comparison with previous created Persian WordNets. Keywords: WordNet, Word-synset link, Sense disambiguation, Personalized PageRank, Expectation-maximization.