توسعه ی یک تجزیه گر نحوی زبان فارسی با استفاده از پیکره وابستگی نحوی
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2883;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 72855;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2883;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 72855
- تاریخ دفاع
- ۱۴ شهریور ۱۳۹۴
- دانشجو
- محمدحسین دهقان
- استاد راهنما
- هشام فیلی
- چکیده
- تجزیهگرهای نحوی از ابزارهای پایه مهم در پردازشهای زبان طبیعی هستند. یکی از انواع پرکاربرد تجزیهگرها، تجزیهگرِ احتمالاتی است. به منظور ساخت یک تجزیهگر احتمالاتی نیاز به داده آموزش داریم. درختبانک از مهمترین و پرکاربردترین منابع مورد استفاده در زمینه پردازش زبان طبیعی، از جمله در آموزش تجزیهگرهای احتمالاتی است. دو نوع از پرکاربردترین درختبانکها، درختبانک وابستگی و درختبانک سازه ای است. در این پژوهش میخواهیم با توجه به عدم وجود درختبانک سازه ای با حجم بزرگ در زبان فارسی، روشی برای ساخت درختبانک سازهای ارائه کنیم. ایده اصلی در این تحقیق، بهرهگیری از اطلاعات موجود در ساختار وابستگی و استخراج ویژگیهای درون این ساختار است، تا بتوان ساختار وابستگی را به ساختار سازهای با بالاترین کیفیت ممکن تبدیل کرد. بدین منظور به بررسی روشی ارائه شده در تبدیل درختبانک وابستگی به سازهای میپردازیم. روش انتخابی، مستقل از زبان بوده و منابع مورد نیاز روش برای استفاده در زبان فارسی موجود است. برای آنکه بتوانیم برای ساختار سازهای تولید شده توسط این روش، کیفیتی بالاتر به دست آوریم، مشکلات این روش را در زبان فارسی و انگلیسی بررسی و خطاها را در سه دسته اصلی تقسیمبندی میکنیم. سپس، با ارائه راهکارهایی از وقوع برخی خطاها در روند تبدیل جلوگیری میکنیم. راهکارهای ارائه شده شامل تصحیح مکان اتصال سازهها در درخت سازهای و انتخاب سازهه ای صحیح به ازای هر رابطهی وابستگی است. با انجام راهکاری مکاشفهای به صورت پسپردازش و بر روی خروجیِ ساختار سازهای این روش، کیفیت نهایی درختهای سازهای را بهبود میبخشیم. نتایج حاصل از آزمایشها نشان میدهد که، روش تبدیل با کمک راهکارهای ارائه شده حدود 7/26 درصد در زبان فارسی و 96/4 درصد در زبان انگلیسی دارای کیفیت بالاتری نسبت به حالتی است که از راهکارهای پیشنهادی استفاده نشود. در ادامه با کمک روش تبدیل و درختبانک وابستگی موجود در زبان فارسی، یک درختبانک سازه ای تولید کرده و به کمک آن تجزیه گری سازه ای را آموزش داده ایم. کیفیت تجزیهگر آموزش داده شده با استفاده از درخت بانک حاصل از روش تبدیل و راهکارهای پیشنهادی این پژوهش نسبت به حالتی که از راهکارهای پیشنهادی استفاده نشود، بهبودی 53/21 درصدی را نشان میدهد و مقدار نهایی 18/68 درصد برحسب معیار f1-score به دست میآید. کلیدواژهها: پردازش زبان طبیعی، زبان فارسی، درختبانک وابستگی، درخت بانک سازه ای، تجزیهگر سازه ای
- Abstract
- Constituency parser is an important tool in the natural language processing. One of the most frequent parsers is the probabilistic parser. To build probabilistic parser, we need the training data set. Treebank is an important and useful resource in natural language processing tasks, specially in probabilistic parser. Dependency and constituency structures are two famous kinds of Treebanks. In this project, we study an approach to convert dependency structures into constituency structures due to the fact that there is not a big constituency Treebank in Persian. The main idea of this research is using the information existing in in the dependency structure and then converting dependency structure into constituency structure with high quality by using these features. We use a language independent converting algorithm appraoch to produce constituency Treebank. The required training data set of the approach exists in Persian language. We evaluate this algorithm in Persian and English languages and classify the errors into three categories. We avoid occurring errors with some innovation approaches. The approachs in question include, “correction of meeting point”, “choosing conversion rule more accurately accoriding to the dependency link” and “using heurestic way on the constituency output”. The experimental results show that our method can improve the f1-score 26.7% for Persian language and 4.96% for English language when compared with the case in which we don’t use our approaches. We use our methods to convert dependency structure into constituency structure and build the constituency Treebank. We also make use of this Treebank to train a constituency parser in Persian. The quality of trained constituency parser is improved 21.53%. The f1-score of constituency parser is now 68.18%.