عنوان پایان‌نامه

توسعه ی یک تجزیه گر نحوی زبان فارسی با استفاده از پیکره وابستگی نحوی



    دانشجو در تاریخ ۱۴ شهریور ۱۳۹۴ ، به راهنمایی ، پایان نامه با عنوان "توسعه ی یک تجزیه گر نحوی زبان فارسی با استفاده از پیکره وابستگی نحوی" را دفاع نموده است.


    محل دفاع
    کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2883;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 72855;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2883;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 72855
    تاریخ دفاع
    ۱۴ شهریور ۱۳۹۴
    استاد راهنما
    هشام فیلی

    تجزیه‌گر‌های نحوی از ابزارهای پایه مهم در پردازش‌های زبان طبیعی هستند. یکی از انواع پرکاربرد تجزیه‌گرها، تجزیه‌گرِ احتمالاتی است. به منظور ساخت یک تجزیه‌گر احتمالاتی نیاز به داده آموزش داریم. درخت‌بانک از مهمترین و پرکاربردترین منابع مورد استفاده در زمینه پردازش زبان طبیعی، از جمله در آموزش تجزیه‌گرهای احتمالاتی است. دو نوع از پرکاربردترین درخت‌بانکها، درخت‌بانک وابستگی و درخت‌بانک سازه ای است. در این پژوهش می‌خواهیم با توجه به عدم وجود درخت‌بانک سازه ای با حجم بزرگ در زبان فارسی، روشی برای ساخت درختبانک سازه‌ای ارائه کنیم. ایده اصلی در این تحقیق، بهره‌گیری از اطلاعات موجود در ساختار وابستگی و استخراج ویژگی‌های درون این ساختار است، تا بتوان ساختار وابستگی را به ساختار سازه‌ای با بالاترین کیفیت ممکن تبدیل کرد. بدین منظور به بررسی روشی ارائه شده در تبدیل درختبانک وابستگی به سازهای می‌پردازیم. روش انتخابی، مستقل از زبان بوده و منابع مورد نیاز روش برای استفاده در زبان فارسی موجود است. برای آنکه بتوانیم برای ساختار سازه‌ای تولید شده توسط این روش، کیفیتی بالاتر به دست آوریم، مشکلات این روش را در زبان فارسی و انگلیسی بررسی و خطاها را در سه دسته اصلی تقسیم‌بندی می‌کنیم. سپس، با ارائه راهکارهایی از وقوع برخی خطاها در روند تبدیل جلوگیری می‌کنیم. راهکارهای ارائه شده شامل تصحیح مکان اتصال سازه‌ها در درخت سازه‌ای و انتخاب سازه‌ه ای صحیح به ازای هر رابطه‌ی وابستگی است. با انجام راهکاری مکاشفه‌ای به صورت پس‌پردازش و بر روی خروجیِ ساختار سازه‌ای این روش، کیفیت نهایی درخت‌های سازه‌ای را بهبود می‌بخشیم. نتایج حاصل از آزمایش‌ها نشان میدهد که، روش تبدیل با کمک راهکارهای ارائه شده حدود 7/26 درصد در زبان فارسی و 96/4 درصد در زبان انگلیسی دارای کیفیت بالاتری نسبت به حالتی است که از راهکارهای پیشنهادی استفاده نشود. در ادامه با کمک روش تبدیل و درختبانک وابستگی موجود در زبان فارسی، یک درختبانک سازه ای تولید کرده و به کمک آن تجزیه گری سازه ای را آموزش داده ایم. کیفیت تجزیه‌گر آموزش داده شده با استفاده از درخت بانک حاصل از روش تبدیل و راهکارهای پیشنهادی این پژوهش نسبت به حالتی که از راهکارهای پیشنهادی استفاده نشود، بهبودی 53/21 درصدی را نشان می‌دهد و مقدار نهایی 18/68 درصد برحسب معیار f1-score به دست می‌آید. کلیدواژه‌ها: پردازش زبان طبیعی، زبان فارسی، درختبانک وابستگی، درخت بانک سازه ای، تجزیه‌گر سازه ای
    Abstract
    Constituency parser is an important tool in the natural language processing. One of the most frequent parsers is the probabilistic parser. To build probabilistic parser, we need the training data set. Treebank is an important and useful resource in natural language processing tasks, specially in probabilistic parser. Dependency and constituency structures are two famous kinds of Treebanks. In this project, we study an approach to convert dependency structures into constituency structures due to the fact that there is not a big constituency Treebank in Persian. The main idea of this research is using the information existing in in the dependency structure and then converting dependency structure into constituency structure with high quality by using these features. We use a language independent converting algorithm appraoch to produce constituency Treebank. The required training data set of the approach exists in Persian language. We evaluate this algorithm in Persian and English languages and classify the errors into three categories. We avoid occurring errors with some innovation approaches. The approachs in question include, “correction of meeting point”, “choosing conversion rule more accurately accoriding to the dependency link” and “using heurestic way on the constituency output”. The experimental results show that our method can improve the f1-score 26.7% for Persian language and 4.96% for English language when compared with the case in which we don’t use our approaches. We use our methods to convert dependency structure into constituency structure and build the constituency Treebank. We also make use of this Treebank to train a constituency parser in Persian. The quality of trained constituency parser is improved 21.53%. The f1-score of constituency parser is now 68.18%.