ارائه ی یک تجزیه گر نحوی زبان طبیعی با استفاده از روشهای ترکیبی
- دانشجو
- فرزانه زارعی
- استاد راهنما
- هشام فیلی
- رشته تحصیلی
- مهندسی کامپیوتر - هوش مصنوعی - رباتیک
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2815;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 64357
- تاریخ دفاع
- ۲۷ خرداد ۱۳۹۳
- چکیده
- درخت بانک نحوی از پرکاربردترین منابع در بهکارگیری روشهای یادگیری خودکار و نیمهخودکار در سیستمهای پردازش زبانهای طبیعی مانند ابزارهای شناسایی گفتار، سیستمهای گفتار زبان، تحلیل گرهای نحوی و نرمافزارهای مترجم ماشینی است. روشهای مختلفی جهت تولید درخت بانک نحوی وجود دارد که میتوان آن ها را به دوطبقهی اصلی روشهای تولید دستی و روشهای تولید خودکار تقسیم کرد. با وجود اینکه روشهای دستی تولید درخت بانک نحوی دقت بالایی دادند، اما بسیار پرهزینه و زمابر هستند. از طرفی روشهای خودکار در مقایسه با روشهای دستی بسیار سریعتر هستند اما درخت بانک نحوی تولیدشده از این روشها کیفیت کمتری نسبت به روشهای دستی دارند. در مرحله ی نخست این تحقیق سعی شده با ارائه ی یک الگوریتم خودراهانداز که نوعی الگوریتم نیمهخودکار نیز است، یک درخت بانک نحوی تولید شود که کلمات آن بهوسیلهی نوعی گرامر درخت افزایشی به نام XTAG برچسبگذاری شدند. این نوع درخت بانک نحوی میتواند در بسیاری از برنامههای پردازش زبان بهعنوان یک منبع جهت آموزش ابزارهای یادگیری ماشین بکار رود. پس از پیاده سازی این الگوریتم بر روی بخشی از جملات ژورنال وال استریت، کیفیت این درخت بانک نحوی طبق معیار F به حدود 80 درصد رسید. جهت افزایش کیفیت درخت بانک نحوی ساختهشده، با بهکارگیری دو روش یادگیری ماشین به نام روش طبقهبندی و یادگیری انتقال محور به تشخیص و تصحیح خطاهای برچسبگذاری پرداختیم و توانستیم کیفیت بانک دادگان را بهبود بخشیم. واژههای کلیدی: درخت بانک نحوی ، ابربرچسبگذاری، گرامر XTAG، الگوریتم خودراهانداز
- Abstract
- Treebanks, as special corpora annotated with syntactic structures, play a crucial role in the recent success of natural language processing applications like speech recognition, spoken language systems, parsing and machine translation. Regarding the development methods of the treebanks, generally, they can be placed in either manually crafted or automatically extracted treebanks. Due to the large number of sentences, the manual creation of the Treebanks can be very expensive and time consuming. The difficulties, raised in the manual creation of Treebanks, led the researchers to use automatic and semi-automatic methods of treebank development methods. On the other hand, the automatically extracted Treebanks are not as accurate as manual versions. In this thesis we introduce a semi-supervised bootstrap-inspired method for developing Treebank based on a rich grammar called XTAG. To this end, a hybrid method of supertagging was proposed that combines both of the generative and discriminative methods of Supertagging. The method was applied on a subset of Wall Street Journal (WSJ) and could annotate about 20% of WSJ with the accuracy of F-measure about 80%. Then, we try to correct the errors occurring in the treebank automatically generated from the first phase. Two machine learning methods are proposed to detect and correct the errors. The first one formulates the problem as a classification problem and has been tackled by using several classifiers and the later use the transformation based learning method. Keywords: Treebank, Supertagging, XTAG grammar and bootstrapping algorithm