عنوان پایان‌نامه

ارائه ی یک تجزیه گر نحوی زبان طبیعی با استفاده از روشهای ترکیبی



    دانشجو در تاریخ ۲۷ خرداد ۱۳۹۳ ، به راهنمایی ، پایان نامه با عنوان "ارائه ی یک تجزیه گر نحوی زبان طبیعی با استفاده از روشهای ترکیبی" را دفاع نموده است.


    استاد راهنما
    هشام فیلی
    محل دفاع
    کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2815;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 64357
    تاریخ دفاع
    ۲۷ خرداد ۱۳۹۳

    درخت بانک نحوی از پرکاربردترین منابع در به‌کارگیری روش‌های یادگیری خودکار و نیمه‌خودکار در سیستم‌های پردازش زبان‌های طبیعی مانند ابزارهای شناسایی گفتار، سیستم‌های گفتار زبان، تحلیل گرهای نحوی و نرم‌افزارهای مترجم ماشینی است. روش‌های مختلفی جهت تولید درخت بانک نحوی وجود دارد که می‌توان آن ها را به دوطبقه‌ی اصلی روش‌های تولید دستی و روش‌های تولید خودکار تقسیم کرد. با وجود اینکه روش‌های دستی تولید درخت بانک نحوی دقت بالایی دادند، اما بسیار پرهزینه و زما‌بر هستند. از طرفی روش‌های خودکار در مقایسه با روش‌های دستی بسیار سریع‌تر هستند اما درخت بانک نحوی تولیدشده از این روش‌ها کیفیت کمتری نسبت به روش‌های دستی دارند. در مرحله ی نخست این تحقیق سعی شده با ارائه ی یک الگوریتم خودراه‌انداز که نوعی الگوریتم نیمه‌خودکار نیز است، یک درخت بانک نحوی تولید شود که کلمات آن به‌وسیله‌ی نوعی گرامر درخت افزایشی به نام XTAG برچسب‌گذاری شدند. این نوع درخت بانک نحوی می‌تواند در بسیاری از برنامه‌های پردازش زبان به‌عنوان یک منبع جهت آموزش ابزارهای یادگیری ماشین بکار رود. پس از پیاده سازی این الگوریتم بر روی بخشی از جملات ژورنال وال استریت، کیفیت این درخت بانک نحوی طبق معیار F به حدود 80 درصد رسید. جهت افزایش کیفیت درخت بانک نحوی ساخته‌شده، با به‌کارگیری دو روش یادگیری ماشین به نام روش طبقه‌بندی و یادگیری انتقال محور به تشخیص و تصحیح خطاهای برچسب‌گذاری پرداختیم و توانستیم کیفیت بانک دادگان را بهبود بخشیم. واژه‌های کلیدی: درخت بانک نحوی ، ابربرچسب‌گذاری، گرامر XTAG، الگوریتم خودراه‌انداز
    Abstract
    Treebanks, as special corpora annotated with syntactic structures, play a crucial role in the recent success of natural language processing applications like speech recognition, spoken language systems, parsing and machine translation. Regarding the development methods of the treebanks, generally, they can be placed in either manually crafted or automatically extracted treebanks. Due to the large number of sentences, the manual creation of the Treebanks can be very expensive and time consuming. The difficulties, raised in the manual creation of Treebanks, led the researchers to use automatic and semi-automatic methods of treebank development methods. On the other hand, the automatically extracted Treebanks are not as accurate as manual versions. In this thesis we introduce a semi-supervised bootstrap-inspired method for developing Treebank based on a rich grammar called XTAG. To this end, a hybrid method of supertagging was proposed that combines both of the generative and discriminative methods of Supertagging. The method was applied on a subset of Wall Street Journal (WSJ) and could annotate about 20% of WSJ with the accuracy of F-measure about 80%. Then, we try to correct the errors occurring in the treebank automatically generated from the first phase. Two machine learning methods are proposed to detect and correct the errors. The first one formulates the problem as a classification problem and has been tackled by using several classifiers and the later use the transformation based learning method. Keywords: Treebank, Supertagging, XTAG grammar and bootstrapping algorithm