عنوان پایاننامه
نقش سیگنالها در تعیین رابطه زمانی بین رویدادهای فعلی در پیکره متنی زبان فارسی
- رشته تحصیلی
- زبانشناسی همگانی
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه دانشکده ادبیات و علوم انسانی شماره ثبت: 0012;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 45070
- تاریخ دفاع
- ۲۶ تیر ۱۳۸۹
- دانشجو
- مرضیه مرتضوی نیا
- استاد راهنما
- محمود بی جن خان
- چکیده
- پایان¬نامه حاضر، پژوهشی در چهارچوب حوزه پردازش زبان طبیعی و زبانشناسی رایانه¬ای است که به بررسی روابط زمانی در متون پیکره زبان فارسی می¬پردازد. بازشناسی خودکار رویدادها و روابط زمانی، در سیستم¬های پردازش زبان طبیعی مانند سیستم¬های خلاصه¬سازی متن و پرسش و پاسخ، که نیازمند استنتاج زمانی هستند، از اهمیت بسیار بالایی برخوردار است. طراحی سیستم¬هایی که توانایی درک روابط زمانی بین رویدادها را داشته باشند مستلزم تولید پیکره¬هایی است که در آنها برچسب رویدادها و زمان¬ها موجود باشد. تعیین روابط زمانی در متون گاه از طریق اطلاعات بافتی و دانش جهان خارج و گاه از طریق الگوهای ساختاری و نحوی جملات و یا عناصری که در متن دارای تظاهر واژگانی هستند صورت می¬گیرد. از جمله عناصر واژگانی که در تحلیل روابط زمانی مؤثرند، می¬توان به حروف ربط زمان اشاره نمود. در این تحقیق، پس از ارائه مبانی نظری در مورد مفهوم رویداد و روابط زمانی، به معرفی پیکره¬های متنی تایم¬بانک و زبان فارسی معاصر پرداخته خواهد شد. پیکره تایم¬بانک تاکنون دقیق¬ترین برچسب¬دهی معنایی بر مبنای رویدادها، زمان¬ها و روابط زمانی را دارا می¬باشد. این پیکره، بر اساس استاندارد زبان نشانه¬گذاری تایم¬ام¬ال برچسب¬دهی شده است. استانداردهای این زبان نشانه¬گذاری در بازشناسی رویدادهای فعلی پیکره متنی زبان فارسی و تجزیه و تحلیل روابط زمانی میان آن¬ها به¬کار گرفته خواهند شد. بدین منظور، پس از استخراج حروف ربط از پیکره متنی زبان فارسی، می¬بایست سیگنال¬ها (حروف ربط زمان) مجزا شده و سندهای حاوی آن¬ها نیز از پیکره استخراج شوند. پس از آن، روابط زمانی میان رویدادهایی از نوع افعال زماندار در سندهای استخراج¬شده تحلیل، و نقش سیگنال¬ها در پیش¬بینی این روابط بررسی خواهد شد. بررسی نقش سیگنال¬ها در دو مرحله و در چهارچوب دو طبقه¬بندی از روابط زمانی صورت خواهد گرفت: در مرحله اول بر مبنای طبقه¬بندی جیمز آلن و در مرحله دوم بر اساس طبقه¬بندی استیون برد. پس بررسی نقش سیگنال¬ها در تعیین روابط زمانی بین رویدادهای فعلی ملاحظه خواهد شد که اگر نقش سیگنال¬ها بر اساس طبقه¬بندی برد مورد بررسی قرار گیرد، امکان پیش¬بینی بهتری برای روابط زمانی فراهم خواهد شد.
- Abstract
- This dissertation studies temporal relations in the Persian Corpus within the framework of natural language processing and computational linguistics. Automatic recognition of events and temporal relations is demonstrably crucial in natural language processing systems, such as text summarization and question answering systems, to which temporal inference is an integral necessity. Designing systems capable of understanding temporal relations between events demands temporally annotated corpora. Determining temporal relations often requires both linguistic and non-linguistic knowledge. In addition, lexico-syntactic clues in a text can contribute to temporal inference. Conjunctions are among the lexical clues that can influence temporal relations in a text. The TimeBank corpus represents the most fine-grained temporally annotated corpus to date which is annotated based on the TimeML markup languae. In this study, after an introduction to the concept of event and temporal relations, the TimeBank, the timeML, and the Contemporary Persian Corpus, which is annotated in accordance with the EAGLES (Expert Advice Group for Language Engineering Standards) will be introduced. Subsequently, TimeML standards of temporal relations will be applied to the Persian Corpus tensed-verb events. Signals (temporal conjunctions) will have to be extracted from the total of conjunctions, in the first place. Second, the corresponding documents need to be extracted from the corpus. Then temporal relations between the tensed verbs of the documents have to be investigated and the role of signals in the identification of those relations must be scrutinized. The study of the role of signals in the prediction of temporal relations will be carried out in two stages, according to the two classifications of temporal relations by James Allen and Steven Bird, respectively. The statistical analysis of the data will show that Bird's classification of temporal relations leads to better results in terms of temporal relation identification.