عنوان پایاننامه
ارائه یک روش احتمالاتی برای رفع ابهام معنایی کلمات زبان طبیعی
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 44358;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 1706
- تاریخ دفاع
- ۲۱ بهمن ۱۳۸۸
- دانشجو
- محمود سلطانی
- استاد راهنما
- هشام فیلی
- چکیده
- چکیده درک و فهم یک نوشته و یا سخنرانی هر چند برای انسان امری عادی بوده و به سادگی انجام می-پذیرد، ولیکن انجام خودکار آن توسط رایانه دارای دشواری¬ها و پیچدگی¬های فراوانی است. کلمات اجزای اولیه و اساس ساختار زبان طبیعی هستند، بنابراین درک و فهم آنها لازمه¬ی پردازش خودکار زبان طبیعی است. با توجه به وجود معانی مختلف برای یک کلمه، ابهام زدایی خودکار از معانی مختلف و انتخاب معنای صحیح کلمات در داخل متن، برای درک و فهم زبان طبیعی یکی از مراحل مهم و در عین حال چالش¬انگیز در زمینه پردازش زبان طبیعی به شمار می¬آید. بطور خلاصه ابهام زدایی معنایی کلمات به مفهوم انتخاب خودکار معنای صحیح کلمات با توجه به متنی است که در آن بکار رفته¬اند. ابهام زدایی به تنهایی هدف نمی¬باشد، بلکه به عنوان یک کار میانی در سیستم¬های دیگر از جمله ترجمه ماشینی ، بازیابی اطلاعات و غیره، به منظور افزایش دقت مورد استفاده قرار می¬گیرد. در این پایان¬نامه، مسئله ابهام معنایی در ترجمه ماشینی و رفع خودکار آن مورد بررسی قرار گرفته است. روشی که در این پایان¬نامه پیشنهاد شده است، روشی بی¬مربی بوده که با استفاده از گراف به عنوان ساختاری برای ارائه دانش و کد کردن آن و بر اساس اطلاعات آماری جمع¬آوری شده از پیکره متنی تک¬زبانه، عمل ابهام زدایی معنایی را برای کلمات مبهم انجام می¬دهد. به منظور محاسبه میزان وابستگی معنایی کلمات، دو معیار مبتنی بر اطلاعات متقابل ارائه شده است. علاوه¬ بر این، دو روش مبتنی بر گراف وابستگی معنایی به منظور انتخاب معنای صحیح کلمات در یک سیستم مترجم ماشینی (انگلیسی به فارسی) پیشنهاد شده است. به منظور ارزیابی روش¬های پیشنهادی، آزمایش¬های متفاوتی بر روی دادگان ارزیابی، که شامل 100 جمله انتخابی توسط انسان است، بر اساس دو روش ارزیابی تمام کلمات و کلمه نمونه صورت پذیرفته است. این آزمایشات نشان می¬دهد روش پیشنهادی که در آن از ارتباط نحوی بین کلمات جمله به منظور تقویت معیار اطلاعات متقابل استفاده شده است به همراه معیار ایندیگری به عنوان معیار مرکزیت در گراف وابستگی، بهترین نتایج را در مقایسه با روش¬های دیگر داراست. این روش دقتی معادل 69/64 درصد دارد. کلمات کلیدی: ابهام زدایی معنایی کلمات، وابستگی معنایی کلمات، گراف وابستگی معنایی، اطلاعات متقابل، الگوریتم¬های مرکزیت، تحلیل نحوی، پیکره متنی، پردازش زبان طبیعی.
- Abstract
- Abstract In dictionaries, each word is listed with a number of discrete senses and subsenses, which are possibly different from dictionary to dictionary. In computational linguistics, word sense disambiguation (WSD) is the process of identifying which sense of a word is used in the given context, when the word has a number of distinct senses. The ambiguity of word sense is a commonly occurring problem in all natural languages, where many words in the given language carry more than one meaning. However Machine Translation is the most obvious application for WSD, but lexical disambiguation has been used in almost all NLP applications such as Information Retrieval, Text Mining and has attracted interests in recent researches I other areas such as Bioinformatics and Semantic Web. In this article, an unsupervised word sense disambiguation method is proposed in training phase of which, only a monolingual Persian corpus is used. The proposed method gets the benefit from a graph built of different meanings of related words in a sentence. This method has been used in WSD task in an MT system. The input of this MT system is a sequence of words in the source language and the output is a sequence of the most appropriate equivalent of these words in the target language. The algorithm extracts the meanings of all these words in each sentence by using a bilingual dictionary and then generates a graph which models these meanings as nodes and their semantic relatedness as edges between nodes. Statistical information gathered from large Persian corpora is used as a measure to indicate the relatedness of words. After generating the graph, different methods for selecting the appropriate sense (meaning) for each word are presented. Several measures like source (English) and target (Persian) language mutual information or a combination of these values with syntactic information are used as the edge weights. The experiments show that the unsupervised graph-based WSD which uses the proposed semantic similarity measures in the dependency graph outperforms all other methods on WSD for translating English to Persian words, significantly. Keywords: Word Sense Disambiguation, Semantic Dependency, Semantic Dependency Graph, Mutual Information, Centrality Algorithms, Corpus, Natural Language Processing.