عنوان پایاننامه
مدیریت رایانامه ها در محیطهای چند زبانه
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2317;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 59688
- تاریخ دفاع
- ۱۳ شهریور ۱۳۹۲
- دانشجو
- مصطفی دهقانی
- استاد راهنما
- مسعود اسدپور, آزاده شاکری
- چکیده
- امروزه استفاده از رایانامه به عنوان یک بستر تبادل اطلاعات بسیار رایج گردیده است. سهولت استفاده از این سرویس منجر به تولید حجم زیادی از دادههای رایانامهای گردیده، که این موضوع موجب بروز مسئلهای به نام «سرریز رایانامهها» شده است. با توجه به این مسئله، حل مشکل سرریز رایانامهها اهمیت بسزایی پیدا کرده است و باعث شده «مدیریت رایانامهها» به عنوان یک زمینه تحقیقاتی برای بررسی روشهای حل این مسئله بوجود آید. از طرف دیگر، با گسترش سریع امکان دسترسی به سرویس رایانامهها در سرتاسر جهان از طریق اینترنت، وجود پدیده چندزبانگی در دادههای رایانامهای امری انکارناپذیر است. بنابراین، پشتیبانی از چندزبانگی در روشهای مدیریت رایانامهها اهمیت دوچندان یافته است. این پایاننامه با در نظر گرفتن امکان چندزبانگی در دادههای رایانامهای، بر روی دو وظیفه «بازسازی ریسمانهای گفتگو» و «بایگانی خودکار رایانامهها» تمرکز یافته است. یک ریسمان گفتگو به یک بحث با محوریت یک موضوع خاص اطلاق میگردد، که حاصل از تبادل چندین رایانامه میان گروه خاصی از افراد از طریق پاسخ و باز-ارسال رایانامهها است. برای بازسازی ریسمانهای گفتگو در رایانامهها، در این پژوهش دو راهکار متفاوت بر مبنای الگوریتمهای تکاملی و همچنین یادگیری ماشین ارائه گردیده است. بایگانی خودکار رایانامهها نیز یکی از مسائل اساسی در مدیریت رایانامهها است. در این پایاننامه، چالشهای بایگانی رایانامهها مورد بررسی قرار گرفتهاند و یک روش یادگیری پیشنهاد شده است که از دیدگاهی متفاوت برای حل مسئله بایگانی رایانامهها اقدام مینماید. در روشهای ارائه شده برای مدیریت رایانامهها در این پژوهش، تعیین شباهت متنی به عنوان یک ویژگی کلیدی برای بررسی رابطه معنایی رایانامهها در نظر گرفته شده است. برای پشتیبانی این ویژگی از چندزبانگی، یک روش قدرتمند بر پایه چارچوب مدل زبانی ارائه گردیده است. در این روش، مدل چندزبانی به عنوان نماینده مستقل از زبان اسناد ساخته میشود، که این مدل برای تعیین شباهت متنهای زبانترکیبی و چندزبانه قابل استفاده خواهد بود. در پایان، آزمایشهای گسترده و کاملی برای بررسی کارایی و ارزیابی روشها ارائه شده است. نتایج آزمایشها نمایانگر این است که روشهای ارائه شده در مقایسه با روشهای گذشته نه تنها از نظر بهبود معیارهای عددی در وظایف مدیریت رایانامهها کارامد بودهاند، بلکه از نظر هزینه زمانی نیز از کارایی خوبی برخوردار هستند.
- Abstract
- Today, Email has become one of the most prevalent communication media that allows people to exchange information. The ease of this communication has led to producing a large volume of emails that causes a problem termed “Email Overloading”. Nowadays, solving the email overloading problem is pressingly urgent and “Email Management” has emerged as a new branch of research to alleviate this problem. On the other hand, with the recent rapid diffusion of the email service over the international World Wide Web, multilinguality across the email data is an inevitable phenomenon. Thus, it is becoming more and more important to provide multilingual support for email management techniques. This thesis focuses on two important tasks in email management, “Reconstructing Conversation Threads” and “Automatic Email Filing,” with regard to multilingualism in email data. An email conversation thread is defined as a topic-centric discussion unit that is composed of exchanged emails among the same group of people by replying or forwarding. We propose two different approaches to reconstruct conversation threads in email corpora based on evolutionary algorithm and machine learning. Automatic email filing is also a fundamental problem in email management. In this thesis, we study the challenges of email filing and propose a new learning method to automatically move emails into folders viewing the problem from a different angle. In this thesis, in the proposed methods for email management, text similarity is exploited as an important feature to determine the content relationships among the emails. In order to support multilinguality, we introduce a new robust method based on language modeling framework. This method builds a multilingual model as language independent representations for documents. The estimated multilingual models are employed to determine the similarity of mixed-language and multilingual documents. Finally, we conducted several experiments to evaluate the performance of the proposed methods and provided some useful discussions on the achieved results. Experiment results show that compared to the previous methods, the proposed methods not only improve the performance of email management tasks, but also enhance the time efficiency.