عنوان پایاننامه
طراحی یک سیستم تجمیع اطلاعات بر اساس علایق کاربران
- رشته تحصیلی
- مهندسی کامپیوتر- هوش مصنوعی - رباتیک
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه دانشکده برق و کامپیوتر شماره ثبت: E1552;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 40823
- تاریخ دفاع
- ۲۹ دی ۱۳۸۷
- دانشجو
- امیر توحیدی
- استاد راهنما
- مسعود رهگذر
- چکیده
- با توجه به مکانیزه شدن فرایندها در طی سال های اخیر، اغلب اطلاعات و مستندات به صورت الکترونیکی ذخیره و جمع آوری می شوند. از سوی دیگر با توجه به تنوع مطالب و ذخیره سازی اطلاعات در پایگاه های اطلاعاتی گوناگون، نیاز به بازیابی اطلاعات و یکپارچه سازی اطلاعات مرتبط بازیابی شده، حیاتی است. منابع اطلاعاتی مختلف می تواند شامل پایگاه داده های محلی، جهانی و یا شبکه های معنایی باشند. در این بین کاربر که هدف او استفاده از اطلاعات مرتبط با پرس و جویی است که ارائه نموده، باید در کوتاه زمان ممکن پاسخ مورد نیاز خود را دریافت نماید. لذا خواست و هدف اطلاعاتی کاربر در این سناریو باید مورد توجه قرار گیرد. از موانعی که بر سر این راه قرار دارد می توان به ناهمگنی، هم پوشانی، تناقض و ساختارهای نمایش مختلف اطلاعات ذخیره شده و مورد نیاز جهت بازیابی اشاره کرد که در این پژوهش بدان پرداخته شده است. در این پایان نامه هدف، ارائه یک مدل جدید مبتنی بر گراف برای نمایش و ذخیره اطلاعات است. یکی از موضوعاتی که منابع اطلاعاتی مختلفی در بستر شبکه جهانی وب برای آن موجود است، اطلاعات مرتبط با پروتئین ها است. از جمله این منابع می توان به بانک اطلاعات پروتئین ها اشاره کرد. به منظور آزمایش مدل فوق به طراحی معماری یک سیستم جهت بازیابی اطلاعات مورد نیاز کاربر از پایگاه داده های ناهمگن پروتئین ها، ترکیب و یکپارچه سازی اطلاعات پرداخته شده است. با استفاده از مدل فوق روشی به منظور توسعه پرس و جوی کاربر نیز طراحی شده است. نظر به اینکه اطلاعات استخراج شده از منابع اطلاعاتی می تواند بسیار زیاد باشد و نیز برخی از این اطلاعات ممکن است ارتباط کمی با خواسته کاربر داشته باشند، لذا کاربر مجبور است به منظور دست یابی به هدف خود، کلیک های متوالی فراوانی را انجام دهد و داده های نامرتبط را کنار زند که این امری وقت گیر و خسته کننده است. بدین منظور با استفاده از اپراتورهای ترکیب اطلاعات و پردازش متن از منابع اطلاعاتی گوناگون موجود، رتبه بندی مجدد نتایج صورت گرفته است. سیستم فوق در قالب یک ابرموتورجستجوگر پیاده سازی گردیده است.
- Abstract
- A large amount of data is accumulated from biological research activities. For example, there is an enormous amount of data related to the protein sequences and their functions and structures in the PDB and SWISS-PROT. Integrating of these disparate information systems is a challenging task. The structure of data in the bioinformatic domain has its own characteristics which sets it apart from data in other domains. In this area there is no clear model for data representing the expression products of genes, proteins, and higher forms of organisms e.g., cells and the multitude of forms they assume in response to environmental challenges. Data collected at these levels of information can be often thought of as "broad": meaning that for a relatively small number of records representing biological samples, a very large number of attributes, representing measurements or observations is collected per sample. Integrating of broad data sources presents a new challenge and in this thesis a novel graph-based model for data representation is introduced. Then a multi agent architecture which is customized to integrate heterogeneous broad databases of biological information is designed. Finally the results will be dispatched for re-ranking purposes using fusion operators. To develop a system based on the mentioned model and architecture, a meta-search engine is proposed. Also an expansion query system is developed using the above model.