عنوان پایاننامه
تجمیع پایگاههای داده بیوانفورماتیک با رویکرد ترکیب داده
- رشته تحصیلی
- مهندسی فناوری اطلاعات
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 37679
- تاریخ دفاع
- ۱۴ اسفند ۱۳۸۶
- دانشجو
- عادل اردلان
- چکیده
- چکیده تعیین ساختار مولکول¬های زیستی از مهم¬ترین و پیچیده¬ترین مسائل مطرح شده در حیطه زیست¬شناسی مولکولی است. تشخیص این ساختارها به شناخت کارکرد این عوامل در مولفه¬های حیاتی کمک می¬کند. از این رو تلاش فراوانی برای بررسی قابلیت پیش¬بینی این ساختارها با استفاده از روش¬های محاسباتی صورت پذیرفته است. پیچیدگی این مساله ضرورت بررسی هرچه بیشتر را در جهت شناخت دقیق¬تر فرآیندهای حیاتی افزون می¬نماید. در این پایان¬نامه از بستر تئوری شواهد دمپستر-شافر بعنوان مبنایی برای ارائه¬ی روشی جهت مدلسازی ساختار دوم پروتئین¬ها استفاده شده است. بر اساس این مدل ساختار دوم پروتئین¬ها از طریق دو منبع داده¬ای مهم مورد بررسی و ارزیابی قرار می¬گیرند و از نتایج این بررسی در پیش¬بینی ساختار پروتئین¬هایی که ساختار آنها ناشناخته است، استفاده می¬گردد. منابع اطلاعاتی مورد استفاده با توجه به این مطلب انتخاب شده¬اند که اطلاعات ساختاری قابل توجهی را در ارتباط با آرایش درشت¬مولکول¬های پروتئینی در اختیار قرار می¬دهند. این منابع عبارتند از ساختار اول پروتئین (پایگاه داده¬های پروتئین¬ها ) و اطلاعات جابجایی شیمیایی (پایگاه داده¬های تشدید مغناطیسی زیستی ). در مدل ارائه¬شده رشته¬های پروتئینی بر مبنای توالی اسیدهای آمینه بررسی و شواهد موجود استخراج می¬شوند. سپس برای هر اسید آمینه اعداد جابجایی شیمیایی اندازه¬گیری¬شده با دقت ازپیش¬تعیین¬شده، از داده¬های موجود استخراج می¬گردند. در مرحله¬ی بعد به هریک از ساختارهای مورد نظر برای انجام عملیات پیش¬بینی، جرم احتمال تخصیص داده می¬شود. نتایج بدست¬آمده نشان¬دهنده بهبود قابل ملاحظه¬ای در صحت پیش¬گویی هریک از ساختارها و نیز صحت پیش¬بینی کلی ( ) است. از این جهت این روش می¬تواند برای پیش¬بینی قابل اطمینان ساختار دوم پروتئین¬ها مورد استفاده قرار گیرد. کلمات کلیدی: تئوری شواهد دمپستر-شافر، بیوانفورماتیک، ساختار دوم پروتئین¬ها، طیف¬سنجی مغناطیسی هسته.
- Abstract
- Abstract This research introduces a new viewpoint to the protein secondary structure prediction problem, i.e. a description based on Dempster-Shafer theory of evidence. A framework of evidence generation from multiple -possibly heterogeneous- sources of available physical/chemical data about polypeptide chains has been developed. To achieve higher levels of abstraction, a flexible evidence combination procedure has been elaborated. Refinements of the obtained frame of discernment decision making process are then described. The approach could also be considered as a fusion procedure which combines the information from PDB and BMRB, which are among the most cited biological databases. A parameterized heterogeneous kernel has been proposed as a similarity measure for evidences, which may be used to develop a kernel machine (like a support vector machine.) This presentation includes some suggestions we have worked with to solve the problem using residual and chemical shift data. The experiments are described and the results indicate that our approach leads to satisfactory prediction accuracies, which are comparable to other approaches.