عنوان پایاننامه
پیش بینی برهمکنش پروتئین ها برمبنای اطلاعات ساختارهای پروتئین ها
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2556;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 65508
- تاریخ دفاع
- ۰۵ شهریور ۱۳۹۳
- دانشجو
- سمانه آقاجان بگلو
- استاد راهنما
- مسعود رهگذر
- چکیده
- پروتئین ها را میتوان مهم ترین مولکول های بیولوژیکی سلول های زنده دانست. ساختار پروتئینها در سطوح مختلفی تعریف میشود. ساختار اول آن ها، توالی 20 آمینواسید مختلف است که در یک زنجیره خطی به یکدیگر پیوسته اند. این زنجیره ها با ساختارهای منظم تا خورده ساختار دوم را شکل می دهند. ساختار سوم نیز، نحوه قرارگیری همه اتم های پروتئین در فضای سه بعدی است. پروتئین ها هنگام انجام عملکردهای زیستی با یکدیگر برهم کنش دارند و از مجموع این برهمکنشها، شبکه های برهم کنش پروتئین-پروتئین (PPI) شکل می گیرند. با توجه به اهمیت برهم کنش پروتئین ها، از یکسو روش های تجربی مختلفی برای شناسایی آن¬ها گسترش یافته اند و از سویی دیگر، روش های محاسباتی پا به عرصه گذاشته اند. روش های محاسباتی وابسته به منابع اطلاعاتی مختلفی بوده و از چالش های اصلی آن ها، یافتن روشی مناسب برای توصیف پروتئین ها به-صورت بردارهای ویژگی است. در این پژوهش، از اطلاعات استنتاج شده از ساختارهای اول و دوم پروتئین ها، جهت پیش بینی برهم کنش پروتئین ها استفاده شده است. اطلاعات توالی، یکی از در دسترس ترین منابع اطلاعاتی پروتئین ها بوده و بیانگر برخی خصوصیات آن ها نیز می باشد. علاوه بر آن اطلاعـاتی هم چون ساختـار دوم و آمینواسیدهـای سطحی، از توالی آمینواسیدهـا استخراج شدند. اطلاعات به دست آمده، با روش های توصیف توالی پروتئین ها ترکیب شده تا هر جفت پروتئین، توسط بردارهای ویژگی مناسبی نمایش داده شوند و یک روش یادگیری ماشین، برهم کنش بین آن ها را پیش بینی نماید. نتایج نشان میدهند که توصیف توالیها بهصورت دوتاییهای بدون جهت ضمن کاهش ابعاد فضای برداری، بهترین عملکرد پیشبینی را دارد. در ادامه و برای بهبود کارایی پیش بینی برهم کنش پروتئین ها، روش های مختلف تولید بردارهای ویژگی با هم تلفیق شدند. بدین منظور ابتدا پیش بینی کننده های مختلف با در نظر گرفتن اطلاعات ساختارهای پروتئین ها، توسط RVKDE به عنوان ابزار یادگیری ماشین پیاده سازی شدند و سپس، نتایج آن ها به یک پیش بینی کننده ثانویه به نام پیش بینی کننده متا فرستاده شدند. نتایج نشان می دهند که روش پیشنهادی، از روش های قبلی پیشی جسته و کارایی پیش بینی را به میزان 3.25% در F-Measure، روی پروتئین های پایگاه داده HPRD بهبود داده است. واژههای کلیدی: برهم کنش پروتئین-پروتئین، ساختارهای پروتئین ، کدگذاری N-Gram از توالی آمینواسیدها
- Abstract
- structure of a protein is a sequence of twenty different amino acids which are linked in a linear chain. The chains can fold into regular structures and form secondary structures. Tertiary structure of a protein is the three-dimensional arrangement of all atoms in a protein. Most proteins interact with each other in order to accomplish their biological functions and form Protein-Protein Interaction (PPI) networks. Although, some experimental techniques have been developed to detect PPIs, they suffer from high false positive and high false negative rates. Consequently, efforts have been devoted during recent years to develop computational approaches to predict the interactions using various sources of information. However, finding an appropriate method for feature encoding and to characterize proteins is a major challenge in such methods. This study presents a method for predicting protein-protein interactions which takes advantage of inferred information from primary and secondary structures of proteins. Because of lacking enough protein structural information, it is highly desired to extract structural information such as the secondary structure or surface amino acids of the protein. On the other hand, sequence information of proteins is the most available type of information which specifies some of the protein’s characteristics. Derived information is combined with sequence descriptor approaches to transform a pair of protein sequences into a pair of suitable feature vectors and to adopt supervised machine learning (ML) techniques to analyze these feature vectors. The results show that considering two adjacent amino acids as a feature with “Without Direction” property has the best performance to predict protein-protein interactions, and leads to reduce the dimensions of the vector space. Afterwards, for improving the performance of interaction prediction, different encoding methods were combined together by a Meta predictor. Our Meta prediction comprises two main steps. Firstly, the input feature vectors of a protein pair are submitted to each component predictor. In the second step, the prediction decision values from different individual predictors are collected and converted to an input vector for the Meta predictor. Various individual and Meta predictors are implemented by Relaxed Variable Kernel Density Estimator (RVKDE). The results show that our proposed method overcomes previous methods and achieves the superiority of prediction performance with improving an F-measure of 3.25% on Human Protein Reference Database (HPRD). Keywords: Protein-protein interaction, Protein structures, N-Gram feature encoding of amino acids sequences.