روشهای محاسباتی جهت برآورد داده های SHAPE روی RNA
- رشته تحصیلی
- علوم کامپیوتر
- مقطع تحصیلی
- دکتری تخصصی PhD
- محل دفاع
- کتابخانه پردیس علوم شماره ثبت: 6587;کتابخانه پردیس علوم شماره ثبت: 6587
- تاریخ دفاع
- ۲۸ شهریور ۱۳۹۶
- دانشجو
- سهیلا منتصری
- استاد راهنما
- محمد گنج تابش
- چکیده
- مطالعات اخیر نقش حیاتی و اساسی مولکولهای RNAرا در سلولهای زنده و بسیاری از فرایندهای زیستی نشان میدهد. نقش RNA بهطور مستقیم به ساختار آن مربوط است. در این راستا، روشهای محاسباتی مختلفی برای پیشبینی ساختار RNA توسعه داده شدهاند. اخیرا، اطلاعات بهدست آمده از آزمایش SHAPE بهعنوان شبهانرژی آزاد دقت پیشبینی ساختار RNA را بهبود داده است.در این رساله، روش جدیدی بهنامESD-Fold برای پیشبینی ساختار دوم RNA براساس انرژی آزاد و شبهانرژی آزاد ارائه میشود. برای هر توالیRNA ، جمعیتی از ساختارهای دوم ایجاد شده و دادهی SHAPE برای آنها شبیهسازی میشود. سپس، یک الگوریتم تکاملی برای بهبود هر ساختار براساس انرژی آزاد و شبهانرژی آزاد بهکار برده میشود. در انتها، ساختاری با حداقل انرژی بهعنوان ساختار دوم RNA پیش بینی شده در نظر گرفته میشود.بهدلیل اهمیت بالای داده SHAPE در پیشبینی ساختار RNA، مدلهای مختلفی برای شبیهسازی این داده برای هر RNA براساس توالی و ساختار دوم آن پیشنهاد میشوند. در بهترین مدل پیشنهادی یعنی HL-k-mer، مخزنی از دادههای SHAPE براساس زیر توالیهای RNAها با طول k و بخشهای ساختاری آنها شامل هلیکس یا حلقه در یک مجموعه دادهی آموزشی ساخته میشود. سپس دادهی SHAPE به هر نوکلئوتید یک توالی RNA داده شده براساس مخزن اختصاص داده میشود. همچنین این مدل بهمنظور شبیهسازی داده SHAPE برای ساختار دوم RNA با سودونات گسترش داده میشود. تأثیر داده SHAPE، به ما انگیزهای در استفاده از آن جهت پیشبینی برهمکنش بین دو مولکول RNA داد. روش پیشنهادی براساس کاهش تدریجی دما و داده SHAPE شبیهسازی شده میباشد. این الگوریتم شامل دو مرحله اصلی در هر دمای مشخص است. ابتدا، ساختار دوم هر توالی RNA و همچنین محل مکانهای اتصال بین دو RNA بهطور جداگانه محاسبه میشوند. سپس، ساختار برهمکنش با انتخاب بهترین ترکیب بدون تداخل استمها در ساختارهای دوم و مکانهای اتصال براساس حداقل انرژی تشکیل میشود. بازهای جفت شده در هر دما بهعنوان محدودیت برای مراحل بعدی در نظر گرفته میشوند.شبیهسازی محاسباتی داده SHAPE برای یک توالی RNA داده شده، به ساختار دوم آن نیاز دارد. در روش ESD-Fold، ما بر این محدودیت با بهکاربردن جمعیتی از ساختارهای دوم غلبه نمودیم. نتایج، کارایی و اعتبار الگوریتمهای پیشنهادی را در مقایسه با روشهای دیگر نشان میدهند
- Abstract
- Recent studies show vital and fundamental roles of RNA molecules in the living cells and many biological processes. Any function of an RNA is directly related to its structure. In this regard, different computational methods were developed to predict RNA structure. Recently, the obtained information from the SHAPE experiment as pseudo-free energy improves the prediction accuracy of the RNA structure.In this dissertation, a new method entitled ESD-Fold is proposed to predict RNA secondary structure based on both free energy and SHAPE pseudo-free energy. For each RNA sequence, a population of secondary structures is constructed and their SHAPE data are simulated. Then, an evolutionary algorithm is used to improve each structure based on both free and pseudo-free energies. Finally, a structure with minimum energy is considered as the predicted RNA secondary structure.Due to the great impact of SHAPE data in RNA structure prediction, different models are presented to simulate this data for any RNA based on its sequence and secondary structure. In the best proposed model, HL-k-mer, SHAPE data is computed for RNA sub-sequences of length k (k-mers) appearing in helix and loop regions using a training dataset of 16 RNA sequences along with their corresponding secondary structures and SHAPE data. This model is extended to simulate the SHAPE data for the RNA pseudoknotted structure. The influence of SHAPE data motivated us to use it for RNA-RNA interaction prediction as well. The proposed method is based on a gradual temperature decrease and simulated SHAPE data. The algorithm contains two main steps in each specified temperature. First, secondary structure for each RNA sequence as well as binding sites between the two RNAs are separately computed. Second, the interaction structure is formed by selection the best non-conflicting combination of stems in the secondary structures and binding sites based on minimum energy. The paired bases in each temperature are considered as constraints for the next steps.Computationally simulating the SHAPE data for a given RNA sequence requires its secondary structure. In ESD-Fold, we overcome this limitation by employing a population of secondary structures. The results show the efficiency and validity of the proposed algorithms compared to the other approaches.Keywords: RNA secondary structure, SHAPE data, Evolutionary algorithm, k-mers, pseu-doknot, RNA-RNA interaction.