عنوان پایان‌نامه

روشهای محاسباتی جهت برآورد داده های SHAPE روی RNA



    دانشجو در تاریخ ۲۸ شهریور ۱۳۹۶ ، به راهنمایی ، پایان نامه با عنوان "روشهای محاسباتی جهت برآورد داده های SHAPE روی RNA" را دفاع نموده است.


    رشته تحصیلی
    علوم کامپیوتر
    مقطع تحصیلی
    دکتری تخصصی PhD
    محل دفاع
    کتابخانه پردیس علوم شماره ثبت: 6587;کتابخانه پردیس علوم شماره ثبت: 6587
    تاریخ دفاع
    ۲۸ شهریور ۱۳۹۶
    استاد راهنما
    محمد گنج تابش

    مطالعات اخیر نقش حیاتی و اساسی مولکول‌های ‎ RNA‎را در سلول‌های زنده و بسیاری از فرایندهای زیستی نشان می‌دهد. نقش ‎ RNA‎ به‌طور مستقیم به ساختار آن مربوط است. در این راستا، روش‌های محاسباتی مختلفی برای پیش‌بینی ساختار ‎ RNA توسعه داده شده‌اند. اخیرا، اطلاعات به‌دست آمده از آزمایش ‎SHAPE‎ به‌عنوان شبه‌انرژی آزاد دقت پیش‌بینی ساختار ‎ RNA را بهبود داده است.در این رساله، روش جدیدی به‌نامESD-Fold ‎ برای پیش‌بینی ساختار دوم ‎RNA‎ براساس انرژی آزاد و شبه‌انرژی آزاد ارائه می‌شود. برای هر توالی‎RNA ، جمعیتی از ساختارهای دوم ایجاد شده و داده‌ی ‎SHAPE‎ برای آن‌ها شبیه‌سازی می‌شود. سپس، یک الگوریتم تکاملی برای بهبود هر ساختار براساس انرژی آزاد و شبه‌انرژی آزاد به‌کار برده می‌شود. در انتها، ساختاری با حداقل انرژی به‌عنوان ساختار دوم ‎RNA‎ پیش بینی شده در نظر گرفته می‌شود.به‌دلیل اهمیت بالای داده ‎SHAPE‎ در پیش‌بینی ساختار ‎RNA‎، مدل‌های مختلفی برای شبیه‌سازی این داده برای هر ‎RNA‎ براساس توالی و ساختار دوم آن پیشنهاد می‌شوند. در بهترین مدل پیشنهادی یعنی ‎HL-k-mer‎، مخزنی از داده‌های ‎SHAPE‎ براساس زیر توالی‌های ‎RNA‎ها با طول ‎k‎ و بخش‌های ساختاری آن‌ها شامل هلیکس یا حلقه در یک مجموعه داده‌ی آموزشی ساخته می‌شود. سپس داده‌ی ‎SHAPE‎ به هر نوکلئوتید یک توالی ‎RNA‎ داده شده براساس مخزن اختصاص داده می‌شود. هم‌چنین این مدل به‌منظور شبیه‌سازی داده ‎SHAPE‎ برای ساختار دوم ‎RNA‎‌ با سودونات گسترش داده می‌شود. تأثیر داده ‎SHAPE‎، به ما انگیزه‌ای در استفاده از آن جهت پیش‌بینی برهم‌کنش بین دو مولکول ‎RNA‎ داد. روش پیشنهادی براساس کاهش تدریجی دما و داده ‎SHAPE‎ شبیه‌سازی شده می‌باشد. این الگوریتم شامل دو مرحله اصلی در هر دمای مشخص است. ابتدا، ساختار دوم هر توالی ‎RNA‎ و همچنین محل مکان‌های اتصال بین دو ‎RNA‎ به‌طور جداگانه محاسبه می‌شوند. سپس، ساختار برهم‌کنش با انتخاب بهترین ترکیب بدون تداخل استم‌ها در ساختارهای دوم و مکان‌های اتصال براساس حداقل انرژی تشکیل می‌شود. بازهای جفت شده در هر دما به‌عنوان محدودیت برای مراحل بعدی در نظر گرفته می‌شوند.شبیه‌سازی محاسباتی داده ‎SHAPE‎ برای یک توالی ‎RNA‎ داده شده، به ساختار دوم آن نیاز دارد. در روش ‎ESD-Fold‎، ما بر این محدودیت با به‌کاربردن جمعیتی از ساختارهای دوم غلبه نمودیم. نتایج، کارایی و اعتبار الگوریتم‌های پیشنهادی را در مقایسه با روش‌های دیگر نشان می‌دهند
    Abstract
    Recent studies show vital and fundamental roles of RNA molecules in the living cells and many biological processes. Any function of an RNA is directly related to its structure. In this regard, different computational methods were developed to predict RNA structure. Recently, the obtained information from the SHAPE experiment as pseudo-free energy improves the prediction accuracy of the RNA structure.In this dissertation, a new method entitled ESD-Fold is proposed to predict RNA secondary structure based on both free energy and SHAPE pseudo-free energy. For each RNA sequence, a population of secondary structures is constructed and their SHAPE data are simulated. Then, an evolutionary algorithm is used to improve each structure based on both free and pseudo-free energies. Finally, a structure with minimum energy is considered as the predicted RNA secondary structure.Due to the great impact of SHAPE data in RNA structure prediction, different models are presented to simulate this data for any RNA based on its sequence and secondary structure. In the best proposed model, HL-k-mer, SHAPE data is computed for RNA sub-sequences of length k (k-mers) appearing in helix and loop regions using a training dataset of 16 RNA sequences along with their corresponding secondary structures and SHAPE data. This model is extended to simulate the SHAPE data for the RNA pseudoknotted structure. The influence of SHAPE data motivated us to use it for RNA-RNA interaction prediction as well. The proposed method is based on a gradual temperature decrease and simulated SHAPE data. The algorithm contains two main steps in each specified temperature. First, secondary structure for each RNA sequence as well as binding sites between the two RNAs are separately computed. Second, the interaction structure is formed by selection the best non-conflicting combination of stems in the secondary structures and binding sites based on minimum energy. The paired bases in each temperature are considered as constraints for the next steps.Computationally simulating the SHAPE data for a given RNA sequence requires its secondary structure. In ESD-Fold, we overcome this limitation by employing a population of secondary structures. The results show the efficiency and validity of the proposed algorithms compared to the other approaches.Keywords: RNA secondary structure, SHAPE data, Evolutionary algorithm, k-mers, pseu-doknot, RNA-RNA interaction.