عنوان پایان‌نامه

شناسایی زیر شبکه های نشانگر به منظور ساخت مدل پیش بینی سرطان



    دانشجو در تاریخ ۱۱ مهر ۱۳۹۵ ، به راهنمایی ، پایان نامه با عنوان "شناسایی زیر شبکه های نشانگر به منظور ساخت مدل پیش بینی سرطان" را دفاع نموده است.


    مقطع تحصیلی
    کارشناسی ارشد
    محل دفاع
    کتابخانه دانشکده علوم و فنون نوین شماره ثبت: 557;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 78609;کتابخانه دانشکده علوم و فنون نوین شماره ثبت: 557;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 78609
    تاریخ دفاع
    ۱۱ مهر ۱۳۹۵

    با توجه به ماهیت ژنتیکی سرطان، تشخیص نشانگرهای ژنتیکی آن، یکی از مهمترین مسائل در زمینه تحلیل داده‌های پزشکی است. نشانگرهای ژنتیکی می‌توانند در ایجاد مدل‌هایطبقه‌بندی و تشخیص بیماری سرطان با استفاده از داده‌های میزان بیان ژن به کار روند‎. در سال‌های اخیر پژوهش‌های زیادی برای یافتن نشانگرهای ژنتیکی سرطان با استفاده از داده‌های میزان بیان ژن انجام شده است. مطالعات انجام شده نشان می‌دهد که استفاده از اطلاعات شبکه پروتئینی در یافتن این نشانگرها، می‌تواند در افزایش دقت و پایداری کارایی الگوریتم‌های تشخیص سرطان موثر باشد. روش‌های کنونی مبتنی بر شبکه هر یک از اطلاعات میزان بیان ژن‌ها و ارتباطات آنها در شبکه پروتئینی را به صورت مستقل بررسی می‌کنند. این در حالی است که بررسی همزمان این دو نوع اطلاعات در یک ساختار، می‌تواند منجر به کشف الگوهای جدیدی شود‎. به منظور بررسی همزمان دو نوع داده، در این پژوهش اطلاعات تعاملات‌ پروتئین‌ها و داده‌های میزان بیان ژن، در قالب یک شبکه واحد مشتمل بر ژن‌ها و نمونه‌ها مدل می شود. برای این کار نمونه‌ها به زیر مجموعه‌ای از ژن‌ها متصل می‌گردند و به کمک دو الگوریتمPageRank‎و Rank classification‎ شبکه حاصل مورد تحلیل قرار می‌گیرد تا ژن‌هایی که بیشترین ارتباط با بیماری را دارند، استخراج گردند. این ژن‌ها در گام بعد در قالب مجموعه‌های ژنی به هم پیوسته از شبکه استخراج می‌شوند و نشانگرهای نهایی را تشکیل می‌دهند‎. ما در این پژوهش از ‎??‎ مجموعه دادگان استفاده کردیم و طی سه مرتبه آزمایش، و هر مرتبه یکی از این مجموعه دادگان را به عنوان مجموعه آموزش و بقیه مجموعه دادگان را به عنوان آزمون در نظر گرفتیم. ابتدا برای تمام روش‌های مورد مقایسه و روش پیشنهادی ما، مدل پیش‌بینی روی مجموعه آموزش ساخته شد و روی مجموعه آزمون کارایی مدل ارزیابی شد. این مقایسه سه بار روی مجموعه دادگان مختلف انجام شد و نتایج نشان داد که کارایی مدل روش پیشنهادی ما نسبت به روش‌هایشبکه‌ای دیگر، دارای عملکرد بهتری است. علاوه بر این روش ما از منظر هستی‌شناسی ژن نیز عملکرد خوبی از خود نشان داد. واژگان کلیدی:داده‌های میزان بیان ژن، نشانگرهای سرطان، شبکه‌ تعامل پروتئین-پروتئین، زیرشبکه‌های نشانگر، مدل طبقه‌بندی نمونه‌ها
    Abstract
    ‎According to the genetically essence of cancer‎, ‎diagnosis of genetic markers‎, ‎one of the most important issues in the field of medical data analysis‎. ‎Genetic markers can be used to create a model for the classification and diagnosis of cancer using gene expression data. ‎In recent years‎, ‎many studies was performed to find the genetic markers of cancer using gene expression data‎. ‎Studies show that the use of a proteins network to find these markers‎, ‎can be effective in increasing the accuracy of cancer detection algorithms performance and stability‎. ‎Current methods based on network independently survey information of gene expression levels and their relationship in the proteins networks while simultaneous survey of these two types of information in a single structure could lead to the discovery of new patterns. ‎In this study‎, ‎for using two types of data‎, ‎proteins interaction data and gene expression data model in the form of a single network consisted of genes and samples‎. ‎For this purpose‎, ‎the sample significantly connected to the subset of genes‎. ‎Then with applying PageRank algorithm and Rank Classification algorithm in the resulting network is analyzed to extract the genes that are most associated with the disease‎. ‎In the next step‎, ‎these genes in the sets of genes that connected in the network are extracted and are formed final markers. ‎In this study‎, ‎we used 11 datasets and design three experiments on these datasets‎. ‎In each experiment‎, ‎we consider the one of datasets has a two type of samples as training set and other datasets as test set‎. ‎For all of the compared methods and our proposed method‎, ‎the prediction model was built on the training set and the performance were evaluated on the test set‎. ‎This comparison was performed three times on different data sets and the results showed that our method has better performance than other network based method‎. ‎Moreover‎, ‎the results of our method were showed a good performance in the terms of gene ontology‎. Keywords: ‎cancer markers‎, ‎protein-protein interaction network‎, ‎subnetwork markers‎,gene expression‎, ‎samples classification model