عنوان پایاننامه
شناسایی زیر شبکه های نشانگر به منظور ساخت مدل پیش بینی سرطان
- رشته تحصیلی
- علوم تصمیم و مهندسی دانش
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه دانشکده علوم و فنون نوین شماره ثبت: 557;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 78609;کتابخانه دانشکده علوم و فنون نوین شماره ثبت: 557;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 78609
- تاریخ دفاع
- ۱۱ مهر ۱۳۹۵
- دانشجو
- محمدحسین ساعدی
- استاد راهنما
- سامان هراتی زاده, زهرا رزاقی مقدم کاشانی
- چکیده
- با توجه به ماهیت ژنتیکی سرطان، تشخیص نشانگرهای ژنتیکی آن، یکی از مهمترین مسائل در زمینه تحلیل دادههای پزشکی است. نشانگرهای ژنتیکی میتوانند در ایجاد مدلهایطبقهبندی و تشخیص بیماری سرطان با استفاده از دادههای میزان بیان ژن به کار روند. در سالهای اخیر پژوهشهای زیادی برای یافتن نشانگرهای ژنتیکی سرطان با استفاده از دادههای میزان بیان ژن انجام شده است. مطالعات انجام شده نشان میدهد که استفاده از اطلاعات شبکه پروتئینی در یافتن این نشانگرها، میتواند در افزایش دقت و پایداری کارایی الگوریتمهای تشخیص سرطان موثر باشد. روشهای کنونی مبتنی بر شبکه هر یک از اطلاعات میزان بیان ژنها و ارتباطات آنها در شبکه پروتئینی را به صورت مستقل بررسی میکنند. این در حالی است که بررسی همزمان این دو نوع اطلاعات در یک ساختار، میتواند منجر به کشف الگوهای جدیدی شود. به منظور بررسی همزمان دو نوع داده، در این پژوهش اطلاعات تعاملات پروتئینها و دادههای میزان بیان ژن، در قالب یک شبکه واحد مشتمل بر ژنها و نمونهها مدل می شود. برای این کار نمونهها به زیر مجموعهای از ژنها متصل میگردند و به کمک دو الگوریتمPageRankو Rank classification شبکه حاصل مورد تحلیل قرار میگیرد تا ژنهایی که بیشترین ارتباط با بیماری را دارند، استخراج گردند. این ژنها در گام بعد در قالب مجموعههای ژنی به هم پیوسته از شبکه استخراج میشوند و نشانگرهای نهایی را تشکیل میدهند. ما در این پژوهش از ?? مجموعه دادگان استفاده کردیم و طی سه مرتبه آزمایش، و هر مرتبه یکی از این مجموعه دادگان را به عنوان مجموعه آموزش و بقیه مجموعه دادگان را به عنوان آزمون در نظر گرفتیم. ابتدا برای تمام روشهای مورد مقایسه و روش پیشنهادی ما، مدل پیشبینی روی مجموعه آموزش ساخته شد و روی مجموعه آزمون کارایی مدل ارزیابی شد. این مقایسه سه بار روی مجموعه دادگان مختلف انجام شد و نتایج نشان داد که کارایی مدل روش پیشنهادی ما نسبت به روشهایشبکهای دیگر، دارای عملکرد بهتری است. علاوه بر این روش ما از منظر هستیشناسی ژن نیز عملکرد خوبی از خود نشان داد. واژگان کلیدی:دادههای میزان بیان ژن، نشانگرهای سرطان، شبکه تعامل پروتئین-پروتئین، زیرشبکههای نشانگر، مدل طبقهبندی نمونهها
- Abstract
- According to the genetically essence of cancer, diagnosis of genetic markers, one of the most important issues in the field of medical data analysis. Genetic markers can be used to create a model for the classification and diagnosis of cancer using gene expression data. In recent years, many studies was performed to find the genetic markers of cancer using gene expression data. Studies show that the use of a proteins network to find these markers, can be effective in increasing the accuracy of cancer detection algorithms performance and stability. Current methods based on network independently survey information of gene expression levels and their relationship in the proteins networks while simultaneous survey of these two types of information in a single structure could lead to the discovery of new patterns. In this study, for using two types of data, proteins interaction data and gene expression data model in the form of a single network consisted of genes and samples. For this purpose, the sample significantly connected to the subset of genes. Then with applying PageRank algorithm and Rank Classification algorithm in the resulting network is analyzed to extract the genes that are most associated with the disease. In the next step, these genes in the sets of genes that connected in the network are extracted and are formed final markers. In this study, we used 11 datasets and design three experiments on these datasets. In each experiment, we consider the one of datasets has a two type of samples as training set and other datasets as test set. For all of the compared methods and our proposed method, the prediction model was built on the training set and the performance were evaluated on the test set. This comparison was performed three times on different data sets and the results showed that our method has better performance than other network based method. Moreover, the results of our method were showed a good performance in the terms of gene ontology. Keywords: cancer markers, protein-protein interaction network, subnetwork markers,gene expression, samples classification model