عنوان پایاننامه
ارائه ی مدلی برای تشخیص سرطان سینه با استفاده از تکنیکهای داده کاوی
- رشته تحصیلی
- مهندسی صنایع- صنایع
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه پردیس البرز شماره ثبت: 718;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 70733
- تاریخ دفاع
- ۲۸ شهریور ۱۳۹۴
- دانشجو
- مهسا خسروی
- استاد راهنما
- عباس کرامتی, جعفر حیدری
- چکیده
- سرطان سینه معمول ترین سرطان در میان زنان میباشد و هم اکنون مسئله مورد بحث گستردهای بحساب میآید. با توجه به توسعه تکنولوژی، ویژگیهای مختلف بسیاری جهت تشخیص و پیش بینی سرطان سینه جمعآوری شدهاند که بکارگیری تمام این ویژگیها برای حجم زیادی از موارد سرطانی توسط متخصصان بسیار مشکل میباشد. بنابراین متدولوژیهای تجزیه و تحلیل داده کمک بسیار مفیدی به متخصصان هنگام تصمیمگیری در مورد تشخیص و پیشبینی این سرطان کردهاند. از آنجائیکه با افزایش ویژگیهای سرطان پیچیدگی مدلهای موجود نیز به شدت افزایش یافته، هماکنون تحقیقات به تکنولوژیهای دادهکاوی و رویکرد های ماشینهای یادگیرنده جهت تشخیص و پیشبینی سرطان سینه روی آوردند. هدف این پژوهش ارائهی یک مدل ردهبندی بهمنظور تشخیص درجه بدخیمی و همچنین پیشبینی عود مجدد سرطان سینه بعد از دوره درمان می باشد. ابتدا اطلاعات مربوط به بیماران مراجعه کننده به بیمارستان امام خمینی شامل چندین ویژگی ژنتیکی مهم و تاثیرگذار جدید در تشخیص درجه بدخیمی و متاستاز سرطان سینه به همراه تعدادی ویژگی مهم پاتولوژی جمعآوری شد. بهمنظور انتخاب ویژگیهایی با توان تمایزی بالا، الگوریتم انتخاب ویژگی بدون نظارت و کم هزینه از نظر زمانی و محاسباتی آنتروپی را ارائه و سپس یک مدل ترکیبی شامل خوشهبندی و ردهبندی جهت کشف الگوهای پنهان و افزایش دقت ردهبندیکننده بکار گرفته شدند. در مدل فوق از الگوریتم K میانگین بهمنظور خوشهبندی و الگوریتم درخت تصمیم C5 به عنوان ردهبند پایه و همچنین بوستینگ آن به عنوان ردهبند جمعی استفاده شد. دقت مدل ارائه شده 44/94% میباشد. در ادامه جهت یافتن ارتباط و همبستگی متقابل میان اقلام مجموعه داده فوق به کشف قوانین انجمنی نیز پرداخته شد. در نهایت جهت ارزیابی بیشتر مدل پیشنهادی، بهمنظور پیشبینی عود مجدد سرطان سینه آنرا بر روی بستر مجموعه داده بیان ژن سرطان سینه مخزن پزشکی Kent Ridge مورد آزمایش قرار دادیم. نتایج بدست آمده از دقت ردهبندی نشان دادند که روش پیشنهادی بهترین دقت (100%) را در مقایسه با روشهای موجود ارائه میکند. مجموعه دادههای فوق با استفاده از متدولوژی CRISP-DM و با بهرهگیری از نرمافزارهای Clementine، RapidMiner و Matlab مورد بررسی قرار میگیرد.
- Abstract
- Breast cancer is the most common cancer among women and is now widely considered one discussed. The development of technology, many different properties in trying to diagnose and predict breast cancer have been collected using all of these features is very difficult for a large number of cancer cases by experts. So methodologies to analyze the data very useful help to detect and predict cancer specialists when deciding about them. Since cancer is characterized by increasing complexity of existing models also risen sharply, now research technologies, data mining and machine learning approach for breast cancer detection and prediction turned. The aim of this study was to provide a classification model to predict diagnosis grade and recurrence of breast cancer after treatment. First data on patients referred to Imam Khomeini hospital includes several new and important features in the diagnosis of breast cancer grade and metastasis with a number of important pathology features were collected. To lower the computational complexity, we employ an unsupervised entropy-based gene selection approach to select relevant prognostic and diagnostic genes that are directly responsible for prediction, then A hybrid model of clustering and classification were used to discover hidden patterns and increase the accuracy of classification model. K- means clustering algorithm and C5 decision tree algorithm as a basic classifier and Boosting one as aensemble classifier was used in the model. Accuracy of the model was 94.44%. Furthermore in order to find the correlation between the above-mentioned items of data sets association rules exploring were also discussed. Finally, for further assessment model, to predict recurrence of breast cancer, the breast cancer gene expression Kent Ridge Bio-medical dataset were tested. The results of classification accuracy showed that the proposed method has the best accuracy (100%) compared with the existing methods. These data sets using the CRISP-DM methodology and using the software, Clementine, RapidMiner and Matlab is examined.