عنوان پایان‌نامه

ارائه ی مدلی برای تشخیص سرطان سینه با استفاده از تکنیکهای داده کاوی



    دانشجو در تاریخ ۲۸ شهریور ۱۳۹۴ ، به راهنمایی ، پایان نامه با عنوان "ارائه ی مدلی برای تشخیص سرطان سینه با استفاده از تکنیکهای داده کاوی" را دفاع نموده است.


    رشته تحصیلی
    مهندسی صنایع- صنایع
    مقطع تحصیلی
    کارشناسی ارشد
    محل دفاع
    کتابخانه پردیس البرز شماره ثبت: 718;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 70733
    تاریخ دفاع
    ۲۸ شهریور ۱۳۹۴
    دانشجو
    مهسا خسروی
    استاد راهنما
    عباس کرامتی, جعفر حیدری

    سرطان سینه معمول ترین سرطان در میان زنان میباشد و هم اکنون مسئله مورد بحث گسترده‌ای بحساب می‌آید. با توجه به توسعه تکنولوژی،‌ ویژگی‌های مختلف بسیاری جهت تشخیص و پیش بینی سرطان سینه جمع‌آوری شده‌اند که بکارگیری تمام این ویژگی‌ها برای حجم زیادی از موارد سرطانی توسط متخصصان بسیار مشکل می‌باشد. بنابراین متدولوژی‌های تجزیه و تحلیل داده کمک بسیار مفیدی به متخصصان هنگام تصمیم‌گیری در مورد تشخیص و پیش‌بینی این سرطان کرده‌اند. از آنجائیکه با افزایش ویژگی‌های سرطان پیچیدگی مدل‌های موجود نیز به شدت افزایش یافته، هم‌اکنون تحقیقات به تکنولوژی‌های داده‌کاوی و رویکرد های ماشین‌های یادگیرنده جهت تشخیص و پیش‌بینی سرطان سینه روی آوردند. هدف این پژوهش ارائه‌ی یک مدل رده‌بندی به‌منظور تشخیص درجه بدخیمی و همچنین پیش‌بینی عود مجدد سرطان سینه بعد از دوره درمان می باشد. ابتدا اطلاعات مربوط به بیماران مراجعه کننده به بیمارستان امام خمینی شامل چندین ویژگی ژنتیکی مهم و تاثیرگذار جدید در تشخیص درجه بدخیمی و متاستاز سرطان سینه به همراه تعدادی ویژگی مهم پاتولوژی جمع‌آوری شد. به‌منظور انتخاب ویژگی‌هایی با توان تمایزی بالا، الگوریتم انتخاب ویژگی بدون نظارت و کم هزینه از نظر زمانی و محاسباتی آنتروپی را ارائه و سپس یک مدل ترکیبی شامل خوشه‌بندی و رده‌بندی جهت کشف الگو‌های پنهان و افزایش دقت رده‌بندی‌کننده بکار گرفته شدند. در مدل فوق از الگوریتم K میانگین به‌منظور خوشه‌بندی و الگوریتم درخت تصمیم C5 به عنوان رده‌بند پایه و همچنین بوستینگ آن به عنوان رده‌بند جمعی استفاده شد. دقت مدل ارائه شده 44/94% می‌باشد. در ادامه جهت یافتن ارتباط و هم‌بستگی متقابل میان اقلام مجموعه داده فوق به کشف قوانین انجمنی نیز پرداخته شد. در نهایت جهت ارزیابی بیشتر مدل پیشنهادی، به‌منظور پیش‌بینی عود مجدد سرطان سینه آن‌را بر روی بستر مجموعه داده بیان ژن سرطان سینه مخزن پزشکی Kent Ridge مورد آزمایش قرار دادیم. نتایج بدست آمده از دقت رده‌بندی نشان دادند که روش پیشنهادی بهترین دقت (100%) را در مقایسه با روش‌های موجود ارائه می‌کند. مجموعه داده‌های فوق با استفاده از متدولوژی CRISP-DM و با بهره‌گیری از نرم‌افزارهای Clementine، RapidMiner و Matlab مورد بررسی قرار می‌گیرد.
    Abstract
    Breast cancer is the most common cancer among women and is now widely considered one discussed. The development of technology, many different properties in trying to diagnose and predict breast cancer have been collected using all of these features is very difficult for a large number of cancer cases by experts. So methodologies to analyze the data very useful help to detect and predict cancer specialists when deciding about them. Since cancer is characterized by increasing complexity of existing models also risen sharply, now research technologies, data mining and machine learning approach for breast cancer detection and prediction turned. The aim of this study was to provide a classification model to predict diagnosis grade and recurrence of breast cancer after treatment. First data on patients referred to Imam Khomeini hospital includes several new and important features in the diagnosis of breast cancer grade and metastasis with a number of important pathology features were collected. To lower the computational complexity, we employ an unsupervised entropy-based gene selection approach to select relevant prognostic and diagnostic genes that are directly responsible for prediction, then A hybrid model of clustering and classification were used to discover hidden patterns and increase the accuracy of classification model. K- means clustering algorithm and C5 decision tree algorithm as a basic classifier and Boosting one as aensemble classifier was used in the model. Accuracy of the model was 94.44%. Furthermore in order to find the correlation between the above-mentioned items of data sets association rules exploring were also discussed. Finally, for further assessment model, to predict recurrence of breast cancer, the breast cancer gene expression Kent Ridge Bio-medical dataset were tested. The results of classification accuracy showed that the proposed method has the best accuracy (100%) compared with the existing methods. These data sets using the CRISP-DM methodology and using the software, Clementine, RapidMiner and Matlab is examined.