عنوان پایاننامه
ارائه روشی برای دسته بندی مبتنی بر قاعده ی داده های غیر قطعی در پزشکی
- رشته تحصیلی
- مهندسی فناوری اطلاعات پزشکی
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 64307;کتابخانه دانشکده علوم و فنون نوین شماره ثبت: 102
- تاریخ دفاع
- ۱۲ بهمن ۱۳۹۲
- دانشجو
- آوا اسدی ابوالوردی
- استاد راهنما
- سامان هراتی زاده
- چکیده
- همواره تشخیص صحیح بیماری یکی از مشکلات بشر بوده است. امروزه با پیشرفت در حوزه¬ی علوم کامپیوتر، می¬توان از راهکارهای رایانه¬ای برای حل این مشکل استفاده کرد. یکی از این راهکارها، استفاده از یادگیری ماشین و داده¬کاوی برای تشخیص بیماری می¬باشد. در این حوزه، تا کنون کارهای زیادی صورت پذیرفته است، ولی بیشتر تلاش¬ها، با فرض قطعی بودن داده، انجام شده¬اند و این در حالی است که در حوزه¬ی پزشکی، بیش از دیگر حوزه¬ها، احتمال بوجود آمدن داده¬ی غیرقطعی، وجود دارد. این عدم قطعیت داده¬ها، ناشی از محدودیت ابزارهای جمعآوری اطلاعات و همچنین حفظ حریم خصوصی شخص می¬باشد. برای رسیدن به این هدف، روش¬های بسیاری وجود دارد، ولی از آنجا که پزشکان، تمایل بسیاری برای دانستن نحوه¬ی نتیجهگیری دارند، به روش¬های مبتنی بر قاعده، که از داده، قواعد اگر– آنگاه، استخراج می¬کنند و درک و فهم¬شان برای افراد بسیار ساده است، علاقه¬ی بیشتری دارند. از این رو، ما برآن شدیم تا با توجه به عدم قطعیت داده¬ها و با توجه به مزایای الگوریتم¬های مبتنی بر قاعده ، روشی مبتنی بر قاعده برای تشخیص بیماری ارائه دهیم. روش ارائه شده¬ی ما، با استفاده از الگوریتم ژنتیک، قواعد دستهبندی فازی، برای تشخیص بیماری، از داده استخراج میکند. برای نیل به این هدف، ما از الگوریتم ژنتیک که دارای مزایایی چون قابلیت بالا در جستجوی فضاهای بزرگ و پیچیده میباشد استفاده کردیم. از بین روش¬های موجود در این الگوریتم، روش میشیگان را انتخاب کردیم. در ادامه برای تقسیمبندی ویژگی-های کمی به مقادیر زبانی، روشی جدید ارائه دادیم. از آنجا که تمرکز کار ما بر روی دادههای غیرقطعی است، ملاحظات ویژهای متوجه کار است، برای همین تمامی این موارد را در الگوریتم ارائه شده مورد توجه قرار دادیم. در نهایت، الگوریتم ارائه شده را بر روی سه مجموعه داده اعمال کردیم. لازم بهذکر است که مجموعه داده¬ی استاندارد غیرقطعی وجود ندارد. بههمین علت تمامی پژوهش¬گرانی که در این زمینه کار کرده¬اند، با روشهای گوناگونی، مجموعه داده¬های استاندارد قطعی را به داده¬هایی غیرقطعی تبدیل کردند. در همین راستا، ما نیز برای مقایسه¬ی کار خود با کارهای پیشین، از روش¬های معمول تبدیل داده¬ی قطعی به غیرقطعی استفاده کردیم. ناگفته نماند که برای این تبدیل، میزان عدم قطعیت اعمال شده به داده¬ی قطعی، قابل تعریف است. در انتها الگوریتم پیشنهادی را با الگوریتم¬های قاعده پایهای که برای کار با داده-های غیرقطعی تاکنون ارائه شده¬اند، مقایسه کردیم. برای مقایسه، میزان خطای الگوریتم¬ها، در تشخیص بیماری را معیار مقایسه قرار دادیم. منظور از میزان خطای الگوریتم، درصد نمونه¬هایی است که الگوریتم به اشتباه دستهبندی میکند. بدیهی است هرچه میزان خطای الگوریتم کمتر باشد، کارایی الگوریتم بهتر است. نتایج بدست آمده از اعمال الگوریتم پیشنهادی و روش مشابه پیشین، بر روی سه مجموعه داده¬ی مختلف، نشان می¬دهد که روش پیشنهادی، از روش¬ مشابه دیگر، از دقت بیشتری برخوردار است. کلمات کلیدی: الگوریتم ژنتیک، الگوریتم¬های مبتنی بر قاعده، منطق فازی، داده¬های غیرقطعی.
- Abstract
- Correct diagnosis of the disease, is always one of the human problems. Nowadays with the advancement in the field of computer science, computer solutions can be used to solve this problem. One of these solutions is to use machine learning and data mining to detect disease. In this area, so many works has been done so far, but most of them, assumed the data to be certain, whereas, in the medical field, the probability of data to be uncertain, is so much more than the other fields. Data uncertainty is common in real-world applications due to various causes, including imprecise measurement, network latency, outdated sources and privacy. To achieve this goal, there are many techniques, but physicians are very interested in the rule based techniques that extract if – then rules, because these techniques are very easy to understand and also the conclusion is clear. So we decided to present a rule based algorithm to diagnose diseases. We used genetic algorithm to extract fuzzy classification rules from data. In our suggested algorithm, we tried to improve the accuracy and also have an acceptable time complexity. Our experimental results show that our suggested algorithm has better performance than the other related work. Keywords: Genetic algorithm, rule based algorithms, fuzzy logic, uncertain data.