عنوان پایاننامه
تشخیص نوع بیماری با استفاده از نسخه های بیماران سرپایی
- رشته تحصیلی
- مهندسی فناوری اطلاعات پزشکی
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 64486;کتابخانه دانشکده علوم و فنون نوین شماره ثبت: 103
- تاریخ دفاع
- ۲۴ خرداد ۱۳۹۳
- دانشجو
- مهسا صعودی علمداری
- استاد راهنما
- مهدی تیموری
- چکیده
- یکی از اقدامات مهم برای طرح و اجرای سیاستهای ملی و بینالمللی در حوزه بهداشت و درمان جمع¬آوری اطلاعات اپیدمیک بیماری¬ها و استفاده از این اطلاعات جهت تفسیر وضعیت سلامت جوامع است. یکی از مهمترین اطلاعات اپیدمیک به دست آوردن میزان شیوع بیماریهای واگیردار و غیر واگیردار جهت محاسبه بار بیماریها است. معمولاً در مطالعات بار بیماریها جهت به دست آوردن شیوع بیماریها از اطلاعات موجود در مطالعات پیشین، دادههای بیمارستانی و دادههای مرگومیر استفاده میشود. با توجه به این که در این دسته از منابع اطلاعات کاملی در مورد بیماریهای سرپایی قابلاستخراج نیست، در مطالعه جهانی بار بیماریها از محاسبه بار بیماریهای سرپایی چشمپوشی شده است. هم¬چنین در آخرین مطالعه انجامگرفته در ایران جهت محاسبه بار بیماریها، بار آن دسته از بیماریهای سرپایی که اطلاعات بیمارستانی یا مرگومیر از آنها در دست نبود محاسبه نشده است. به همین دلیل مرکز تحقیقات بیماریهای غیر واگیردار دانشگاه تهران تصمیم گرفت از نسخههای پزشکی بیماران سرپایی جهت محاسبه شیوع بهره گیرد. با تفکیک این نسخهها بر اساس بیماریها قادر خواهیم بود به میزان شیوع هر بیماری دست پیدا کنیم. با توجه به این که فیلد نوع بیماری نسخه توسط پزشک تکمیل نمیشود، باید به دنبال راهحلی باشیم تا بتواند به صورت خودکار بیماری هر نسخه را شناسایی نماید. هدف از انجام این پروژه شناسایی خودکار بیماریهای نسخهها با استفاده از ابزارهای دادهکاوی است. در این پایاننامه کار ما با آماده سازی داده آغاز شد. داده استفادهشده شامل 1412 نسخه است که توسط وزارت بهداشت در اختیار مرکز تحقیقات بیماریهای غیر واگیردار دانشگاه تهران قرار گرفت. ابتدا این داده جهت تشخیص¬گذاری در اختیار گروهی از پزشکان و داروسازان قرار گرفت. سپس جهت کاهش تعداد مشخصهها اقدام به گروهبندی داروها شد. در نهایت این داده جهت پردازش توسط الگوریتمهای دادهکاوی به قالب مناسب تبدیل شد. جهت مدل¬سازی از الگوریتمهای متعدد مانند شبکههای عصبی، درخت تصمیم¬گیری و ماشین بردار پشتیبان، بیز ساده، رگرسیون لجستیک و نزدیکترین همسایه استفاده¬ها دقت¬های مختلفی در شرایط مختلف دارند. مدلسازیها در دو مرحله مختلف انجام شد. در مرحله اول سعی شد که تشخیص بیماریها به صورت یکجا در قالب یازده کلاس انجام گیرد. درحالیکه در مرحله دوم هر بیماری به صورت جداگانه مورد بررسی قرار گرفت؛ به عبارت دیگر در این مرحله، شبیه¬سازیها به تعداد بیماریها و در قالب دو کلاس تکرار شد. جهت ارزیابی مدل¬های به دست آمده از 75 درصد داده جهت آموزش و از 15 درصد باقیمانده جهت تست استفاده شد. در مرحله اول علاوه بر ارزیابی عملکرد الگوریتمهای استفادهشده و مقایسه نتایج با یک روش پیش¬بینی ساده (نایو)، جهت بهبود نتایج از روشهای ترکیب الگوریتمهای دادهکاوی مانند رأیگیری و پشتهسازی استفاده شد. در مرحله دوم نیز پس از مدل¬سازی هر بیماری به صورت جداگانه از روشهای انتخاب مشخصه مانند درخت تصمیم و رپر جهت انتخاب گروههای دارویی موثر در تشخیص هر بیماری استفاده شد و عملکرد این دو روش مورد ارزیابی قرار گرفت. نتایج مرحله اول شبیهسازیها حاکی از عملکرد خوب روشهای استفادهشده با صحت بالای 88 درصد در فاز آموزش و صحت بالای 86 درصد در فاز تست است. روش شبکه عصبی با صحت 94.33 درصد در فاز آموزش و 93.39 درصد در فاز تست بهترین عملکرد را در میان سایر روشها از خود نشان داد. پایین¬ترین سطح عملکرد نیز مربوط به دو روش بیز ساده و نزدیکترین همسایه است. با توجه به این که به مطالعه مشابهی در زمینه شناسایی بیماری نسخه مواجه نشدیم، جهت ارزیابی عملکرد روشهای داده کاوی و اثبات برتری این روش¬ها از یک روش ساده استفاده شد که در بهترین حالت صحتی معادل 67.71 درصد داشت. در ادامه مرحله اول با استفاده از روش پشتهسازی صحت نتایج در فاز تست به 94.33 درصد، با استفاده از روش رأیگیری ساده به 96.69 درصد و با استفاده از رأیگیری وزندار به 97.19 درصد افزایش یافت. در مرحله دوم شبیهسازیها هر روش دادهکاوی عملکرد متفاوتی در شناسایی هر بیماری از خود نشان دادند. به طور کلی تمام روشها با صحت بالاتر از 94 درصد قادر به تشخیص¬گذاری صحیح بیماری¬ها شدند. در ادامه کار با استفاده از روشهای انتخاب مشخصه گروه¬های دارویی موثر در تشخیص هر بیماری شناسایی شدند. نتایج نشان داد که مشخصههای انتخابشده در اکثر موارد با مشخصههای تعیینشده توسط پزشکان هم پوشانی دارد. به علاوه مدلسازی با مشخصههای انتخابشده در 33 درصد موارد منجر به افزایش دقت تشخیص گذاری نسخه¬ها شد. نتایج این تحقیق میتواند به انتخاب روش دادهکاوی مناسب جهت تشخیص گذاری صحیح نسخه¬ها کمک کند. به علاوه میتوان فهمید کدام روش دادهکاوی در تشخیص کدام بیماری موثرتر عمل میکند. جهت افزایش دقت مدلها میتوان از روشهای ترکیبی استفاده نمود. هم چنین میتوان با استفاده از روشهای انتخاب مشخصه گروه¬های دارویی موثر در تشخیص هر بیماری را شناسایی کرده و مدلسازیها را صرفاً با استفاده از مشخصههای انتخابشده پیش برد. این کار منجر به کاهش چشمگیر حجم محاسبات و در نتیجه کاهش زمان پاسخگویی شده و به علاوه در اکثر موارد به افزایش دقت کمک میکند. واژه های کلیدی: بیماریهای سرپایی، نسخههای پزشکی، تشخیص گذاری، شیوع، درخت تصمیم، شبکه عصبی، ماشین بردار پشتیبان، بیز ساده، رگرسیون لجستیک، نزدیکترین همسایه، روش ساده (نایو)، رأیگیری، رأیگیری وزن دار، پشتهسازی، انتخاب مشخصه، رپر.
- Abstract
- One of the important measures for the design and implementation of national and international policies in the health care is collecting the epidemiological data of disease and using this information to interpret the health status of communities. One of the most important categories of epidemiological data is prevalence of communicable diseases and non-communicable disease that is used for calculating the burden of diseases. In the burden of disease studies, information in the previous studies, hospital data and mortality data is usually used to obtain the prevalence of diseases. According to this fact that ccomplete information about the outpatient diseases is not extractable from such sources, Burden of disease in the outpatient setting is ignored by the global burden of diseases study. Also in a recent study to assess the burden of disease in Iran, burden of those outpatient diseases that hospital or mortality data were not available for them, have not been calculated. Therefore, Non-communicable Diseases Research Center of Tehran University decided to use prescription data of outpatient care to calculate prevalence of diseases. By categorization of prescriptions based on the diseases, we will be able to achieve their prevalence. Given that the diseases type field in prescriptions would not be complete by doctors, we're looking for a solution to be able to automatically detect the disease of each prescription. The aim of this project is automatic recognition of prescriptions diseases using data mining tools. We began this thesis with the preparation of data. The data used include the 1412 prescription that provided by ministry of health. First prescription diseases were diagnosed by a group of doctors and pharmacists. Then we attempted to reduce the number of properties by classification of drugs. Finally, these data were converted to a format suitable for processing by data mining algorithms. For modeling, multiple algorithms such as Neural Networks, Decision Trees, Support Vector Machine, Naive Bays, Logistic Regression and Nearest Neighbor were performed. Modeling was carried out in two stages. In the first stage we tried to detect diseases once in eleven classes, while in the second stage each disease separately examined; In other words, at this stage, simulations were repeated for all diseases in terms of two classes. In the both stages, 15% of the data (212 samples) was used for testing the models obtained from training data (75% of data). In the first stage the performances of data mining algorithms was compared with a Naive method, then Voting and Stacking techniques were used to improve results. Feature selection methods such as Decision Tree and Wrapper were used for extracting effective drug groups for each disease. The results of the first phase simulations of algorithms indicate a good performance in training phase with an accuracy of higher than 88% and in testing phase with an accuracy of higher than 86%. Neural Network with an accuracy of 94.3% in training phase and accuracy of 93.39% in testing phase showed the best performance among other methods. For evaluating the results of data mining algorithms a Naive method is developed that its accuracy was 67.71%. That showed data mining algorithms in the worst case can have better performances than Naive methods. In first stage using stacking, accuracy in testing phase rose to 94.33 percent using voting rose to 96.69% and weighted voting rose to 97.16 percent. In the second stage of simulations, each data mining method showed different performance in identifying the disease. Generally all methods enable to diagnose with an accuracy of higher than 94%. Then, using the feature selection methods effective drug groups in detecting the disease was identified. The results showed that in most cases, the selected features overlapping drug groups are determined by doctors. Moreover, modeling with selected features in 33% of cases leads to increased precision. The results of this study would be help to select a suitable data mining method for accurate diagnosis of prescriptions. Furthermore, we can find out which data mining method is more effective in detecting any disease. A combination of methods can be used to increase the accuracy of the models. You can also use the feature selection methods in identifying effective drug groups in detecting the disease and run the simulations by selected features. This led to a dramatic reduction in computational complexity and thus decreasing the response time and in most cases also helps to increase precision. Keywords: Outpatient Diseases, Prescription, Diagnosis, Prevalence, Decision Tree, Support Vector Machines, Neural Networks, Naïve Bays, Logistic Regression, Nearest Neighbor, Naïve method, Voting, Weighted Voting, Stacking, Feature selection, Wrapper