عنوان پایان‌نامه

تشخیص نوع بیماری با استفاده از نسخه های بیماران سرپایی



    دانشجو در تاریخ ۲۴ خرداد ۱۳۹۳ ، به راهنمایی ، پایان نامه با عنوان "تشخیص نوع بیماری با استفاده از نسخه های بیماران سرپایی" را دفاع نموده است.


    محل دفاع
    کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 64486;کتابخانه دانشکده علوم و فنون نوین شماره ثبت: 103
    تاریخ دفاع
    ۲۴ خرداد ۱۳۹۳
    استاد راهنما
    مهدی تیموری

    یکی از اقدامات مهم برای طرح و اجرای سیاست‌های ملی و بین‌المللی در حوزه بهداشت و درمان جمع¬آوری اطلاعات اپیدمیک بیماری¬ها و استفاده از این اطلاعات جهت تفسیر وضعیت سلامت جوامع است. یکی از مهم‌ترین اطلاعات اپیدمیک به دست آوردن میزان شیوع بیماری‌های واگیردار و غیر واگیردار جهت محاسبه بار بیماری‌ها است. معمولاً در مطالعات بار بیماری‌ها جهت به دست آوردن شیوع بیماری‌ها از اطلاعات موجود در مطالعات پیشین، داده‌های بیمارستانی و داده‌های مرگ‌ومیر استفاده می‌شود. با توجه به این که در این دسته از منابع اطلاعات کاملی در مورد بیماری‌های سرپایی قابل‌استخراج نیست، در مطالعه جهانی بار بیماری‌ها از محاسبه بار بیماری‌های سرپایی چشم‌پوشی شده است. هم¬چنین در آخرین مطالعه انجام‌گرفته در ایران جهت محاسبه بار بیماری‌ها، بار آن دسته از بیماری‌های سرپایی که اطلاعات بیمارستانی یا مرگ‌ومیر از آن‌ها در دست نبود محاسبه نشده است. به همین دلیل مرکز تحقیقات بیماری‌های غیر واگیردار دانشگاه تهران تصمیم گرفت از نسخه‌های پزشکی بیماران سرپایی جهت محاسبه شیوع بهره گیرد. با تفکیک این نسخه‌ها بر اساس بیماری‌ها قادر خواهیم بود به میزان شیوع هر بیماری دست پیدا کنیم. با توجه به این که فیلد نوع بیماری نسخه توسط پزشک تکمیل نمی‌شود، باید به دنبال راه‌حلی باشیم تا بتواند به صورت خودکار بیماری هر نسخه را شناسایی نماید. هدف از انجام این پروژه شناسایی خودکار بیماری‌های نسخه‌ها با استفاده از ابزارهای داده‌کاوی است. در این پایان‌نامه کار ما با آماده سازی داده آغاز شد. داده استفاده‌شده شامل 1412 نسخه است که توسط وزارت بهداشت در اختیار مرکز تحقیقات بیماری‌های غیر واگیردار دانشگاه تهران قرار گرفت. ابتدا این داده جهت تشخیص¬گذاری در اختیار گروهی از پزشکان و داروسازان قرار گرفت. سپس جهت کاهش تعداد مشخصه‌ها اقدام به گروه‌بندی داروها شد. در نهایت این داده جهت پردازش توسط الگوریتم‌های داده‌کاوی به قالب مناسب تبدیل شد. جهت مدل¬سازی از الگوریتم‌های متعدد مانند شبکه‌های عصبی، درخت تصمیم¬گیری و ماشین بردار پشتیبان، بیز ساده، رگرسیون لجستیک و نزدیک‌ترین همسایه استفاده¬ها دقت¬های مختلفی در شرایط مختلف دارند. مدل‌سازی‌ها در دو مرحله مختلف انجام شد. در مرحله اول سعی شد که تشخیص بیماری‌ها به صورت یکجا در قالب یازده کلاس انجام گیرد. درحالی‌که در مرحله دوم هر بیماری به صورت جداگانه مورد بررسی قرار گرفت؛ به عبارت دیگر در این مرحله، شبیه¬سازی‌ها به تعداد بیماری‌ها و در قالب دو کلاس تکرار شد. جهت ارزیابی مدل¬های به دست آمده از 75 درصد داده جهت آموزش و از 15 درصد باقیمانده جهت تست استفاده شد. در مرحله اول علاوه بر ارزیابی عملکرد الگوریتم‌های استفاده‌شده و مقایسه نتایج با یک روش پیش¬بینی ساده (نایو)، جهت بهبود نتایج از روش‌های ترکیب الگوریتم‌های داده‌کاوی مانند رأی‌گیری و پشته‌سازی استفاده شد. در مرحله دوم نیز پس از مدل¬سازی هر بیماری به صورت جداگانه از روش‌های انتخاب مشخصه مانند درخت تصمیم و رپر جهت انتخاب گروه‌های دارویی موثر در تشخیص هر بیماری استفاده شد و عملکرد این دو روش مورد ارزیابی قرار گرفت. نتایج مرحله اول شبیه‌سازی‌ها حاکی از عملکرد خوب روش‌های استفاده‌شده با صحت بالای 88 درصد در فاز آموزش و صحت بالای 86 درصد در فاز تست است. روش شبکه عصبی با صحت 94.33 درصد در فاز آموزش و 93.39 درصد در فاز تست بهترین عملکرد را در میان سایر روش‌ها از خود نشان داد. پایین¬ترین سطح عملکرد نیز مربوط به دو روش بیز ساده و نزدیک‌ترین همسایه است. با توجه به این که به مطالعه مشابهی در زمینه شناسایی بیماری نسخه مواجه نشدیم، جهت ارزیابی عملکرد روش‌های داده کاوی و اثبات برتری این روش¬ها از یک روش ساده استفاده شد که در بهترین حالت صحتی معادل 67.71 درصد داشت. در ادامه مرحله اول با استفاده از روش پشته‌سازی صحت نتایج در فاز تست به 94.33 درصد، با استفاده از روش رأی‌گیری ساده به 96.69 درصد و با استفاده از رأی‌گیری وزن‌دار به 97.19 درصد افزایش یافت. در مرحله دوم شبیه‌سازی‌ها هر روش داده‌کاوی عملکرد متفاوتی در شناسایی هر بیماری از خود نشان دادند. به طور کلی تمام روش‌ها با صحت بالاتر از 94 درصد قادر به تشخیص¬گذاری صحیح بیماری¬ها شدند. در ادامه کار با استفاده از روش‌های انتخاب مشخصه گروه¬های دارویی موثر در تشخیص هر بیماری شناسایی شدند. نتایج نشان داد که مشخصه‌های انتخاب‌شده در اکثر موارد با مشخصه‌های تعیین‌شده توسط پزشکان هم پوشانی دارد. به علاوه مدل‌سازی با مشخصه‌های انتخاب‌شده در 33 درصد موارد منجر به افزایش دقت تشخیص گذاری نسخه¬ها شد. نتایج این تحقیق می‌تواند به انتخاب روش داده‌کاوی مناسب جهت تشخیص گذاری صحیح نسخه¬ها کمک کند. به علاوه می‌توان فهمید کدام روش داده‌کاوی در تشخیص کدام بیماری موثرتر عمل می‌کند. جهت افزایش دقت مدل‌ها می‌توان از روش‌های ترکیبی استفاده نمود. هم چنین می‌توان با استفاده از روش‌های انتخاب مشخصه گروه¬های دارویی موثر در تشخیص هر بیماری را شناسایی کرده و مدل‌سازی‌ها را صرفاً با استفاده از مشخصه‌های انتخاب‌شده پیش برد. این کار منجر به کاهش چشمگیر حجم محاسبات و در نتیجه کاهش زمان پاسخگویی شده و به علاوه در اکثر موارد به افزایش دقت کمک می‌کند. واژه های کلیدی: بیماری‌های سرپایی، نسخه‌های پزشکی، تشخیص گذاری، شیوع، درخت تصمیم، شبکه عصبی، ماشین بردار پشتیبان، بیز ساده، رگرسیون لجستیک، نزدیک‌ترین همسایه، روش ساده (نایو)، رأی‌گیری، رأی‌گیری وزن دار، پشته‌سازی، انتخاب مشخصه، رپر.
    Abstract
    One of the important measures for the design and implementation of national and international policies in the health care is collecting the epidemiological data of disease and using this information to interpret the health status of communities. One of the most important categories of epidemiological data is prevalence of communicable diseases and non-communicable disease that is used for calculating the burden of diseases. In the burden of disease studies, information in the previous studies, hospital data and mortality data is usually used to obtain the prevalence of diseases. According to this fact that ccomplete information about the outpatient diseases is not extractable from such sources, Burden of disease in the outpatient setting is ignored by the global burden of diseases study. Also in a recent study to assess the burden of disease in Iran, burden of those outpatient diseases that hospital or mortality data were not available for them, have not been calculated. Therefore, Non-communicable Diseases Research Center of Tehran University decided to use prescription data of outpatient care to calculate prevalence of diseases. By categorization of prescriptions based on the diseases, we will be able to achieve their prevalence. Given that the diseases type field in prescriptions would not be complete by doctors, we're looking for a solution to be able to automatically detect the disease of each prescription. The aim of this project is automatic recognition of prescriptions diseases using data mining tools. We began this thesis with the preparation of data. The data used include the 1412 prescription that provided by ministry of health. First prescription diseases were diagnosed by a group of doctors and pharmacists. Then we attempted to reduce the number of properties by classification of drugs. Finally, these data were converted to a format suitable for processing by data mining algorithms. For modeling, multiple algorithms such as Neural Networks, Decision Trees, Support Vector Machine, Naive Bays, Logistic Regression and Nearest Neighbor were performed. Modeling was carried out in two stages. In the first stage we tried to detect diseases once in eleven classes, while in the second stage each disease separately examined; In other words, at this stage, simulations were repeated for all diseases in terms of two classes. In the both stages, 15% of the data (212 samples) was used for testing the models obtained from training data (75% of data). In the first stage the performances of data mining algorithms was compared with a Naive method, then Voting and Stacking techniques were used to improve results. Feature selection methods such as Decision Tree and Wrapper were used for extracting effective drug groups for each disease. The results of the first phase simulations of algorithms indicate a good performance in training phase with an accuracy of higher than 88% and in testing phase with an accuracy of higher than 86%. Neural Network with an accuracy of 94.3% in training phase and accuracy of 93.39% in testing phase showed the best performance among other methods. For evaluating the results of data mining algorithms a Naive method is developed that its accuracy was 67.71%. That showed data mining algorithms in the worst case can have better performances than Naive methods. In first stage using stacking, accuracy in testing phase rose to 94.33 percent using voting rose to 96.69% and weighted voting rose to 97.16 percent. In the second stage of simulations, each data mining method showed different performance in identifying the disease. Generally all methods enable to diagnose with an accuracy of higher than 94%. Then, using the feature selection methods effective drug groups in detecting the disease was identified. The results showed that in most cases, the selected features overlapping drug groups are determined by doctors. Moreover, modeling with selected features in 33% of cases leads to increased precision. The results of this study would be help to select a suitable data mining method for accurate diagnosis of prescriptions. Furthermore, we can find out which data mining method is more effective in detecting any disease. A combination of methods can be used to increase the accuracy of the models. You can also use the feature selection methods in identifying effective drug groups in detecting the disease and run the simulations by selected features. This led to a dramatic reduction in computational complexity and thus decreasing the response time and in most cases also helps to increase precision. Keywords: Outpatient Diseases, Prescription, Diagnosis, Prevalence, Decision Tree, Support Vector Machines, Neural Networks, Naïve Bays, Logistic Regression, Nearest Neighbor, Naïve method, Voting, Weighted Voting, Stacking, Feature selection, Wrapper