عنوان پایاننامه
ارایه یک روش نمونه برداری برای تخمین میزان شیوع بیماری های همه گیر
- رشته تحصیلی
- مهندسی فناوری اطلاعات پزشکی
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 75529;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 75529
- تاریخ دفاع
- ۳۱ شهریور ۱۳۹۵
- دانشجو
- سمیرا فاطمی
- استاد راهنما
- مصطفی صالحی, هادی ویسی
- چکیده
- چکیده بسیاری از مشکلات در علوم اجتماعی، بهداشت و سیاستهای جهانی نیازمند داشتن اطلاعات تفصیلی در مورد جوامع پنهان است. جامعه پنهان، جامعهای است که اعضای جامعه به سختی قابل دستیابیاند و عضویت در این جوامع بصورت بالقوه پرخطر است. برای مثال جامعهی معتادین تزریقی. در چنین جوامعی سرشماری و بررسی تمامی افراد، از نقطه نظر وقت، هزینه و دسترسی به اعضای جامعه عملا امکانپذیر نمیباشد. برای جمعآوری دادههای مرتبط با آلودگی افراد در جوامع پنهان، مجبور هستیم از نمونهبرداری استفاده کنیم و میزان شیوع آلودگی را تخمین بزنیم. به این فرآیند چارچوب اندازهگیری گفته میشود. زمانیکه صحبت از جوامع پنهان در میان است، دیگر روشهای سنتی نمونهبرداری پاسخگو نیستند و استفاده از این روشها عملی نیست. پس باید به روشهایی اتکا کنیم که مبتنی بر شبکهی مابین افراد هستند، به این روشها، روشهای نمونهبرداری از شبکههای پنهان میگویند. RDS پرکاربردترین روش نمونهبرداری از شبکههای پنهان است و برای جمعآوری اطلاعات از چنین جوامعی معرفی شده است. تا سال 2013 میلادی، بیش از 80 کشور در سراسر دنیا حداقل در یک مطالعهی عملی، از این روش استفاده کرده و آن را پیادهسازی کرده اند. با این حال تحقیقات اخیر نشان داده است، با اینکه RDS میتواند نمونههای زیادی را در این جوامع تولید کند اما کیفیت تخمینهای مشتق شده از این دادهها در بسیاری از منابع و مقالات به چالش کشیده شده است. منبع اصلی نگرانی این است، که استنتاج نتایج از دادههای بدست آمده توسط روش RDS نیازمند داشتن بسیاری از فرضیات قوی میباشد که در عمل به ندرت تحقق مییابند و نقض میشوند. نقض هر کدام از این فرضیات تأثیری بر روی نتایج تخمین میگذارد. در این پایاننامه، به مطالعه بر روی کارهای پیشین بر روی فرضیات اولیهی این روش و اثر نقض هر کدام از فرضیات بر تخمین پرداختیم. سپس با انتخاب فرضیهی گزارش صحیح درجه توسط گره پاسخدهنده، که نقض آن تأثیر بسزایی بر نتیجهی تخمین میگذارد و در عمل کمتر به آن پرداخته شدهاست و همچنین تمرکز بر روی فازی بودن ذاتی مفهوم درجهی ارتباطی افراد، تخمینزنندهای ارائه دادیم که اریب تخمین ناشی از نقض این فرضیه را کاهش دهد. سپس این تخمینزننده را بر روی دادههای آزمون واقعی و مصنوعی پیادهسازی کرده و سناریوهای مختلفی برای ارزیابی آن به کار بردیم، در نهایت نتایج حاصل از این تخمینزننده در حالت نقض فرضیه، نسبت به بهترین روش موجود (الگو)، بصورت میانگین در تمام نرخهای نمونهبرداری مورد نظر باعث کاهش 54% اریب شدهاست، همچنین رفتار تخمینزننده در تمامی شرایط نزدیک به روش RDS در حالت ایدهآل است و میانگین تفاضل اریب تخمینزننده با اریب در شرایط ایدهآل، در تمام نرخهای آلودگی مورد نظر، نسبت به روش الگو 72% کمتر است. بهترین تابع فازی پیشنهادی ما باتوجه به نتایج، تابع فازی مثلثی با پنج تابع عضویت است و بعد از آن به ترتیب تابع فازی مستطیلی و ذوزنقهای بهتر عمل کردند. ذکر این نکته الزامی است، در این پایاننامه تمرکز ما بهینهسازی توابع فازی، بازههای آن و روش استنتاج نبودهاست، ممکن است با بهینهکردن آنها نتایج بهتری حاصل شود. کلمات کلیدی : نمونهبرداری، RDS ، نقض فرضیات، درجهی ارتباطی افراد، منطق فازی، تخمینزننده.
- Abstract
- Abstract Respondent Driven Sampling (RDS) is a popular network-based method for sampling from hidden population (e.g., injection drug users) to measure a given property (e.g., HIV prevalence ratio). This method is a type of chain referral (or snowball) sampling in which an estimator is used to infer the proportion of the population with that property. Existing RDS estimators are asymptotically unbiased based on various underlying assumptions. However, these assumptions are violated in practice and recently many studies have been done on their effects on the sampling bias. But, the assumption of accurate degree reported by each respondent (i.e., the accurate number of contacts that an individual knows by name) was received less attention. In this paper, we addressed the violation of this assumption and propose a new estimator based on the fuzzy logic principles. In particular, the number of an individual’s contacts can be a fuzzy concept, which can be mapped into very low, low, medium, high and very high. Using fuzzy functions, we transform reported degrees to fuzzy numbers and estimate the infection prevalence in hidden population by the proposed estimator. We simulated RDS method under the condition that all assumptions are satisfied except degree reported accurately and then evaluate the proposed estimator in synthetic and real datasets. Our results show, when the degrees are reported inaccurately, our fuzzy estimator can reduce sampling bias in average 54% than exisitng methods. Moreover, the behavior of fuzzy estimator is close to well-known V-H estimator when all assumptions are satisfied. Keywords: Respondent Driven Sampling, Initial Assumption, Degree, Estimator, Fuzzy Logic