عنوان پایاننامه
ارائهی راهکار بهبود یافته شناسایی کلاهبرداری در پرداختهای الکترونیکی مبتنی بر مدیریت رانش مفهوم
- رشته تحصیلی
- مهندسی فناوری اطلاعات
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2328;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 59626
- تاریخ دفاع
- ۳۰ اردیبهشت ۱۳۹۲
- دانشجو
- دنیا ملکیان
- استاد راهنما
- محمود رضا هاشمی
- چکیده
- در سالهای اخیر تحقیقات بسیاری با هدف امن نمودن محیط تجارت الکترونیکی، روشهای کشف تقلب متفاوتی ارائه نمودهاند. یکی از چالشهای مطرح در این روشها، عدم وفق پذیری آنها با تغییر رفتار مشتریان و متقلبان میباشد. این تغییرات تحت عنوان رانش مفهوم شناخته میشوند. بطور کلی رانش مفهوم اشاره به چالش تغییر توزیع دادهها در طول زمان دارد و باعث میشود استفاده از دادههای قدیمی برای تعیین وضعیت دادههای جدید مناسب نباشد. برای مدیریت رانش مفهوم در این روشها دو تأثیر متناقض وجود دارد؛ از طرفی در حضور رانش مفهوم احتمال منسوخ شدن دادههای قدیمی زیاد است و استفاده از آنها افت دقت را بدنبال دارد و از طرف دیگر، پروفایل مبتنی بر تاریخچهی رفتاری مشتری و سازماندهی مناسب آن در این روشها نقش اساسی دارد. در این تحقیق با تمرکز بر چالشهای فوق، چارچوبی برای مدیریت رانش مفهوم در روشهای تشخیص تقلب مبتنی بر پروفایل ارائه دادیم که متشکل از سه بخش تشخیص تقلب، مدیریت رانش مفهوم و بهروزرسانی میباشد. در چارچوب پیشنهادی آموزش روی تراکنشهای جدید، در پروفایل ثانویهای به طور مجزا از پروفایل مبتنی بر تاریخچه (اولیه) صورت میپذیرد. در بخش تشخیص تقلب تراکنشها با استفاده از دو پروفایل اولیه و ثانویه تعیین وضعیت میشوند. در بخش مدیریت رانش مفهوم پروفایل محتملتر برای تراکنشهای مشکوک مشخص میشود و در بخش بروزرسانی آموزش روی مفاهیم جدید، فراموشی مفاهیم منسوخ و تنظیم پارامتر سامانه تشخیص تقلب صورت میپذیرد. پس از ارائهی چارچوب، روشهایی کلی در دو مؤلفه "مدیریت رانش مفهوم" و "تنظیم پارامتر" چارچوب ارائه نمودیم که سامانههای تشخیص تقلبی که در ساخت پروفایل از الگوریتمهای خوشهبندی استفاده میکنند را هدف قرار میدهند. مؤلفهی مدیریت رانش مفهوم در محوریت اصلی این تحقیق قرار دارد که در آن دو روش ارائه نمودیم؛ در روش اول در حضور رانش مفهوم معیاری مبتنی بر یک روش شهودی ، ملاک انتخاب بین دو پروفایل اولیه و ثانویه قرار میگیرد تا از پراکندگی نظرات جلوگیری شود و تنها نظر مناسبترین پروفایل اعمال شود. در سناریوهایی که تغییر توزیع دادهها به آهستگی اتفاق میافتد، استفاده از نظر هر دو پروفایل افزایش دقت را بدنبال خواهد داشت. بنابراین در راهکار دوم معیاری مبتنی بر فرضیه حداکثر تجربی برای انتخاب پروفایل محتمل ارائه دادیم که در حضور رانش مفهوم، از نظر هر دو پروفایل با وزن مشخصی استفاده میکند. در مؤلفهی تنظیم پارامتر نیز روشی مبتنی بر تحلیل گروههای همتا برای تنظیم پویای پارامترهای تحت تاثیر رانش مفهوم ارائه دادیم. برای ارزیابی چارچوب و روشهای پیشنهادی در آن، یک سامانه کشف تقلب مبتنی بر پروفایل را بکار گرفتیم و ارزیابی را در دو مرحله انجام دادیم: در مرحلهی اول، بخش تشخیص تقلب چارچوب را ارزیابی نمودیم تا اطمینان حاصل کنیم که پارامترهای ورودی با استفاده از روش تنظیم پارامتر تاثیری در نتایج اولیه سامانه کشف تقلب ایجاد نمیکند. در مرحله دوم چارچوب را به ترتیب با استفاده از روش شهودی و روش حداکثر تجربی ارزیابی نمودیم. نتایج ارزیابی نشان داده است که در حضور انواع رانش مفهوم، روش شهودی و روش حداکثر تجربی به ترتیب نرخ منفی کاذب را در سامانه کشف تقلب مذکور بطور میانگین 85/7% و 91/2% کاهش دادهاند. نتایج به تفکیک نوع رانش نشان داده است که در محیطی که رانش مفهوم رخ نمیدهد و یا تغییر توزیع دادهها به آهستگی اتفاق میافتد روش حداکثر تجربی و در محیطی که توزیع دادهها یکباره دچار تغییر میشود روش شهودی نتایج بهتری داشتهاند.
- Abstract
- As e-commerce continues to grow, so does the opportunity for perpetrating online fraud. As a result many researches have been conducted to make online transactions possible in a risk free environment by proposing different fraud detection methods.Profile based fraud detection techniques handle diversity in fraudster behavior, but rely on the assumption that user’s behavior will not vary significantly over time. In other words, these techniques make no attempt to distinguish the changes in a cardholder behavior which are due to concept drift. Thus, concept drift leads to a drastic drop in the model’s accuracy in these techniques. That is why recently new algorithms dedicated to data streams have been proposed. Most of these methods just keep the recent instances for model training. Therefore, they ignore experience when the history repeats itself. Furthermore, most of these approaches that utilize classification techniques make impractical assumptions about the availability of labeled data. In light of the above challenges, we propose a concept drift management framework for e-payment transactions which can be used with any profile based fraud detection system. The proposed framework consists of three main sections: Fraud Detection, Concept Drift Management, and Update. Our framework keeps two concept histories: The initial profile which has been constructed during the training phase and retains the historical concepts, and the temporary profile that has been created to retain new concepts in the incoming data stream. By managing concept drift and updating the normal profile systematically, false alarms have decreased and the fraud detection rate has increased significatly in our framework. In this research we propose general approaches for two of the framework modules: The task of tuning parameter for fraud detection system is delegated to tune parameter module. In this research we propose an approach based on peer group analysis for this module. Defining a proper metric for selecting the most probable profile in our framework is delegated to the concept drift management module. In this research, we propose two approaches for this module; in the first approach, by considering different kind of concept drift, we propose a huristic based metric in which the closest profile to recent concept is determined as the most probable profile for suspicious transactions and its decisions determine the final verdict for these transactions. The heuristic based scheme is able to reduce the false positives of a typical fraud detection method to 4.3% in average in the presence of a wide variety of concept drifts in the incoming transactions. This is an average of 85.7% reduction in FPs for this fraud detection technique. In occurrence of changes which happens slowly over time, using both profiles decision make an approach more robust to false alarm rate. To address this concern, we proposed the second approach which is based on maximum a posteriori (MAP) hypothesis. Experimental results indicate that this approach has reduced the false positives of a typical fraud detection method to 2.5% in average in the presence of a wide variety of concept drifts in the incoming transactions. Evaluation results indicate that the two approaches resulted in different accuracy in occurrence of different kind of drift.the heuristic approach is usually better suited for environment with sudden drift. While MAP based approach is better suited for the changes which happens slowly over time.