ارایه چارچوبی برای ارزیابی ریسک اعتباری بذاساس استاندارد از تکنیکهای داده کاوی
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه پردیس 2 فنی شماره ثبت: 1942;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 48975
- تاریخ دفاع
- ۰۶ اردیبهشت ۱۳۹۰
- دانشجو
- نیلوفر یوسفی
- استاد راهنما
- عباس کرامتی
- چکیده
- در سال های اخیر افزایش تقاضای مشتریان دریافت اعتبار منجر به رقابتی شدید در صعنت اعتباری شده است. از این رو بخش اعتباری بانک ها هر روزه با حجم عظیمی از داده های اعتباری سر و کار دارند. بنابراین مدیران اعتباری مجبور به بکارگیری و بسط روشهای فراگیری ماشین در تحلیل داده های اعتباری میباشند تا به این صورت از اتلاف وقت، انرژی و هزینه جلوگیری کرده و همچنین میزان خطا های موجود در این زمینه را کاهش دهند. در میان روش های پر کاربرد در ارزیابی ریسک اعتباری، دسته ایی از روش های آماری بسیار شناخته شده می باشند که عموماً به عنوان مدل های امتیازدهی اعتباری شناخته میشوند. آنها مدل های چند متغیره ایی هستند که تعدادی از شاخص های مالی و اقتصادی یک متقاضی را به عنوان ورودی های مدل به کار میگیرند، سپس بر اساس میزان اهمیت هر یک از این شاخص ها وزنی متناسب به شاخص اختصاص میدهند و در نهایت یک مقیاس در ارزش اعتباری و در قالب یک امتیاز عددی به دست میدهند که به صورت غیر مستقیم بیان کننده احتمال نکول- هر گونه قصور در باز گرداندن بدهی- آن متقاضی برای دریافت اعتبار است. در سال های اخیر روش های کمی متعددی در زمینه امتیازدهی اعتباری پیشنهاد شده است. در میان تمامی این رویکردها، روش های داده کاوی محبوبیت خاصی یافته اند. علت این امر را میتوان در توانایی ویژه این مدل ها در کشف علوم کاربردی از یک مجموعه داده و تبدیل آنها به اطلاعاتی مفید جستجو کرد. روش های داده کاوی متعددی تا کنون در زمینه امتیازدهی اعتباری پیشنهاد شده اند که هر کدام از آنها دارای مزایا و محدودیت هایی میباشند. اما محدودیت مشترک بسیاری از روش های موجود اینست که تنها بر روی طبقه بندی مشتریان به دو گروه "خوب" یا "بد" تمرکز یافته اند. این در حالی ست که از نقطه نظر مدیریتی، پیش¬بینی یک احتمال نکول برای هر متقاضی بسیار معنا دار تر از طبقه بندی آنها به گروه های دو دویی است. هدف اصلی از این پایان نامه ، ارائه روش جدیدی است که علاوه بر طبقه بندی یک مشتری قادر به تخمین یک احتمال نکول برای آن متقاضی نیز میباشد. در این تحقیق نشان خواهیم داد که این احتمالات نکول-محاسبه شده توسط روش پیشنهادی- بسیار به مقادیر واقعی خود نزدیک هستند. مزیت دیگر این مدل علاوه بر کاربردی ساده و قابل درک، عدم وابستگی آن به یک دانش اولیه در مورد ساختار داده ها است. به منظور ارزیابی سطح کارایی مدل، دو مجموعه داده واقعی از پایگاه داده ای UCI مورد استفاده واقع شده است. نتایج تجربی نشان دهنده این مطلب است که مدل پیشنهادی از لحاظ کارایی و دقت طبقه بندی بسیار بهتر از روش مرسوم k-نزدیکترین همسایگی و نیز مدل فازی آن عمل میکند. همچنین نتایج عملی حاصل از روش به کار رفته از لحاظ دقت و صحت طبقه بندی با روش های شبکه عصبی، آنالیز تفکیک کننده، درخت رگرسیون و طبقه بندی و چهار مدل SVM مقایسه شده اند. به منظور ارزیابی دقت و صحت احتمالات نکول تخمینی نیز از یک روش جدید به نام روش طبقه بندی همواری استفاده کرده¬ایم. کارایی این روش بر اساس R2 (نزدیک به یک)، عرض از مبدأ رگرسیونی (نزدیک به صفر) و ضریب رگرسیونی (نزدیک به یک) بسیار مطلوب میباشد. در نهایت روش پیشنهادی بر روی یک مجموعه داده اعتباری از یک بانک خصوصی کشور اعمال و نتایج حاصل ارائه گردیده است.
- Abstract
- The increased demand for consumer credit has led to an intense competition in credit industry, so the credit department of the bank faces a large amount of credit data. Clearly it is impossible analyzing this huge amount of data both in economic and manpower terms. Therefore, credit managers have to develop and apply machine learning methods to handle analyzing credit data in order to save time and reduce errors. Among the most widely used models to evaluate credit risk, is a class of statistical models, generally known as “credit-scoring models”. These are multivariate models which use the main economic and financial indicators of a consumer as input, attributing a weight to each of them that reflects its relative importance in forecasting default. The result is an index of creditworthiness expressed as a numerical score, which indirectly measures the borrower’s probability of default. In recent years, several quantitative methods have been proposed in credit scoring context. Among all existent approaches, data mining methods have found more popularity than the others because of their ability in discovering practical knowledge from the database and transforming them into useful information. Many data mining methods have been proposed so far to handle credit scoring problems, and each of them has some advantages and disadvantages. Many of these proposed models can only classify customers into two classes “good” or “bad” ones. Form the perspective of risk management; prediction the probability of default for each applicant will be more meaningful than classifying them into the binary classes. In this study, we present a new method named "An Optimally Weighted Fuzzy K-Nearest Neighbor Algorithm" –OWFKNN- which is capable of estimation a default probability for each borrower in addition to classifying him. It will be shown that the probabilities of default, generated from this method are very close to their real values.The other advantage of the proposed model is that it dose not need any a priori information about the structure of the data, and it is very simple to use and understand. To show the performance of the proposed method, two real world data sets from UCI database are used. The empirical results demonstrate that the suggested model outperforms the conventional KNN and fuzzy KNN methods in term of classification accuracy. The experimental results are also compared with those produced by neural network, discriminant analysis, classification and regression tree and four SVM-based models in term of classification accuracy. To prove the accuracy of the estimated default probabilities, we have used a new method called Sorting Smoothing Method. OWFKNN shows a very good performance based on R2 (close to one), regression intercept (close to zero) and regression coefficient (close to one). At the end, we have applied the suggested method on a data set of an Iranian bank.