Ağaç temelli makine öğrenmesi yöntemleri ile kredi risk analizi
Küçük Resim Yok
Tarih
2023
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
İstanbul Ticaret Üniversitesi
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Günlük yaşam içerisinde çeşitli fırsatlarla kredi kullanımı hayatımızın bir rutini haline gelmiştir. Buna karşılık bankacılık ve finans kuruluşları da kendilerine gelen kredi taleplerinin herhangi bir risk içerip içermediğini tespit etme ihtiyacı duymaktadır. Bu doğrultuda bu kurumlar, kredi başvurusunda bulunan kişinin geçmiş kredi kayıtlarından yararlanarak kredi derecelendirme modellerinin doğru çalışıp çalışmadığını tespit etme konusundaki faaliyetlerini artırmışlardır. Makine öğrenmesi tabanlı teknolojiler bu alanda yeni bir çığır açmıştır. Kredi puanlaması için yapay zeka ve makine öğrenmesi tabanlı yöntemler şu anda bankacılık veya bankacılık dışı finans kurumları tarafından yaygın olarak uygulanmaktadır. Kullanılan modeller, çok çeşitli bilgilerin mevcut olduğu müşteriye ait verilerden anlamlı özellikler çıkarmaktadır. Bu çalışmada rastgele orman, catboost, xgboost ve lightgbm yöntemleri kullanılarak kredi temerrüt riski değerlendirmesi yapılmaktadır. Bu amaçla Kaggle home credit default risk veri seti kullanılmış ve kredilendirme eğiliminin sonuçlar üzerindeki etkisi de göz önünde bulundurulmuştur. Sonuçlar, gradyan artırma yöntemlerinin birbirine yakın sonuçlar verdiğini, temel modellerde catboost ve random forest yöntemlerinin oldukça düşük AUC değerlerine sahip olduğunu, xgboost ve lightgbm'nin birbirine oldukça yakın ve diğer modellerden yaklaşık yüzde elli daha iyi AUC değerlerine sahip olduklarını göstermiştir. Kredilendirme eğilimi random forest ve catboost'ta AUC değerini artırırken, yeni değerler yine de xgboost ve lightgbm'nin AUC değerinden düşük olarak gerçekleşmiştir. Kredilendirme eğilimi xgboost ve lightgbm'nin AUC değerinde görece küçük bir düşüşe neden olmakta ise de xgboost ve lightgbm hala öne çıkmakta ve lightgbm'nin en iyi AUC değerine sahip olduğu görülmektedir.
The use of credit with various opportunities in daily life has become a routine of our lives. On the other hand, banking and financial institutions also need to determine whether the loan requests they receive contain any risk. Accordingly, these institutions have increased their activities to determine whether the credit rating models are working correctly by using the past credit records of the loan applicant. Machine learning-based technologies have broken new ground in this field. Artificial intelligence and machine learning-based methods for credit scoring are now widely applied by banking and non-banking financial institutions. The models used extract meaningful features from customer data where a wide variety of information is available. In this study, credit default risk assessment is performed using random forest, catboost, xgboost and lightgbm methods. For this purpose, the Kaggle home credit default risk dataset is used and the effect of the crediting trend on the results is also taken into account. The results show that the gradient boosting methods give similar results, catboost and random forest methods have very low AUC values in the base models, while xgboost and lightgbm are very close to each other and have about fifty percent better AUC values than the other models. While the crediting tendency increases the AUC of random forest and catboost, the new values are still lower than the AUC of xgboost and lightgbm. The crediting tendency causes a relatively small decrease in the AUC of xgboost and lightgbm, but xgboost and lightgbm still stand out, with lightgbm having the best AUC.
The use of credit with various opportunities in daily life has become a routine of our lives. On the other hand, banking and financial institutions also need to determine whether the loan requests they receive contain any risk. Accordingly, these institutions have increased their activities to determine whether the credit rating models are working correctly by using the past credit records of the loan applicant. Machine learning-based technologies have broken new ground in this field. Artificial intelligence and machine learning-based methods for credit scoring are now widely applied by banking and non-banking financial institutions. The models used extract meaningful features from customer data where a wide variety of information is available. In this study, credit default risk assessment is performed using random forest, catboost, xgboost and lightgbm methods. For this purpose, the Kaggle home credit default risk dataset is used and the effect of the crediting trend on the results is also taken into account. The results show that the gradient boosting methods give similar results, catboost and random forest methods have very low AUC values in the base models, while xgboost and lightgbm are very close to each other and have about fifty percent better AUC values than the other models. While the crediting tendency increases the AUC of random forest and catboost, the new values are still lower than the AUC of xgboost and lightgbm. The crediting tendency causes a relatively small decrease in the AUC of xgboost and lightgbm, but xgboost and lightgbm still stand out, with lightgbm having the best AUC.
Açıklama
Fen Bilimleri Enstitüsü, İstatistik Ana Bilim Dalı
Anahtar Kelimeler
İstatistik, Statistics