ВПЛИВ МЕТОДІВ БАЛАНСУВАННЯ ДАНИХ НА ЯКІСТЬ ТА ЕКОНОМІЧНУ ЕФЕКТИВНІСТЬ КЛАСИФІКАЦІЇ БАНКІВСЬКИХ КЛІЄНТІВ

Ключові слова: балансування даних, кредитний ризик, класифікація клієнтів, економічна ефективність, SMOTE, ROSE, оптимізація cutoff-порогів

Анотація

Стаття досліджує вплив методів балансування даних (Oversampling, Undersampling, Over&Under, ROSE, SMOTE) на економічну ефективність класифікації ненадійних клієнтів у фінансовому секторі. Основна увага зосереджена на визначенні оптимального порогу класифікації, що максимізує прибуток банку і не шкодить якості прогнозів. Дані зібрані з 700 клієнтів із відсотком ненадійних у 26,3%. Результати показують, що SMOTE демонструє найкращі економічні результати, незважаючи на певні помилки у класифікації. Зокрема, модель SMOTE забезпечує високі показники F1-Score, F2-Score та F-Measure, підвищуючи точність прогнозування кредитних ризиків. Використання ROSE виявилось менш ефективним. Таким чином, застосування збалансованих моделей може бути вигідним для покращення фінансових результатів та зменшення втрат у банківській сфері.

Посилання


1. Ahmed Almustfa Hussin Adam Khatir and Marco Bee. Machine Learning Models and Data-Balancing Techniques for Credit Scoring: What Is the Best Combination? Risks. 2022, 10, p. 169–190.
2. Migraç Enes Furkan MİLLİ, İpek DEVECİ KOCAKOÇ, Serkan ARAS. Investigating the Effect of Class Balancing Methods on the Performance of Machine Learning Techniques: Credit Risk Application. Izmir Journal of Management, 2024, 5, p. 55–69.
3. Haque, F. M. A., & Hassan, Md. M. (2024). Bank Loan Prediction Using Machine Learning Techniques. American Journal of Industrial and Business Management, 14, 1690–1711. DOI: https://doi.org/10.4236/ajibm.2024.1412085
4. Chenyu Yang, Yanjie Dong, Jiachen Lu, Zherui Peng. Solving Imbalanced Data in Credit Risk Prediction: A Comparison of Resampling Strategies for Different Machine Learning Classification Algorithms, Taking Threshold Tuning into Account. MLMI 2022: 2022 5th International Conference on Machine Learning and Machine Intelligence. p. 30–40.
5. Logistic Regression in Machine Learning. URL: https://www.geeksforgeeks.org/understanding-logistic-regression/
6. Zolghadr Z. Bank Loan / Credit Scoring for Bank Customers. URL:https://www.kaggle.com/datasets/zahrazolghadr/bank-loan-cleaned-ver1/data
7. Гавриленко С. Ю., Зозуля В. Д., Омельченко В. В. Дослідження методів підвищення якості класифікації на незбалансованих даних. Системи управління, навігації та зв'язку. 2023. № 2. С. 87–91.
8. Undersampling, Oversampling and SMOTE, Ensemble Method and Cost Sensitive Learning techniques for dealing with Imbalanced Data. Medium. URL: https://medium.com/@abhishekjainindore24/undersampling-oversampling-and-smote-ensemble-mehtod-and-cost-sensitive-learning-techniques-for-08efb557ec68
9. ROSE: Generation of synthetic data by Randomly Over Sampling… URL: https://rdrr.io/cran/ROSE/man/ROSE.html
10. Overcoming Class Imbalance with SMOTE. Train in Data. URL: https://www.blog.trainindata.com/overcoming-class-imbalance-with-smote/
11. Verbraken, T., Bravo, C., Weber, R., Baesens, B.. Development and Application of Consumer Credit Scoring Models Using Profit-Based Classification Measures. European Journal of Operational Research. 2014, 238(2), p. 505–513.
12. What is a confusion matrix? Jacob Murel Ph.D. IBM/2024. URL: https://www.ibm.com/think/topics/confusion-matrix
13. Jason Brownlee. Tour of Evaluation Metrics for Imbalanced Classification. URL: https://machinelearningmastery.com/tour-of-evaluation-metrics-for-imbalanced-classification/
14. Мостовенко Н. А., Коробчук Т. І. Кредитний менеджмент: Навчальний посібник. Луцький національний технічний університет. Луцьк : Волиньполіграф ТМ, 2016. 280 с.
Опубліковано
2025-03-31
Сторінки
66-74
Розділ
СЕКЦІЯ 4 МАТЕМАТИЧНІ МЕТОДИ, МОДЕЛІ ТА ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ В ЕКОНОМІЦІ