ПРОГНОЗУВАННЯ ДАНИХ ПІДРАХУНКУ У СТРАХОВІЙ ГАЛУЗІ НА ОСНОВІ МЕТОДІВ НЕЙРОННИХ МЕРЕЖ

Ключові слова: узагальнена лінійна регресійна модель Пуассона, нейронна мережа прямого поширення, пуассоновський розподіл, машинне навчання, набір даних про прокат велосипедів

Анотація

Прогнозування даних підрахунку – одна з ключових задач у страховій галузі, економіці та соціальних науках. Регресійний аналіз зазвичай відноситься до класичного підходу для вирішення цієї задачі. Однак класична регресійна модель Пуассона часто має обмежене застосування, оскільки емпіричні набори даних підрахунку зазвичай демонструють велику дисперсію та надмірну кількість нулів, а отже незбалансованість у данних. Зважаючи на це, а також на позитивні результати машинного навчання у різних галузях, розглянуто його як достойну альтернативу класичному підходу. У цій роботі проводиться порівняльний аналіз узагальненої лінійної регресійної моделі Пуассона (GLM) з нейронною мережею прямого поширення (Feed Forward Neural Network – FFNN), що є провідним методом машинного навчання, з точки зору прогнозування даних підрахунку і подальшого використання на практиці. Стаття описує дві моделі та порівнює їх з теоретичної та практичної точок зору. Протестовано їх стійкість, використовуючи набір даних про прокат велосипедів. Для кращого розуміння моделей, оцінюється їх точність та будуються криві навчання на тестових і навчальних наборах. Крім того, оцінюється важливість вхідних змінних для кращої інтерпретації алгоритмів. Оскільки FFNN є так званим методом «чорної скриньки», для нього не існує прямого способу оцінки змінних. Запропоновано нову технологію оцінки важливості вхідних даних для глибоких нейронних мереж відповідно до принципів теорії інформації. У роботі продемонстровано, що нейронна мережа прямого поширення (FFNN) у порівнянні з узагальненою лінійною регресійною моделлю Пуассона (GLM) забезпечує набагато більшу потужність при незначному збільшенні складності моделі. При побудові нейронних мереж використовувались стандартні пакети мови програмування Python, які можна швидко адаптувати до інших наборів даних. Тому підхід, запропонований у даній статті, можна успішно використовувати при вирішенні багатьох інших економічних задач. Алгоритми, побудовані за допомогою машинного навчання, точніше прогнозують дані підрахунку і можуть служити добрим орієнтиром для інших моделей.

Посилання


1. Benjamin A., Fernandes H., Tomlinson T., Ramkumar R., VerSteeg C., Chowdhury R., … , Kording K. (2017). Modern machine learning far outperforms GLMs at predicting spikes. Retrieved from: https://www.biorxiv.org/content/10.1101/111450v2 (accessed January 29, 2020).
2. Open-source neural-network library. Retrieved from: https://keras.io/ (accessed January 21, 2020).
3. Wüthrich M.V. (2018). Data Analytics for Non-Life Insurance Pricing. ETH Zurich.
4. Bishop C.M. (2006). Pattern recognition and machine learning. Springer.
5. Goodfellow I., Bengio Y., & Courville A. (2016). Deep learning. MIT press.
6. Murphy K.P. (2012). Machine learning: a probabilistic perspective. MIT press.
7. Competitive web-based data mining platform. Retrieved from: https://www.kaggle.com (accessed January 29, 2020).
Опубліковано
2020-05-05
Сторінки
95-99
Розділ
СЕКЦІЯ 6 МАТЕМАТИЧНІ МЕТОДИ, МОДЕЛІ ТА ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ В ЕКОНОМІЦІ