Система ML-моделирования финансовых показателейAI/ML и визуализация данных

Доклад принят в программу конференции
Олег Мангутов
Deloitte Analytics Insitute

Олег является руководителем группы аналитической инфраструктуры в Deloitte Analytics Institute.
Ответственность: управление командой по проектированию, разработке и поставке аналитических продуктов и решений для бизнеса.

Квалификации: управление проектами, архитектура решений, анализ данных и управление данными
Технологии: Java, Python, базы данных (RDBMS, NoSQL), Big Data, распределенные вычисления, виртуализация, платформы

Более 8 лет опыта в проектировании и разработке аналитических продуктов и сервисов для финансового сектора, промышленности, ресурсодобывающих и ресурсоснабжающих организаций.

Примеры проектов:
Система оценки рисков контрагентов, основанная на прогнозе финансовых показателей компаний.
Распределенная система мониторинга состояния и бизнес-аналитики для системы водоснабжения крупного города.
Платформа для промышленного анализа данных (IIoT) на основе технологий Big Data.
Многоканальная система выявления мошенничества в банке, построенная с использованием анализа данных и Big Data.
R&D в проекте Европейского Союза по созданию распределенной системы мониторинга состояния дамб.

Тезисы

1. Заказчик системы - крупная компания, ведущая инвестиционную и кредитную деятельность. Моделирование финансового состояния (платежеспособности) заемщиков - неотъемлемая часть работы такой организации.
2. Как правило, традиционно такие задачи решаются через построение моделей в Excel. Недостатки этого подхода - трудоемкость и возможные человеческие ошибки. Наша команда предложила решение по построению ML-моделей, что существенно сокращало время и вероятность ошибки моделирования.
3. На языке Python и библиотек numpy, pandas, scikit-learn, keras, tensorflow было реализовано аналитическое ядро - библиотека, позволяющая строить финансовые модели компаний. Отдельного внимания заслуживает собственный модуль AutoML, отвечающий за оптимальный отбор факторов и алгоритмов.
4. Для интеграции библиотеки в банковскую платформу на Python была реализована оболочка, позволяющая интегрировать ML-модели в систему управления cash flow моделями банка. При помощи Tornado и pywin32 реализован процесс обучения и прогнозирования моделей на распределенных нодах (под управлением Windows Server).
5. Отдельным слоем идет библиотека работы с БД Oracle, при помощи которой был организован репозиторий моделей с возможностью отслеживать историю обучения, переобучения, изменения качества модели со временем.
6. В полученной системе мы добились того, что ML-модель может сконфигурировать и обучить непосредственно бизнес-пользователь, а не дата-сайентист. Инструмент для этого - удобный UI, а не ячейки jupyter notebook.

Фреймворки
,
Python
,
Oracle
,
Микросервисы, SOA
,
Организация доступа к базам данных, ORM, собственные драйвера
,
Распределенные системы
,
Архитектура данных, потоки данных, версионирование
,
Архитектуры / другое
,
Machine Learning

Другие доклады секции AI/ML и визуализация данных