От Scikit-learn к PySpark MLlib. Адаптация моделей классификации к работе в распределённой среде Офлайн 2021

Доклад принят в программу конференции
Андрей Гаврилов
EPAM

Work with Big Data and Data Science in EPAM. Interested in Spark and any way of distributed ML.
Studied Data Science in Peter the Great St. Petersburg Polytechnic University in department of Applied Math.
Open mind for collaboration in challenges of distributed Machine Learning.

E-mail: ag239@protonmail.com
Telegram, LinkedIn: @tbont
Тезисы

Всё чаще перед инженерами, работающими с Big Data, стоит задача масштабирования ML-моделей, что зачастую заключается в адаптации некоторого Data Science-решения к работе в распределённой среде.

В докладе представлены подходы к решению задачи замены реализаций алгоритмов машинного обучения на распределённые аналоги. В частности, миграция c Scikit-learn на аналоги из библиотеки распределённого машинного обучения MLlib (PySpark). Рассматриваются модели для анализа семантики естественных языков TF-IDF и классические классификаторы (Наивный Байесовский и SVM).

Другими словами, мы пытаемся существующий pipeline перенести на рельсы спарка и показываем, какие трудности могут при этом возникнуть. От архитектуры решения до особенностей тюнинга гиперпараметров.

Key Words: Data Science, Big Data, Python, Spark, PySpark, MLlib, TF-IDF, Scikit-learn, SVC, NaiveBayes

Другие доклады секции Офлайн 2021

Sufficiently Advanced Testing
Zac Hatfield-Dodds
Australian National University