От Scikit-learn к PySpark MLlib. Адаптация моделей классификации к работе в распределённой среде Доклады

Доклад принят в программу конференции

Тезисы

Скачать презентацию Все презентации конференции Статья в блоге

Всё чаще перед инженерами, работающими с Big Data, стоит задача масштабирования ML-моделей, что зачастую заключается в адаптации некоторого Data Science-решения к работе в распределённой среде.

В докладе представлены подходы к решению задачи замены реализаций алгоритмов машинного обучения на распределённые аналоги. В частности, миграция со Scikit-learn на аналоги из библиотеки распределённого машинного обучения MLlib (PySpark). Рассматриваются модели для анализа семантики естественных языков TF-IDF и классические классификаторы (Наивный Байесовский и SVM).

Другими словами, мы пытаемся существующий pipeline перенести на рельсы спарка и показываем, какие трудности могут при этом возникнуть. От архитектуры решения до особенностей тюнинга гиперпараметров.

Key Words: Data Science, Big Data, Python, Spark, PySpark, MLlib, TF-IDF, Scikit-learn, SVC, NaiveBayes

Андрей Гаврилов

EPAM

Work with Big Data and Data Science in EPAM. Interested in Spark and any way of distributed ML.
Studied Data Science in Peter the Great St. Petersburg Polytechnic University in department of Applied Math.
Open mind for collaboration in challenges of distributed Machine Learning.

E-mail: ag239@protonmail.com
Telegram, LinkedIn: @tbont