Эффективное использование Jupyter и PySpark на Hadoop для анализа больших данныхAI/ML и визуализация данных

Доклад принят в программу конференции
Павел Тарасов
ЦИАН

Руководитель отдела машинного обучения ЦИАН, кандидат физ.-мат. наук, ассистент на кафедре дискретной математики ФИВТ МФТИ.

tarasov.p.b@gmail.com
Тезисы

Одно из самых важных в работе data scientist'а и аналитика - уметь быстро проверять гипотезы. Есть много информации, курсов, конкурсов, как построить хорошую модель. Но кому будет нужна ваша модель, если на ее построение уйдут месяцы? А если вы не сможете быстро из модели собрать прототип?

Бывают простые гипотезы:
* Есть ли нужные данные?
* Как их загрузить из другого источника?
* Достаточно ли их, и корректны ли они?
* Можно ли на них обучить модель, каково ее качество?

Бывают гипотезы сложнее:
* Что, если нужно применить сложную самописную функцию к большому количеству объектов?

А теперь еще добавим, что все задачи необходимо решать не просто на продакшн-кластере, но там, кроме вас, работают еще человек 10 (или 50...).

Я расскажу, как действительно быстро проверять такие гипотезы на Jupyter и PySpark, какими дополнительными инструментами пользоваться и как не подраться с продом и коллегами за ресурсы.

Python
,
Hadoop
,
Machine Learning

Другие доклады секции AI/ML и визуализация данных