MapReduce 2023: benchmarking and optimization
Доклад принят в программу конференции
Целевая аудитория
Тезисы
MapReduce 2023: обзор сценариев, когда релевантно использование фреймворка.
Оптимизация MapReduce вычислений при обработке больших объёмов данных:
* управление Shuffle & Sort с помощью компонентов Partitioner and Comparator;
* оптимизация вычислений с помощью Combiner;
* настройка JVM под Hadoop Streaming tasks;
* управление упаковкой и доступностью данных в период вычислений;
* минимизация data serialization при работе с текстовыми данными;
* эффективные join'ы между большими datasets без использования reduce-фазы.
(сравнительный анализ стратегий выполнения SQL-запросов поверх HDFS и поверх структурированных баз данных).
Роль выбора методологии проектирования DWH в построении эффективной платформы BI.
Data Engineer.
Сбербанк