MapReduce 2023: benchmarking and optimization

Базы данных и ORM

Базы данных / другое
Hadoop
ETL
Хранилища
Обработка данных

Доклад принят в программу конференции

Целевая аудитория

Разработчики: расширение профессиональных возможностей и получение практических навыков работы с большими данными (на примере Hadoop, MapReduce, Hive). Аналитики: освоение навыков эффективного построения отчётов при работе с большими данными. Data Engineers: расширение арсенала для работы с данными. Data Scientists: знания о современных подходах для сбора, хранения и обработки данных для оптимизации вычислений.

Тезисы

MapReduce 2023: обзор сценариев, когда релевантно использование фреймворка.

Оптимизация MapReduce вычислений при обработке больших объёмов данных:
* управление Shuffle & Sort с помощью компонентов Partitioner and Comparator;
* оптимизация вычислений с помощью Combiner;
* настройка JVM под Hadoop Streaming tasks;
* управление упаковкой и доступностью данных в период вычислений;
* минимизация data serialization при работе с текстовыми данными;
* эффективные join'ы между большими datasets без использования reduce-фазы.
(сравнительный анализ стратегий выполнения SQL-запросов поверх HDFS и поверх структурированных баз данных).

Роль выбора методологии проектирования DWH в построении эффективной платформы BI.

Data Engineer.

Сбербанк

Крупнейший универсальный банк России и Восточной Европы.

Видео