Оценка производительности hadoop кластера
DESCRIPTION
В презентации описан подход к оценке производительности hadoop кластера. Описаны вероятные узкие места, влияющие на производительность кластера. Приведен пример сравнения производительности двух кластеров на различном железе.TRANSCRIPT
http://retailrocket.ru/Content/Img/promo/logo.png
Как измерить слона?Оценка производительности
кластера Hadoop
Мурашкин Вячеслав[email protected]
RetailRocket сегодня
● 50M хостов в месяц● 40G логов в сутки● 15 машин в кластере● 5 часов ежедневно на регулярные задачи
0. Кластер Hadoop
1 Производительность
Число выполненных задач за единицу времени
● Время выполнения задачи● Воспроизводимость результатов
○ Одни и те же входные данные○ Одни и те же задачи
1.1 Как оцениваем?
github.com/intel-hadoop/HiBench
● Набор типовых задач○ Sort, WordCount, TeraSort, Nutch indexing,
PageRank, Bayesian classification, K-means clustering
● Утилиты для генерации входных данных
1.2 Чем оцениваем?
1.3 Время измерили
А дальше?
2 Поиск узких мест
● Железо (CPU, Disks, Network)● Конфигурация кластера● Оптимизация задачи
2.1 Утилиты
● sysbench (CPU, File IO)● iperf (Network)
2.2 Система мониторинга
● Cloudera Manager● Ganglia● Zabbix
2.2 Система мониторинга
● Число занятых слотов● Объем свободного места в HDFS● Jobtracker Heap Usage
2.3 Метрики hadoop
2.3 Метрики hadoop
● Dsik IO operations● CPU (load, context switches, iowait)● Network traffic● RAM
2.3 Системные метрики
2.3 Системные метрики
3 Устраняем перегрузки
● Оптимизируем число map/reduce слотов○ mapred.tasktracker.map.tasks.maximum○ mapred.tasktracker.reduce.tasks.maximum
3.1 CPU Context switches
● Используем несколько дисков○ mapred.local.dir
3.2 CPU iowait
3.3 CPU load
● Режим работы CPU○ devices/system/cpu/cpu0/cpufreq/scaling_governor○ userspace powersave conservative ondemand
performance
4 Пример из жизни: 2 кластера
● Дистрибутив Cloudera CDH4.1● по 4 машины в кластере● тестируем HiBench Sort 24G/node
4.1 Пример из жизни: 2 кластераA: Intel® Xeon® Processor E3-1245 v2# of Cores 4# of Threads 8# Clock Speed 3.4 GHz# Map/Reduce 4/3# Sort time 13,5 min# Cost 71 $
B: Intel® Xeon® Processor E5-2620 # of Cores 6
# of Threads 12# Clock Speed 2 GHz# Map/Reduce 6/5# Sort time 22,5 min# Cost 230 $