asash Nov 9 2015 at 12:45

Big data от А до Я. Часть 3: Приемы и стратегии разработки MapReduce-приложений

7 min

83K

Website development*Big Data*Hadoop*

+23

Comments 5

dec0 Nov 9 2015 at 13:55

Спасибо.

Более того, hadoop не гарантирует того, что комбинирующая функция вообще будет выполнена для выхода mapper’a. Поэтому комбинирующая функция не всегда применима, например, в случае поиска медианного значения по ключу.

Вот этот момент можно было бы поподробнее расписать.

asash Nov 9 2015 at 14:09

Для того чтобы найти медиану необходимо отсортировать все значения в порядке возрастания и выбрать элемент находящийся посередине. Для того чтобы ключи отсортировать — надо знать все значения, относящиеся к ключу. Поэтому это сделать можно только в редьюсере. Комбайнер агрегирует только часть значений, поэтому не применим в случае вычисления медианы.

0xSS Dec 5 2016 at 18:45

т.е. сам hadoop не вносит никаких ограничений на использование комбайнера и будет его выполнять при каждом запросе, а ограничение заключается в самой задаче?

eaa Nov 9 2015 at 14:43

Интересует вопрос профилирования MapReduce-задач — какими средствами это делается.

asash Nov 9 2015 at 18:53

Профилировать можно по-разному. Самый простой способ — локальная отладка и профилирование mapper'a и reducer'a на локальных данных.

Show the best of all time