Pull to refresh

Comments 5

Спасибо.

Более того, hadoop не гарантирует того, что комбинирующая функция вообще будет выполнена для выхода mapper’a. Поэтому комбинирующая функция не всегда применима, например, в случае поиска медианного значения по ключу.

Вот этот момент можно было бы поподробнее расписать.
Для того чтобы найти медиану необходимо отсортировать все значения в порядке возрастания и выбрать элемент находящийся посередине. Для того чтобы ключи отсортировать — надо знать все значения, относящиеся к ключу. Поэтому это сделать можно только в редьюсере. Комбайнер агрегирует только часть значений, поэтому не применим в случае вычисления медианы.
т.е. сам hadoop не вносит никаких ограничений на использование комбайнера и будет его выполнять при каждом запросе, а ограничение заключается в самой задаче?
Интересует вопрос профилирования MapReduce-задач — какими средствами это делается.
Профилировать можно по-разному. Самый простой способ — локальная отладка и профилирование mapper'a и reducer'a на локальных данных.
Sign up to leave a comment.

Articles