提问者:小点点

Reducer可以读取相同顺序的映射器输出而不是使用值对唯一键进行分组吗?


我对Hadoop如何将数据从Mapper排序到Reducer有基本的了解。我有以下数据写入contextMapper。下面的数据是一个键,值对

abc 1234
cde 2394
dec 8273
abc 2348
cde 8780
dec 6590

键的abc、cde、dec连续n次,具有相同或不同的值。减速器读取带有一组值的键。即

abc {1234, 2348, ...} and so on with other keys.

问:是否有可能以Mapper输出的相同顺序将数据读入还原器,而不是具有值的唯一键组?


共1个答案

匿名用户

如果您需要根据标头处理数据,那么我认为您可以使用以下方法:-

Mapper:-

剪切标头并将其作为您的键,其余数据作为您的值。现在,该特定标头的所有数据都将移动到还原器。

减速机:-

我们将在没有分组的情况下在减速机中使用这些值。

abc 1234
cde 2394
dec 8273
abc 2348
cde 8780
dec 6590

然后我们将能够单独处理数据。