提问者:小点点

如何将Rdd转换为数据集使用映射分区函数


我试图转换java火花RDD数据集。

根据Spark文档. mapDeftions比map函数更快。

这将有助于提高火花的性能。


共1个答案

匿名用户

下面是java代码。

JavaRDD<UserData> UserRowRDD = userSuccessRDD.mapPartitions(new FlatMapFunction<Iterator<String>, UserData>() {

            @Override
            public Iterator call(Iterator<String> input) throws Exception {
                List<UserData> result = new ArrayList<>();
                while (input.hasNext()) {
                    result.add(Util.getEnrichedUser(UserHeader, input.next()));
                }
                return result.iterator();
            }
        });

public static UserData getEnrichedUser(String[] header, String rddString) {

                    String[] parts = rddString.split("\\^");
                    UserData output = new UserData();
                    for (int i = 0; i < parts.length; i++) {
                        try {
                            BeanUtils.setProperty(output, header[i], parts[i]);
                        } catch (IllegalAccessException | InvocationTargetException e) {
                            // TODO Auto-generated catch block
                            e.printStackTrace();
                        }
                    }
                    return output;

    }