如何在Spark中为行、标记点数据设置编码器？

提问者：小点点

如何在Spark中为行、标记点数据设置编码器？

如何为LabeledPointData设置编码器，它是Double、Double向量的组合。如何设置用于创建DataFrame的编码器？

public static Dataset<LabeledPoint> convertRDDStringToLabeledPoint(Dataset<String> data,String delimiter) {
    Dataset<LabeledPoint> labeledPointData = data.map(
            (data1)->{
                String splitter[] = data1.split(delimiter);
                double[] arr = new double[splitter.length - 1];
                IntStream.range(0,arr.length).forEach(i->arr[i]=Double.parseDouble(splitter[i+1]));
                return new LabeledPoint(Double.parseDouble(splitter[0]), Vectors.dense(arr));
            },Encoders.???);
    return labeledPointData;
}

共1个答案

匿名用户

LabeledPoint是Scala中的一个案例类，所以我认为它是Encoders. Products[LabeledPoint]。

（我不知道Java怎么写）

如何在Spark中为行、标记点数据设置编码器？

共1个答案

相关问题

热门标签

如何在Spark中为行、标记点数据设置编码器？

共1个答案

相关问题

热门标签

微信关注