提问者:小点点

java火花:org.apache.spark.Spark异常:作业中止:任务不可序列化:java.io.


我是新来的火花,并试图运行的例子JavaSparkPi.java,它运行良好,但因为我必须使用这个在另一个java的我复制所有的东西从main到类中的一个方法,并尝试调用在main中的方法,它说

org.apache.spark.SparkException: Job aborted: Task not serializable: java.io.NotSerializableException

代码如下所示:

public class JavaSparkPi {

public void cal(){
    JavaSparkContext jsc = new JavaSparkContext("local", "JavaLogQuery");
    int slices = 2;
    int n = 100000 * slices;

    List<Integer> l = new ArrayList<Integer>(n);
    for (int i = 0; i < n; i++) {
        l.add(i);
    }

    JavaRDD<Integer> dataSet = jsc.parallelize(l, slices);

    System.out.println("count is: "+ dataSet.count());
    dataSet.foreach(new VoidFunction<Integer>(){
        public void call(Integer i){
            System.out.println(i);
        }
    });

    int count = dataSet.map(new Function<Integer, Integer>() {
        @Override
        public Integer call(Integer integer) throws Exception {
            double x = Math.random() * 2 - 1;
            double y = Math.random() * 2 - 1;
            return (x * x + y * y < 1) ? 1 : 0;
        }
    }).reduce(new Function2<Integer, Integer, Integer>() {
        @Override
        public Integer call(Integer integer, Integer integer2) throws Exception {
            return integer + integer2;
        }
    });

    System.out.println("Pi is roughly " + 4.0 * count / n);
}

public static void main(String[] args) throws Exception {

    JavaSparkPi myClass = new JavaSparkPi();
    myClass.cal();
}
}

有人知道吗?谢谢


共3个答案

匿名用户

嵌套函数包含对包含对象的引用(< code > javasparki )。所以这个对象会被序列化。为此,它需要是可序列化的。简单易行:

public class JavaSparkPi implements Serializable {
  ...

匿名用户

主要问题是,当您在java中创建匿名类时,它会传递封闭类的引用。这可以通过多种方式修复

这适用于您的情况,但如果您的封闭类具有某些不可序列化的字段,则会失败。我还要说序列化父类完全是浪费。

通过调用一些静态函数来创建闭包不会传递对闭包的引用,因此不需要通过这种方式使之可序列化。

匿名用户

此错误是因为您的本地或集群中有多个物理CPU,并且火花引擎尝试通过网络将此功能发送到多个CPU。你的功能

 dataSet.foreach(new VoidFunction<Integer>(){
        public void call(Integer i){
            ***System.out.println(i);***
        }
    });

使用不序列化的println()。所以Spark引擎抛出的异常。解决方案是您可以使用以下内容:

dataSet.collect().forEach(new VoidFunction<Integer>(){
       public void call(Integer i){
         System.out.println(i);
    }
});