Spark二进制列拆分为多个列

提问者：小点点

Spark二进制列拆分为多个列

我正在编写一个 Java 应用程序。我有一个火花数据集

Dataset<MyObject> dataset = sparkSession.createDataset(someRDD, Encoders.javaSerialization(MyObject.class));
dataset.printSchema();

//root
//|-- value: binary (nullable = true)

MyObject有不同的（嵌套的）字段，我想在数据集中的多个列中“分解”它们。新列还需要根据MyObject中的多个属性计算。作为解决方案，我可以使用。withColumn（）并应用UDF。不幸的是，我不知道如何在UDF中接受二进制类型，然后将其转换为MyObject。有什么建议吗？




             共1个答案


                        

                
                    匿名用户

                




                
					
多亏了布莱克主教的建议，我解决了它。以下是完整的解决方案：
您需要注册UDF:
UDFRegistration udfRegistration = sparkSession.sqlContext().udf();
udfRegistration.register("extractSomeLong", extractSomeLong(), DataTypes.LongType);
声明并实现 UDF。第一个参数必须是 byte[]，您需要将字节数组转换为您的对象，如下所示：
private static UDF1<byte[], Long> extractSomeLong() {
    return (byteArray) -> {
        if (byteArray != null) {
            ByteArrayInputStream in = new ByteArrayInputStream(byteArray);
            ObjectInputStream is = new ObjectInputStream(in);
            MyObject traceWritable = (MyObject) is.readObject();
            return traceWritable.getSomeLong();
        }
        else {
            return -1L;
        }
    };
}
最后，它可以用于:
Dataset<MyObject> data = sparkSession.createDataset(someRDD, Encoders.javaSerialization(MyObject.class));
Dataset<Row> processedData = data.withColumn( "ID", functions.callUDF( "extractSomeLong", new Column("columnName")))


		      
                相关问题
                

																                
					
										   HashCode-如果相等的对象碰巧在同一个桶中散列会发生什么？
										   JavaHashMap内部数据结构在重新散列期间如何变化？
										   hashmap如何识别何时需要重新散列
										   HashMap基于大小的重新散列
										   如何以及何时在HashMap中完成重新散列
										   散列码的分布如何影响Java的HashMap何时重新散列？
										   在hashmap或hashtable中重新散列的成本
										   *具有多个异步管道变量的ngIF
										   如何关闭点击外面的下拉列表？
										   如何取消订阅角度组件中的多个可观察对象？
										   Discord.py-音乐机器人队列命令
										   discord.py音乐机器人：如何组合播放和队列命令
										   不和谐JS，VoiceConnection.play（）与本地音乐播放列表中断
										   如何在我的不和谐音乐机器人中实现队列系统？
										   尝试将队列添加到不和谐音乐机器人
										   不和py-音乐机器人队列命令
										   Python不和音乐机器人与歌曲队列
										   使用Maven管理微服务之间的多个依赖
										   MongoDB计数，最小，最大，平均使用带有对象列表的字段进行聚合
										   如何包括多个分组与累加器在一个摩洛哥查询？

Spark二进制列拆分为多个列

共1个答案

相关问题

热门标签

微信关注