Spark从每个节点读取文件，类似于Hadoop的分布式缓存

提问者：小点点

Spark从每个节点读取文件，类似于Hadoop的分布式缓存

我在主节点中有一个文件，每个节点都应该读取该文件。我怎样才能做到这一点？在Hadoop的MapReduce中，我使用了

DistribuitedCache.getLocalCacheFiles(context.getConfiguration())

Spark 如何用于节点之间的文件共享？我必须在RAM和广播变量中加载文件吗？或者我只能指示（绝对？）SparkContext配置中的文件路径，它立即可用于所有节点？

共2个答案

匿名用户

您可以使用SparkFiles从分布式缓存读取文件。

import org.apache.spark.SparkFiles
import org.apache.hadoop.fs.Path

sc.addFile("/path/to/file.txt")
val pathOnWorkerNode = new Path(SparkFiles.get("file.txt"))

匿名用户

以spark-submit上的"文件"参数为例，这里:

在具有其他文件的 YARN 群集上运行 Spark 作业

相关问题

Angular 2缓存超文本传输协议请求使用可观察对象的力量
使用djs v13播放本地音乐文件
不和谐机器人无法读取命令
在不下载文件的情况下使用YouTube的机器人播放音乐
创建一个不和谐机器人来播放. mp3文件
如何使用pygame自动完成歌曲后播放文件中的下一首歌曲
如何防止Spring Boot将危险控制器包含在生产配置文件中？
如何使用Gradle解压Jar文件时出现文件夹？
Gradle不包含要jar的资源文件夹[重复]
gradle任务和groovy文件上的导入
在jpack中复制Maven依赖文件和运行时
使用启用缓存的Apache HttpClient作为泽西2客户端
线程安全的未绑定缓存的ThreadLocal HashMap与并发HashMap
如何在同一段上的两个读取操作在并发HashMap中同时工作？
此用于在GridPane中查找节点位置的代码如何导致NullPointerException？
JavaFX从FXML文件编辑Gridpane
JavaFX：按行和列获取节点
xpath在此节点中不起作用
在调整大小时读取并发HashMap
当在并发哈希图中调整大小时，读取将如何发生？

Spark从每个节点读取文件，类似于Hadoop的分布式缓存

共2个答案

相关问题

热门标签

微信关注