python spark替代方法可针对非常大的数据爆炸

问题内容：

我有一个这样的数据框：

df = spark.createDataFrame([(0, ["B","C","D","E"]),(1,["E","A","C"]),(2, ["F","A","E","B"]),(3,["E","G","A"]),(4,["A","C","E","B","D"])], ["id","items"])

这将创建一个df像这样的数据框：

+---+-----------------+
|  0|     [B, C, D, E]|
|  1|        [E, A, C]|
|  2|     [F, A, E, B]|
|  3|        [E, G, A]|
|  4|  [A, C, E, B, D]|
+---+-----------------+

我想得到这样的结果：

+---+-----+
|all|count|
+---+-----+
|  F|    1|
|  E|    5|
|  B|    3|
|  D|    2|
|  C|    3|
|  A|    4|
|  G|    1|
+---+-----+

从本质上讲，它只是查找所有不同元素df["items"]并计算其频率。如果我的数据的大小更易于管理，则可以这样做：

all_items = df.select(explode("items").alias("all")) 
result = all_items.groupby(all_items.all).count().distinct() 
result.show()

但是因为我的数据在每个列表中都有数百万行和数千个元素，所以这不是一种选择。我当时想逐行执行此操作，因此一次只能处理2个列表。因为大多数元素经常在许多行中重复（但是每行中的列表是一个集合），所以这种方法应该可以解决我的问题。但是问题是，我真的不知道如何在Spark中执行此操作，因为我才刚刚开始学习它。有人可以帮忙吗？

问题答案：

您需要做的是减小进入爆炸状态的分区的大小。有2个选项可以执行此操作。首先，如果您的输入数据是可拆分的，则可以减小的大小，spark.sql.files.maxPartitionBytes以便Spark读取较小的拆分。另一种选择是在爆炸之前重新分区。

该默认值的maxPartitionBytes为128MB，这样的Spark将尝试在128MB块读取数据。如果数据不可拆分，则它将整个文件读入单个分区，在这种情况下，您需要执行一个操作repartition。

在您的情况下，由于您正在爆炸，说它增加了100倍，每个分区有128MB的输入，最终每个分区有12GB +的输出！

您可能需要考虑的另一件事是混搭分区，因为您正在进行聚合。再次重申一下，您可能需要通过设置spark.sql.shuffle.partitions为比默认值200高的值来增加爆炸后聚合的分区。您可以使用Spark
UI查看随机播放阶段，并查看每个任务正在读取多少数据，以及相应地进行调整。

我在欧洲Spark Summit上的演讲中讨论了此调整建议以及其他调优建议。

python spark替代方法可针对非常大的数据爆炸

微信关注