提问者:小点点

为什么使用案例类在DataFrame上的映射会因“无法找到存储在数据集中的类型的编码器”而失败?


我已经导入火花。_但我仍然得到错误

错误:(27,33)找不到存储在数据集中的类型的编码器。通过导入park. implitics支持原始类型(Int、String等)和产品类型(case类)。_将在未来的版本中添加对序列化其他类型的支持。

我有一个案例类,比如:

case class User(name: String, dept: String)

我正在使用以下方式将Dataframe转换为数据集:

val ds = df.map { row=> User(row.getString(0), row.getString(1) }

val ds = df.as[User]

此外,当我在Spark-shell中尝试相同的代码时,我没有收到错误,只有当我通过IntelliJ运行它或提交作业时,我才会收到这个错误。

有什么原因吗?


共1个答案

匿名用户

将案例类的声明移出范围确实奏效了!

然后代码结构将如下所示:

package main.scala.UserAnalytics

// case class *outside* the main object
case class User(name: string, dept: String)

object UserAnalytics extends App {
    ...
    ds = df.map { row => User(row.getString(0), row.getString(1)) }
}