提问者:小点点

如何触发自动更新谷歌BigQuery数据集每次CSV上传谷歌云存储


我正在尝试自动化整个数据加载,这意味着每当我将文件上传到Google Cloud存储时,它会自动触发将数据上传到BigQuery数据集中。我知道有一个每日设置的定时更新可用,但我想要的东西只有在CSV文件重新上传时才会触发。


共1个答案

匿名用户

你有两种可能:

>

  • 或者你对事件做出反应。我的意思是你可以在谷歌云存储事件上插入一个功能。在事件消息中,你将文件存储在GCS中,你可以对它做你想做的事情,例如从谷歌云存储运行加载作业。

    或者,什么都不做!让文件GCS并创建一个BigQuery联合表来读取GCS

    使用这2个解决方案,BigQuery可以访问您的数据。您的Datastudio图可以查询BigQuery,数据在这里。但是。

    • 加载作业更高效,您可以对数据进行分区和集群化,以优化速度和成本。但是,您复制数据(从GCS),您必须编码和运行您的函数。无论如何,成本非常低,功能非常简单。对于大数据,这是我推荐的解决方案
    • 当数据量较低时,联邦表非常有用,用于偶尔访问或原型设计。您无法对数据进行聚类和分区,并且速度低于加载到BigQuery中的数据(因为CSV解析是动态执行的)。

    所以,大数据是一个广泛的领域:你需要在加载之前转换数据吗?你可以在日志之后转换它们吗?你如何链接查询其他之后的那些?……

    如果您对此有其他问题,请不要犹豫!