提问者:小点点

是否可以在Apache光束或google云数据流中运行自定义python脚本


我想使用GCP运行我的一个python脚本。我对GCP相当陌生,所以我没有太多的想法。

我的python脚本从BigQuery中获取数据并执行这些任务

几种数据处理操作

使用KDTree和少量聚类算法构建ML模型

将最终结果转储到Big Query表。

这个脚本需要每天晚上运行。

到目前为止,我知道我可以使用VM、Cloud Run、Cloud功能(对我来说不是一个好的选择,因为完成所有内容需要大约一个小时)。我运行这个的最佳选择应该是什么?

我遇到了数据流,但我很好奇是否有可能运行一个自定义的python脚本,可以在谷歌云数据流中完成所有这些事情(假设我必须将所有内容转换为map-duce格式,这对我的代码来说似乎并不容易,尤其是ML部分)?


共1个答案

匿名用户

您是否只需要一个python脚本在单个实例上运行几个小时然后终止?

您可以在GCP项目中设置基本缩放应用引擎微服务。使用基本缩放时,任务队列任务的最大运行时间为24小时。

请求最多可以运行24小时。基本规模的实例可以选择处理 /_ah/start并执行程序或脚本数小时,而无需返回HTTP响应代码。任务队列任务最多可以运行24小时。

https://cloud.google.com/appengine/docs/standard/python/how-instances-are-managed