提问者:小点点

如何在Google数据流流模板中使用正则表达式?


使用数据流模板,即云存储文本到BigQuery(流)模板,过去可以将“inputFilePattern”(即:您要处理的文本的云存储位置)描述为正则表达式。例如,您可以输入gs://my-bucket/my-files/file-to-上传*作为参数,然后将所有以“file-to-上传”开头的文件流式传输。

不幸的是,它现在抛出此错误消息:“未找到对象”。

是否有另一种方法可以通过与BigQuery类似的命名约定从google存储位置上传所有文件?

请看下面的截图:

提前感谢。


共1个答案

匿名用户

这看起来像UI中的bug,您可以在通过命令行提交作业时传递文件模式。源代码将文件模式作为输入,因此实际作业应该没有任何问题

    PCollectionTuple transformedOutput =
        pipeline

            // 1) Read from the text source continuously.
            .apply(
                "ReadFromSource",
                TextIO.read()
                    .from(options.getInputFilePattern())
                    .watchForNewFiles(DEFAULT_POLL_INTERVAL, Growth.never()))