google-cloud-dataflow

编写Apache Beam(JAVA)管道将JSON文件从GCS Bucket导入Google DataFlow中Mongodb的有效方法

我有一个GCS存储桶,其中包含1000个文件夹,在这些文件夹中有嵌套的文件夹包含数百万个json文件的文件夹结构类似于{bucket_name}/{dir1}/}dir2}/{test.json}每个json文件只包含一个要处理的记录。目前我的管道是这样的。有没有其他有效的方法,通过在DataFlow的第一步中增加风险来加快处理速度?我正在检查管线是否可以进一步优化。