编写Apache Beam（JAVA）管道将JSON文件从GCS Bucket导入Google DataFlow中Mongodb的有效方法

2023-02-08 user3863788 原文

我有一个GCS存储桶，其中包含1000个文件夹，在这些文件夹中有嵌套的文件夹

包含数百万个json文件的文件夹结构类似于｛bucket_name｝/｛dir1｝/｝dir2｝/{test.json｝每个json文件只包含一个要处理的记录。目前我的管道是这样的。

PCollection<String> records =  p.apply("ReadFromGCS", TextIO.read().from("gs://test_bucket/**/**/**.json")
                .withHintMatchesManyFiles());

PCollection<Document> documents = records.apply("process", ParDo.of(new DoFn<String, Document>() {
            @ProcessElement
            public void processElement(@Element String row, OutputReceiver<Document> out) {
                Document doc;
               try {
                   Gson gson = new Gson();
                   ResearchPaper paper = gson.fromJson(row, Test.class);
                    doc = Document.parse(gson.toJson(paper));
                    doc.append("timestamp", System.currentTimeMillis());
               }
               catch (Exception e) {
                   doc = new Document();
                   doc.append("failed", "true");
                     doc.append("timestamp", System.currentTimeMillis());
                     doc.append("reason", Arrays.toString(e.getStackTrace()));
                     doc.append("original_json", row);

               }
                out.output(doc);

            }
        }));

documents.apply("WriteToMongoDB", MongoDbIO.write()
                .withUri("")
                .withDatabase("testnew")
                .withCollection("test")
                .withBatchSize(1000)
        );

有没有其他有效的方法，通过在DataFlow的第一步中增加风险来加快处理速度？

我正在检查管线是否可以进一步优化。

编写Apache Beam（JAVA）管道将JSON文件从GCS Bucket导入Google DataFlow中Mongodb的有效方法的更多相关文章

Swift 如何访问 MongoDB

Perfect开源项目参与Perfect开发Slack在线协同MongoDBMongoDB库函数是在mongo-c语言库的基础上封装而成，能够为Swift轻松访问MongoDB服务器提供便利。请确保安装并激活了最新版本的Swift3.0toolchain。注意每次向项目追加依存关系时，必须要打开Swift软件包管理器重新创建一个新的Xcode项目文件。在您的项目中声明MongoDB请在您的Perfect项目源程序开头声明并导入MongoDB函数库：创建一个MongoDB数据库连接创建到MongoDB服务器
Java利用POI实现导入导出Excel表格

这篇文章主要为大家详细介绍了Java利用POI实现导入导出Excel表格，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
Java 阻塞队列BlockingQueue详解

本文详细介绍了BlockingQueue家庭中的所有成员，包括他们各自的功能以及常见使用场景,通过实例代码介绍了Java 阻塞队列BlockingQueue的相关知识，需要的朋友可以参考下
Java Bean 作用域及它的几种类型介绍

这篇文章主要介绍了Java Bean作用域及它的几种类型介绍，Spring框架作为一个管理Bean的IoC容器，那么Bean自然是Spring中的重要资源了，那Bean的作用域又是什么，接下来我们一起进入文章详细学习吧
Java实现世界上最快的排序算法Timsort的示例代码

Timsort 是一个混合、稳定的排序算法，简单来说就是归并排序和二分插入排序算法的混合体，号称世界上最好的排序算法。本文将详解Timsort算法是定义与实现，需要的可以参考一下
Java日期工具类的封装详解

在日常的开发中，我们难免会对日期格式化，对日期进行计算，对日期进行校验，为了避免重复写这些琐碎的逻辑，我这里封装了一个日期工具类，方便以后使用，直接复制代码到项目中即可使用，需要的可以参考一下
Java设计模式之模板方法模式Template Method Pattern详解

在我们实际开发中，如果一个方法极其复杂时，如果我们将所有的逻辑写在一个方法中，那维护起来就很困难，要替换某些步骤时都要重新写，这样代码的扩展性就很差，当遇到这种情况就要考虑今天的主角——模板方法模式
Java 中 Class Path 和 Package的使用详解

这篇文章主要介绍了Java 中 Class Path和Package的使用详解，文章围绕主题展开详细的内容介绍，具有一定的参考价值，需要的朋友可以参考一下
java SpringBoot 分布式事务的解决方案(JTA+Atomic+多数据源)

这篇文章主要介绍了java SpringBoot 分布式事务的解决方案(JTA+Atomic+多数据源),文章围绕主题展开详细的内容介绍，具有一定的参考价值，感兴趣的小伙伴可以参考一下
Java一维数组和二维数组元素默认初始化值的判断方式

这篇文章主要介绍了Java一维数组和二维数组元素默认初始化值的判断方式，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教

随机推荐

如何扩展ATmega324PB微控制器的以下宏寄存器？

我目前正在学习嵌入式，我有以下练习：展开以下宏寄存器：如果有人解决了这个问题，我将不胜感激，以便将来参考
Python将ONNX运行时设置为返回张量而不是numpy数组

在python中，我正在加载预定义的模型：然后我加载一些数据并运行它：到目前为止，它仍在正常工作，但我希望它默认返回Tensor列表，而不是numpy数组。我对ONNX和PyTorch都是新手，我觉得这是我在这里缺少的基本内容。这将使转换中的一些开销相同。
在macOS上的终端中使用Shell查找文件中的单词

我有一个文本文件，其中有一行：我需要找到ID并将其提取到变量中。我想出了一个RexEx模式：但它似乎对我尝试过的任何东西都不起作用：grep、sed——不管怎样。我的一个尝试是：我为这样一个看似愚蠢的问题感到抱歉，但我在互联网上找不到任何东西：我在SO和SE上读了几十个类似的问题，并在谷歌上搜索了几个教程，但仍然无法找到答案。欢迎提供任何指导！
react-chartjs-2甜甜圈图中只有标题未更新

我正在使用react-chartjs-2在我的网站中实现甜甜圈图。下面是我用来呈现图表的代码。我将甜甜圈图的详细信息从父组件传递到子组件，所有道具都正确传递。当我在beforeDraw函数外部记录props.title时，它会记录正确的值，但当我在beforeDraw函数内部记录props.title时，它将记录标题的前一个值，从而呈现标题的前值。我在这里做错了什么？
如何在tkinter中使用Python生成器函数？

生成器函数承诺使某些代码更易于编写。但我并不总是知道如何使用它们。假设我有一个斐波那契生成器函数fib()，我想要一个显示第一个结果的tkinter应用程序。当我点击“下一步”按钮时，它会显示第二个数字，依此类推。我如何构建应用程序来实现这一点？我可能需要在线程中运行生成器。但如何将其连接回GUI？
如何为每次提交将存储库历史记录拆分为一行？

我正在尝试获取存储库的历史记录，但结果仅以单行文本的形式返回给我。
尝试在颤振项目上初始化Firebase时出错

当尝试在我的颤振项目上初始化firebase时，我收到了这个错误有人知道我能做什么吗？应用程序分级Gradle插件Gradle项目颤振相关性我已经将firebase设置为Google文档已经在另一个模拟器上尝试过，已经尝试过创建一个全新的模拟器，已经在不同的设备上尝试过了，已经尝试了特定版本的firebase，已经尝试添加但没有任何效果，已经在youtube上看到了关于它的每一个视频，该应用程序在android和iOS两个平台上都抛出了这个错误
在unix中基于当前日期添加新列

我试图在unix中基于时间戳列在最后一个单元格中添加一个状态列。我不确定如何继续。
麦克斯·蒙特利。我一直得到UncaughtReferenceError：当我在终端中写入node-v时，节点未定义

如果这是您应该知道的，请确认：我已将所有shell更改为默认为zsh。当我在终端中写入node-v时，我一直收到“UncaughtReferenceError:nodeisnotdefined”。但它显示节点已安装。我是个新手，在这方面经验不足。
如何在前端单击按钮时调用后端中的函数？

那么如何在后端添加一个新的端点，点击按钮调用这个函数。