首页 > TAG信息列表 > apache-beam

Python Apache Beam管道状态API调用

当前,我们有一个Python Apache Beam管道正在运行并且能够在本地运行.现在,我们正在使管道在Google Cloud Dataflow上运行,并实现了完全自动化,但是在Dataflow / Apache Beam的管道监视中发现了局限性. 当前,Cloud Dataflow通过其UI界面或命令行中的gcloud有两种监视管道状态的方法.

相当于Apache Beam DynamicDestinations Python

Apache Beam Java SDK具有一个DynamicDestinations类,该类允许根据输入元素写入不同的大查询表.我在Python SDK中看不到任何类似的东西.是否有一些类可以写入Python SDK中动态选择的目标表?解决方法:就各种功能而言,Apache Beam Python SDK仍不如Java SDK先进,因此的确,您可能会看到

数据流/ Apache Beam:管理自定义模块依赖项

我有一个使用Apache Beam的.py管道,该管道导入了另一个模块(.py),这是我的自定义模块. 我有一个像这样的结构: ├── mymain.py └── myothermodule.py 我将myothermodule.py导入mymain.py中,如下所示: import myothermodule 当我在DirectRuner上本地运行时,我没有问题.但是,

Beam / Dataflow Python:AttributeError:’_UnwindowedValues’对象没有属性’sort’

我正在开发工作流流程,以使用Apache Beam的Python SDK在Google Cloud Dataflow上运行. 在本地运行时,工作流成功完成,没有任何错误,并且数据输出完全符合预期. 当我尝试在Dataflow服务上运行时,它引发以下错误: AttributeError:’_UnwindowedValues’对象没有属性’sort’ 来自以下代

Apache Beam中对SparkRunner的Python支持

是否支持使用Apache Beam和SparkRunner运行python程序? 该文档似乎没有:https://beam.apache.org/get-started/wordcount-example/#apache-spark-runner 当我查看API参考时 https://beam.apache.org/documentation/sdks/pydoc/0.6.0/apache_beam.runners.html我在那里找不到任何提及S

java-Apache Beam TextIO glob获取原始文件名

我已经建立了管道.我必须解析数百个* .gz文件.因此,glob的效果很好. 但是我需要当前处理文件的原始名称,因为我想将结果文件命名为原始文件. 有人能帮我一下吗? 这是我的代码. @Default.String(LOGS_PATH + "*.gz") String getInputFile(); void setInputFile(String value);

Google Dataflow(Apache Beam)将JdbcIO批量插入mysql数据库

我正在使用Dataflow SDK 2.X Java API(Apache Beam SDK)将数据写入mysql.我创建了基于Apache Beam SDK documentation的管道,以使用数据流将数据写入mysql.当我需要实现批量插入时,它会插入单行.我没有在官方文档中找到任何选项来启用批量插入模式. 想知道是否可以在数据流管道中设

python-在Beam中读取和写入序列化的protobuf

我想将序列化的protobuf消息的PCollection写入文本文件并将其读回应该很容易.但是经过几次尝试,我却没有这样做.如果有人有任何评论,将不胜感激. // definition of proto. syntax = "proto3"; package test; message PhoneNumber { string number = 1; string country = 2; }

java – Apache光束窗口:考虑延迟数据但只发出一个窗格

当水印到达窗口末端x分钟时,我想发出一个单一窗格.这让我确保我处理一些迟到的数据,但仍然只发出一个窗格.我目前在java工作. 目前我无法找到解决这个问题的正确方法.当水印到达窗口的末尾时,我可以发出单个窗格,但随后会丢弃任何后期数据.我可以在窗口的末尾发出窗格,然后在我收到