首页 > TAG信息列表 > luigi

如何编写Luigi工作流以将数据从MySQL加载到Redshift?

Luigi是否支持我执行整个流程? 流将是这样的: 将MySQL数据转储到S3,然后使用“复制”命令将数据移至Redshift. 我可以使用Luigi执行上述工作流程吗?解决方法:基本上,您可以在Luigi中使用python脚本执行任何操作,因为您可以在Luigi任务的run()方法中编写该python代码,这意味着实际上没

python-Luigi直接将文件写入S3

我正在使用Luigi创建数据管道,并且尝试将处理后的数据直接写入S3存储桶.我使用的代码是: import luigi from luigi.s3 import S3Target, S3Client class myTask(luigi.Task): def requires(self): return otherTask() def output(self): client = S3Clien

python – 实现luigi动态图配置

我是luigi的新手,在为我们的ML工作设计管道时遇到过它.虽然它不适合我的特定用例,但它有很多额外的功能,我决定让它适合. 基本上我正在寻找的是一种能够持久保存自定义构建管道并因此使其结果可重复且易于部署的方法,在阅读了大多数在线教程后,我尝试使用现有的luigi.cfg配置实现我

如何使用Luigi连续更新目标文件?

我最近开始玩Luigi,我想知道如何使用它来不断地将新数据附加到现有的目标文件中. 想象一下,我每分钟都在ping一个api来检索新数据.因为任务仅在目标尚不存在时运行,所以一种天真的方法是通过当前日期时间参数化输出文件.这是一个简单的例子: import luigi import datetime class d

Python Luigi – 满意时继续执行外部任务

我正在研究一个Luigi管道,它检查是否存在手动创建的文件,如果存在,继续执行下一个任务: import luigi, os class ExternalFileChecker(luigi.ExternalTask): task_namespace='MyTask' path = luigi.Parameter() def output(self): return luigi.LocalTarget(o

python – 如何让我的Luigi调度程序利用并行调度标志的多个内核?

我的luigi.cfg文件中有以下行(在所有节点,调度程序和工作程序上): [core] parallel-scheduling: true 但是,当我在我的luigi调度程序上监视CPU利用率时(大约有大约4000个任务的图形,处理来自~100个工作者的请求),它只使用调度程序上的单个核心,单个luigid线程经常达到100%CPU利用.

在python luigi中使用参数

我正在触发Luigi通过 luigi.run(["--local-scheduler"], main_task_cls=Test(Server = ActiveServer, Database = DB)) 在我的班上我有: class Test(luigi.Task): Database = luigi.Parameter() Server = luigi.Parameter() 但任务测试似乎无法解析我正在喂它的参数