其他分享
首页 > 其他分享> > airflow使用指南-机器学习工程自动化

airflow使用指南-机器学习工程自动化

作者:互联网

airflow使用指南

1.airflow简介

Apache Airflow是一个开源工作流管理平台。它可以帮助您实现数据管道和ML管道的自动化,并在行业中广泛应用。您可以进行摄入、执行ETL、执行ML任务,并将日常工作自动化。

大家都知道,很多机器学习的算法,是需要不断的迭代更新参数的,不是一次性实现的,在面对许多这样的机器学习工程时,我们总不能每个工程都要定时去运行,调度,airflow这个平台,就是将我们所有的机器学习工程整合起来,成为不同的工程流水线,统一调度,配置

Airflow 是通过 DAG(Directed acyclic graph 有向无环图)来管理任务流程的任务调度工具,不需要知道业务数据的具体内容,设置任务的依赖关系即可实现任务调度。

1.1 DAG

有向无环图指的是一个无回路的有向图。如果有一个非有向无环图,且A点出发向B经C可回到A,形成一个环。将从C到A的边方向改为从A到C,则变成有向无环图。有向无环图的生成树个数等于入度非零的节点的入度积。

在这里插入图片描述

2. airflow架构

先用一张图看一个airlflow的工作流程图:
在这里插入图片描述
从图中看,我们可以写很多的机器学习代码,分别为worker1、worker…。这些就是airflow平台需要执行的任务进程。

这里有个地方需要知道,进程就是我们一个机器学习任务中不同的步骤,多个进程结合起来成为一个完整的机器学习任务,在airflow架构中,需要对进程进行排序前后处理,对任务也要进行前后处理。

进程的排序是由Scheduler完成,而任务是由Dags完成。

3.airflow核心模块

3.1 模块

3.2 Operators模块

DAG 定义一个作业流,Operators 则定义了实际需要执行的作业。airflow 提供了许多 - Operators 来指定我们需要执行的作业:

我们最常用的就是BashOperator。像这样导入模块

from airflow import DAG
from airflow.operators.bash_operator import BashOperator

4.airflow安装与使用

标签:执行,DAG,BashOperator,Operators,airflow,自动化,使用指南,bash
来源: https://blog.csdn.net/weixin_42010722/article/details/121453151