首页 > TAG信息列表 > Airflow

调度系统之Airflow

一、Airflow简介 Airflow 是一个使用 Python 语言编写的 Data Pipeline 调度和监控工作流的平台。 Airflow 是通过 DAG(Directed acyclic graph 有向无环图)来管理任务流程的任务调度工具,不需要知道业务数据的具体内容,设置任务的依赖关系即可实现任务调度。 这个平台拥有和 Hive、P

sparksql结果快速到mysql(scala代码、airflow调度)

  经常会有这样的需求:在现有数仓表的基础上,写一些sql,然后生成hive表并同步到mysql。 次数多了,就像写一个工具完成这个工作 一:背景、功能、流程介绍 1.背景:     1.数仓使用hive存储,datax导数据、airflow调度    2.不知道怎么利用hive解析sql,拿到对应的schema,但是spark

一键同步mysql到数仓(airflow调度)

经常会接到产品的需求:同步***表到hive,做分析。(做多了感觉很烦,就写一个工具) 一:背景、功能、流程介绍 1.背景:     1.数仓使用hive存储,datax导数据、airflow调度    2.虽然数据产品同学对datax进行了封装,可以点点点完成mysql表的同步,但是过程太复杂了        还需

airflow 连接mysql5.7遇到的几个错误

MySQL5.7与MySQL8版本不同导致的密码加密方式问题 Airflow从sqlite迁移到mysql,默认的mysql密码加密方式是mysql_native_password 而mysql8默认的密码加密方式是caching_sha2_password 这个问题可通过使用mysql5.7来解决,如果一定要用mysql8,需要在my.cnf配置中就配置mysql_native_p

自学 14 天后,我毁掉了自己的数据工程师面试

  我既然写下本文,就应对读者赤诚相见。我真的不是优秀的数据工程师,也不是优秀的软件开发人员。尽管如此,但技术能力我可能还是有的,而且也有干劲。虽然技术上不是最优秀的,但我比较善于与人打交道。你可能会问:“那我为什么还要读这篇文章呢?” 答案很简单:因为失败乃成功之母。至于我

airflow 2.21:HivePartitionSensor、自定义宏变量

HivePartitionSensor功能 用于检查hive表的分区是否存在,在某些场景下可以使用该sensor来替代ExternalTaskSensor,且使用起来更加便捷。 场景描述 在数仓中这么两种表: 表1 :daily_table,该表是按天分区的表,一天跑一次。 表2 :hour_table,该表是按照小时分区,每个小时跑一次。 其中da

Airflow调度http请求资源代码

import osimport pytzfrom datetime import timedelta, datetimefrom airflow.operators.http_operator import SimpleHttpOperatorfrom airflow.models import DAGos.environ['AIRFLOW_CONN_HTTP_TEST']='http://host.docker.internal:8089'default_args

airflow使用指南-机器学习工程自动化

airflow使用指南 1.airflow简介1.1 DAG 2. airflow架构3.airflow核心模块3.1 模块3.2 Operators模块 4.airflow安装与使用4.1 安装airflow4.2 修改默认路径4.3 修改默认数据库4.4 初始化数据库4.5 添加用户4.6 启动web服务4.7 启动定时任务4.8 编写airflow自动化代码模版

Passing Data Between Airflow Tasks

introduction Sharing data between tasks is a very common use case in Airflow. If you've been writing DAGs, you probably know that breaking them up into appropriately small tasks is best practice for debugging and recovering quickly from failures. But

五分钟快速了解Airflow工作流

简介 Airflow是一个以编程方式创作、调度和监控工作流的平台。 使用 Airflow 将工作流创作为有向无环图(DAG)任务。 Airflow 调度程序按照你指定的依赖项在一组workers上执行您的任务。同时,Airflow拥有丰富的命令行实用程序使得在DAG上进行复杂的诊断变得轻而易举。并且提供

airflow之SubDAGs(转载)

转载:https://www.yuque.com/apachecn/airflow-doc-zh/zh_concepts SubDAGs   SubDAG 非常适合重复模式。在使用 Airflow 时,定义一个返回 DAG 对象的函数是一个很好的设计模式。   Airbnb 在加载数据时使用阶段检查交换模式。数据在临时表中暂存,然后对该表执行数据质量检查。 一

AirFlow 1.10.11的安装部署

1 AirFlow 介绍 参见官网 2 AirFlow 1.10.11的安装部署 2.1 安装依赖 Centos7.x Python3.5或以上(本次采用3.6.6) Mysql5.7.x Apache-Airflow 1.10.11 可访问外网 若是虚拟机等,安装前可备份或快照,以免安装失败,导致不可用 2.2 Python环境准备 Python-3.6.6.tgz # 卸载 mariadb rpm

相关技术-airflow

一、Airflow 介绍:1、这个东西是用来调度、管理服务的。可以实现task的定时、循环、失败重启等调度策略,以及task-task间的逻辑配合,以及对tasks 的监控、执行日志记录等功能;      2、crontab有类似的功能,就是定时循环调度task,但是功能太单一,不如airflow好;这个东西主要是在数据层

airflow问题系列2 —— task保持running假死状态

. 错误描述airflow 被调度后,一直处于 running 状态假死,而且日志打印不完全,从某一行以下就不会打印日志了。     2. 错误原因经过查找源码中从这一行打印的日志来看,因为在日志里面输出了中文的字符串(包括中文的括号和分号以及冒号等),只要日志中包含中文字符,airflow 就无法将其打印

airflow 2.0.2 python依赖清单

Editable install with no version control (apache-airflow==2.0.2) APScheduler3.6.3 Authlib0.15.3 Babel2.9.0 Flask-AppBuilder3.2.3 Flask-Babel1.0.0 Flask-Bcrypt0.7.1 Flask-Caching1.10.1 Flask-JWT-Extended3.25.1 Flask-Login0.4.1 Flask-OAuthlib0.9.5 Flask-Op

airflow调度框架

airflow调度框架 1.认识大数据1.1、什么是大数据1.2、大数据分析应用场景 2.任务调度相关概念2.1、什么是任务调度2.1.1、任务调度:实现执行程序的、规范化、自动化、可视化、集中化、统一调度和监控,让所有任务有序、高效运行,降低开发和运维成本。2.1.2、分布式任务调度:任务

airflow trigger a DAG run with REST API

REST API https://airflow.apache.org/docs/apache-airflow/stable/stable-rest-api-ref.html#section/Overview 为了利于管理, 支持了REST API。 To facilitate management, Apache Airflow supports a range of REST API endpoints across its objects. This section provides

第一章 Airflow基本原理

一、Airflow简介 airflow是Airbnb开源的一个用python编写的调度工具,项目于2014年启动,2015年春季开源,2016年加入Apache软件基金会的孵化计划,使用Python编写实现的任务管理、调度、监控工作流平台。 Airflow 是基于DAG(有向无环图)的任务管理系统,可以简单理解为是高级版的crontab,但

Docker安装airflow(超详细)单机,集群部署教程

基于这个项目 :git clone https://github.com/puckel/docker-airflow 上图的文件解压后如图: ### 更改配置文件vim airflow.cfg ### 文件移动 docker-airflow底下所有文件放进 /usr/local/airflow docker的安装这里不再列出参考:https://www.runoob.com/docker/centos-docker-i

你不可不知的任务调度神器-AirFlow

点击上方蓝色字体,选择“设为星标” 回复”资源“获取更多资源 大数据技术与架构 点击右侧关注,大数据开发领域最强公众号! 大数据真好玩 点击右侧关注,大数据真好玩! Airflow 是一个编排、调度和监控workflow的平台,由Airbnb开源,现在在Apache Software Foundation 孵化。AirFlow

你不可不知的任务调度神器-AirFlow

点击上方蓝色字体,选择“设为星标” 回复”资源“获取更多资源 大数据技术与架构 点击右侧关注,大数据开发领域最强公众号! 大数据真好玩 点击右侧关注,大数据真好玩! Airflow 是一个编排、调度和监控workflow的平台,由Airbnb开源,现在在Apache Software Foundation 孵化。AirFlow

Apache Airflow2.0.2 遇到的问题及解决方案

Airflow2.0.2 问题及解决方案 a.测试运行期间发现 airflow scheduler 由于 mysql deadlock 而挂掉的问题 _mysql_exceptions.OperationalError: (1213, 'Deadlock found when trying to get lock; try restarting transaction') 看了下若干的issue,感觉mysql对airflow scheduler

airflow 2.0.0 REST API接口用法&以及一些坑

1、按照网上的安装教程折腾一圈 转载【airflow 安装插件REST API】 server启动总是报错,折腾一天发现,我的版本是airflow2.0.0,自带rest API,不用安装!!!! 上面的是1.X版本的才要装 话说airflow国内的资料还是不太够 2、国内airflow文档过期了,还是看国外的文档吧 Airflow文档 3、验证

Apache Airflow实用技巧和最佳实践

当我第一次使用Airflow构建ETL数据管道时,在弄清为什么管道无法运行之后,我经历了许多令人难忘的“啊哈”时刻。由于技术文档无法涵盖所有内容,因此我倾向于通过试错和阅读优秀的源代码来学习新工具。在本文中,我将分享Airflow的许多实用技巧和最佳实践,以帮助您建立更可靠和可扩

你不可不知的任务调度神器-AirFlow

你不可不知的任务调度神器-AirFlow 大数据技术与架构 大数据技术与架构 Airflow 是一个编排、调度和监控workflow的平台,由Airbnb开源,现在在Apache Software Foundation 孵化。AirFlow 将workflow编排为tasks组成的DAGs,调度器在一组workers上按照指定的依赖关系执行tasks。同时,Airf