首页 > 其他分享> > |NO.Z.00010|——————————|BigDataEnd|——|Hadoop&PB级数仓.V02|---------------------------------------|PB数仓.v
|NO.Z.00010|——————————|BigDataEnd|——|Hadoop&PB级数仓.V02|---------------------------------------|PB数仓.v
作者:互联网
[BigDataHadoop:Hadoop&PB级数仓.V02] [BigDataHadoop.PB级企业电商离线数仓][|章节二|Hadoop|会员活跃度分析:日志数据采集&taildir/source|]
一、日志数据采集
### --- 原始日志数据(一条启动日志)
2020-07-3014: 18: 47.339[
main
]INFOcom.yanqi.ecommerce.AppStart-{
"app_active": {
"name": "app_active",
"json": {
"entry": "1",
"action": "1",
"error_code": "0"
},
"time": 1596111888529
},
"attr": {
"area": "泰安",
"uid": "2F10092A9",
"app_v": "1.1.13",
"event_type": "common",
"device_id": "1FB872-9A1009",
"os_type": "4.7.3",
"channel": "DK",
"language": "chinese",
"brand": "iphone-9"
}
}
二、数据采集的流程:### --- 选择Flume作为采集日志数据的工具:
~~~ # Flume 1.6
~~~ 无论是Spooling Directory Source、Exec Source均不能很好的满足动态实时收集的需求
~~~ # Flume 1.8+
~~~ 提供了一个非常好用的 Taildir Source
~~~ 使用该source,可以监控多个目录,对目录中新写入的数据进行实时采集
三、日志采集配置:taildir source### --- taildir source配置
~~~ # taildir Source的特点:
~~~ 使用正则表达式匹配目录中的文件名
~~~ 监控的文件中,一旦有数据写入,Flume就会将信息写入到指定的Sink
~~~ 高可靠,不会丢失数据
~~~ 不会对跟踪文件有任何处理,不会重命名也不会删除
~~~ 不支持Windows,不能读二进制文件。支持按行读取文本文件
### --- taildir source配置
a1.sources.r1.type = TAILDIR
a1.sources.r1.positionFile = /data/yanqidw/conf/startlog_position.json
a1.sources.r1.filegroups = f1
a1.sources.r1.filegroups.f1 = /data/yanqidw/logs/start/.*log
~~~ # positionFile
~~~ 配置检查点文件的路径,检查点文件会以 json 格式保存已经读取文件的位置,解决断点续传的问题
~~~ # filegroups
~~~ 指定filegroups,可以有多个,以空格分隔(taildir source可同时监控多个目录中的文件)
~~~ # filegroups.
~~~ 配置每个filegroup的文件绝对路径,文件名可以用正则表达式匹配
===============================END===============================
Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart ——W.S.Landor
来自为知笔记(Wiz)
标签:---------------------------------------,filegroups,文件,PB,source,sources,taildir, 来源: https://www.cnblogs.com/yanqivip/p/16125752.html