其他分享
首页 > 其他分享> > 20210727-botu

20210727-botu

作者:互联网

  1. 什么是日志
    系统日志是记录系统中的硬件、软件和系统问题的信息,同时还可以监视系统中发生的事件。用户可以通过它来检查错误发生的原因,或者寻找收到攻击时攻击者留下的痕迹,系统日志包括系统日志、应用程序日志和安全日志
    理解:承载特定内容的信息
    信息编码格式:自然语言、键值对、json等

  2. 日志解析
    在这里插入图片描述

  3. 日志样本
    在这里插入图片描述

  4. 日志解析路线
    自动解析(前沿):基于自然语言处理的相关技术,工具LogMine,spell,Drain、MoLfi。问题是识别准确性不够,性能不高。
    解析脚本(主流):基于Regex,Gork等技术。目前绝大部分日志分析产品都支持该技术,如:Splunk,LogStash,Morphline。Botu是一款专门用于日志解析的脚本语言,Regex是其用来解析的核心技术之一,其余技术还包括json的格式解析,cvs格式解析等。问题:工作量大,性能适中
    插件技术(早期):实现特定接口的二进制程序。Flume的拦截器为此类技术的代表。拦截器可用于解析特定日志。问题:工作量大且不够灵活

  5. 日志解析的工作内容
    信息抽取:抽取日志中的有效信息
    统一表述:格式:时间,ip,mac
    度量:流入字节数,流出字节数
    语义:日志类型,日志级别
    信息补全:地理位置信息,资产信息
    结构填充:将信息填充到日志结构模型最合适的字段
    性能优化:优化日志的解析性能

  6. 日志解析的困难
    缺少文档说明&日志样本不全:难于准确解析日志
    无法准确理解日志有效信息:加强解析训练,调整日志结构模式,完善日志认知与解析规则
    日志格式动态变化:日志时间可变,Apache日志格式可配置(采集阶段解决)
    日志信息语义统一:杀伤链阶段,病毒名等(工人知识整理)

  7. 日志建模原则
    日志分析业务驱动
    先一般后专业:先按一般认知描述。再按安全认知补充
    基于主客体结构描述:主+谓+宾语,主+系+表
    结构化字段无二义性:字段名souceip,字段类型,字段取值

  8. 日志模式
    基于json格式描述
    数据类型:Integer Long Boolean String DateTime Object :Ip、Mac

  9. 主体的类型和名字填上,日志是xml情况的比较少,支撑最多是syslog

  10. 日志解析:里面有明确的用户信息时直接填用户信息为主体,

标签:20210727,信息,json,格式,日志,解析,botu,系统日志
来源: https://blog.csdn.net/lcywan/article/details/119145208