其他分享
首页 > 其他分享> > 采集微博数据ETL项目的处理以及相关技术点

采集微博数据ETL项目的处理以及相关技术点

作者:互联网

中小型数据仓库项目的标准开发流程

以数据流来驱动项目开发

以已下载微博数据ETL项目为例

  1. 基于定的微博数据目录,拿到该目录下所有的输入数据的文件路径。(技术问题done)
  2. 基于文件路径,读取文本文件的数据。
  3. 解析读取出来的文件数据,成为结构化数据-微博博文对象抽象类-ContentPojo,最终获取对应的对象集合。(技术问题done)
  4. 解析读取出来的文件数据,成为结构化数据-用户对象抽象类-UserPojo, 最终获取对应的对象集合。(技术问题done)
  5. 将两个抽象的对象集合,进行文本化数据落地,形成待load到hive的数据文件。
  6. load两个类型的文件数据到hive的两张表当中。(提前创建两张表,均为外表)
  7. 测试数据及查询结果的准确性。

Java操作正则

  1. java对正则的核心抽象
    2.Pattern:模式匹配引擎

正则匹配当中的贪婪匹配规则

抽象封装的分类

如何完成方法或字段抽象

  1. 先写测试类
  2. 确定输入与输出的抽象
  1. 抽象成方法及其修饰符

封装分类-按其用途

解析特殊情况数据的处理方法

数据分析题目录中的权重打法

一般性用户数据分析的分类



作者:da9268f7a1bd
链接:https://www.jianshu.com/p/9bdba7661ee3
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

标签:匹配,对象,方法,采集,微博,抽象,Pattern,数据,ETL
来源: https://blog.csdn.net/m0_58421245/article/details/121089879