ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

大数据roadmap

2021-09-23 02:33:43  阅读:284  来源: 互联网

标签:数据 平台 roadmap 数据管理 埋点 比如 spark


该roadmap是对自身大数据知识的一个概括和梳理,之后会写一些博客对这些知识点进行展开。

  1. 大数据基础
    1. Hadoop
      1. HDFS
      2. MR
      3. Yarn  
    2. Spark
      1. spark 的原理
      2. spark 常用算子。
      3. spark 参数调优。
    3. Flink
      流计算
    4. Hive/Hbase/Flume
      大数据中还有其他的组件,比如 作为数仓处理的 Hive,列数据库 HBASE,负责数据 ETL 的 Flume, 负责调度的 OOZIE 等。 
  2. 大数据开发
    大数据通用开发流程, 以常用的 lamdba 为例。
    1. 埋点。主要包含APP 和 H5 上的用户行为埋点与收集
    2. 数据抽取。如何将埋点数据和业务数据抽取到 大数据平台。
    3. 数据计算。常用的 MR, Spark,流式可以用 Spark Streaming, Flink
    4. 数据存储与建模。 数据可以保存在 HDFS,CK等。 建模可以是常用的维度建模, 可以按照 ODS、DWD、DWS、ADS进行分层。
    5. 数据展示与使用。 包括 BI 报表,OneService  
  3. 大数据管理
    大数据管理部分包含,Job 管理,元数据管理,数据质量,数据指标,IDE平台建设等, 主要是通过这些平台的建设,掌握整个数据平台的运行情况, 让数据更加准确,易用,让平台运行更加健康。
    1. 平台管理,比如小文件管理,元数据管理,安全管理。
    2. 数据管理,比如数据质量,数据血缘,数据指标
    3. 平台自身建设,比如 Job,IDE,BI 报表系统等  
  4. 大数据应用
    大数据平台除了产出报表,还可以有下面这些应用
    1. 用户画像,DMP 平台等。用户画像可以在商品召回,或者重排时使用,DMP 平台可以在运营精准营销时起到关键作用。 
    2. 搜索,推荐,广告。现在大多数应用都有搜索,猜你喜欢等模块,这些模块的背后混合了机器学习,用户画像等技术。
    3. 数据挖掘。比如频繁项挖掘,落地到场景比如买了还买。
    4. 机器学习。比如 CTR 预估,情感分析,图像识别。  

标签:数据,平台,roadmap,数据管理,埋点,比如,spark
来源: https://www.cnblogs.com/beyondbit/p/15322529.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有