其他分享
首页 > 其他分享> > 快速了解数据湖及其应用

快速了解数据湖及其应用

作者:互联网

要:本文通过查阅资料,介绍了数据湖的产生及其发展,详细介绍了数据湖与传统数据仓库的区别,列举了数据湖的优势和其核心能力,其次介绍了如何通过数据湖构建一个分布式数据平台,构建数据平台的作用,最后,列举了数据湖如今发展的不足和相应的担忧。

关键词:大数据;数据湖;数据仓库;分布式存储

中图分类号:TP301                   文献标识码:R                文章编号:xxxx-xxxx(2022)xx-xxxx-xx

Quickly Learn about Data Lakes and its Applications

(SIST of Shijiazhuang Tiedao University,Shijiazhuang 050000,China)

AbstractIn this article, through access to information, this paper introduces the data on the produce and development of the lake, lake data was introduced in detail and the difference between the traditional data warehouse, lists the data the advantage and its core ability of the lake, lake secondly introduces how to use the data to build a platform for distributed data, the effect of building data platform, finally, the development of the lake now lists the data and the corresponding concerns.

Key wordsbig data; data lake; data warehouse; distributed storage

一、产生背景

数据湖或hub的概念最初是由时任Pentaho首席技术官的 James Dixon 在2011 年提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的,但数据量越大,越需要各种不同种类的存储。在推广数据湖时,他认为数据集市存在一些固有问题,例如信息孤岛。普华永道(PwC) 表示,数据湖可以“终结数据孤岛”。

所有的企业数据都可以被认为是大数据,但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。数据湖的一部分价值是把不同种类的数据汇聚到一起,另一部分价值是不需要预定义的模型就能进行数据分析。

现在的大数据架构是可扩展的,并且可以为用户提供越来越多的实时分析。在商业智能(BI)和数据仓库还没有被淘汰的今天,大数据分析和大数据湖正在向更多类型的实时智能服务发展,这些实时的智能服务可以支持实时的决策制定。

二、概念

数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。

与数据仓库中的分层存储不同,数据湖是在平面架构中保存大量数据的集中位置。数据湖可以存储来自关系数据库、半结构化数据、非结构化数据和二进制数据的结构化数据,并且可以在“本地”或“云”中设置。

三、数据湖与数据仓库的区别

         从定义上看,数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。随着大数据技术的融合发展,数据湖不断演变,汇集了各种技术,包括数据仓库、实时和高速数据流技术、数据挖掘、深度学习、分布式存储和其他技术。逐渐发展成为一个可以存储所有结构化和非结构化任意规模数据,并可以运行不同类型的大数据工具,对数据进行大数据处理、实时分析和机器学习等操作的统一数据管理平台。

而数据仓库是一种具有正式架构的成熟的、安全的技术。它们存储经过全面处理的结构化数据,以便完成数据治理流程。数据仓库将数据组合为一种聚合、摘要形式,以在企业范围内使用,并在执行数据写入操作时写入元数据和模式定义。数据仓库通常拥有固定的配置;它们是高度结构化的,因此不太灵活和敏捷。数据仓库成本与在存储前处理所有数据相关,而且大容量存储的费用相对较高。

数据仓库中保存的都是结构化处理后的数据,而数据湖中可以保存原始数据也可以保存结构化处理后的数据,保证用户能获取到各个阶段的数据。因为数据的价值跟不同的业务和用户强相关,有可能对于A用户没有意义的数据,但是对于B用户来说意义巨大,所以都需要保存在数据湖中。

四、数据湖核心能力

1、数据集成能力(数据接入)

1)接入不同数据源,包括数据库中的表(关系型或者非关系型)、各种格式的文件(csv、json、文档等)、数据流、ETL工具(Kafka、Logstash、DataX等)转换后的数据、应用API获取的数据(如日志等)。

2)自动生成元数据信息,确保进入数据湖的数据都有元数据。

3)提供统一的接入方式,如统一的API或者接口。

2、数据存储

数据湖存储的数据量巨大且来源多样,数据湖应该支持异构和多样的存储,如HDFS、HBase、Hive等。

3、数据搜索

数据湖中拥有海量的数据,对于用户来说,明确知道数据湖中数据的位置,快速的查找到数据,是一个非常重要的功能。

4、数据治理

1)自动提取元数据信息,并统一存储。

2)对元数据进标签和分类,建立统一的数据目录。

3)建立数据血缘,梳理上下游的脉络关系,有助于数据问题定位分析、数据变更影响范围评估、数据价值评估。

4)跟踪数据时间旅行,提供不同版本的数据,便于进行数据回溯和分析。

5、数据质量

1)对于接入的数据质量管控,提供数据字段校验、数据完整性分析等功能;

2)监控数据处理任务,避免未执行完成任务生成不完备数据。

6、安全管控

1)对数据的使用权限进行监管。

2)对敏感数据进行脱敏和加密。

7、自助数据发现

1)提供一系列数据分析工具,便于用户对数据湖的数据进行自助数据发现,包括:

2)联合分析

3)交互式大数据SQL分析

4)机器学习

5)BI报表

 

五、分布式大数据架构的建设

首先,分布式大数据架构的建设基于数据湖的存储和基于云计算的服务器群,包括重新规划数据中心的软硬件,部署基于软件定义存储(SDS)资源池等。

其次,基于BI(商业智能)反馈的是精准的数据报表,其基于传统的数据库为数据源,而通过构建数据湖,将碎片化的非结构数据、结构数据、第三方数据和流式(streaming)数据分析,包括批式(batch)数据。并将这些基础数据通过 ETL 抽取(extract)、转换(transform)、加载(load)导入到我们的数据湖中,来构建分布式大数据平台。

如何构建分布式大数据平台,可以通过了解 Hadoop、Dubbo zookeeper、SpringCloud 等框架来学习,hadoop是离线的数据分析平台,而实时的有spark、storm等工具。

建立分布式学习和计算模型、数据挖掘、使用机器学习的工具,来处理这些数字资源。通过大数据系统软件,做主题查询、检索、统计、行为分析等服务。另外可以通过管理中心,来控制作业调度管理,数据管理、安全管理、运维管理。基于以上思路,构建适合长期发展的大数据运维环境和计算环境。

六、优势

(1)轻松地收集和摄入数据:企业中的所有数据源都可以送入数据湖中。因此,数据湖成为了存储在企业内部服务器或云服务器中的结构化和非结构化数据的无缝访问点。通过数据分析工具可以轻松地获得整个无孤岛的数据集合。此外,数据湖可以用多种文件格式存储多种格式的数据,比如文本、音频、视频和图像。这种灵活性简化了旧有数据存储的集成。

(2)支持实时数据源:数据湖支持对实时和高速数据流执行 ETL 功能,这有助于将来自 IoT 设备的传感器数据与其他数据源一起融合到数据湖中。

(3)更快地准备数据:分析师和数据科学家不需要花时间直接访问多个来源,可以更轻松地搜索、查找和访问数据,这加速了数据准备和重用流程。数据湖还会跟踪和确认数据血统,这有助于确保数据值得信任,还会快速生成可用于数据驱动的决策的 BI。

(4)更好的可扩展性和敏捷性:数据湖可以利用分布式文件系统来存储数据,因此具有很高的扩展能力。开源技术的使用还降低了存储成本。数据湖的结构没那么严格,因此天生具有更高的灵活性,从而提高了敏捷性。数据科学家可以在数据湖内创建沙箱来开发和测试新的分析模型。

(5)具有人工智能的高级分析:访问原始数据,创建沙箱的能力,以及重新配置的灵活性,这些使得数据湖成为了一个快速开发和使用高级分析模型的强大平台。数据湖非常适合使用机器学习和深度学习来执行各种任务,比如数据挖掘和数据分析,以及提取非结构化数据。

七、担忧与不足

数据湖架构面向多数据源的信息存储,包括物联网在内。大数据分析或归档可通过访问数据湖处理或交付数据子集给请求用户。但数据湖架构可不仅仅是一个巨大的磁盘而已。

数据湖的数据持久性和安全却是需要优先考虑的因素。很多选择都能交付一个合理的成本,但并非所有都能满足数据湖的长期存储需求。挑战就在于数据湖中很多数据永远不会删除。这种数据的价值在于它要拿来分析以及和年复一年的数据进行比对,这将抵消其容量成本。

在数据湖架构中,信息安全作为另一项挑战往往被人忽视。相比于其它,这种类型的存储安全要更加重要。数据湖架构从定义上看是将所有的鸡蛋放在一个篮子中。而如果其中一个存储库的安全被破坏,那么未知方将可能访问所有数据。很多数据都以易于读取的格式存储,像是JPEG、PDF文件——如果数据湖架构不够安全,那么信息损失将变得很容易。

参考文献

[1]汪永涛.大数据时代智慧校园的建设思路[J].电脑知识与技术,2020,16(01):293-294.DOI:10.14004/j.cnki.ckt.2020.0125.

[2]百度百科. 数据湖[EB/OL]. [2022-05-09]. https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E6%B9%96/18750226?fr=aladdin.

[3]bashendixie5. 杂记 什么是数据湖?[EB/OL]. [2022-05-09]. https://blog.csdn.net/bashendixie5/article/details/124133752.

[4]人生五味. 什么是数据湖?与数据仓库有什么区别?[EB/OL]. [2022-05-09]. https://baijiahao.baidu.com/s?id=1700147313670464427&wfr=spider&for=pc.

标签:结构化,架构,快速,及其,数据仓库,存储,data,应用,数据
来源: https://www.cnblogs.com/Arisf/p/16265286.html