标签:快要 定义 处理 数据库 存储 了解 催生 数据 Out
高德纳咨询公司(甘特Gartner)给出的定义是:
“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
顶级咨询公司麦肯锡(McKinsey)全球研究所给出的定义是:
一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
维基百科(Wiki)给出的定义是:
在信息技术中,“大数据”是指一些使用目前现有数据库管理工具或传统数据处理应用很难处理的大型而复杂的数据集。其挑战包括采集、管理、存储、搜索、共享、分析和可视化。
以上三家权威机构对大数据定义的出发点略有不同,但都突出了大数据的“大”和“难”两个关键特性。为什么大数据的定义中要特别强调“大”和“难”呢?
当然是时代发展的要求。近年来,随着各行业的飞速发展,各种系统运行的时间越来越长、搜集和积累的数据也越来越多,传统的数据库系统越来越难以支撑;进一步说,越来越多、越来越杂的数据,单机计算已经成为瓶颈,无论是存储和计算都撑不下去了,因此基于分布式的大数据系统开始崭露头角。
可以从以下几个方面认识大数据的特点:
1、容量巨大(Volume),大数据要求超大的空间存储,比如一般的大数据存储都达到或超越了TB、PB、ZB、YB级别。因此催生了分布式大数据存储。
2、种类繁多(Variety),大数据要存储的数据类型复杂,传统关系型数据库的二维表格无法满足,因此各类NoSQL和NewSQL相继诞生。
3、速度要快(Velocity),大数据处理要求高速度,在基于大量不规则数据的前提下,能够进行快速的检索和处理,所以一般的NoSQL和NewSQL都优先支持基于内存的存储和处理。
4、来源复杂(Complexity),大数据数量巨大,来源一般是多渠道的。比如可能来源于各种不同类型的数据库系统,这就需要有凌驾于多种数据库的协调处理技术。
5、变动频繁(Variability),大数据经常面临随时变动的要求,这妨碍了处理和有效地管理数据的过程。频繁的数据变动进一步催生了对速度的严苛要求。
6、真实可靠(Veracity),大数据不但繁杂,更要保证数据的质量和安全。这就催生了围绕数据校验和安全各类辅助系统和体系。
7、价值体现(value),大数据的价值体现,在于对数据进行深度的挖掘和分析。这才是大数据应用的终极目标。比如商家应用大数据、根据用户习惯分析用户的潜在购买需求等等。
为了满足大数据存储和处理需求,围绕大数据催生了大量相关技术的升级和支持,主要包括:调度与管理服务、内存技术、数据存储、机器学习、文件系统、数据处理、分析和报告工具、数据搜集、消息系统、查询引擎等。
标签:快要,定义,处理,数据库,存储,了解,催生,数据,Out
来源: https://blog.csdn.net/Mobholly/article/details/88787411
本站声明:
1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。