其他分享
首页 > 其他分享> > 大数据漫谈

大数据漫谈

作者:互联网

一 50年科技发展史

方向 公司组织 年代 代表
大型机 IBM 70年代 System z、AIX
小型机 DEC、SUN 80年代 SPARC、Solaris
廉价PC+光纤 Google 90年代 Intel、Seagate
大数据 Google 2003-2004 GFS、MapReduce、BigTable
开源 Apache 2006-2007 Hadoop、HBase
人工智能、深度学习 Google 2016 TensorFlow

“当网络变得像处理器一样快的时候,连到网络上的电脑就会变得空空如也。”
--埃里克 施密特,SUN CTO,1993

“互联网即将消失,物联网将无所不能。”
--埃里克 施密特,Google CEO,2015

背后的驱动力

网络->互联网->数据爆炸->大数据->人工智能

二 回到硬件

硬件 细节
CPU SIMD指令(Single Instruction Multiple Data)-向量化查询
GPU 矩阵运算加速-算法
内存 DDR、JVM-GC
硬盘 接口:IDE/ATA、SATA、PCLE、SCSI、SAS、FC;分类:机械硬盘、固态硬盘;机械硬盘:5600转、7200转、垂直式、叠瓦式;读写:顺序读写、随机读写;RAID;
网卡 千兆网卡、万兆网卡;交换机;网络抖动;

性能量级

标的 特点 量级-顺序读写 量级-随机读写
内存 容量小、特别贵、读写特别快、无持久化 10GB/S 10GB/S
机械硬盘HDD 容量大、寿命长、便宜、读写慢(尤其是随机读写) 100MB/S 1MB/S
固态硬盘SSD 容量中、寿命短、一般贵、读写快 100MB/s 10MB/s

性能实例

https://www.userbenchmark.com/

内存

机械硬盘

固态硬盘

常识

标的1 标的2 对比
GPU-矩阵运算 CPU-矩阵运算 10倍以上
内存-读写 硬盘-顺序读写 100倍
内存-读写 固态硬盘-随机读写 1000倍
内存-读写 机械硬盘-随机读写 10000倍
固态硬盘-顺序读写 固态硬盘-随机读写 10倍
机械硬盘-顺序读写 机械硬盘-随机读写 100倍
固态硬盘-顺序读写 机械硬盘-顺序读写 10倍以内
固态硬盘-随机读写 机械硬盘-随机读写 10倍

清楚这些量级差距之后,就能了解海量实时写入为什么要这样实现,例如:HBase、Kafka

三 发展历程

2016:Is Big Data Still a Thing? (The 2016 Big Data Landscape)
https://mattturck.com/big-data-landscape/

2017:Firing on All Cylinders: The 2017 Big Data Landscape
https://mattturck.com/bigdata2017/

2018:Great Power, Great Responsibility: The 2018 Big Data & AI Landscape
https://mattturck.com/bigdata2018/

2019:A Turbulent Year: The 2019 Data & AI Landscape
https://mattturck.com/data2019/

2020:Resilience and Vibrancy: The 2020 Data & AI Landscape
https://mattturck.com/data2020/

2021: Red Hot: The 2021 Machine Learning, AI and Data (MAD) Landscape
https://mattturck.com/data2021/

标签:数据,读写,漫谈,com,https,Data,硬盘,随机
来源: https://www.cnblogs.com/barneywill/p/16330009.html