基于阿里云EMR初期集群选购指南
作者:互联网
- 业务数据量
业务库:累计15G
日志:累计3T;日增量13G
- 集群配置
方案制定:
- 高可用(建议):
集群有两个NameNode节点,一台处于active状态,一台处于standby状态,两台机器实时同步元数据信息,但整个集群工作由active状态的NameNode负责,当此台NameNode出现故障(宕机等情况),standby状态的NameNode会立刻转为active模式,保证集群正常运行。
- 方案:
| 方案一 | 方案二 | 方案三 | 方案四 |
是否高可用 | 是 | 是 | 否 | 否 |
总机器数 | 4 | 4 | 3 | 3 |
Master节点数 | 2 | 2 | 1 | 1 |
Master核心数 | 16 | 16 | 16 | 16 |
Master内存 | 64G | 64G | 64G | 64G |
Master磁盘 | 120G ESSD系统盘+1T ESSD硬盘 | 120G ESSD系统盘+1T高效云盘 | 120G ESSD系统盘+1T ESSD硬盘 | 120G ESSD系统盘+1T高效云盘 |
Worker节点数 | 2 | 2 | 2 | 2 |
Worker核心数 | 16 | 16 | 16 | 16 |
Worker内存 | 64G | 64G | 64G | 64G |
Worker磁盘 | 120G ESSD系统盘 + 4*2T ESSD硬盘 | 120G ESSD系统盘 + 4*2T 高效云盘 | 120G ESSD系统盘 + 4*2T ESSD硬盘 | 120G ESSD系统盘 + 4*2T 高效云盘 |
预估价格 | 26592.00/月 | 14611.20/月 | 23528.00/月 | 12212.80/月 |
|
|
|
|
|
- 磁盘性能对比
可选磁盘:ESSD PL0 ,高效云盘
磁盘类型后续不可修改,但可增加不同类型磁盘混用;
现有业务高效云盘可以支撑,需考虑后续需求情况;
- 技术选型
集群版本:阿里云EMR-3.29.0
Hadoop版本:hadoop2.x
可选组件:
- Zookeeper(高可用默认安装):分布式服务框架,Hbase和手动安装低版本Kafaka会用到
- Impala:快速查询HDFS或HBase中的数据的查询系统
- Flume:数据采集工具,可用来做日志采集
- Flink:现在非常流行的实时数据处理工具
- 其他
MySQL(云):1.用来存放各组件的原数据;2.离线数据导出
Kafka(云或自建):消息中间件,减少业务间耦合度,统一数据源等
Redis(云或自建):NoSQL数据库,读写速度快,实时项目存储数据,保存偏移量
Airflow(自建):调度工具,调度任务
DataX(自建):数据仓库-业务库间数据导入导出
FileBeat(自建):日志采集
- 数据流
- 数据门户
阿里云 Quick BI
标签:64G,16,云盘,系统盘,集群,ESSD,EMR,120G,选购指南 来源: https://blog.csdn.net/Mr_ShangHaohao/article/details/110925701