首页 > 其他分享> > 【赵强老师】什么是分区

【赵强老师】什么是分区

2021-06-05 20:52:09 作者：互联网

先看视频。

【赵强老师】什么是分区

通常情况下，我们创建的表都是未分区的表，或者说，只有一个分区的表，数据只能存储在一个文件组（File Group）中，默认情况下，表数据存储在PRIMARY文件组。对表进行分区后，每一个分区都独立存储在文件组（File Group）中。把表分区，实际上是把逻辑上完整的表，按照特定的字段拆分成多个分区，每个分区分配到（相同或不同的）FileGroup中，每一个分区在文件组中都是独立存储，即使多个分区分配到相同的文件组中。

为什么要对数据表（Table）分区？这是因为分区（Partition）之间是物理上独立存储的，对单个分区进行操作，不会影响其他分区，这能提高查询性能，避免死锁；而分区切换甚至能够不移动数据，而删除海量数据。

在MapReduce过程中，可以根据实际需求（比如按某个维度进行归档，类似于数据库的分组），把Map完的数据Reduce到不同的文件中。分区的设置需要与ReduceTaskNum配合使用。比如想要得到5个分区的数据结果。那么就得设置5个ReduceTask。

Spark RDD是弹性分布式数据集，通常RDD很大，会被分成很多分区，分别保存在不同节点上。Spark RDD分区原则是使分区的个数尽量等于集群中的CPU核心数目。

标签：文件,存储,Group,赵强,老师,分区,RDD,数据
来源： https://blog.51cto.com/collen7788/2870675