首页 > 数据库> > 【MySQL实战45讲基础篇】(task4)深入浅出索引（上）

【MySQL实战45讲基础篇】(task4)深入浅出索引（上）

2021-11-11 00:01:18 作者：互联网

学习总结

分析了数据库引擎可用的数据结构，介绍了 InnoDB 采用的 B+ 树结构，以及为什么 InnoDB 要这么选择。B+ 树能够很好地配合磁盘的读写特性，减少单次查询的磁盘访问次数。

在这里插入图片描述

由于 InnoDB 是索引组织表，一般情况下建议创建一个自增主键，这样非主键索引占用的空间最小。并且讨论了使用业务逻辑字段做主键的应用场景。
不管是哈希还是有序数组，或者 N 叉树，它们都是不断迭代、不断优化的产物或者解决方案。如今，跳表、LSM 树等数据结构也被用于数据库引擎设计中。数据库底层存储的核心就是基于这些数据模型的。每碰到一个新数据库，我们需要先关注它的数据模型，这样才能从理论上分析出这个数据库的适用场景。

一、索引的常见模型

索引：提高数据查询的效率，像书的目录一样。

1.1 哈希表

（1）哈希表
为了处理冲突，在原来哈希表基础上加上链地址：
在这里插入图片描述
现在维护着一个身份证信息和姓名的表，需要根据身份证号查找对应的名字，这时对应的哈希索引的示意图如下所示，假设，这时候你要查 ID_card_n2 对应的名字是什么，处理步骤就是：首先，将 ID_card_n2 通过哈希函数算出 N；然后，按顺序遍历，找到 User2。

优点：图中四个 ID_card_n 的值并不是递增的，这样做的好处是增加新的 User 时速度会很快，只需要往后追加。
缺点：因为不是有序的，所以哈希索引做区间查询的速度是很慢的。
在这里插入图片描述

1.2 有序数组

如果你现在要找身份证号在[ID_card_X, ID_card_Y]这个区间的所有用户，就必须全部扫描一遍了。所以，哈希表这种结构适用于只有等值查询的场景，比如 Memcached 及其他一些 NoSQL 引擎。而有序数组在等值查询和范围查询场景中的性能就都非常优秀。

还是上面这个根据身份证号查名字的例子，如果我们使用有序数组来实现的话，示意图如下所示。假设身份证号没有重复，这个数组就是按照身份证号递增的顺序保存的。这时候如果你要查 ID_card_n2 对应的名字，用二分法就可以快速得到，这个时间复杂度是 O(log(N))。
在这里插入图片描述
优点：索引结构支持范围查询。

你要查身份证号在[ID_card_X, ID_card_Y]区间的 User，可以先用二分法找到 ID_card_X（如果不存在 ID_card_X，就找到大于 ID_card_X 的第一个 User），然后向右遍历，直到查到第一个大于 ID_card_Y 的身份证号，退出循环。

缺点：如果仅仅看查询效率，有序数组就是最好的数据结构了。但是，在需要更新数据时，如往中间插入一个记录就必须得挪动后面所有的记录，成本太高。

小结：有序数组索引只适用于静态存储引擎，比如你要保存的是 2017 年某个城市的所有人口信息，这类不会再修改的数据。

1.3 二叉搜索树

结构：父节点的左子树所有结点的值均小于父节点，右子树所有结点的值均大于父节点。

查找的时间复杂度：O(log(N))
保持树是平衡二叉树，更新的时间复杂度也是O(log(N))
在这里插入图片描述
二叉搜索树搜索效率虽然高，但大多数数据库存储不会用它，因为索引不仅存在内存中，还要写到磁盘上。

为了在查询时，减少度磁盘的次数，即访问尽量少的数据块。那我们可以使用N叉树，N取决于数据块大小。

以 InnoDB 的一个整数字段索引为例，这个 N 差不多是 1200。这棵树高是 4 的时候，就可以存 1200 的 3 次方个值，这已经 17 亿了。考虑到树根的数据块总是在内存中的，一个 10 亿行的表上一个整数字段的索引，查找一个值最多只需要访问 3 次磁盘。其实，树的第二层也有很大概率在内存中，那么访问磁盘的平均次数就更少了。

小结：N 叉树由于在读写上的性能优点，以及适配磁盘的访问模式，已经被广泛应用在数据库引擎中了。

二、InnoDB 的索引模型

不同存储引擎的索引的工作方式不同；即使多个存储引擎支持同一种类型的索引，其底层的实现也可能不同。因为InnoDB存储引擎在MySQL中使用最广泛，下面分析其索引模型。

索引组织表：在InnoDB中，表根据主键顺序以索引的形式存放。
InnoDB所有数据都是存储在B+树索引模型中的。每个索引在InnoDB里对应一棵B+树。

有一个主键列为 ID 的表，表中有字段 k，并且在 k 上有索引。
建表语句：

mysql> create table T(
id int primary key, 
k int not null, 
name varchar(16),
index (k))engine=InnoDB;

回顾下mysql的基本语句：
在这里插入图片描述
表中 R1~R5 的 (ID,k) 值分别为 (100,1)、(200,2)、(300,3)、(500,5) 和 (600,6)，两棵树的示例示意图如下。

2.1 索引类型

根据叶子结点的内容分类：
主键索引：主键索引的叶子节点存的是整行的数据（InnoDB中又称为聚簇索引），
非主键索引：非主键索引的叶子节点内容是主键的值（InnoDB中又称为二级索引）

2.2 主键索引和普通索引

基于主键索引和普通索引的查询有什么区别？

如果语句是 select * from T where ID=500，即主键查询方式，则只需要搜索 ID 这棵 B+ 树；
如果语句是 select * from T where k=5，即普通索引查询方式，则需要先搜索 k 索引树，得到 ID 的值为 500，再到 ID 索引树搜索一次。这个过程称为回表。

基于非主键索引的查询需要多扫描一棵索引树。因此，我们在应用中应该尽量使用主键查询。

三、索引维护

3.1 页分裂和页合并

B+ 树为了维护索引有序性，在插入新值的时候需要做必要的维护。如刚才这个图：
在这里插入图片描述
插入新的行 ID 值为 700，则只需要在 R5 的记录后面插入一个新记录。如果新插入的 ID 值为 400，就相对麻烦了，需要逻辑上挪动后面的数据，空出位置。

页分裂

而更糟的情况是，如果 R5 所在的数据页已经满了，根据 B+ 树的算法，这时候需要申请一个新的数据页，然后挪动部分数据过去。这个过程称为页分裂。

在【页分裂】这种情况下，性能自然会受影响。除了性能外，页分裂操作还影响数据页的利用率。原本放在一个页的数据，现在分到两个页中，整体空间利用率降低大约 50%。

页合并

当相邻两个页由于删除了数据，利用率很低之后，会将数据页做合并。合并的过程，可以认为是分裂过程的逆过程。

3.2 自增主键

ex：你可能在一些建表规范里面见到过类似的描述，要求建表语句里一定要有自增主键。当然事无绝对，下面分析一下哪些场景下应该使用自增主键，而哪些场景下不应该。

自增主键是指自增列上定义的主键，在建表语句中一般是这么定义的： NOT NULL PRIMARY KEY AUTO_INCREMENT。

自增主键的插入模式：插入新记录的时候可以不指定 ID 的值，系统会获取当前 ID 最大值加 1 作为下一条记录的 ID 值。
自增主键的插入数据模式，正符合了我们前面提到的递增插入的场景。每次插入一条新记录，都是追加操作，都不涉及到挪动其他记录，也不会触发叶子节点的分裂。

（1）性能角度：有业务逻辑的字段做主键，则往往不容易保证有序插入，这样写数据成本相对较高。
（2）存储空间角度：假设你的表中确实有一个唯一字段，比如字符串类型的身份证号，那应该用身份证号做主键，还是用自增字段做主键呢？
由于每个非主键索引的叶子节点上都是主键的值。如果用身份证号做主键，那么每个二级索引的叶子节点占用约 20 个字节，而如果用整型做主键，则只要 4 个字节，如果是长整型（bigint）则是 8 个字节。

小结：主键长度越小，普通索引的叶子节点就越小，普通索引占用的空间也就越小。所以，从性能和存储空间方面考量，自增主键往往是更合理的选择。

3.2 适合业务字段直接做主键的场景

有没有什么场景适合用业务字段直接做主键的呢？
还是有的。比如，有些业务的场景需求是这样的：只有一个索引；该索引必须是唯一索引。

这就是典型的 KV 场景。由于没有其他索引，所以也就不用考虑其他索引的叶子节点大小的问题。这时就要优先考虑“尽量使用主键查询”原则，直接将这个索引设置为主键，可以避免每次查询需要搜索两棵树。

在设计数据库时不需要费尽心思去考虑设置哪个字段为主键。然后是这些字段只是理论上是唯一的，例如使用图书编号为主键，这个图书编号只是理论上来说是唯一的，但实践中可能会出现重复的情况。所以还是设置一个与业务无关的自增ID作为主键，然后增加一个图书编号的唯一性约束。

四、作业

对于上面例子中的 InnoDB 表 T，如果你要重建索引 k，你的两个 SQL 语句可以这么写：

alter table T drop index k;
alter table T add index(k);

如果你要重建主键索引，也可以这么写：

alter table T drop primary key;
alter table T add primary key(id);

对于上面这两个重建索引的作法，说出你的理解。如果有不合适的，为什么，更好的方法是什么？

【答】重建索引 k 的做法是合理的，可以达到省空间的目的。但是，重建主键的过程不合理。不论是删除主键还是创建主键，都会将整个表重建。所以连着执行这两个语句的话，第一个语句就白做了。这两个语句，可以用这个语句代替： alter table T engine=InnoDB（在12讲中会讲到）。

五、课后答疑

Reference

（1）《MySQL实战45讲》林晓斌
（2）https://www.cnblogs.com/luoahong/p/10484359.html
（3）为什么要使用自增ID作为主键

标签：自增,task4,45,主键,索引,InnoDB,MySQL,ID,card
来源： https://blog.csdn.net/qq_35812205/article/details/121245674