数据库系统原理 (十一): 并发控制
作者:互联网
参考《数据库系统概论》
目录
问题的产生
- 多用户数据库系统的存在 (飞机定票数据库系统、银行数据库系统)
- 特点:在同一时刻并发运行的事务数可达数百
不同的多事务执行方式
- 事务串行执行: 不能充分利用系统资源,发挥数据库共享资源的特点
- 交叉并发方式(Interleaved Concurrency): 在单处理机系统中,事务的并行执行是这些并行事务的并行操作轮流交叉运行;并行事务并没有真正地并行运行,但能够减少处理机的空闲时间,提高系统的效率
- 同时并发方式 (simultaneous concurrency):多处理机系统中,每个处理机可以运行一个事务,多个处理机可以同时运行多个事务,实现多个事务真正的并行运行
事务并发执行带来的问题
- 会产生多个事务同时存取同一数据的情况,可能会存取和存储不正确的数据,破坏事务一致性和数据库的一致性
并发控制概述
并发控制机制的任务
- 对并发操作进行正确调度
- 保证事务的隔离性
- 保证数据库的一致性
数据库的并发控制以事务为单位
并发操作带来数据的不一致性实例
- 飞机订票系统中的一个活动序列: ① 甲售票点(甲事务)读出某航班的机票余额 A A A,设 A = 16 A=16 A=16;② 乙售票点(乙事务)读出同一航班的机票余额 A A A,也为 16 16 16;③ 甲售票点卖出一张机票,修改余额 A ← A − 1 A←A-1 A←A−1,所以 A A A 为 15 15 15,把 A A A 写回数据库;④ 乙售票点也卖出一张机票,修改余额 A ← A − 1 A←A-1 A←A−1,所以 A A A 为 15 15 15,把 A A A 写回数据库
- 结果明明卖出两张机票,数据库中机票余额只减少 1
- 在并发操作情况下,对甲、乙两个事务的操作序列的调度是随机的。若按上面的调度序列执行,甲事务的修改就被丢失。原因:第 4 步中乙事务修改 A A A 并写回后覆盖了甲事务的修改
并发操作带来的数据不一致性
Notation: R ( x ) R(x) R(x): 读数据 x x x; W ( x ) W(x) W(x): 写数据 x x x
丢失修改(Lost Update)
- 两个事务
T
1
T_1
T1 和
T
2
T_2
T2 读入同一数据并修改,
T
2
T_2
T2 的提交结果破坏了
T
1
T_1
T1 提交的结果,导致
T
1
T_1
T1 的修改被丢失
- 上面飞机订票例子就属此类
- 上面飞机订票例子就属此类
不可重复读(Non-repeatable Read)
- 事务 T 1 T_1 T1 读取数据后,事务 T 2 T_2 T2 执行更新操作,使 T 1 T_1 T1 无法再现前一次读取结果
- 不可重复读包括三种情况:
- (1) 事务
T
1
T_1
T1 读取某一数据后,事务
T
2
T_2
T2 对其做了修改,当事务
T
1
T_1
T1 再次读该数据时,得到与前一次不同的值
- (2) 事务 T 1 T_1 T1 按一定条件从数据库中读取了某些数据记录后,事务 T 2 T_2 T2 删除了其中部分记录,当 T 1 T_1 T1 再次按相同条件读取数据时,发现某些记录消失了
- (3) 事务 T 1 T_1 T1 按一定条件从数据库中读取某些数据记录后,事务 T 2 T_2 T2 插入了一些记录,当 T 1 T_1 T1 再次按相同条件读取数据时,发现多了一些记录
- (1) 事务
T
1
T_1
T1 读取某一数据后,事务
T
2
T_2
T2 对其做了修改,当事务
T
1
T_1
T1 再次读该数据时,得到与前一次不同的值
读“脏”数据(Dirty Read)
- 事务
T
1
T_1
T1 修改某一数据,并将其写回磁盘; 事务
T
2
T_2
T2 读取同一数据后,
T
1
T_1
T1 由于某种原因被撤销, 这时
T
1
T_1
T1 已修改过的数据恢复原值,
T
2
T_2
T2 读到的数据就与数据库中的数据不一致,
T
2
T_2
T2 读到的数据就为 “脏”数据,即不正确的数据
并发控制
- 数据不一致性:由于并发操作破坏了事务的隔离性
- 并发控制就是要用正确的方式调度并发操作,使一个用户事务的执行不受其他事务的干扰,从而避免造成数据的不一致性
- 主要技术:封锁 (Locking)、时间戳 (Timestamp)、乐观控制法
- 商用的 DBMS 一般都采用封锁方法
封锁
什么是封锁
- 封锁就是事务 T T T 在对某个数据对象(例如表、记录等)操作之前,先向系统发出请求,对其加锁; 加锁后事务 T T T 就对该数据对象有了一定的控制,在事务 T T T 释放它的锁之前,其它的事务不能更新此数据对象
基本封锁类型
- 一个事务对某个数据对象加锁后究竟拥有什么样的控制由封锁的类型决定
排它锁(Exclusive Locks, X X X 锁)
又称为写锁
- 若事务
T
T
T 对数据对象
A
A
A 加上
X
X
X 锁,则只允许
T
T
T 读取和修改
A
A
A,其它任何事务都不能再对
A
A
A 加任何类型的锁,直到
T
T
T 释放
A
A
A 上的锁
- 保证其他事务在 T T T 释放 A A A 上的锁之前不能再读取和修改 A A A
共享锁(Share Locks, S S S 锁)
又称为读锁
- 若事务
T
T
T 对数据对象
A
A
A 加上
S
S
S 锁,则其它事务只能再对
A
A
A 加
S
S
S 锁,而不能加
X
X
X 锁,直到
T
T
T 释放
A
A
A 上的
S
S
S 锁
- 保证其他事务可以读 A A A,但在 T T T 释放 A A A 上的 S S S 锁之前不能对 A A A 做任何修改
锁的相容矩阵
- 最左边一列表示事务 T 1 T_1 T1 已经获得的数据对象上的锁的类型,其中横线表示没有加锁; 最上面一行表示另一事务 T 2 T_2 T2 对同一数据对象发出的封锁请求。 T 2 T_2 T2 的封锁请求能否被满足用矩阵中的 Y Y Y 和 N N N 表示
使用封锁机制解决丢失修改问题
例
使用封锁机制解决不可重复读问题
例
使用封锁机制解决读“脏”数据问题
例
活锁和死锁
活锁
- 事务 T 1 T_1 T1 封锁了数据 R R R, 事务 T 2 T_2 T2 又请求封锁 R R R,于是 T 2 T_2 T2 等待。 T 3 T_3 T3 也请求封锁 R R R,当 T 1 T_1 T1 释放了 R R R 上的封锁之后系统首先批准了 T 3 T_3 T3 的请求, T 2 T_2 T2 仍然等待。 T 4 T_4 T4 又请求封锁 R R R,当 T 3 T_3 T3 释放了 R R R 上的封锁之后系统又批准了 T 4 T_4 T4 的请求…… T 2 T_2 T2 有可能永远等待,这就是活锁的情形
- 避免活锁:采用先来先服务的策略:
死锁
- 事务 T 1 T_1 T1 封锁了数据 R 1 R_1 R1, T 2 T_2 T2 封锁了数据 R 2 R_2 R2; T 1 T_1 T1 又请求封锁 R 2 R_2 R2,于是 T 1 T_1 T1 等待 T 2 T_2 T2 释放 R 2 R_2 R2 上的锁; 接着 T 2 T_2 T2 又申请封锁 R 1 R_1 R1,于是 T 2 T_2 T2 也只能等待 T 1 T_1 T1 释放 R 1 R_1 R1 上的锁; 这样 T 1 T_1 T1 在等待 T 2 T_2 T2,而 T 2 T_2 T2 又在等待 T 1 T_1 T1, T 1 T_1 T1 和 T 2 T_2 T2 两个事务永远不能结束,形成死锁
解决死锁的方法
- (1) 预防死锁
- 一次封锁法: 要求每个事务必须一次将所有要使用的数据全部加锁,否则就不能继续执行
- 存在的问题: 降低系统并发度、难于事先精确确定封锁对象
- 顺序封锁法: 预先对数据对象规定一个封锁顺序,所有事务都按这个顺序实行封锁
- 存在的问题: 维护成本 (数据库系统中封锁的数据对象极多,并且在不断地变化)、难以实现 (很难事先确定每一个事务要封锁哪些对象)
- 结论: 在操作系统中广为采用的预防死锁的策略并不很适合数据库的特点,DBMS 在解决死锁的问题上更普遍采用的是诊断并解除死锁的方法
- 一次封锁法: 要求每个事务必须一次将所有要使用的数据全部加锁,否则就不能继续执行
- (2) 死锁的诊断与解除
- 超时法: 如果一个事务的等待时间超过了规定的时限,就认为发生了死锁
- 实现简单, 但有可能误判死锁,且时限若设置得太长,死锁发生后不能及时发现
- 事务等待图法: 用事务等待图动态反映所有事务的等待情况
- 事务等待图是一个有向图 G = ( T , U ) G=(T,U) G=(T,U), T T T 为结点的集合,每个结点表示正运行的事务, U U U 为边的集合,每条边表示事务等待的情况; 若 T 1 T_1 T1 等待 T 2 T_2 T2,则 T 1 T_1 T1, T 2 T_2 T2 之间划一条有向边,从 T 1 T_1 T1 指向 T 2 T_2 T2
- 并发控制子系统周期性地(比如每隔数秒)生成事务等待图,检测事务。如果发现图中存在回路,则表示系统中出现了死锁
- 解除死锁: 选择一个处理死锁代价最小的事务,将其撤消, 释放此事务持有的所有的锁,使其它事务能继续运行下去
- 超时法: 如果一个事务的等待时间超过了规定的时限,就认为发生了死锁
并发调度的可串行性
- DBMS 对并发事务不同的调度可能会产生不同的结果,那么什么样的调度是正确的?
- 显然,串行调度是正确的;执行结果等价于串行调度的调度也是正确的。这样的调度叫做可串行化调度
可串行化调度
可串行化的调度 (一种调度策略)
- 多个事务的并发执行是正确的 ⇔ \Leftrightarrow ⇔ 其结果与按某一次序串行地执行这些事务时的结果相同
可串行性 (Serializability)
- 是并发事务正确调度的准则:一个给定的并发调度,当且仅当它是可串行化的,才认为是正确调度
例
- 现在有两个事务,分别包含下列操作:
- 事务 T 1 T_1 T1:读 B B B; A = B + 1 A=B+1 A=B+1;写回 A A A
- 事务 T 2 T_2 T2:读 A A A; B = A + 1 B=A+1 B=A+1;写回 B B B
- 假设
A
A
A、
B
B
B 的初值均为 2,现给出对这两个事务不同的调度策略
- (a) 串行调度 (正确的调度): 按 T 1 → T 2 T_1→T_2 T1→T2 次序执行结果为 A = 3 , B = 4 A=3,B=4 A=3,B=4
- (b) 串行调度 (正确的调度): 按 T 2 → T 1 T_2→T_1 T2→T1 次序执行结果为 A = 4 , B = 3 A=4,B=3 A=4,B=3
- ( c c c) 执行结果与 (a)、(b) 的结果都不同,是错误的调度
- (d) 执行结果与串行调度 (a) 的执行结果相同,是正确的调度
冲突可串行化调度
冲突操作
- 冲突操作是指不同的事务对同一个数据的读写操作和写写操作,其他操作是不冲突操作
- R i ( x ) R_i(x) Ri(x) 与 W j ( x ) W_j(x) Wj(x); W i ( x ) W_i(x) Wi(x) 与 W j ( x ) W_j(x) Wj(x)
- 不同事务的冲突操作和同一事务的两个操作不能交换 (Swap)
可串行化调度的充分条件
- 一个调度 S c S_c Sc 在保证冲突操作的次序不变的情况下,通过交换两个事务不冲突操作的次序得到另一个调度 S c ’ S_c’ Sc’,如果 S c ’ S_c’ Sc’ 是串行的,称调度 S c S_c Sc 为冲突可串行化的调度 (一个调度是冲突可串行化,一定是可串行化的调度,因此可以用这种方法来判断一个调度是否是冲突可串行化的)
例
- 有调度
S c 1 = r 1 ( A ) w 1 ( A ) r 2 ( A ) w 2 ( A ) r 1 ( B ) w 1 ( B ) r 2 ( B ) w 2 ( B ) S_{c_1}=r_1(A)w_1(A)r_2(A)w_2(A)r_1(B)w_1(B)r_2(B)w_2(B) Sc1=r1(A)w1(A)r2(A)w2(A)r1(B)w1(B)r2(B)w2(B)- 把
w
2
(
A
)
w_2(A)
w2(A) 与
r
1
(
B
)
w
1
(
B
)
r_1(B)w_1(B)
r1(B)w1(B) 交换,得到:
r 1 ( A ) w 1 ( A ) r 2 ( A ) r 1 ( B ) w 1 ( B ) w 2 ( A ) r 2 ( B ) w 2 ( B ) r_1(A)w_1(A)r_2(A)r_1(B)w_1(B)w_2(A)r_2(B)w_2(B) r1(A)w1(A)r2(A)r1(B)w1(B)w2(A)r2(B)w2(B) - 再把
r
2
(
A
)
r_2(A)
r2(A) 与
r
1
(
B
)
w
1
(
B
)
r_1(B)w_1(B)
r1(B)w1(B) 交换:
S c 2 = r 1 ( A ) w 1 ( A ) r 1 ( B ) w 1 ( B ) r 2 ( A ) w 2 ( A ) r 2 ( B ) w 2 ( B ) S_{c_2}=r_1(A)w_1(A)r_1(B)w_1(B)r_2(A)w_2(A)r_2(B)w_2(B) Sc2=r1(A)w1(A)r1(B)w1(B)r2(A)w2(A)r2(B)w2(B) - S c 2 S_{c_2} Sc2 等价于一个串行调度,因此 S c 1 S_{c_1} Sc1 为冲突可串行化的调度
- 把
w
2
(
A
)
w_2(A)
w2(A) 与
r
1
(
B
)
w
1
(
B
)
r_1(B)w_1(B)
r1(B)w1(B) 交换,得到:
- 注意:冲突可串行化调度是可串行化调度的充分条件,不是必要条件。还有不满足冲突可串行化条件的可串行化调度
例
- 有 3 个事务
T 1 = W 1 ( Y ) W 1 ( X ) , T 2 = W 2 ( Y ) W 2 ( X ) , T 3 = W 3 ( X ) T_1=W_1(Y)W_1(X),T_2=W_2(Y)W_2(X),T_3=W_3(X) T1=W1(Y)W1(X),T2=W2(Y)W2(X),T3=W3(X)- 调度 L 1 = W 1 ( Y ) W 1 ( X ) W 2 ( Y ) W 2 ( X ) W 3 ( X ) L_1=W_1(Y)W_1(X)W_2(Y)W_2(X)W_3(X) L1=W1(Y)W1(X)W2(Y)W2(X)W3(X) 是一个串行调度
- 调度 L 2 = W 1 ( Y ) W 2 ( Y ) W 2 ( X ) W 1 ( X ) W 3 ( X ) L_2=W_1(Y)W_2(Y)W_2(X)W_1(X)W_3(X) L2=W1(Y)W2(Y)W2(X)W1(X)W3(X) 不满足冲突可串行化。但是调度 L 2 L_2 L2 是可串行化的,因为 L 2 L_2 L2 执行的结果与调度 L 1 L_1 L1 相同, Y Y Y 的值都等于 T 2 T_2 T2 的值, X X X 的值都等于 T 3 T_3 T3 的值
两段锁协议
- 两段封锁协议 (Two-Phase Locking,2PL) 是最常用的一种封锁协议 (Locking Protocol),理论上证明使用两段封锁协议产生的是可串行化调度 (事务遵守两段锁协议是可串行化调度的充分条件,而不是必要条件)
- 所有事务必须分两个阶段对数据项加锁和解锁: (1) 在对任何数据进行读、写操作之前,事务首先要获得对该数据的封锁; (2) 在释放一个封锁之后,事务不再申请和获得任何其他封锁; 即,
- 第一阶段是获得封锁,也称为扩展阶段: 事务可以申请获得任何数据项上的任何类型的锁,但是不能释放任何锁
- 第二阶段是释放封锁,也称为收缩阶段: 事务可以释放任何数据项上的任何类型的锁,但是不能再申请任何锁
- 例如,
- 事务
T
i
T_i
Ti 遵守两段锁协议,其封锁序列是:
- 事务
T
j
T_j
Tj 不遵守两段锁协议,其封锁序列是:
- 下图的调度是遵守两段锁协议的,因此一定是一个可串行化调度:
L
1
=
R
1
(
A
)
R
2
(
C
)
W
1
(
A
)
W
2
(
C
)
R
1
(
B
)
W
1
(
B
)
R
2
(
A
)
W
2
(
A
)
L_1= R_1(A)R_2(C)W_1(A)W_2(C)R_1(B)W_1(B)R_2(A)W_2(A)
L1=R1(A)R2(C)W1(A)W2(C)R1(B)W1(B)R2(A)W2(A), 通过交换两个不冲突操作的次序,可以得到一个串行调度
- 事务
T
i
T_i
Ti 遵守两段锁协议,其封锁序列是:
- 所有事务必须分两个阶段对数据项加锁和解锁: (1) 在对任何数据进行读、写操作之前,事务首先要获得对该数据的封锁; (2) 在释放一个封锁之后,事务不再申请和获得任何其他封锁; 即,
两段锁协议 vs 防止死锁的一次封锁法
- 一次封锁法要求每个事务必须一次将所有要使用的数据全部加锁,否则就不能继续执行,因此一次封锁法遵守两段锁协议
- 但是两段锁协议并不要求事务必须一次将所有要使用的数据全部加锁,因此遵守两段锁协议的事务可能发生死锁; 例如
封锁的粒度 (Granularity)
封锁粒度
- 封锁粒度: 封锁对象的大小
- 封锁对象:逻辑单元 / 物理单元
- 例:在关系数据库中,封锁对象:
- 逻辑单元: 属性值、属性值集合、元组、关系、索引项、整个索引、整个数据库等
- 物理单元:页(数据页或索引页)、物理记录等
- 例:在关系数据库中,封锁对象:
选择封锁粒度原则
- 封锁粒度与系统的并发度和并发控制的开销密切相关
- 封锁的粒度越大,数据库所能够封锁的数据单元就越少,并发度就越小,系统开销也越小
- 封锁的粒度越小,并发度较高,但系统开销也就越大
例
- 若封锁粒度是数据页,事务 T 1 T_1 T1 需要修改元组 L 1 L_1 L1,则 T 1 T_1 T1 必须对包含 L 1 L_1 L1 的整个数据页 A A A 加锁。如果 T 1 T_1 T1 对 A A A 加锁后事务 T 2 T_2 T2 要修改 A A A 中元组 L 2 L_2 L2,则 T 2 T_2 T2 被迫等待,直到 T 1 T_1 T1 释放 A A A
- 如果封锁粒度是元组,则 T 1 T_1 T1 和 T 2 T_2 T2 可以同时对 L 1 L_1 L1 和 L 2 L_2 L2 加锁,不需要互相等待,提高了系统的并行度
- 又如,事务 T T T 需要读取整个表,若封锁粒度是元组, T T T 必须对表中的每一个元组加锁,开销极大
多粒度封锁 (Multiple Granularity Locking)
- 在一个系统中同时支持多种封锁粒度供不同的事务选择: 同时考虑封锁开销和并发度两个因素,适当选择封锁粒度
- 需要处理多个关系的大量元组的用户事务:以数据库为封锁单位
- 需要处理大量元组的用户事务:以关系为封锁单元
- 只处理少量元组的用户事务:以元组为封锁单位
多粒度封锁
多粒度树
- 以树形结构来表示多级封锁粒度: 根结点是整个数据库,表示最大的数据粒度; 叶结点表示最小的数据粒度
多粒度封锁协议
- 允许多粒度树中的每个结点被独立地加锁, 对一个结点加锁意味着这个结点的所有后裔结点也被加以同样类型的锁. 因此,在多粒度封锁中一个数据对象可能以两种方式封锁:显式封锁和隐式封锁 (显式封锁和隐式封锁的效果是一样的)
- 显式封锁: 直接加到数据对象上的封锁
- 隐式封锁: 该数据对象没有独立加锁,是由于其上级结点加锁而使该数据对象加上了锁
- 系统检查封锁冲突时,要检查显式封锁,还要检查隐式封锁: 对某个数据对象加锁,系统要检查 (1) 该数据对象: 有无显式封锁与之冲突; (2) 所有上级结点: 检查本事务的显式封锁是否与该数据对象上的隐式封锁冲突:(由上级结点已加的封锁造成的); (3) 所有下级结点: 看上面的显式封锁是否与本事务的隐式封锁(将加到下级结点的封锁)冲突
- 例如事务 T T T 要对关系 R 1 R_1 R1 加 X X X 锁,系统必须搜索其上级结点数据库、关系 R 1 R_1 R1; 还要搜索 R 1 R_1 R1 的下级结点,即 R 1 R_1 R1 中的每一个元组, 如果其中某一个数据对象已经加了不相容锁,则 T T T 必须等待
显然这样的检查方法效率很低。为此人们引进了一种新型锁,称为意向锁. 有了意向锁,DBMS 就无需逐个检查下一级结点的显式封锁,进而提高对某个数据对象加锁时系统的检查效率
意向锁 (Intention Lock)
- 如果对一个结点加意向锁,则说明该结点的下层结点正在被加锁;对任一结点加基本锁,必须先对它的上层结点加意向锁
- 例如,对任一元组加锁时,必须先对它所在的数据库和关系加意向锁
常用意向锁
- 意向共享锁 (Intent Share Lock,IS 锁): 如果对一个数据对象加 IS 锁,表示它的后裔结点拟(意向)加 S 锁
- 例如:事务 T 1 T_1 T1 要对 R 1 R_1 R1 中某个元组加 S 锁,则要首先对关系 R 1 R_1 R1 和数据库加 IS 锁
- 意向排它锁 (Intent Exclusive Lock,IX 锁): 如果对一个数据对象加 IX 锁,表示它的后裔结点拟(意向)加 X 锁
- 共享意向排它锁 (Share Intent Exclusive Lock,SIX 锁): 如果对一个数据对象加 SIX 锁,表示对它加 S 锁,再加 IX 锁,即 SIX = S + IX
- 例如:对某个表加 SIX 锁,则表示该事务要读整个表(所以要对该表加 S 锁),同时会更新个别元组(所以要对该表加 IX 锁)
意向锁的相容矩阵
锁的强度
- 锁的强度是指它对其他锁的排斥程度. 一个事务在申请封锁时以强锁代替弱锁是安全的,反之则不然
具有意向锁的多粒度封锁方法
- 申请封锁时应该按自上而下的次序进行
- 释放封锁时则应该按自下而上的次序进行
- 例如:事务 T 1 T_1 T1 要对关系 R 1 R_1 R1 加 S 锁, 则要首先对数据库加 IS 锁, 检查数据库和 R 1 R_1 R1 是否已加了不相容的锁 (X 锁, IX 锁), 不再需要搜索和检查 R 1 R_1 R1 中的元组是否加了不相容的锁 (X 锁)
- 具有意向锁的多粒度封锁方法提高了系统的并发度, 减少了加锁和解锁的开销
标签:封锁,十一,事务,T2,调度,T1,并发,数据库系统 来源: https://blog.csdn.net/weixin_42437114/article/details/116305731