KMP
作者:互联网
# 字符串匹配——KMP算法
1. 算法原理
在暴力匹配过程中,当遇到匹配失败的字符时,暴力法做法是将模式串后移一位,从头开始匹配,直到成功匹配下一位字符。
KMP算法的核心思想就是:充分利用模式串自身的信息,在每次匹配失败之后不需要重复匹配之前已经成功匹配的字符,快速定位到下一个需要匹配的字符,从而提高匹配效率。因此,我们需要知道匹配失败后应该回退到哪里继续匹配。
而实现这个思想的途径就是计算出模式串的最长相等前后缀,在算法中记录在一个数组中,叫做next[]
数组。
相比于暴力法遍历文本串和模式串时间复杂度为O(mn),KMP算法时间复杂度为O(m+n)
2. 匹配过程
s[n]
是长文本,n
是s
的长度,p[m]
是模式串,m
是p
的长度
假设读入的字符串都是从下标为1开始存放,即下标为0的位置不适用,s[0]
和p[0]
不存放字符。
考虑到next[]数组已经存在的情况,开始遍历文本串匹配模式串:
// 匹配
for (int i = 1, j = 0; i <= n; i ++ ) //1. 关于i,j的起点
{
while (j && s[i] != p[j + 1]) j = ne[j]; //2. 匹配失败的情况
if (s[i] == p[j + 1]) j ++ ; //3. 匹配成功的情况
if (j == m) //4. 匹配结束的情况
{
j = ne[j];
// 匹配成功后的逻辑
}
}
i
遍历文本串,j
遍历模式串,ne[]
为next数组。
- 由于存放字符串是从下标1开始,因此让
i = 1
。每次匹配的时候都是跟模式串的j
指针的下一位判断,因此j = 0
,这样就会从j + 1 = 1
也就是模式串的开头开始匹配。 - 当
s[i] != p[j + 1]
即模式串的下一个字符匹配失败,则根据next数组进行回退直到匹配成功,发生回退的前提同时要保证j > 0
,因为j = 0
时回退没有意义。 - 当
s[i] == p[j + 1]
即模式串的下一个字符匹配成功,则j
指针向后移动,继续匹配下一位。 - 直到
j == m
即模式串的指针位置等于其长度,也就是整个模式串都匹配完成。
3. 求next数组(重点)
求next数组的思路与前面匹配的思路一样,只不过在找next数组时,文本串和模式串都是同一个即p[m]
。
//求模式串的Next数组:
for (int i = 2, j = 0; i <= m; i ++ ) //1. 关于i, j
{
while (j && p[i] != p[j + 1]) j = ne[j]; //2. 匹配失败的情况
if (p[i] == p[j + 1]) j ++ ; //3. 匹配成功的情况
ne[i] = j; //4. 记录next数组
}
由于第一位的前缀没有字符,因此第一位的next数组的值为0,不需要计算。
- 因此要从弟二位开始遍历,即
i = 2
。然后j = 0
跟前面分析匹配过程一样,因为是利用j
的下一位即j + 1
去匹配。 - 当
p[i] != p[j + 1]
即下一个字符匹配失败时,j
利用前面已经计算出来的next数组信息进行回退直到匹配成功。 - 当
p[i] == p[j + 1]
即下一个字符匹配成功时,j
指针向后移动,相当于前后缀相等。 - 相等前后缀依次最多只能增加一位,因为每次循环
i
只向后移动了一位,所以每次循环都能得出i
位置的next数组的值。
4. 举例
用一个例子来帮助理解:当模式串为p[m] = " abababca";
因为字符串存在下标为1的位置,因此初始时j = 0
指向的是字符串的前一位。然后第一位没有前缀因此next数组为0。
i = 2
从第二位开始,此时j + 1
指向第一位,两者不匹配且j = 0
,因此无需回退,直接记录当前位置的next数组值为j
(0)。
随后i
指针向后移动一位。再次比较j + 1
的字符,此时两者匹配成功,j
指针向后移动一位,同时记录next数组的值。
i
指针继续后移,再比较j + 1
的字符,再次匹配成功,j
指针再加1,记录next数组值...
在这个过程中,只要一直匹配成功,最长相等前后缀就会一直增加,j
指向这个前缀,因此j
会一直增加
直到再次出现不匹配。
此时执行j
指针的回退,利用前面记录好的next数组回退,提高效率。
一直回退直到j = 0
或找到下一个匹配的字符。
最后继续匹配直到串结束。
标签:字符,匹配,模式,next,数组,KMP,回退 来源: https://www.cnblogs.com/Ethan-Code/p/16612664.html