其他分享
首页 > 其他分享> > KMP

KMP

作者:互联网

# 字符串匹配——KMP算法

1. 算法原理

在暴力匹配过程中,当遇到匹配失败的字符时,暴力法做法是将模式串后移一位,从头开始匹配,直到成功匹配下一位字符。

KMP算法的核心思想就是:充分利用模式串自身的信息,在每次匹配失败之后不需要重复匹配之前已经成功匹配的字符,快速定位到下一个需要匹配的字符,从而提高匹配效率。因此,我们需要知道匹配失败后应该回退到哪里继续匹配

而实现这个思想的途径就是计算出模式串的最长相等前后缀,在算法中记录在一个数组中,叫做next[]数组。

相比于暴力法遍历文本串和模式串时间复杂度为O(mn),KMP算法时间复杂度为O(m+n)

2. 匹配过程

假设读入的字符串都是从下标为1开始存放,即下标为0的位置不适用,s[0]p[0]不存放字符。

考虑到next[]数组已经存在的情况,开始遍历文本串匹配模式串:

// 匹配
for (int i = 1, j = 0; i <= n; i ++ )	//1. 关于i,j的起点
{
    while (j && s[i] != p[j + 1]) j = ne[j]; //2. 匹配失败的情况
    if (s[i] == p[j + 1]) j ++ ;	//3. 匹配成功的情况
    if (j == m)	//4. 匹配结束的情况
    {
        j = ne[j];
        // 匹配成功后的逻辑
    }
}

i遍历文本串,j遍历模式串,ne[]为next数组。

  1. 由于存放字符串是从下标1开始,因此让i = 1。每次匹配的时候都是跟模式串的j指针的下一位判断,因此j = 0,这样就会从j + 1 = 1也就是模式串的开头开始匹配。
  2. s[i] != p[j + 1]即模式串的下一个字符匹配失败,则根据next数组进行回退直到匹配成功,发生回退的前提同时要保证j > 0,因为j = 0时回退没有意义。
  3. s[i] == p[j + 1]即模式串的下一个字符匹配成功,则j指针向后移动,继续匹配下一位。
  4. 直到j == m即模式串的指针位置等于其长度,也就是整个模式串都匹配完成。

3. 求next数组(重点)

求next数组的思路与前面匹配的思路一样,只不过在找next数组时,文本串和模式串都是同一个即p[m]

//求模式串的Next数组:
for (int i = 2, j = 0; i <= m; i ++ )	//1. 关于i, j
{
    while (j && p[i] != p[j + 1]) j = ne[j]; //2. 匹配失败的情况
    if (p[i] == p[j + 1]) j ++ ;	//3. 匹配成功的情况
    ne[i] = j;	//4. 记录next数组
}

由于第一位的前缀没有字符,因此第一位的next数组的值为0,不需要计算。

  1. 因此要从弟二位开始遍历,即i = 2。然后j = 0跟前面分析匹配过程一样,因为是利用j的下一位即j + 1去匹配。
  2. p[i] != p[j + 1]即下一个字符匹配失败时,j利用前面已经计算出来的next数组信息进行回退直到匹配成功。
  3. p[i] == p[j + 1]即下一个字符匹配成功时,j指针向后移动,相当于前后缀相等。
  4. 相等前后缀依次最多只能增加一位,因为每次循环i只向后移动了一位,所以每次循环都能得出i位置的next数组的值。

4. 举例

用一个例子来帮助理解:当模式串为p[m] = " abababca";

因为字符串存在下标为1的位置,因此初始时j = 0指向的是字符串的前一位。然后第一位没有前缀因此next数组为0。

i = 2从第二位开始,此时j + 1指向第一位,两者不匹配且j = 0,因此无需回退,直接记录当前位置的next数组值为j(0)。

随后i指针向后移动一位。再次比较j + 1的字符,此时两者匹配成功,j指针向后移动一位,同时记录next数组的值。

i指针继续后移,再比较j + 1的字符,再次匹配成功,j指针再加1,记录next数组值...

在这个过程中,只要一直匹配成功,最长相等前后缀就会一直增加,j指向这个前缀,因此j会一直增加

直到再次出现不匹配。

此时执行j指针的回退,利用前面记录好的next数组回退,提高效率。

一直回退直到j = 0或找到下一个匹配的字符。

最后继续匹配直到串结束。

标签:字符,匹配,模式,next,数组,KMP,回退
来源: https://www.cnblogs.com/Ethan-Code/p/16612664.html