首页 > 其他分享> > KMP

KMP

2022-08-22 14:33:33 作者：互联网

# 字符串匹配——KMP算法

1. 算法原理

在暴力匹配过程中，当遇到匹配失败的字符时，暴力法做法是将模式串后移一位，从头开始匹配，直到成功匹配下一位字符。

KMP算法的核心思想就是：充分利用模式串自身的信息，在每次匹配失败之后不需要重复匹配之前已经成功匹配的字符，快速定位到下一个需要匹配的字符，从而提高匹配效率。因此，我们需要知道匹配失败后应该回退到哪里继续匹配。

而实现这个思想的途径就是计算出模式串的最长相等前后缀，在算法中记录在一个数组中，叫做next[]数组。

相比于暴力法遍历文本串和模式串时间复杂度为O(mn)，KMP算法时间复杂度为O(m+n)

2. 匹配过程

s[n]是长文本，n是s的长度，
p[m]是模式串，m是p的长度

假设读入的字符串都是从下标为1开始存放，即下标为0的位置不适用，s[0]和p[0]不存放字符。

考虑到next[]数组已经存在的情况，开始遍历文本串匹配模式串：

// 匹配
for (int i = 1, j = 0; i <= n; i ++ )	//1. 关于i,j的起点
{
    while (j && s[i] != p[j + 1]) j = ne[j]; //2. 匹配失败的情况
    if (s[i] == p[j + 1]) j ++ ;	//3. 匹配成功的情况
    if (j == m)	//4. 匹配结束的情况
    {
        j = ne[j];
        // 匹配成功后的逻辑
    }
}

i遍历文本串，j遍历模式串，ne[]为next数组。

由于存放字符串是从下标1开始，因此让i = 1。每次匹配的时候都是跟模式串的j指针的下一位判断，因此j = 0，这样就会从j + 1 = 1也就是模式串的开头开始匹配。
当s[i] != p[j + 1]即模式串的下一个字符匹配失败，则根据next数组进行回退直到匹配成功，发生回退的前提同时要保证j > 0，因为j = 0时回退没有意义。
当s[i] == p[j + 1]即模式串的下一个字符匹配成功，则j指针向后移动，继续匹配下一位。
直到j == m即模式串的指针位置等于其长度，也就是整个模式串都匹配完成。

3. 求next数组（重点）

求next数组的思路与前面匹配的思路一样，只不过在找next数组时，文本串和模式串都是同一个即p[m]。

//求模式串的Next数组：
for (int i = 2, j = 0; i <= m; i ++ )	//1. 关于i, j
{
    while (j && p[i] != p[j + 1]) j = ne[j]; //2. 匹配失败的情况
    if (p[i] == p[j + 1]) j ++ ;	//3. 匹配成功的情况
    ne[i] = j;	//4. 记录next数组
}

由于第一位的前缀没有字符，因此第一位的next数组的值为0，不需要计算。

因此要从弟二位开始遍历，即i = 2。然后j = 0跟前面分析匹配过程一样，因为是利用j的下一位即j + 1去匹配。
当p[i] != p[j + 1]即下一个字符匹配失败时，j利用前面已经计算出来的next数组信息进行回退直到匹配成功。
当p[i] == p[j + 1]即下一个字符匹配成功时，j指针向后移动，相当于前后缀相等。
相等前后缀依次最多只能增加一位，因为每次循环i只向后移动了一位，所以每次循环都能得出i位置的next数组的值。

4. 举例

用一个例子来帮助理解：当模式串为p[m] = " abababca";

因为字符串存在下标为1的位置，因此初始时j = 0指向的是字符串的前一位。然后第一位没有前缀因此next数组为0。

i = 2从第二位开始，此时j + 1指向第一位，两者不匹配且j = 0，因此无需回退，直接记录当前位置的next数组值为j（0）。

随后i指针向后移动一位。再次比较j + 1的字符，此时两者匹配成功，j指针向后移动一位，同时记录next数组的值。

i指针继续后移，再比较j + 1的字符，再次匹配成功，j指针再加1，记录next数组值...

在这个过程中，只要一直匹配成功，最长相等前后缀就会一直增加，j指向这个前缀，因此j会一直增加

直到再次出现不匹配。

此时执行j指针的回退，利用前面记录好的next数组回退，提高效率。

一直回退直到j = 0或找到下一个匹配的字符。

最后继续匹配直到串结束。

标签：字符,匹配,模式,next,数组,KMP,回退
来源： https://www.cnblogs.com/Ethan-Code/p/16612664.html