编程语言
首页 > 编程语言> > 【算法4】5.3.3.KMP算法

【算法4】5.3.3.KMP算法

作者:互联网

子字符串查找:在文本中查找与模式字符串相匹配的子串。

暴力查找

将文本字符串的每个字符作为起点,尝试找出与模式字符串匹配的子串。

/**
 * 暴力查找子字符串
 * */
public static int search(String pattern, String text) {
    int M = pattern.length();
    int N = text.length();
    for (int i = 0; i <= N - M; i++) {
        int j;
        for (j = 0; j < M; j++) {
            if (text.charAt(i+j) != pattern.charAt(j)) {
                break;
            }
        }
        if (j == M) {
            return i; // 找到子字符串,返回其首字母位置
        }
    }
    return -1;
}

暴力查找的另一种实现方式:

    public static int search(String pattern, String text) {
        int M = pattern.length();
        int N = text.length();
        int i, j;
        for (i = 0, j = 0; i <= N - M && j < M; i++) {
            if (text.charAt(i) == pattern.charAt(j)) {
                j++;
            } else {
                // 不匹配时
                i = i - j; // 回退指针 i
                j = 0; // 重置指针 j
            }
        }
        if (j == M) {
            return i - j;
        } else {
            return -1;
        }
    }

KMP 算法

KMP 是发明此算法的三个人名字首字母。(Knuth, Morris, Pratt)

暴力查找每次匹配失败时都需要回退指针 i,并重新对比已经检查过的字符。
KMP 通过对模式字符串进行预处理,生成一个确定有限状态自动机,在匹配失败时重置 j 指针,而不会回退 i 指针。

/**
 * KMP 算法
 * */
public class KMP {
    private static final int R = 256; // 字母表
    private int dfa[][]; // 确定有限状态自动机
    private int M;

    /**
     * 对模式字符串进行预处理,生成确定有限状态自动机
     * */
    public KMP(String pattern) {
        // 在生成 dfa 的同时也在将模式字符串输入到自动机中,以此更新 X 的值
        // dfa 的第一个索引表示的是输入的字符 c,
        // 第二个索引表示当前模式字符串的位置 j,
        // 值表示下一个状态(即需要将 j 重置到哪个位置)
        M = pattern.length();
        dfa = new int[R][M];
        dfa[pattern.charAt(0)][0] = 1;
        int X = 0;
        for (int j = 1; j < M; j++) {
            for (int c = 0; c < R; c++) {
                dfa[c][j] = dfa[c][X]; // 匹配失败时复制状态(当 j == 1 匹配失败时,需要复制 X == 0 的状态)
            }
            dfa[pattern.charAt(j)][j] = j + 1; // 匹配成功进入下一个状态
            X = dfa[pattern.charAt(j)][X]; // 将当前字符(比如,j == 1)放入自动机以更新状态 X
        }
    }

    /**
     * 在文本中查找模式字符串
     * */
    public int search(String text) {
        int N = text.length();
        int i, j;
        for (i = 0, j = 0; i < N && j < M; i++) {
            j = dfa[text.charAt(i)][j];
        }
        if (j == M) {
            return i - j;
        } else {
            return -1;
        }
    }
}

标签:5.3,int,pattern,算法,text,KMP,字符串,dfa
来源: https://www.cnblogs.com/liaozibo/p/kmp.html