【算法4】5.3.3.KMP算法
作者:互联网
子字符串查找:在文本中查找与模式字符串相匹配的子串。
暴力查找
将文本字符串的每个字符作为起点,尝试找出与模式字符串匹配的子串。
/**
* 暴力查找子字符串
* */
public static int search(String pattern, String text) {
int M = pattern.length();
int N = text.length();
for (int i = 0; i <= N - M; i++) {
int j;
for (j = 0; j < M; j++) {
if (text.charAt(i+j) != pattern.charAt(j)) {
break;
}
}
if (j == M) {
return i; // 找到子字符串,返回其首字母位置
}
}
return -1;
}
暴力查找的另一种实现方式:
public static int search(String pattern, String text) {
int M = pattern.length();
int N = text.length();
int i, j;
for (i = 0, j = 0; i <= N - M && j < M; i++) {
if (text.charAt(i) == pattern.charAt(j)) {
j++;
} else {
// 不匹配时
i = i - j; // 回退指针 i
j = 0; // 重置指针 j
}
}
if (j == M) {
return i - j;
} else {
return -1;
}
}
KMP 算法
KMP 是发明此算法的三个人名字首字母。(Knuth, Morris, Pratt)
暴力查找每次匹配失败时都需要回退指针 i,并重新对比已经检查过的字符。
KMP 通过对模式字符串进行预处理,生成一个确定有限状态自动机,在匹配失败时重置 j 指针,而不会回退 i 指针。
/**
* KMP 算法
* */
public class KMP {
private static final int R = 256; // 字母表
private int dfa[][]; // 确定有限状态自动机
private int M;
/**
* 对模式字符串进行预处理,生成确定有限状态自动机
* */
public KMP(String pattern) {
// 在生成 dfa 的同时也在将模式字符串输入到自动机中,以此更新 X 的值
// dfa 的第一个索引表示的是输入的字符 c,
// 第二个索引表示当前模式字符串的位置 j,
// 值表示下一个状态(即需要将 j 重置到哪个位置)
M = pattern.length();
dfa = new int[R][M];
dfa[pattern.charAt(0)][0] = 1;
int X = 0;
for (int j = 1; j < M; j++) {
for (int c = 0; c < R; c++) {
dfa[c][j] = dfa[c][X]; // 匹配失败时复制状态(当 j == 1 匹配失败时,需要复制 X == 0 的状态)
}
dfa[pattern.charAt(j)][j] = j + 1; // 匹配成功进入下一个状态
X = dfa[pattern.charAt(j)][X]; // 将当前字符(比如,j == 1)放入自动机以更新状态 X
}
}
/**
* 在文本中查找模式字符串
* */
public int search(String text) {
int N = text.length();
int i, j;
for (i = 0, j = 0; i < N && j < M; i++) {
j = dfa[text.charAt(i)][j];
}
if (j == M) {
return i - j;
} else {
return -1;
}
}
}
标签:5.3,int,pattern,算法,text,KMP,字符串,dfa 来源: https://www.cnblogs.com/liaozibo/p/kmp.html