KMP算法

KMP算法是一种用于在字符串匹配过程中提高匹配效率的算法,被广泛应用于字符串匹配和文本搜索领域。通过预处理模式串的next数组,以减少匹配的次数,从而优化算法效率。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
#include<iostream>
#include<cstring>
using namespace std;

//KMP算法主体
int index(string S,string T,int next[])
{
int i,j;
for(i=1,j=1;i<S.length()&&j<T.length();)
{
if(S[i]==T[j]||j==0)//字符匹配或者T串已经退到第一个位置
{
i++;
j++;
}else
{
j=next[j];//回退到next[j]位置
}
}

if(j>=T.length())//匹配成功
{
return i-j+1;//返回S中开始匹配的位置
} else {
return -1;//匹配失败
}
}

//计算next数组
void getNext(string T, int next[])
{
int j = 0;
next[0] = -1;//next数组中第一个元素为-1
next[1] = 0;//next数组中第二个元素为0
for (int i = 2; i < T.length();)
{
if (T[i - 1] == T[j])//T串的第i-1个字符与T串的第j个字符匹配成功
{
next[i++] = ++j;//next[i]的值为j+1
}
else if (j > 0)//若j>0,回退到next[j]
{
j = next[j];
}
else//若j<=0,则next[i]=0
{
next[i++] = 0;
}
}
}

int main()
{
string S,T;
cin>>S>>T;//输入S串和T串
int next[T.length()];
getNext(T, next);//获取next数组
cout<<index(S,T,next)<<endl;//输出匹配结果

//输出匹配过程中使用的T串以及其对应的next数组
cout << "--------------------------" << endl;
cout << "本次匹配的T字符串为:" << T << endl;
cout << "next数组为:";
for(int i=0;i<T.length();i++){
cout << next[i] << ",";
}
cout << endl;

return 0;
}

KMP算法总结:

当我们需要进行字符串匹配时,KMP算法是一种优秀的选择

其核心思想在于,避免不必要的重复匹配,从而提高匹配效率

算法流程:

  1. 计算模式串T的next数组
  2. 进行匹配
    若S[i] == T[j],或者j等于0,则i和j分别加1,继续匹配
    否则,j回退到next[j]的位置
    继续匹配,直至j等于模式串T的长度或S串结束
  3. 若匹配成功,则返回S中开始匹配的位置

next数组的计算:
next[i]表示T中以t[i-1]结尾的字符串的最长公共前后缀的长度
即从第一个字符开始的子串和从i往前数的最长相等子串,例如:

T: a b a b c a b

next:0 0 1 2 0 1 2