字符串
发表于:2024-02-04 | 分类: 数据结构与算法

字符串

字典树

对于常见的字符串匹配问题,在n个字符中查找某个字符串。

若采用暴力方法,需要逐一匹配每个字符串,时间复杂度为O(mn),其中m是字符串的平均长度。

字典树就是模拟查字典操作的数据结构,例如查找dog单词,第一次查找字母d,第二次查找字母o,第三次查找字母g。这样查找每一个单词,查找次数最多只需要这个单词的字母个数。

  • 时间复杂度:插入和查找的时间复杂度都是O(m),其中m是待处理字符串的长度。
  • 空间复杂度:有公共前缀的单词只需要存一次公共前缀,节省了空间。

字典树应用:

  • 字符串检索
  • 词频统计:统计一个单词出现了多少次
  • 字符串排序:在插入时,在树的平级按字母表的顺序插入。字典树建好之后,用先序遍历就得到了字典树的顺序。
  • 前缀匹配:字典树是按照公共前缀来建树的,适合用于搜索提示。

题目描述:

​ Ignatius最近遇到一个难题,老师交给他很多单词(只有小写字母组成,不会有重复的单词出现),现在老师要他统计出以某个字符串为前缀的单词数量(单词本身也是自己的前缀).

Input

输入数据的第一部分是一张单词表,每行一个单词,单词的长度不超过10,它们代表的是老师交给Ignatius统计的单词,一个空行代表单词表的结束.第二部分是一连串的提问,每行一个提问,每个提问都是一个字符串.

注意:本题只有一组测试数据,处理到文件结束.

Output

对于每个提问,给出以该字符串为前缀的单词的数量.

字典树实现

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
#include<bits/stdc++.h>
using namespace std;
struct Trie { //字典树定义
Trie* next[26];
int num; //以当前字符串为前缀的单词的数量
Trie() //构造函数
{
for(int i=0; i<26; i++) {
next[i]=NULL;
}
num=0;
}
};
Trie root;
void insert(char str[]){ //将字符串插入到字典树中
Trie *p=& root;
for(int i=0;str[i];i++){ //遍历每一个字符
if(p->next[str[i]-'a']==NULL) //如果该字符没有对应结点
p->next[str[i]-'a']=new Trie; //创建一个
p=p->next[str[i]-'a'];
p->num++;
}
}
int find(char str[]){ //返回以字符串为前缀的单词的数量
Trie *p=& root;
for(int i=0;str[i];i++){ //在字典树中找到该单词的结尾位置
if(p->next[str[i]-'a']==NULL)
return 0;
p=p->next[str[i]-'a'];
}
return p->num;
}
int main()
{
char str[11];
while(gets(str)){
if(!strlen(str)) break;
insert(str);
}
while(gets(str)) cout<<find(str)<<endl;
return 0;
}

KMP

kmp是单模匹配算法,即在一个长度为n的文本串去查找一个长度为m的模式串,它的时间复杂度为O(m+n)。

问题描述:一块花布条,里面有些图案,另有一块直接可用的小饰条,里面也有一些图案。对于给定的花布条和小饰条,计算一下能从花布条中尽可能剪出几块小饰条来呢?

Input

输入中含有一些数据,分别是成对出现的花布条和小饰条,其布条都是用可见ASCII字符表示的,可见的ASCII字符有多少个,布条的花纹也有多少种花样。花纹条和小饰条不会超过1000个字符长。如果遇见#字符,则不再进行工作。

Output

输出能从花纹布中剪出的最多小饰条个数,如果一块都没有,那就老老实实输出0,每个结果之间应换行。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
#include<bits/stdc++.h>
using namespace std;
const int maxn=1000+5;
char str[maxn],pattern[maxn];
int next[maxn];
int cnt;
int getFail(char *p,int plen){
next[0]=0;next[1]=0; //预处理next[],用于在失配的情况下得到回溯j的位置
for(int i=1;i<plen;i++){
int j=next[i];
while(j&&p[i]!=p[j]) j=next[j];
next[i+1]=(p[i]==p[j])?j+1:0;
}
}
int kmp(char *s,char *p){ //在s中找p
int last=-1;
int slen=strlen(s),plen=strlen(p);
getFail(p,plen); //预计算next[]数组
int j=0;
for(int i=0;i<slen;i++){ //匹配s和p的每个字符
while(j&&p[i]!=p[j]) j=next[j]; //失配了,用next[]找j的回溯位置
if(s[i]==p[j]) j++; //当前位置的字符匹配,继续
if(j==plen){ //完全匹配
//这个匹配,在s中的起点是i+1-plen,末尾是i,如果有需要可以打印
//prinf("at location = %d,%s\n",i+1-plen,&s[i+1-plen]);
//下面是与本题相关工作
if(i-last>=plen){ //判断新的匹配与上一个匹配是否能分开
cnt++;
last=i; //last指向上一次匹配的末尾位置
}

}
}
}
int main(){
while(~scanf("%s",str)){ //读串
if(str[0]=='#') break;
scanf("%s",pattern);
cnt=0;
kmp(str,pattern);
printf("%d\n",cnt);
}
return 0;
}
上一篇:
MySQL
下一篇:
Java图形可视化编程