当前位置: 首页 > 编程日记 > 正文

一文看懂模糊搜索1.0到3.0的算法迭代历程

640?wx_fmt=jpeg

参加 2019 Python开发者日,请扫码咨询 ↑↑↑


作者 | 宋广泽

责编 | 郭芮

来源 | CSDN(ID:CSDNnews)


前一段时间在Linux上用C语言做了一个信息管理系统,初始版本的搜索就是直接使用了C语言库文件<string.h>里的库函数strcmp。后来联想到微信/QQ等软件上的搜索就很方便,无需输入全部的信息就能查找到想要的结果,或者给出一堆结果让用户选择。于是我便开始了模糊搜索算法的探索。


640?wx_fmt=png


模糊搜索Version1.0:


//只有返回1才视为匹配成功
//错误样例:234 1230234
int result_mohu(const char* key,char* str)
{
 int i=0,j=0,f=0;
 while(1)
 {
     //找到第一个相匹配的字符
  if((f==0||f==1)&&str[i]==key[j])
        {
            i++;
            j++;
            f=1;
        }
        //已经有一个字符相匹配了再往后又不相匹配了
        //便认为匹配失败
  else if(f==1&&str[i]!=key[j])
        {
            i++;
            f=2;
        }
  else
        {
            i++;
        }
        //匹配到结尾或出现了匹配失败的结果就退出循环
  if(i==strlen(str)||j==strlen(key)||f==2)
        {
            break;
        }
 }
 return f;
}


该算法确实能够在一定程度上解决模糊搜索的问题,但是在判断匹配成功与否的时候,没有回退机制,只能一股脑地往前匹配,一旦出现有任何不相匹配的迹象就会跳出循环并返回匹配失败。


例如想要搜索的结果是1230234,而输入的关键字是234,从前往后遍历匹配串遍历到第一个23的时候算法机制就认为该匹配串有可能就是想要的结果,然而第一个23再往后一位是0,又与模式串中23之后是4的情况不符,则算法机制认为匹配失败。


以上算法是我自己构想的,没有查阅任何资料,直到最后我才发现,原来我最初构想的这个算法再仔细考虑一下就成为了模式匹配领域的著名算法BF算法,BF算法就是在上述算法的基础上加上了回退机制。然而因为我的一时冲动,直接重构了上述代码,于是便有了下面的模糊搜索Version2.0。


以上算法虽然有一些无法处理的样例,也是可以部署在实际应用中的,如智能停车场。拿出手机在地下停车场里扫描停车缴费的二维码,在输入框中按照系统要求从前往后填入车牌号,输入“鲁”则停车场内所有在山东挂牌的车牌号都显示出来供用户选择,一步一步缩小范围,再输入“A”则所有在济南挂牌的车牌号都显示出来供用户选择。


640?wx_fmt=jpeg

640?wx_fmt=png


模糊搜索Version2.0:


int result_mohu(const char* key,char* str)
{
    typedef struct
    {

        char son[11];
    }Element;

    int i,j,k=0,l=0,m=0;

    //f=1为符合筛选条件
    int f=0;

 //N1为str的长度 N2为str连续子串的个数
 int N1=0,N2=0;
 N1=strlen(str);
 /*计算连续子串的个数*/
 for(i=1;i<=N1;i++)
  N2+=i;

    /*计算连续子串的个数*/
    //i控制子字符串的长度
    //j控制赋值
    //k控制新的线性结构b的下标
    //l控制子数组的首项在原数组中的位置
    //m控制即将用作赋值的str的下标
    Element *b=malloc(sizeof(Element)*N2);
    for(i=1;i<=N1;i++)
    {
        l=0;
        /*while循环内为给一个子字符串数组赋值*/
        while(1)
        {
            m=l;
            for(j=0;j<i;j++)
            {
                b[k].son[j]=str[m];
                m++;
            }
            l++;
            k++;
            if(m==N1)
                break;
        }
    }

    //挨个比对
    for(i=0;i<N2;i++)
        if(strcmp(key,b[i].son)==0)
        {
             f=1;
             break;
        }
    free(b);
    return f;
}


以上算法过于暴力,思路是穷举出待匹配字符串的所有子串,然后再将模式串与待匹配字符串的所有子串一个一个匹配,如果存在一个完全一致的子串,则返回true。


那么"abcdef"这个字符串到底有多少个连续子片段呢?我们按照子片段的长度挨个找规律,按长度由大到小进行:长度为6的就只有"abcdef"这1个;长度为5的有2个:"abcde"和"bcdef";长度为4的有3个:"abcd"、"bcde"和"cdef";长度为3的有4个;长度为2的有5个;长度为1的有6个。所以一共有1+2+3+4+5+6=21个。想必看到这里大家已经找到了规律:若关键词的长度为n,则该关键词的连续子字符串的个数就为1+2+3+...+n。


以上算法虽然在理论上可行,但当真正部署在管理系统内的时候就会出现一种不稳定的bug,这个bug我至今都没有找出来,而且时间复杂度和空间复杂度都很高,是一种效率低下的算法。


直到有一天,在一本技术上,看到了BF算法。


模糊搜索Version3.0:


int result_mohu(const char* key,char* str)
{
    int i=0,j=0,k=0;
    int flag=0;
    int len_key=strlen(key);
    int len_str=strlen(str);
    while(i<len_str&&j<len_key)
    {
        //遇到一个相同的字符就继续往后匹配
        if(key[j]==str[i])
        {
            k++;
            j++;
            i++;
            if(k==len_key)
            {
                flag=1;
                break;
            }
        }
        //又回退到最初的起点
        else
        {
            j-=k;
            i=i-k+1;
            k=0;
        }
    }
    return flag;
}


以上算法在模糊搜索Version1.0的基础上加上了回退机制,就避免了234匹配1230234失败这种bug了。


需要注意的是,模式串和匹配串回退的格数不同,模式串是直接回退到第一个元素的位置上,而匹配串则回退到第一个相匹配的字符后一个字符的位置上,因为匹配串需要继续向后检索是否有匹配成功的片段。


640?wx_fmt=png


查询搜索系统经过了一次一次的迭代升级,变成了最美好的模样。


640?wx_fmt=png


本文所谈的模糊搜索仅仅是模糊搜索中的一种——模式匹配,还有其他种类的模糊搜索,例如近义词/同义词搜索等。模式匹配算法也不仅仅只有BF算法,还有KMP算法、KMPP算法等,感兴趣的可以多了解一下。


作者:宋广泽,青岛某普通一本大学计算机专业在校生,本科在读,学生开发者。喜欢用C/C++编写有意思的程序,解决实际问题。


(本文为 AI科技大本营转载文章,转载请微信联系 1092722531)


推荐阅读:

  • Google首页玩起小游戏,AI作曲让你变身巴赫

  • 特斯拉起诉小鹏汽车员工窃取商业机密,何小鹏回应

  • 提升效率,这十个Pandas技巧必不可少!

  • 超常用的Python代码片段 | 备忘单

  • 小米“祭出” AIoT 神器!| 技术头条

  • 工作量不断增加的微软Azure,正缩小与亚马逊AWS的差距

  • 硬核接亲!程序员被新娘要求现场写代码,结果万万没想到……

  • 理工男的网红生意, 6000万月活50万条日更的背后, 内容链还能这样操作?

  • 曝光!月薪 5 万的程序员面试题:73% 人都做错,你敢试吗?


640?wx_fmt=png

点击“阅读原文”,查看历史精彩文章。

相关文章:

【linux】shell中浮点数运算的加、减、乘、除

bash 不支持浮点运算&#xff0c;如果需要进行浮点运算&#xff0c;需要借助bc,awk 处理。 1、bc #!/bin/bash#加 f$(echo "4.32.5"|bc) echo "4.32.5$f"#减 f$(echo "4.3-2.5"|bc) echo "4.3-2.5$f"#乘 f$(echo "4.30*2.50&qu…

页面加载和解析流程

输入url,浏览器向服务器发出请求&#xff0c;服务器返回html文件&#xff0c;浏览器开始载入html代码&#xff0c;发现head标签有link标签引入外部的css文件&#xff0c;浏览器发出css文件的请求&#xff0c;服务器返回这个css文件&#xff0c;浏览器继续载入body中的代码&…

作为程序员应有10项权利

Scott认为&#xff0c;作为开发人员&#xff0c;应该有权享有以下列表所示的待遇&#xff1b;不过在国内&#xff0c;这个却有点异想天开&#xff0c;能有几个老板愿意给员工如此舒适的环境呢&#xff1f; 1.每位程序员应该拥有一个安静的工作环境 2.每位程序员应该拥有听音乐…

【Qt】QtCreator中自动补全注释

1、简述 在QtCreator中编辑代码,可以自动补全函数注释,供doxygen使用并生成文档。doxygen的使用方法,后续会写一个详细的博文。 2、使用方法 在函数前分别输入“/**”、“/*!”、“//!”、“///”,然后敲击回车键,会自动补全下方函数的注释。 注意:输入的注释一定要紧…

Java内存模型与线程

一、一致性高速缓存的存储交互很好的解决了处理器与内存的速度矛盾&#xff0c;但也存在缓存一致性&#xff08;cache coherence&#xff09;问题二、java内存模型内存模型&#xff1a;对特定的内存或高速缓存进行读写访问的过程抽象。 java内存模型&#xff08;java memory mo…

Google用更少标签生成图像,还提出一个用于训练评估GAN的库

参加 2019 Python开发者日&#xff0c;请扫码咨询 ↑↑↑译者 | 刘畅责编 | 琥珀出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;生成对抗网络&#xff08;GAN&#xff09;是属于一种强有力的深度生成模型。GAN 的主要思想是训练两个神经网络&#xff1a;一个是学习如…

视频用户行为及推荐系统评价KPI-部分

问题 KPI 使用推荐区的用户数量和比率是否显著提升 使用推荐区用户量及其占比与之前进行对比 新老用户使用推荐差异是否明显 新老用户推荐区使用比率占各自类别比&#xff0c;新老用户推荐区产生的VV占各自类别比 推荐区产生的VV占总VV是否显著提升 推荐区VV占总VV占比与…

【linux】用户和组的管理:添加、修改、删除(useradd usermod userdel groupadd groupdel)

一、用户 1、添加 $ useradd -h Usage: useradd [options] LOGINuseradd -Duseradd -D [options]Options:-b, --base-dir BASE_DIR base directory for the home directory of the new account-c, --comment COMMENT 加上备注文字&#xff0c;备注文字保存在pa…

ping命令工具:同时ping多个IP

检测多个ip在同一时间点的响应状态&#xff0c;通过对比来判断哪个ip异常。 下载地址&#xff1a;https://share.weiyun.com/5XCkypG 转载于:https://www.cnblogs.com/leavind/p/8743149.html

顶会论文9篇,又斩获百度奖学金!哈工大NLP“新生代”正崭露头角

参加 2019 Python开发者日&#xff0c;请扫码咨询 ↑↑↑作者 | 琥珀出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;“Static OnePlus”&#xff1f;首次看到这个网名时&#xff0c;激起了笔者不小的兴趣。正如每个网名背后都有一段不一样的故事&#xff0c;Static …

医院数据中心机房建设资料汇总(31篇)

医疗数据中心包括病人基本数据、入出转数据、电子病历、诊疗数据、医学影像数据、医学管理、经济数据&#xff0c;它们围绕着病人这个中心&#xff0c;成为了医 疗信息的主要来源。医疗数据质量的影响表现在医疗数据的实时、近期和远期应用&#xff0c;首先影响医疗信息系统的日…

【linux】CentOS启动后网络自动配置过程

1、启动后如何调用的网络配置脚本 网络配置脚本路径&#xff1a;/etc/init.d/network 根据不同启动级别对network脚本的调用情况&#xff1a; 进入/etc目录后&#xff0c;执行 $ find -name “*network”&#xff0c;结果如下&#xff1a; $ find -name "*network"…

web存储中cookie、session区别

http协议是一种无状态的协议&#xff0c;浏览器对服务器的每一次请求都是独立的。为了使得web能够产生一些动态信息&#xff0c;就需要保存”状态”&#xff0c;而cookie和session机制就是为了解决http协议无状态而产生。cookie是一种在客户端保存状态的方案&#xff0c;sessio…

李沐团队新作Gluon,复现CV经典模型到BERT,简单好用 | 强烈推荐

参加 2019 Python开发者日&#xff0c;请扫码咨询 ↑↑↑责编 | Jane出品 | AI科技大本营&#xff08;公众号id&#xff1a;rgznai100&#xff09;【导语】上周&#xff0c;李沐老师公布 GluonNLP0.6 版本&#xff0c;借助 Apache MXNet&#xff0c;大家可以尝试在 Gluon 中复现…

中国科学技术大学 中科大(USTC)UBUNTU源Linux镜像站IPV4/IPV6

Ubuntu下的使用方法:使用如下命令&#xff1a;sudo gedit /etc/apt/sources.list请编辑/etc/apt/sources.list&#xff0c;用下面的内容替换&#xff1a; deb http://mirrors.ustc.edu.cn/ubuntu/ natty main restricted universe multiverse deb http://mirrors.ustc.edu.cn/…

深度分析蔡徐坤的百万流量数据,揭底哪些是假的!

参加 2019 Python开发者日&#xff0c;请扫码咨询 ↑↑↑作者 | Alfred&#xff0c;毕业于暨南大学&#xff0c;数据挖掘算法工程师&#xff0c;主要研究领域为数据挖掘、机器学习来源 | Alfred数据室&#xff08;公众号id&#xff1a;Alfred_Lab&#xff09;责编 | Jane前段时…

【Linux】延时函数sleep、usleep、nanosleep、select、pselect的比较

1、简介 sleep()-------以秒为单位 #include<unistd.h> unsigned int sleep(unsigned int seconds); return&#xff1a;若进程暂停到参数seconds 所指定的时间&#xff0c;成功则返回0&#xff0c;若有信号中断则返回剩余秒数。 在linux中&#xff0c;sleep是通过nanos…

特斯拉解锁对汽车电池容量的软件限制,以帮助用户逃离飓风危险

为了对抗飓风&#xff0c;为用户提高逃生的可能性&#xff0c;特斯拉公司在此特殊情况下免费释放了电池容量限制。 据悉&#xff0c;在伊斯玛飓风抵达佛罗里达州之前&#xff0c;特斯拉为佛罗里达特斯拉的电动汽车用户更新解锁了其60kwh型号下电动汽车被封住的电池容量&#x…

nginx安装 问题 1

./configure: error: the HTTP rewrite module requires the PCRE library 有时候&#xff0c;我们需要单独安装nginx&#xff0c;来处理大量的下载请求。单独在Centos5安装nginx遇到的rewrite和HTTP cache错误解决办法&#xff1a;wget http://nginx.org/download/nginx-0.8.3…

【Qt】使用QPalette设置按钮颜色时,不生效

1、问题描述 在练习QStylePlugin示例时&#xff0c;通过插件将按钮颜色设置为红色&#xff0c;但是没有效果&#xff0c;原因是&#xff1a; 使用QPalette设置按钮颜色时&#xff0c;不生效&#xff0c;代码如下 QPalette.setBrush(QPalette::Button, Qt::red)2、问题分析 Q…

Swagger 生成 PHP restful API 接口文档

需求和背景 需求: 为客户端同事写接口文档的各位后端同学,已经在各种场合回忆了使用自动化文档工具前手写文档的血泪史.我的故事却又不同,因为首先来说,我在公司是 Android 组负责人,属于上述血泪史中催死人不偿命的客户端阵营.但血泪史却是相通的,没有自动化文档的日子,对接口…

FPGA技术的未来发展:谁与AI平分秋色

参加 2019 Python开发者日&#xff0c;请扫码咨询 ↑↑↑作者 | 老石来源 | 老石谈芯&#xff08;公众号id&#xff1a;gh_5ce1d0cb1568&#xff09;责编 | Jane任何科学技术的发展和进步都离不开两个主要的推动力量&#xff0c;一个是相关领域各大公司的研发&#xff0c;另一个…

一体化设计让容灾变简单

容灾很难实现吗&#xff1f;容灾不仅包括技术方面的问题&#xff0c;而且涉及数据保护策略、投入产出比等方面的问题。从这个角度讲&#xff0c;对于大多数的中小型用户来说&#xff0c;容灾的实施确实比较困难。不过&#xff0c;爱数软件副总裁李基亮认为&#xff0c;容灾的实…

深度研究自然梯度优化,从入门到放弃 | Deep Reading

参加 2019 Python开发者日&#xff0c;请扫码咨询 ↑↑↑作者 | Cold Marie Wild译者 | 刘畅责编 | Jane出品 | AI科技大本营&#xff08;公众号id&#xff1a;rgznai100&#xff09;【导语】根据自然梯度的支持者提出一种建议&#xff1a;我们不应该根据参数空间中的距离来定义…

【Qt】QtCreator中关于Style Plugin Example没有效果的修改方法

1、问题描述 在QtCreator练习QStylePlugin的例子时,没有效果,原因是QPalette使用不当造成。 详见:https://blog.csdn.net/u010168781/article/details/88250451 2、解决方法 解决方法很简单,我们只是为了演示QStylePlugin的效果,然而QPushButton不能通过QPalette来改变…

最大公约数和最小公倍数的欧几里得算法

最大公约数的算法竟然如此简单&#xff0c;不说了&#xff0c;见代码 #include <stdio.h> int gcd(int a, int b) { if(b 0) return a; return gcd(b, a%b); } 简化后如下&#xff1a; int gcd(int a, int b) { return (b0 ? a: gcd(b, a%b)); } 而最小公倍数的也就为&a…

如何查看CISCO FWSM上ACL分区的空闲资源

在CISCO防火墙模块上有的时候在做策略NAT的时候会碰到如下的错误信息&#xff1a;输入:nat (inside) 1 access-list XYZ错误提示:ERROR: Unable to add Policy Rulesaccess-list XYZ 可以在配置的ACL中显示尤其在添加一些基于策略的NAT的时候&#xff0c;因为其可能会产生大量的…

强烈推荐一款Python可视化神器!

参加 2019 Python开发者日&#xff0c;请扫码咨询 ↑↑↑翻译 | Lemon来源 | Plotly出品 | Python数据之道 &#xff08;ID&#xff1a;PyDataRoad&#xff09;Plotly Express 入门之路Plotly Express 是一个新的高级 Python 可视化库&#xff1a;它是 Plotly.py 的高级封装&am…

【Qt】QIcon::fromTheme:从系统主题中获取图标

1、简介 函数原型 QIcon QIcon::fromTheme(const QString &name) QIcon QIcon::fromTheme(const QString &name, const QIcon &fallback)上述两个函数可以从系统主题中获取图标&#xff0c;后者可以在主题中找不到图标时&#xff0c;再使用自己定义的图标&#x…

检验EIGRP

路由器必须与其邻居建立邻接关系&#xff0c;EIGRP 才能发送或接收更新。EIGRP 路由器通过与相邻路由器交换 EIGRP Hello 数据包来建立邻接关系。 使用 show ip eigrp neighbors 命令来查看邻居表并检验 EIGRP 是否已与其邻居建立邻接关系。对于每台路由器&#xff0c;您应该能…