当前位置: 首页 > 编程日记 > 正文

搜索引擎的实现原理

搜索引擎的实现原理,可以看作四步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索→对搜索结果进行处理和排序。
  1. 从互联网上抓取网页. 利用能够从互联网上自动收集网页的网络蜘蛛程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集到服务器中。
  2. 建立索引数据库 . 由索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它 网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信 息建立网页索引数据库。
  3. 在索引数据库中搜索 . 当用户输入关键词搜索后,分解搜索请求,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。
  4. 对搜索结果进行处理排序 . 所有相关网页针对该关键词的相关信息在索引库中都有记录,只需综合相关信息和网页级别形成相关度数值,然后进行排序,相关度越高,排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。 下图是一个典型的搜索引擎系统架构图,搜索引擎的各部分都会相互交错相互依赖。其处理流程按照如下描述:

转载于:https://www.cnblogs.com/pwqzc/archive/2006/03/01/340101.html

相关文章:

精通JavaScript--07设计模式:行为型

在本章,我们将继续学习设计模式,着重了解行为型设计模式。我们在第5章所学的创建型设计模式侧重于对象的创建,在第6章所学的结构型设计模式侧重于对象结构,而本章介绍的行为型设计模式则侧重于辅助实现代码库中的多个对象之间的通…

DataX 安装和使用

阿里云介绍: 1. 下载安装包。作为阿里主要的数据传输工具Datax,阿里已经完全开源到github上面了。下载地址(https://github.com/alibaba/DataX)。 2. 安装环境: JDK(1.6以上,推荐1.6)Python(推荐Python2.6.…

关于Adodb.Stream的使用说明

组件:"Adodb.Stream"有下列方法:Cancel 方法 使用方法如下 Object.Cancel 说明:取消执行挂起的异步 Execute 或 Open 方法的调用。Close 方法 使用方法如下 Object.Close :关闭对像CopyTo 方法…

JSP的执行过程(详解)

要了解JSP的执行过程,首要要搞懂什么是JSP,JSP的全称是Java Server Pages,里面包含html标签、css样式、JavaScript脚本和Java代码。 下面我们来说说JSP的执行过程: JSP执行过程: 当用户通过浏览器访问Tomcat上的JSP页面时&#…

VoIP败家子的游戏

现在VoIP比较火,甚至都引起了电信运营商的强烈关注。VoIP替代长途好象是板上钉钉的事情。实际情况是否如此呢?当然不一定是这样的。VoIP是将企业语音电话业务与网络数据业务合二为一,使之能够在一个网络上实现低成本的IP语音和IP数据服务。其…

K8s简单yaml文件运行例子deployment

kubectl run 创建并运行一个或多个容器镜像。创建一个deployment 或job 来管理容器。kubectl run 语法: $ run NAME --imageimage [--env"keyvalue"] [--portport] [--replicasreplicas] [--dry-runbool] [--overridesinline-json] [--command] -- [COMMA…

codeforces round 421 div2 补题 CF 820 A-E

A Mister B and Book Reading O(n)暴力即可 #include<bits/stdc.h> using namespace std; typedef long long int LL; const LL N1,M1,MOD1;int main() {//freopen("t.txt","r",stdin);int c,v0,v1,a,l;scanf("%d%d%d%d%d",&c,&…

JSP中的重定向和请求转发以及它们的区别

我们先硬着头皮看一下重定向的定义&#xff1a; 重定向&#xff08;Redirect&#xff09;&#xff1a; 客户端浏览器向Web应用服务器端发送一个请求&#xff0c;Web服务器端使用HttpServletResponse的sendRedirect()方法将结果&#xff08;结果中头信息内HTTP状态码为302&…

想你,是一种美丽

想你&#xff0c;是一种美丽 想你 不论何时何地想你 是一腔热血的唠叨想你 是一地相思泪的燃烧想你 是一弯明月的宣誓想你 是一抹诗情的聚焦 每个路口都有为你守侯的目光每个黄昏都有为你焦急的心你的名字便是祈祷的圣经你的身影便是我梦中永远的天使 即…

通用数据库连接执行类(SQL)

usingSystem;usingSystem.Data;usingSystem.Data.SqlClient;namespacePublic{///<summary>/// CustomADO 数据连接执行类。///</summary>public class CustomADO{#region定义或创建类私有变量或对象private string _connstr; //连接字符串存储变量private …

Alpha冲刺 - (5/10)

Part.1 开篇 队名&#xff1a;彳艮彳亍团队 组长博客&#xff1a;戳我进入 作业博客&#xff1a;班级博客本次作业的链接 Part.2 成员汇报 组员2 黄志铭 过去两天完成了哪些任务学习了逻辑层js与界面的数据传送完成共享编辑的界面以及相关接口接下来的计划1.对之前的界面完成逻…

session对象运行机制

当你看到 “会话” 这个词的时候&#xff0c;你会怎么理解呢&#xff1f;是交流、对话的意思吗&#xff1f;那毫无疑问绝对是的啦&#xff0c;只不过那是传统意义上的&#xff0c;或者说是日常生活中的意思&#xff0c;在计算机科学领域&#xff0c;它的意思就要引申一些了。在…

git查看某个文件的提交历史

git log --prettyoneline 文件名接下来使用git show显示具体的某次的改动。git show <git提交版本号> <文件名>转载于:https://www.cnblogs.com/ppsunlight/p/7095612.html

省市县三级级联(模块化开发)

不废话&#xff0c;上代码&#xff1a; 先看一下项目列表&#xff1a; tool包里的代码&#xff1a; 请看&#xff1a;tool包 vo.Area类&#xff1a; package com.jd.vo;public class Area {private String id;private String name;private String code;private String pa…

IOS - 设置与帮助界面

设置与帮助 改动头像, 改动password, 移动客服, 帮助, 声明, 关于我们. 代码 // // IndexSetting600ViewController.h // SymptomChecker // // Created by wang on 2015-7-21. // //#import "CYTableViewController.h"interface IndexSetting600ViewController …

CentOS虚拟机和物理机共享文件夹实现

CentOS虚拟机和物理机共享文件夹实现过程。 一、 安装VMware Tools VMwareTools的安装脚本是要使用到perl的&#xff0c;而CentOS 6自身不带perl&#xff0c;所以需要自己安装。可以自己下载源代码编译&#xff0c;也可以直接用yum来安装。 yum install perl 2、虚拟机工具栏-…

[讨论]你的女朋友值多少钱?

你的女朋友值多少钱&#xff1f;一个简单的测试可能会告诉我们很多的东西。 女主持人气势咄咄的问一个男嘉宾&#xff0c;你为什么那么在乎钱&#xff0c;男嘉宾说&#xff1a;“钱能买到一切!” 现场的观众哗然了。 男嘉宾微笑的说&#xff1a;“我们做个测试吧。” 一个很简单…

庆祝天津.Net俱乐部成立,辛苦TerryLee了,感谢dudu!

终于等来了天津.Net俱乐部的成立&#xff0c;欢迎天津热心.Net的人士申请加入&#xff01; 转载于:https://www.cnblogs.com/anchky/archive/2006/03/21/354946.html

软件工程专业1

任何软件系统开发的共同本质&#xff1a; – 从现实空间的需求到计算机空间的软件代码之间的映射与转换&#xff1b; 软件工程本质&#xff1a; 用严格的规范和管理手段来缩小偏差&#xff0c;通过牺牲“时间”来提高“质量”。 软件工程的两个映射&#xff1a; 概念映射&#…

动态网页项目(Dynamic Web Project)2.5和3.0版本的差异

我们知道在2.5版本中都有web.xml&#xff0c;用来配置servlet&#xff1a; 但3.0版本却没有web.xml&#xff0c;那该怎么配置servlet呢&#xff1f; 解决的方法就是使用注解&#xff1a; 而且在注解中配置servlet非常方便&#xff01; 那如果想在3.0中也使用web.xml该怎么办…

New LINQ CTP!

FYI, we just released an updated community preview of our LINQ support for both VB and C#, entitled “Microsoft Visual Studio Code Name “Orcas” Language-Integrated Query, May 2006 Community Technology Preview.” Or you could just call it “the May CTP.”…

mybatis的一些基础问题

拿实体类中的属性 userPhone 来说&#xff1a; mapper 文件 转载于:https://www.cnblogs.com/py1994/p/7097808.html

(zt)Web 2.0奔路进行时

Web 2.0奔路进行时作者 黄昆Web2.0不是独立存在的&#xff0c;在2006年将会全面融入互联网&#xff0c;这种融入并不意味着Web2.0以及Web2.0所代表的创新浪潮的消退&#xff0c;反而将以这种充满活力的创新方式引发互联网产业格局的巨大变革。Web2.0&#xff0c;在奔跑。发展到…

each(callback)与each(object[,callback])的区别

each(callback)与each(object[,callback])的区别&#xff1a; 1. 调用对象不同&#xff0c;前者必须使用jQuery对象调用&#xff1b;后者只能使用$调用&#xff1b; 2. 遍历对象不同&#xff1a;前者遍历的是jQuery对象&#xff1b;后者还可以遍历数组等非jQuery对象。我们来看…

Microsoft .Net Remoting系列专题之二:Marshal、Disconnect与生命周期以及跟踪服务

Microsoft .Net Remoting系列专题之二 一、远程对象的激活 在Remoting中有三种激活方式&#xff0c;一般的实现是通过RemotingServices类的静态方法来完成。工作过程事实上是将该远程对象注册到通道中。由于Remoting没有提供与之对应的Unregister方法来注销远程对象&#xff0…

luogu P2759 奇怪的函数 二分答案+数论

题目描述 使得 x^x 达到或超过 n 位数字的最小正整数 x 是多少&#xff1f; 输入输出格式 输入格式&#xff1a; 一个正整数 n 输出格式&#xff1a; 使得 x^x 达到 n 位数字的最小正整数 x 输入输出样例 输入样例#1&#xff1a;11 输出样例#1&#xff1a;10 说明 n<2000000…

前端性能毫秒必争方案(一)HTTP请求

在讲http知识之前&#xff0c;有必要提及下网络七层协议OSI(Open System Interconnect)的缩写 犹如水浒里面的七星聚义&#xff0c;没这七星&#xff0c;就没有108将。(已经放置文章最后面) 2. 减少http请求次数原因在于 1、Http连接 RequestHeader 的开销 众所周知&#xff0c…

CodeSmith应用(一)

这个例子仅是一个简单的应用&#xff0c;在我翻译并学习完CodeSmith的英文帮助文档后&#xff0c;对CodeSmith有了一定的了解&#xff0c;开始着手编写一些CodeSmith应用模板&#xff0c;今天按照最早提到的例子自行编写了一个基于表的添加存储过程的生成模板。具体语法前面基础…

01_创建一个新的activityactivity配置清单文件

今天开始学四大组件。今天是学Activity&#xff0c;然后是广播接收者&#xff0c;然后是服务&#xff0c;然后是内容提供者。四大组件&#xff0c;咱们一天一个。Activity就是跟用户交互的界面&#xff0c;大部分的应用都不会只有这么一个界面。创建多个Activity&#xff0c;在…

Java 集合——List集合

Collection接口是集合的老祖宗&#xff0c;定义了接口的基本方法。 List是Collection接口的子接口&#xff0c;也是最常用的接口&#xff0c;此接口对Collection接口进行了大量的扩展&#xff0c;List集合里的元素是可以重复的。 List接口的主要实现类有ArrayList&#xff0c;和…