网络蜘蛛索引(中国搜索引擎检索的主要方式有哪两种)

2025-04-11 19:50:01 0

网络蜘蛛索引(中国搜索引擎检索的主要方式有哪两种)

本文目录

中国搜索引擎检索的主要方式有哪两种

1、搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。

2、两种是不包括目录索引,因为目录索引虽然有搜索功能,但从严格意义上算不上是真正的搜索引擎,只是一个目录列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。从这个角度说,搜索引擎按其工作方式分为全文搜索引擎和元搜索引擎两种。

现有的搜索引擎基本上分为三类:1.1 single search engine(独立搜索引擎) 它的特点是仅在搜索引擎自身的数据库检索信息,比如Yahoo。1.2 Meta search engine(元搜索引擎) 它在检索信息时通过调用其它多个独立的搜索引擎来完成检索功能,并且能够将从多个独立搜索引擎查询的结果进行不同程度的处理,比如删除重复结果、校验连接、结果按照相关度排序等。元搜索引擎本身可以有也可以没有自己的数据库。由于不同的元搜索引擎挂接的独立搜索引擎各不相同,且各自独立的搜索引擎在查询语法上的差别较大,使得元搜索引擎本身仅支持AND、0R、N0T等简单的语法操作,返回的结果只能满足“最低常用分母”,即不能提高搜索结果的准确性。1.3 Net search engine(网络搜索软件) 就是网络用户可以将相应的搜索软件下载至本地的计算机上,安装查询,这是一种具有网络查询功能的离线浏览器。相对于元搜索引擎,它可以灵活地控制输出结果,其最大特点是方便用户使用和能快速地查询网络相关资源。2 网络搜索引擎的工作原理及其基本构成用户检索信息时,搜索引擎是根据用户的查询要求,按照一定的算法从索引数据库中查找对应的信息返回给用户。为了保证用户查找信息的精度和新鲜度。对于独立的搜索引擎而言.还需要建立并维护一个庞大的数据库。独立搜索引擎中的索引数据库中的信息是通过一种叫做网络蜘蛛(spider)的程序软件定期在网上爬行,通过访问公共网络中公开区域的每一个站点采集网页,对网络信息资源进行收集,然后利用索引软件对收集的信息进行自动标引,创建一个可供用户按照关键字等进行查询的web页索引数据库,搜索软件通过索引数据库为用户提供查询服务。所以,一般的搜索引擎主要由网络蜘蛛、索引和搜索软件三部分组成.

网络蜘蛛。是一个功能很强的程序,它会定期根据预先设定的地址去查看对应的网页,如网页发生变化则重新获取该网页,否则根据该网页中的链接继续去访问。网络蜘蛛访问页面的过程是对互连网上信息遍历的过程。为了保证网络蜘蛛遍历信息的广度,一般事先设定_ 些重要的链接,然后进行遍历。在遍历的过程中不断记录网页中的链接,不断地遍历下去,直到访问完所有的链接。

索引软件。网络蜘蛛将遍历搜索集得到的网页存放在数据库中。为了提高检索的效率,需要建立索引。索引一般为倒排档索引。搜索软件。该软件用于筛选索引数据库中无数的网页信息,选择出符合用户检索要求的网页并对它们进行分级排序。然后将分级排序后的结果显示给用户。

Web Spider网络蜘蛛,是什么意思

。 网站管理员可以通过robots.txt来定义哪些目录网络蜘蛛不能访问,或者哪些目录对于某些特定的网络蜘蛛不能访问。例如有些网站的可执行文件目录和 临时文件目录不希望被搜索引擎搜索到,那么网站管理员就可以把这些目录定义为拒绝访问目录。Robots.txt语法很简单,例如如果对目录没有任何限 制,可以用以下两行来描述: User-agent: *Disallow:----当然,Robots.txt只是一个协议,如果网络蜘蛛的设计者不遵循这个协议,网站管理员也无法阻止网络蜘蛛对于某些页面的访问,但一般的网络蜘蛛都会遵循这些协议,而且网站管理员还可以通过其它方式来拒绝网络蜘蛛对某些网页的抓取。---- 网络蜘蛛在下载网页的时候,会去识别网页的HTML代码,在其代码的部分,会有META标识。通过这些标识,可以告诉网络蜘蛛本网页是否需要被抓取,还可 以告诉网络蜘蛛本网页中的链接是否需要被继续跟踪。例如:表示本网页不需要被抓取,但是网页内的链接需要被跟踪。---- 搜索引擎建立网页索引,处理的对象是文本文件。对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其 它格式等。这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网 络蜘蛛正确跟踪其它链接有一定影响。对于doc、pdf等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口,就可以轻松的提取文档中的文本信息和文件其它相关的信息。但HTML等文档不一样,HTML有一套自己的语法,通过不同的命令标识符来表示不同的字体、颜色、位置等版式,如:、、等, 提取文本信息时需要把这些标识符都过滤掉。过滤标识符并非难事,因为这些标识符都有一定的规则,只要按照不同的标识符取得相应的信息即可。但在识别这些信 息的时候,需要同步记录许多版式信息,例如文字的字体大小、是否是标题、是否是加粗显示、是否是页面的关键词等,这些信息有助于计算单词在网页中的重要程 度。同时,对于HTML网页来说,除了标题和正文以外,会有许多广告链接以及公共的频道链接,这些链接和文本正文一点关系也没有,在提取网页内容的时候, 也需要过滤这些无用的链接。例如某个网站有“产品介绍”频道,因为导航条在网站内每个网页都有,若不过滤导航条链接,在搜索“产品介绍”的时候,则网站内 每个网页都会搜索到,无疑会带来大量垃圾信息。过滤这些无效链接需要统计大量的网页结构规律,抽取一些共性,统一过滤;对于一些重要而结果特殊的网站,还 需要个别处理。这就需要网络蜘蛛的设计有一定的扩展性。---- 对于多媒体、图片等文件,一般是通过链接的锚文本(即,链接文本)和相关的文件注释来判断这些文件的内容。例如有一个链接文字为“张曼玉照片”,其链接指 向一张bmp格式的图片,那么网络蜘蛛就知道这张图片的内容是“张曼玉的照片”。这样,在搜索“张曼玉”和“照片”的时候都能让搜索引擎找到这张图片。另 外,许多多媒体文件中有文件属性,考虑这些属性也可以更好的了解文件的内容。---- 动态网页一直是网络蜘蛛面临的难题。所谓动态网页,是相对于静态网页而言,是由程序自动生成的页面,这样的好处是可以快速统一更改网页风格,也可以减少网 页所占服务器的空间,但同样给网络蜘蛛的抓取带来一些麻烦。由于开发语言不断的增多,动态网页的类型也越来越多,如:asp、jsp、php等。这些类型 的网页对于网络蜘蛛来说,可能还稍微容易一些。网络蜘蛛比较难于处理的是一些脚本语言(如VBScript和JavaScript)生成的网页,如果要完 善的处理好这些网页,网络蜘蛛需要有自己的脚本解释程序。对于许多数据是放在数据库的网站,需要通过本网站的数据库搜索才能获得信息,这些给网络蜘蛛的抓 取带来很大的困难。对于这类网站,如果网站设计者希望这些数据能被搜索引擎搜索,则需要提供一种可以遍历整个数据库内容的方法。对于网页内容的提取,一直是网络蜘蛛中重要的技术。整个系统一般采用插件的形式,通过一个插件管理服务程序,遇到不同格式的网页采用不同的插件处理。这种 方式的好处在于扩充性好,以后每发现一种新的类型,就可以把其处理方式做成一个插件补充到插件管理服务程序之中。---- 由于网站的内容经常在变化,因此网络蜘蛛也需不断的更新其抓取网页的内容,这就需要网络蜘蛛按照一定的周期去扫描网站,查看哪些页面是需要更新的页面,哪些页面是新增页面,哪些页面是已经过期的死链接。---- 搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。如果更新周期太长,则总会有一部分新生成的网页搜索不到;周期过短,技术实现会有一定难度,而且会 对带宽、服务器的资源都有浪费。搜索引擎的网络蜘蛛并不是所有的网站都采用同一个周期进行更新,对于一些重要的更新量大的网站,更新的周期短,如有些新闻 网站,几个小时就更新一次;相反对于一些不重要的网站,更新的周期就长,可能一两个月才更新一次。---- 一般来说,网络蜘蛛在更新网站内容的时候,不用把网站网页重新抓取一遍,对于大部分的网页,只需要判断网页的属性(主要是日期),把得到的属性和上次抓取的属性相比较,如果一样则不用更新。---- 现在大家对网络蜘蛛的工作原理有了初步的了解了吧,了解后就要在以后的网站制作中考虑蜘蛛的爬行规律,比如制作网站地图就很重要,好了,如果你有更好的见解,请到这里发表,火鸟非常愿意与你交流,共同研究网站制作技巧,尽量将自己的网站制作的符合标准,符合用户的习惯!

百度等搜索引擎(网络蜘蛛)抓取页面的原理

搜索引擎基本工作原理了解搜索引擎的工作原理对我们日常搜索应用和网站提交推广都会有很大帮助。........................................................................................■ 全文搜索引擎在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。........................................................................................■ 目录索引与全文搜索引擎相比,目录索引有许多不同之处。首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至人员的主观印象,决定是否接纳你的网站。其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象 Yahoo!这样的超级索引,登录更是困难。(由于登录Yahoo!的难度最大,而它又是商家网络营销必争之地,所以我们会在后面用专门的篇幅介绍登录 Yahoo雅虎的技巧)此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围(注)。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。

网络蜘蛛索引(中国搜索引擎检索的主要方式有哪两种)

本文编辑:admin

本文相关文章:


sql创建索引的命令?在SQL中怎样用指定索引查询

sql创建索引的命令?在SQL中怎样用指定索引查询

本文目录sql创建索引的命令在SQL中怎样用指定索引查询mysql聚集索引有哪些mysql有几种索引类型使用索引时都有那些地方要注意sql创建索引的命令1.添加PRIMARY KEY(主键索引) mysql》ALTER TABLE `tab

2025年3月16日 18:20

谷歌官网网址(有没有广告很少、很实用的搜索引擎或查资料的网站)

谷歌官网网址(有没有广告很少、很实用的搜索引擎或查资料的网站)

本文目录有没有广告很少、很实用的搜索引擎或查资料的网站有没有什么方法注册谷歌帐号,可以通过国内手机验证的有没有广告很少、很实用的搜索引擎或查资料的网站实用搜索引擎或查找资料的网站为你推荐以下几个一、Google 搜索1.1、官网:有没有什么

2025年3月8日 13:20

更多文章:


mod函数是什么意思(在EXCEL中“MOD函数”的用法是什么)

mod函数是什么意思(在EXCEL中“MOD函数”的用法是什么)

本文目录在EXCEL中“MOD函数”的用法是什么算法里的MOD是什么意思怎么运算在VB中,MOD是什么函数在matlab中mod是什么意思Excel mod函数MOD函数解释 =MOD(E29:J29,6)代表什么意思在EXCEL中,MOD

2025年2月26日 12:30

厦门旅游攻略四天三夜(2014厦门旅游攻略自助游四天三夜攻略)

厦门旅游攻略四天三夜(2014厦门旅游攻略自助游四天三夜攻略)

本文目录2014厦门旅游攻略自助游四天三夜攻略计划去厦门一次四天三夜的旅游~非国定假日~求推荐一份详细的厦门住宿攻略,最好能附带价格~~谢谢~~~厦门旅游攻略四天三夜,包括宾馆(最好是实惠点的,因为我是个学生),线路,去厦门三日游,自由行攻

2025年3月19日 01:30

spring执行流程(spring 的工作流程)

spring执行流程(spring 的工作流程)

本文目录spring 的工作流程springcloud执行流程spring mvc的工作流程是什么请问各位大师:spring以及spring的MVC执行流程和执行原理分别是什么javaEE项目启动过程中Spring是怎么一步步执行的spri

2025年3月15日 00:00

sap系统和金蝶的区别(金蝶与用友SAP, ORACLE这些财务管理软件的区别与不同)

sap系统和金蝶的区别(金蝶与用友SAP, ORACLE这些财务管理软件的区别与不同)

本文目录金蝶与用友SAP, ORACLE这些财务管理软件的区别与不同sap与金蝶K3的优劣势有那些SAP和金蝶的区别,以及适用于哪些企业SAP,Oracle,用友,金蝶公司的区别sap比用友、金蝶好在哪里有什么区别SAP和金蝶、用友的区别金

2025年3月2日 13:30

vue解决跨域问题(vue 服务端为node,已开启cors跨域支持,请求报Network Errorat,如何解决)

vue解决跨域问题(vue 服务端为node,已开启cors跨域支持,请求报Network Errorat,如何解决)

本文目录vue 服务端为node,已开启cors跨域支持,请求报Network Errorat,如何解决vue和node不同端口了,交互,怎麽解决跨域问题vue 服务端为node,已开启cors跨域支持,请求报Network Errorat

2025年2月9日 20:10

stairs的音标(sarah怎么读音)

stairs的音标(sarah怎么读音)

本文目录sarah怎么读音元音字母a组合的发音有几种发音sarah怎么读音sarah,英式读音为/ˈseərə/,美式读音为/ˈsɛrə/。sarah,也叫做Sara,这种形式通常念作/sɑrɑ/(SAR-ah),作人名时,首字母大写,表示

2025年3月30日 21:40

jobless(jobless什么词性)

jobless(jobless什么词性)

本文目录jobless什么词性以less结尾的形容词jobless什么词性joblessOne in four people are now jobless in inner areas like Tottenham and Peckham

2025年2月27日 15:20

oracle触发器怎么看(oracle触发器怎么判断条件)

oracle触发器怎么看(oracle触发器怎么判断条件)

本文目录oracle触发器怎么判断条件oracle 触发器怎么用oracle触发器怎么判断条件oracle判断为空是用isnull不是=null;在oracle中=null一直都是返回false的。另外最好加上exception判断:IF:

2025年3月25日 03:10

magnifying(magnifying power是什么意思)

magnifying(magnifying power是什么意思)

本文目录magnifying power是什么意思magnifying glass是什么意思magnifying power是什么意思magnifying power放大率; magnifyingadj.放大的; v.扩大; 夸大; 增加,

2025年2月20日 03:40

变量有几种类型?计算机常用的变量类型有哪些

变量有几种类型?计算机常用的变量类型有哪些

本文目录变量有几种类型计算机常用的变量类型有哪些变量的类型按尺度划分有c语言变量基本类型有哪些分类变量究竟分为哪几类统计学四种变量类型是什么C语言变量的基本类型有哪些整型变量的类型有几种变量有几种类型不同的语言、不同的编译器会有不同的变量类

2025年2月18日 09:10

crucial是什么牌子(今天新买了一根英睿达的内存条,但我检测的时候发现牌子不对,百度也找不到这个牌子,麻烦帮我看看)

crucial是什么牌子(今天新买了一根英睿达的内存条,但我检测的时候发现牌子不对,百度也找不到这个牌子,麻烦帮我看看)

本文目录今天新买了一根英睿达的内存条,但我检测的时候发现牌子不对,百度也找不到这个牌子,麻烦帮我看看内存条上有个M标志是什么牌子内存条品牌都有哪些啊今天新买了一根英睿达的内存条,但我检测的时候发现牌子不对,百度也找不到这个牌子,麻烦帮我看看

2025年3月14日 12:00

netstat命令查看端口(linux查看运行的端口命令)

netstat命令查看端口(linux查看运行的端口命令)

本文目录linux查看运行的端口命令怎么查本地计算机的端口号什么命令可以查看服务器打开了哪些端口如何使用命令查看电脑开放的端口linux如何查看端口linux系统如何查看端口占用linux查看运行的端口命令一、使用 netstat 检查端口

2025年3月19日 00:50

r语言和c语言哪个难(如何学习R语言)

r语言和c语言哪个难(如何学习R语言)

本文目录如何学习R语言R语言 初学者C语言R语言Python一起学是什么感受r语言和c语言先学哪个r语言和c语言哪个难华北理工大学R语言容易过吗Python和C语言哪个更容易学,感觉学了C语言有点难,只学过C语言的大学生很迷茫python和

2025年4月11日 03:20

oracle update sql语句(oracle的sql语句写法——涉及两个表的字段更新)

oracle update sql语句(oracle的sql语句写法——涉及两个表的字段更新)

本文目录oracle的sql语句写法——涉及两个表的字段更新oracle sql语句update可以按照分组更新吗oracle 联接查询后更新 sql语句求 oracle update 语句 一个能用的例子oracle中关于update的s

2025年2月9日 22:10

反码补码的作用(原码,反码,补码的作用和产生的原因是什么)

反码补码的作用(原码,反码,补码的作用和产生的原因是什么)

本文目录原码,反码,补码的作用和产生的原因是什么补码在计算机系统中有什么重要作用计算机二进制反码补码有什么用原码,补码和反码在计算机中的作用原码,反码,补码的作用和产生的原因是什么原码和反码,没有任何意义。计算机中,也没有原码反码。正负数字

2025年3月12日 09:20

openssl是一个(openssl是什么 支付宝openssl存漏洞)

openssl是一个(openssl是什么 支付宝openssl存漏洞)

本文目录openssl是什么 支付宝openssl存漏洞Linux里面openssl作用是什么小白问题,openssl和openssh是什么关系openssl,x509,crt,cer,key,csr,ssl,tls 这些都是什么鬼open

2025年3月6日 16:50

css文字上下居中(css 怎么设置文字在图片上并居中)

css文字上下居中(css 怎么设置文字在图片上并居中)

本文目录css 怎么设置文字在图片上并居中div,css里如何让一段文字上下高度居中是好几行,不是一行html css怎么让文字在页面底部居中利用CSS怎么让文字居中css 怎么设置文字在图片上并居中1、首先,打开html器,新建html文

2025年4月16日 13:40

css3多列布局(CSS使用ul进行网页的多列布局)

css3多列布局(CSS使用ul进行网页的多列布局)

本文目录CSS使用ul进行网页的多列布局关于CSS如何实现多行多列布局的方法Div+CSS如何将一行的布局分成很多个列div+css三列布局问题css三行三列布局第二行部分分成三列,怎么写css关于css 布局 如何设置成三列显示CSS使用

2025年3月9日 19:50

数据分析师一般一个月多少钱(学数据分析,成为数据分析师的前景怎么样)

数据分析师一般一个月多少钱(学数据分析,成为数据分析师的前景怎么样)

本文目录学数据分析,成为数据分析师的前景怎么样网络公司的数据分析工程师年薪多少学数据分析,成为数据分析师的前景怎么样数据分析师就业前景?其实看这个问题最直观的就是去各类招聘网站数据分析师的招聘数量和薪资,其次再看数据分析师的职业路径。我们先

2025年3月6日 20:40

webservice(什么是webservice,通俗易懂些)

webservice(什么是webservice,通俗易懂些)

本文目录什么是webservice,通俗易懂些什么是webservicejava调用webservice例子Webservice是什么webservice是什么,有什么作用啊什么是webservice,什么情况下使用,如何使用java中的w

2025年4月5日 20:40

近期文章

本站热文

harbor,port,pier的区别?谁能解释“harbour“(港口)与“pier“(码头)的区别
2025-02-22 17:40:03 浏览:20
ibatis foreach(ibatis 批量update操作)
2025-02-10 23:40:06 浏览:7
endless rain(endless rain表达什么情感)
2025-02-14 06:00:02 浏览:7
标签列表

热门搜索