robots协议(roobts.txt该怎么写)
本文目录
roobts.txt该怎么写
- 什么是robots.txt
- 要不要使用robots.txt
- robots.txt的用法
- robots.txt示例
- robots标签的用法(mate标签是写在网页head里面的代码)
- robots.txt具体用途
robots.txt文件时seo优化中非常重要的一个文件,也是我们seo培训的重点之一。规范合适的抒写robots.txt文件,可以有效的提升蜘蛛抓取的效率,避免造成搜索引擎蜘蛛封禁的情况。下面郑州seo杨超就来解释一下robots协议怎么写。
Robots协议:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。 协议写在robots.txt文件里面。
1、如果你的网站有部分内容不希望搜索引擎抓取,那么请设置robots.txt
2、如果你的网站全部内容都需要被搜索引擎抓取,可以不设置。
3、一般来说,一些后台文件(如css、js)、用户隐私的文件不用被搜索引擎抓取。
4、如果有些文件频繁被蜘蛛抓取,但是这些文件又是不重要的,那么可以用robots.txt进行屏蔽。
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /文件夹名称/ 这里定义是禁止爬取这个文件夹下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以”.htm”为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图的URL 告诉爬虫这个页面是网站地图
# robots.txt for 阅读青春readu.net
User-agent: *
Allow: /
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /?r=*
《meta name=”robots” content=”nofollow”》 所有搜索引擎都不允许爬行
《meta name=”baiduspider” content=”nofollow”》 百度搜索引擎不允许爬行
《meta name=”robots” content=”noarchive”》 所有搜索引擎都不允许收录
《meta name=”baiduspider” content=”noarchive”》 百度搜索引擎都不允许收录
1、一个页面对应多个URL时,应屏蔽多余的URL。
2、如果网站有页面是没有实质性内容的,应该屏蔽掉。
3、如果网站改版删除了大量的页面(404),应该屏蔽掉。
4、如果是UGC网站,用户产生了大量的不良内容,应该屏蔽掉。
5、不希望被搜索引擎索引的内容(后台界面、用户隐私),应该屏蔽掉。
在不违反被爬网站robots协议的情况下,对一个公开访问的论坛内容(如豆瓣)进行数据抓取和保存,这样合法吗
感谢悟空小秘书的邀请
类似百度、360搜等搜索引擎企业,它们会有全网爬虫的,24小时不间断对全网进行爬取。如果这样的网络爬虫不合法的话,那么这些企业都要关门了。
这些搜索引擎爬虫在爬取网站之前,都会看下该站点下是否有 robots.txt。然后按照 rbots.txt 里面定义的规则对该网站进行爬取。
所以制作爬虫程序,强烈建议遵循 robots 规则。另外,爬取网站的数据不得用于商业用途。例如将爬取到的网站数据售卖给网站的竞争对手等。
遵循这两点,就不算违法了。
-----------------------------------------------
喜欢的、觉得有用的麻烦点个赞,万分感谢~
个人微信公众号:极客猴(ID:Geek_monkey)
自己坚持分享 Python 原创干货,包括基础入门,进阶技巧,网络爬虫,数据分析,Web 应用开发等。欢迎关注~
更多文章:

mysql命令大全pdf(用mysql按要求写出相应的命令:)
2025年3月26日 09:20

fileexists函数(谁知道一个判断定文件是否为文本文件的函数)
2025年4月1日 08:30

tower block(builing和block区别,高手回答)
2025年3月9日 03:30

manchester united(manchester united 什么意思)
2025年3月30日 02:50

everyday和every day的区别(every day和everyday有什么区别)
2025年3月25日 23:00

cdr入门基础知识(CorelDRAW 9对初学者先学什么)
2025年3月16日 09:00

figure(figure 和 figure out 的区别)
2025年2月27日 15:30

navigare意大利小帆船(navigare(意大利小帆船)男装属于什么品味的服装啊这个品牌历史内涵怎样啊)
2025年3月1日 03:40

fleeing翻译(l’m feeling for you怎么翻译)
2025年3月27日 10:40

resetcounter是什么意思(苹果手机resetcounter有事吗)
2025年3月14日 19:50