首页   >   心得技巧

使用JavaWeb搭建个人博客网站(八):添加robots.txt文件,防止恶意搜索

在我们将网站提交给搜索引擎之后,我们需要做一件事情:“添加机器人协议robots.txt,防止恶意搜索”,这件事情很重要,我在搭建个人博客的时候,一开始我是没有意识到这一点儿的,导致网站在收录的过程中被人恶意使坏,坑死我了。

关于怎么被使坏的,我之前写过一篇文章:关于机器人协议robots.txt的一点儿看法,大家可以来感受一下我当时的心情,我辛辛苦苦的写文章,结果搜索接口忘记屏蔽了,结果人家利用我的网站来打广告。

好了,废话不多说了,直接进入今天的主题了,既然是协议,那肯定是有一定规则的,双方约定的才叫协议,所以我们先来了解一下robots协议的概念和语法。

使用JavaWeb搭建个人博客网站(八):添加robots.txt文件,防止恶意搜索

robots到底是个啥东西?

robots协议用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取(很重要);

可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;

可以屏蔽站点的一些死链接,方便搜索引擎抓取网站内容;

设置网站地图连接,方便引导蜘蛛爬取页面。

为什么需要robots协议?

网站里面会有很多的url,当搜索引擎过来的时候,它看见了url就会去抓取,抓过去了之后就会走正常的收录流程,哪怕是用户个人信息的页面,这种页面被抓过去之后,如果被索引了,那么对用户的帮助基本上为0,而且还会拖累整个网站的排名。

我打个比方,如果收录了 /user/杨过 这个页面,那么当这个页面被放出来之后(假设有排名了),用户搜索“杨过”这个词,其实他本来可能是想知道金老爷子笔下的杨过,但是搜索时发现了你的网站这个页面,他就点进来了,一看到页面之后,第一反应就是“这是什么乱七八糟的”,基本上就会立即退出,因为你的页面没有对他提供任何有意义的帮助。

robots协议的语法:

User-agent:搜索引擎种类(也可以写作User-Agent),每个搜索引擎都会有他自己的agent标识,就像每个人的名字一样;

Disallow:禁止爬取的地址;

Allow:允许爬取的地址;

写法示例:

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符 

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录 

Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录 

Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录 

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)

Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址 

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片 

Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件

Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录 

Allow: /tmp 这里定义是允许爬寻tmp的整个目录 

Allow: .htm$ 仅允许访问以".htm"为后缀的URL

Allow: .gif$ 允许抓取网页和gif格式图片 Sitemap: 网站地图 告诉爬虫这个页面是网站地图 

写在最后:

大家也不要以为有了这个协议就是百分之百安全了,这个只能算作是一个“君子协议”,他智能对君子有效,是防不住小人的。

一般来说,网站只保留首页、栏目页、内容页、tag页,其他的,搜索页面、用户页面,类似于这种对用户没什么帮助的页面,千万记得要屏蔽!!!

QQ群: 686430774  /  718410762

站长Q: 1347384268

如果文章有帮到你,可以考虑请博主喝杯咖啡!

分享到:

欢迎分享本文,转载请注明出处!

作者:不忘初心

发布时间:2019-07-27

永久地址:https://www.jiweichengzhu.com/article/54160770549249739be348b600bf24f4

评论