您现在的位置是：网站首页 > 网站建设 > 建站教程建站教程

【原】使用JavaWeb搭建个人博客网站（八）：添加robots.txt文件，防止恶意搜索

不忘初心 2019-07-27 围观() 评论() 点赞() 【建站教程】

简介：在我们将网站提交给搜索引擎之后，我们需要做一件事情：“添加机器人协议robots.txt，防止恶意搜索”，这件事情很重要，我在搭建个人博客的时候，一开始我是没有意识到这一点儿的，导致网站在收录的过程中被人恶意使坏，坑死我了。

在我们将网站提交给搜索引擎之后，我们需要做一件事情：“添加机器人协议robots.txt，防止恶意搜索”，这件事情很重要，我在搭建个人博客的时候，一开始我是没有意识到这一点儿的，导致网站在收录的过程中被人恶意使坏，坑死我了。

关于怎么被使坏的，我之前写过一篇文章：关于机器人协议robots.txt的一点儿看法，大家可以来感受一下我当时的心情，我辛辛苦苦的写文章，结果搜索接口忘记屏蔽了，结果人家利用我的网站来打广告。

好了，废话不多说了，直接进入今天的主题了，既然是协议，那肯定是有一定规则的，双方约定的才叫协议，所以我们先来了解一下robots协议的概念和语法。

使用JavaWeb搭建个人博客网站（八）：添加robots.txt文件，防止恶意搜索

robots到底是个啥东西？

robots协议用来告知搜索引擎哪些页面能被抓取，哪些页面不能被抓取（很重要）；

可以屏蔽一些网站中比较大的文件，如：图片，音乐，视频等，节省服务器带宽；

可以屏蔽站点的一些死链接，方便搜索引擎抓取网站内容；

设置网站地图连接，方便引导蜘蛛爬取页面。

为什么需要robots协议？

网站里面会有很多的url，当搜索引擎过来的时候，它看见了url就会去抓取，抓过去了之后就会走正常的收录流程，哪怕是用户个人信息的页面，这种页面被抓过去之后，如果被索引了，那么对用户的帮助基本上为0，而且还会拖累整个网站的排名。

我打个比方，如果收录了 /user/杨过这个页面，那么当这个页面被放出来之后（假设有排名了），用户搜索“杨过”这个词，其实他本来可能是想知道金老爷子笔下的杨过，但是搜索时发现了你的网站这个页面，他就点进来了，一看到页面之后，第一反应就是“这是什么乱七八糟的”，基本上就会立即退出，因为你的页面没有对他提供任何有意义的帮助。

robots协议的语法：

User-agent：搜索引擎种类（也可以写作User-Agent），每个搜索引擎都会有他自己的agent标识，就像每个人的名字一样；

Disallow：禁止爬取的地址；

Allow：允许爬取的地址；

写法示例：

User-agent: * 这里的*代表的所有的搜索引擎种类，*是一个通配符

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)

Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件

Allow: /cgi-bin/　这里定义是允许爬寻cgi-bin目录下面的目录

Allow: /tmp 这里定义是允许爬寻tmp的整个目录

Allow: .htm$ 仅允许访问以".htm"为后缀的URL

Allow: .gif$ 允许抓取网页和gif格式图片 Sitemap: 网站地图告诉爬虫这个页面是网站地图

写在最后：

大家也不要以为有了这个协议就是百分之百安全了，这个只能算作是一个“君子协议”，他智能对君子有效，是防不住小人的。

一般来说，网站只保留首页、栏目页、内容页、tag页，其他的，搜索页面、用户页面，类似于这种对用户没什么帮助的页面，千万记得要屏蔽！！！

个人博客 javaweb

看完文章，有任何疑问，请加入群聊一起交流！！！

很赞哦！ ()

上一篇：使用JavaWeb搭建个人博客网站（十）：配置nginx拦截规则，防止暴力攻击

下一篇：使用JavaWeb搭建个人博客网站（九）：创建sitemap网站地图

相关文章

文章评论

本文禁止评论

人参与，条评论

热门阅读

IntelliJ IDEA 2020.1版本最新激活方法（向下兼容）

IntelliJ IDEA 2020.1版本最新激活方法（向下兼容）

站长推荐

写给关注支持我的朋友和攻击我网站的人（封面针对后者）

写给关注支持我的朋友和攻击我网站的人（封面针对后者）

标签云

猜你喜欢

站点信息

网站程序：spring + freemarker
主题模板：《今夕何夕》
文章统计：篇文章
标签管理：标签云
微信公众号：扫描二维码，关注我们