您现在的位置是:网站首页 > 网站建设 > 建站教程建站教程
【原】使用JavaWeb搭建个人博客网站(八):添加robots.txt文件,防止恶意搜索
不忘初心 2019-07-27 围观() 评论() 点赞() 【建站教程】
简介:在我们将网站提交给搜索引擎之后,我们需要做一件事情:“添加机器人协议robots.txt,防止恶意搜索”,这件事情很重要,我在搭建个人博客的时候,一开始我是没有意识到这一点儿的,导致网站在收录的过程中被人恶意使坏,坑死我了。
在我们将网站提交给搜索引擎之后,我们需要做一件事情:“添加机器人协议robots.txt,防止恶意搜索”,这件事情很重要,我在搭建个人博客的时候,一开始我是没有意识到这一点儿的,导致网站在收录的过程中被人恶意使坏,坑死我了。
关于怎么被使坏的,我之前写过一篇文章:关于机器人协议robots.txt的一点儿看法,大家可以来感受一下我当时的心情,我辛辛苦苦的写文章,结果搜索接口忘记屏蔽了,结果人家利用我的网站来打广告。
好了,废话不多说了,直接进入今天的主题了,既然是协议,那肯定是有一定规则的,双方约定的才叫协议,所以我们先来了解一下robots协议的概念和语法。
robots到底是个啥东西?
robots协议用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取(很重要);
可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;
可以屏蔽站点的一些死链接,方便搜索引擎抓取网站内容;
设置网站地图连接,方便引导蜘蛛爬取页面。
为什么需要robots协议?
网站里面会有很多的url,当搜索引擎过来的时候,它看见了url就会去抓取,抓过去了之后就会走正常的收录流程,哪怕是用户个人信息的页面,这种页面被抓过去之后,如果被索引了,那么对用户的帮助基本上为0,而且还会拖累整个网站的排名。
我打个比方,如果收录了 /user/杨过 这个页面,那么当这个页面被放出来之后(假设有排名了),用户搜索“杨过”这个词,其实他本来可能是想知道金老爷子笔下的杨过,但是搜索时发现了你的网站这个页面,他就点进来了,一看到页面之后,第一反应就是“这是什么乱七八糟的”,基本上就会立即退出,因为你的页面没有对他提供任何有意义的帮助。
robots协议的语法:
User-agent:搜索引擎种类(也可以写作User-Agent),每个搜索引擎都会有他自己的agent标识,就像每个人的名字一样;
Disallow:禁止爬取的地址;
Allow:允许爬取的地址;
写法示例:
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL
Allow: .gif$ 允许抓取网页和gif格式图片 Sitemap: 网站地图 告诉爬虫这个页面是网站地图
写在最后:
大家也不要以为有了这个协议就是百分之百安全了,这个只能算作是一个“君子协议”,他智能对君子有效,是防不住小人的。
一般来说,网站只保留首页、栏目页、内容页、tag页,其他的,搜索页面、用户页面,类似于这种对用户没什么帮助的页面,千万记得要屏蔽!!!
看完文章,有任何疑问,请加入群聊一起交流!!!
很赞哦! ()
相关文章
- 使用JavaWeb搭建个人博客网站(一):挑选域名和服务器
- 使用JavaWeb搭建个人博客网站(三):安装java环境和tomcat容器
- 使用JavaWeb搭建个人博客网站(四):搭建mysql服务
- 使用JavaWeb搭建个人博客网站(五):添加防火墙允许端口
- 使用JavaWeb搭建个人博客网站(六):安装nginx,配置反向代理
- 使用JavaWeb搭建个人博客网站(十):配置nginx拦截规则,防止暴力攻击
- 使用JavaWeb搭建个人博客网站(九):创建sitemap网站地图
- 使用JavaWeb搭建个人博客网站(二):域名备案和解析
- 使用JavaWeb搭建个人博客网站(七):提交网站给搜索引擎
- 上传文件提示“413 Request Entity Too Large”错误解决方法
标签云
猜你喜欢
- IntelliJ IDEA 2019.2已经可以利用补丁永久破解激活了
- IntelliJ IDEA 2019.3利用补丁永久破解激活教程
- IntelliJ IDEA高版本最灵活的永久破解激活方法(含插件激活,时长你说了算)
- Jetbrains全家桶基于ja-netfilter的最新破解激活详细图文教程
- IntelliJ IDEA 2022.1永久破解激活教程(亲测可用,持续更新)
- 分享几个正版 IntelliJ IDEA 激活码(破解码、注册码),亲测可用,持续更新
- ja-netfilter到底需不需要mymap,2021.3.2版本激活失效?
- 如何激活idea2022.1及以上版本中的插件(亲测可用)
- 【史上最全】IntelliJ IDEA最新2022.1版本安装和激活视频教学(含插件)
- IntelliJ IDEA 2022.2 版本最新2099年永久激活方法,亲测可用,也可以开启新UI了。
站点信息
- 网站程序:spring + freemarker
- 主题模板:《今夕何夕》
- 文章统计:篇文章
- 标签管理:标签云
- 微信公众号:扫描二维码,关注我们