太保网:使用robots也未必能阻止Google将网址编入索引

2020-3-23 19:24| 发布者: admin| 查看: 385| 评论: 0

robots.txt是一种存放于网站根目录下的文本文件，用于告诉搜索引擎的爬虫（spider），此网站中的哪些内容是不应被搜索引擎的索引，哪些是可以被索引。通常认为，robots.txt文件用来搜索引擎对目标网页的抓取。 robots.txt协议并不是一个规范，而只是约定俗成的，通常搜索引擎会识别这个文件，但也有一些特殊情况。对于Google来说，使用robots也未必能阻止Google将网址编入索引，如果有其他网站链接到该网页的话，

robots.txt是一种储放于网址网站根目录下的文本文档，用以告知百度搜索引擎的网络爬虫（spider），此网址中的什么內容是不可被百度搜索引擎的数据库索引，什么是能够被数据库索引。一般觉得，robots.txt文档用于百度搜索引擎对总体目标网页页面的爬取。

robots.txt协议书并非一个标准，而仅仅约定成俗的，一般百度搜索引擎会分辨这一文档，但也是一些独特状况。

针对Google而言，应用robots也不一定能阻拦Google将网站地址编入索引，假如有别的网页链接到该网页页面得话，Google仍然有将会会对它进行数据库索引。依照Google的叫法，要想完全阻拦网页页面的內容在Google网页页面数据库索引中（即便有别的网页链接到该网页页面）出現，必须应用noindex元标识或x-robots-tag。比如将下边的一行添加到网页页面的header一部分。

假如Google见到某一页上带noindex的元标识，就会将此页从Google的百度搜索中彻底丢掉，而无论是不是也有别的页连接到此页。

针对百度搜索而言，状况和Google相近，假如有别的网页链接总体目标网页页面，也是将会会被网站收录，从百度搜索的表明网页页面上看，百度搜索并不是适用像Google那般根据noindex彻底将网页页面从数据库索引上删掉，只适用应用noarchive元标识来严禁百度搜索显示信息网页快照。实际的句子以下。

上边这一标识仅仅严禁百度搜索显示信息该网页页面的快照更新，百度搜索会再次为网页页面建数据库索引，并在百度搜索中显示信息网页页面引言。

比如，淘宝现阶段就根据robots.txt来屏蔽掉百度蜘蛛，但百度搜索依然检索了淘宝的內容，网页搜索“淘宝”，第一个結果都是淘宝网首页详细地址，仅仅该网页页面沒有网页快照，因而来看，网址只有严禁百度搜索的快照更新，而没法严禁百度搜索为网页页面建数据库索引。

鲜花

握手

雷人

路过

鸡蛋

收藏邀请

		自动登录	找回密码
密码			立即注册

太保网:使用robots也未必能阻止Google将网址编入索引

最新评论

相关分类