推扬网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
推扬网 门户 经验分享 查看内容

太保网:使用robots也未必能阻止Google将网址编入索引

2020-3-23 19:24| 发布者: admin| 查看: 360| 评论: 0

robots.txt是一种存放于网站根目录下的文本文件,用于告诉搜索引擎的爬虫(spider),此网站中的哪些内容是不应被搜索引擎的索引,哪些是可以被索引。通常认为,robots.txt文件用来搜索引擎对目标网页的抓取。 robots.txt协议并不是一个规范,而只是约定俗成的,通常搜索引擎会识别这个文件,但也有一些特殊情况。 对于Google来说,使用robots也未必能阻止Google将网址编入索引,如果有其他网站链接到该网页的话,

robots.txt是一种储放于网址网站根目录下的文本文档,用以告知百度搜索引擎的网络爬虫(spider),此网址中的什么內容是不可被百度搜索引擎的数据库索引,什么是能够被数据库索引。一般 觉得,robots.txt文档用于百度搜索引擎对总体目标网页页面的爬取。

robots.txt协议书并非一个标准,而仅仅约定成俗的,一般 百度搜索引擎会分辨这一文档,但也是一些独特状况。

针对Google而言,应用robots也不一定能阻拦Google将网站地址编入索引,假如有别的网页链接到该网页页面得话,Google仍然有将会会对它进行数据库索引。依照Google的叫法,要想完全阻拦网页页面的內容在Google网页页面数据库索引中(即便有别的网页链接到该网页页面)出現,必须应用noindex元标识或x-robots-tag。比如将下边的一行添加到网页页面的header一部分。

假如Google见到某一页上带noindex的元标识,就会将此页从Google的百度搜索中彻底丢掉,而无论是不是也有别的页连接到此页。

针对百度搜索而言,状况和Google相近,假如有别的网页链接总体目标网页页面,也是将会会被网站收录,从百度搜索的表明网页页面上看,百度搜索并不是适用像Google那般根据noindex彻底将网页页面从数据库索引上删掉,只适用应用noarchive元标识来严禁百度搜索显示信息网页快照。实际的句子以下。

上边这一标识仅仅严禁百度搜索显示信息该网页页面的快照更新,百度搜索会再次为网页页面建数据库索引,并在百度搜索中显示信息网页页面引言。

比如,淘宝现阶段就根据robots.txt来屏蔽掉百度蜘蛛,但百度搜索依然检索了淘宝的內容,网页搜索“淘宝”,第一个結果都是淘宝网首页详细地址,仅仅该网页页面沒有网页快照,因而来看,网址只有严禁百度搜索的快照更新,而没法严禁百度搜索为网页页面建数据库索引。


鲜花

握手

雷人

路过

鸡蛋

最新评论

精选推荐

    广告服务|投稿要求|禁言标准|版权说明|免责声明|手机版|小黑屋|推扬网 ( 粤ICP备18134897号 )|网站地图 | 邮箱:vayae@hotmail.com

    GMT+8, 2025-5-10 01:57 , Processed in 0.064667 second(s), 29 queries .

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    返回顶部