Jack博客

很多站长清楚搜索引擎“抓取”、“收录”,这两者之间关系很难理解清楚,举个例子说,比如我们设置了robots.txt禁止搜索引擎抓取某页面,但该页面还是出现在了搜索引擎搜索结果中。这到底是怎么回事呢?本文同大家一起深度解析SEO优化禁止抓取收录,是同样的机制

SEO优化禁止抓取和收录是同样的机制吗?(深度解析)

seo优化禁止抓取和收录是同样的机制吗?(深度解析)

就像我们开篇举的例子来说,很多小伙伴都有遇到过这样的问题:在robots.txt禁止搜索引擎抓取某链接,但该链接还是出现在了搜索引擎结果中。为什么这样?这里我们需要知道:禁止搜索引擎抓取和禁止搜索引擎收录是两个完全不同的机制,不能混为一谈,抓取和收录是两个过程。

robots.txt文件

搜索引擎蜘蛛访问网站时,会首先查看网站根目录下的robotx.txt文件,根据robots.txt指令抓取允许访问的内容。如MAY的seo博客的robots.txt文件位于:

https://may90.com/robots.txt

当然您的站可能没有robots.txt文件,则意味着允许搜索引擎抓取网站上的所有内容。在这里,需要我们注意的是:为了避免服务器设置问题,让搜索引擎错误地解读robots文件信息,即使允许搜索引擎抓取网站上所有的内容,也要建一个空的robots.txt文件放在根目录下。

事实上,主流搜索引擎都遵守robots文件指令,robots.txt禁止收录的文件搜索引擎将不再访问也不抓取。但是为什么被robots.txt文件禁止抓取的URL还是出现在了搜索引擎结果中呢?当有导入链接指向这个URL时,搜索引擎就会知道这个URL的存在,虽然不会抓取页面内容,但可能会将这个URL信息存进索引库中,并有可能显示在搜索引擎结果中。那如何避免这种情况的发生呢?

要想URL完全不出现在搜索引擎结果中,就要使用页面上的noindex meta robots标签来禁止搜索引擎收录(索引)。

noindex meta robots标签时页面head部分meta标签的一种,用于指令搜索引擎禁止收录(索引)本页面内容,因此就不会出现在搜索引擎结果中。其格式为:

<meta name="robots" content="noindex">

上面标签的意义在于禁止搜索引擎索引本页面,禁止跟踪本页面上的链接。Google、Bing、Yahoo等都支持meta robots标签,但2014年末百度官方在站长社区有说过暂不支持noindex指令。

因此,使用了robots.txt能禁止搜索引擎抓取,但不一定禁止了收录(索引);使用了noindex meta robots才能禁止搜索引擎收录(索引),只有允许了搜索引擎抓取,才能让蜘蛛发现noindex meta robots, 才不会让页面出现在搜索引擎结果中。禁止抓取、禁止收录是两个不同的机制, 你弄懂了吗?

本文标签: 相关文章   SEO工具   网站内链  

温馨提示:本文是作者 访客 的原创文章,转载请注明出处和附带本文链接!

网友点评

本文暂无评论 - 欢迎您

您好,请先 QQ登录 后进行评论,如您已登录账户,请点击 刷新页面 再进行评论!

⎛⎝爱站云⎠⎞

⎛⎝爱站云⎠⎞

AiZhanCloud.Com

爱站云专注ZBLOG建站领域,分享个人所得技术,用心做好个人博客,喜欢的小伙伴就关注我吧!
«    2023年9月    »
123
45678910
11121314151617
18192021222324
252627282930
最新留言
文章归档
标签列表

Powered By Z-BlogPHP Theme By Jack主题

Sitemap | TXT地图 | HTML地图后花园

免责声明:本博客所展示内容均为互联网技术教程分享,如有侵权等违规信息请联系QQ客服进行删除处理,谢谢配合!

切换白天模式 切换夜间模式 白天返回顶部 夜间返回顶部