爬行、抓取、索引、收录,指的都是什么?

爬行、抓取、索引、收录,指的都是什么?,第1张

爬行、抓取、索引、收录,指的都是什么? erclass="entry-header">索引标签是指告诉蜘蛛可以抓取页面,那么noindex不是不允许抓取页面吗?!那为什么文章最后几个解释里的“noindex”标签救不了抢的份额?如果搜索引擎想知道页面上有noindex标签,就要先抓取这个页面,所以不保存抓取共享。"

注意,这位读者不太明白什么是抓取,什么是索引,index和noindex标签是什么意思。无标签并不禁止抓取页面或索引页面,这两者有不同的含义和作用。

在看相关博客和论坛的时候,我能感觉到很多SEO不明白爬行、抓取、索引、包含这些概念到底是什么意思,有什么区别,noindex、nofollow、robots文件的作用是什么。没有对这些概念的精确理解,在处理大型网站的结构,决定哪些页面需要抓取、索引,哪些页面禁止抓取、索引时,就很难理解该怎么做。甚至就像帖子里很多关于抢配额的留言说的那样,说到这些情况的处理,我简直搞不懂自己在说什么。

爬行是什么?

爬行是指搜索引擎蜘蛛从已知页面中解析出链接所指向的URL,然后沿着链接找到新的页面(即链接所指向的URL)的过程。当然,蜘蛛在发现新的网址时并不会爬过来抓取新的页面,而是将找到的网址存储在地址库中进行抓取。蜘蛛按照一定的顺序从地址库中提取要抓取的URL。

抓取是什么?

抓取就是搜索引擎蜘蛛从待抓取的地址库中提取待抓取的URL,访问这个URL,并将读取的HTML代码存储在数据库中。蜘蛛的抓取就是像浏览器一样打开这个页面,和用户的浏览器访问一样,也会在服务器的原始日志中留下记录。

索引是什么?

索引是指把一个URL的信息整理出来,存储在数据库中,也就是索引库。用户搜索时,搜索引擎从索引库中提取URL信息,并按顺序显示。index的英文是index。索引库是用来搜索的,所以被索引的URL可以被用户搜索到,未被索引的URL用户在搜索结果中看不到。

需要注意的是,所谓的“一个URL的信息”并不仅限于蜘蛛从URL爬取的内容,还包括其他来源的信息,比如外部链接、链接的锚词等。有时,索引数据库中没有关于这个URL的信息,但搜索引擎知道这个URL的存在,并拥有一些其他信息。

抓取和索引不是一回事。

收录是什么?

个人认为收录和索引没有区别。只是收录是从搜索用户的角度出发,搜索的时候能找到这个网址,也就是收录了这个网址。从搜索引擎的角度来说,URL是被收录的,也就是这个URL的信息存在于索引数据库中。英语中不包括这个词,但索引中使用了相同的词索引。

noindex的作用是什么?

在头信息中放入metanoindex标签,告诉搜索引擎不要索引这个URL,也就是用户在搜索时找不到这个URL的信息,在搜索结果列表中不会返回这个URL。

Noindex并没有告诉搜索引擎不要抓取这个URL。事实上,要让noindex工作,必须先抓取这个URL。不然搜索引擎怎么会看到页面的HTML代码里有noindex标签?

robots文件的作用是什么?

Robots.txt文件告诉搜索引擎不要抓取某些URL。注意,这里说的是不抓取,不是索引。是noindex的反义词。

nofollow的作用是什么?

用nofollow标记一个链接告诉搜索引擎不要沿着这个链接爬行,就当这个链接不存在。注意,nofollow只是告诉蜘蛛不要抓取这个链接,不要抓取链接指向的URL,也不要索引链接指向的URL。nofollow既不禁止爬行也不禁止索引。

说完概念,指出几个SEO人经常不理解的情况:

没有被抓取的页面是可以被索引的

也就是说,蜘蛛不会访问和抓取这个页面(比如禁止robots文件抓取),但是这个页面有信息存储在索引数据库中,用户搜索时仍然可以看到。

比如淘宝整个网站都是用robots文件禁止百度蜘蛛抓取,却没有用noindex禁止索引(如上所述,禁止抓取之后,就没有办法禁止索引了。不抓取就看不到noindex标签),所以即使百度不访问和抓取淘宝页面,很多淘宝页面都是被百度索引的,用户可以搜索到:

我是从百度上那么多链接知道淘宝首页的存在的。我也通过链接的锚文本知道这个页面的标题大概是淘宝之类的。当然,我更了解百度口碑里的评价号。所以即使百度蜘蛛没有抓取淘宝的首页,用户还是可以搜索到,显示一些百度知道的信息。

百度回不了淘宝首页怎么办?取消robots文件的爬网,并使用noindex禁止在页面上建立索引。

被抓取的页面是可以不被索引的

最常见的就是上面提到的。禁止noindex对页面头信息进行索引,对页面进行爬取。读取noindex后,它不会被索引,也不会在搜索结果中返回。将noindex添加到旧页面不会立即删除索引,但会保留索引一段时间,但不会在搜索结果中返回。

带有noindex的页面上的链接可以跟踪一段时间,但是时间长了,带有noindex的页面搜索引擎可能会停止抓取和索引,上面的链接就会失效。

也有可能是页面内容抄袭、转载、质量低下。搜索引擎虽然抓取了页面,但是在索引过程中检测到了这些内容问题,被丢弃不索引。因此,没有包括该页。通常,您应该首先检查原始日志,看它是否已被爬网。如果已经被抓取,可能是内容质量有问题。如果根本没有被抓取过,建议先看看网站结构有没有问题。

加了nofollow的链接目标页面可以被抓取和索引

如前所述,nofollow既不禁止爬行也不禁止索引。nofollow的作用是告诉蜘蛛不要关注这个链接,就像这个链接不存在一样,但是nofollow只对这个链接有效,对其他链接无效。将nofollow添加到此链接并不意味着在其他地方没有到此URL的正常链接。只要在其他地方有一个没有nofollow的链接,目标URL还是会被找到,被抓取(假设没有被robotx文件禁止),被索引(假设添加了noindex)。

本文转自:ZAC天天贴。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://www.outofmemory.cn/zz/747552.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-29
下一篇 2022-04-29

发表评论

登录后才能评论

评论列表(0条)

保存