爬行、抓取、索引、收录，指的都是什么？_服务器

爬行、抓取、索引、收录，指的都是什么？ erclass="entry-header">索引标签是指告诉蜘蛛可以抓取页面，那么noindex不是不允许抓取页面吗？！那为什么文章最后几个解释里的“noindex”标签救不了抢的份额？如果搜索引擎想知道页面上有noindex标签，就要先抓取这个页面，所以不保存抓取共享。"

注意，这位读者不太明白什么是抓取，什么是索引，index和noindex标签是什么意思。无标签并不禁止抓取页面或索引页面，这两者有不同的含义和作用。

在看相关博客和论坛的时候，我能感觉到很多SEO不明白爬行、抓取、索引、包含这些概念到底是什么意思，有什么区别，noindex、nofollow、robots文件的作用是什么。没有对这些概念的精确理解，在处理大型网站的结构，决定哪些页面需要抓取、索引，哪些页面禁止抓取、索引时，就很难理解该怎么做。甚至就像帖子里很多关于抢配额的留言说的那样，说到这些情况的处理，我简直搞不懂自己在说什么。

爬行是什么？

爬行是指搜索引擎蜘蛛从已知页面中解析出链接所指向的URL，然后沿着链接找到新的页面(即链接所指向的URL)的过程。当然，蜘蛛在发现新的网址时并不会爬过来抓取新的页面，而是将找到的网址存储在地址库中进行抓取。蜘蛛按照一定的顺序从地址库中提取要抓取的URL。

抓取是什么？

抓取就是搜索引擎蜘蛛从待抓取的地址库中提取待抓取的URL，访问这个URL，并将读取的HTML代码存储在数据库中。蜘蛛的抓取就是像浏览器一样打开这个页面，和用户的浏览器访问一样，也会在服务器的原始日志中留下记录。

索引是什么？

索引是指把一个URL的信息整理出来，存储在数据库中，也就是索引库。用户搜索时，搜索引擎从索引库中提取URL信息，并按顺序显示。index的英文是index。索引库是用来搜索的，所以被索引的URL可以被用户搜索到，未被索引的URL用户在搜索结果中看不到。

需要注意的是，所谓的“一个URL的信息”并不仅限于蜘蛛从URL爬取的内容，还包括其他来源的信息，比如外部链接、链接的锚词等。有时，索引数据库中没有关于这个URL的信息，但搜索引擎知道这个URL的存在，并拥有一些其他信息。

抓取和索引不是一回事。

收录是什么？

个人认为收录和索引没有区别。只是收录是从搜索用户的角度出发，搜索的时候能找到这个网址，也就是收录了这个网址。从搜索引擎的角度来说，URL是被收录的，也就是这个URL的信息存在于索引数据库中。英语中不包括这个词，但索引中使用了相同的词索引。

noindex的作用是什么？

在头信息中放入metanoindex标签，告诉搜索引擎不要索引这个URL，也就是用户在搜索时找不到这个URL的信息，在搜索结果列表中不会返回这个URL。

Noindex并没有告诉搜索引擎不要抓取这个URL。事实上，要让noindex工作，必须先抓取这个URL。不然搜索引擎怎么会看到页面的HTML代码里有noindex标签？

robots文件的作用是什么？

Robots.txt文件告诉搜索引擎不要抓取某些URL。注意，这里说的是不抓取，不是索引。是noindex的反义词。

nofollow的作用是什么？

用nofollow标记一个链接告诉搜索引擎不要沿着这个链接爬行，就当这个链接不存在。注意，nofollow只是告诉蜘蛛不要抓取这个链接，不要抓取链接指向的URL，也不要索引链接指向的URL。nofollow既不禁止爬行也不禁止索引。

说完概念，指出几个SEO人经常不理解的情况:

没有被抓取的页面是可以被索引的

也就是说，蜘蛛不会访问和抓取这个页面(比如禁止robots文件抓取)，但是这个页面有信息存储在索引数据库中，用户搜索时仍然可以看到。

比如淘宝整个网站都是用robots文件禁止百度蜘蛛抓取，却没有用noindex禁止索引(如上所述，禁止抓取之后，就没有办法禁止索引了。不抓取就看不到noindex标签)，所以即使百度不访问和抓取淘宝页面，很多淘宝页面都是被百度索引的，用户可以搜索到:

我是从百度上那么多链接知道淘宝首页的存在的。我也通过链接的锚文本知道这个页面的标题大概是淘宝之类的。当然，我更了解百度口碑里的评价号。所以即使百度蜘蛛没有抓取淘宝的首页，用户还是可以搜索到，显示一些百度知道的信息。

百度回不了淘宝首页怎么办？取消robots文件的爬网，并使用noindex禁止在页面上建立索引。

被抓取的页面是可以不被索引的

最常见的就是上面提到的。禁止noindex对页面头信息进行索引，对页面进行爬取。读取noindex后，它不会被索引，也不会在搜索结果中返回。将noindex添加到旧页面不会立即删除索引，但会保留索引一段时间，但不会在搜索结果中返回。

带有noindex的页面上的链接可以跟踪一段时间，但是时间长了，带有noindex的页面搜索引擎可能会停止抓取和索引，上面的链接就会失效。

也有可能是页面内容抄袭、转载、质量低下。搜索引擎虽然抓取了页面，但是在索引过程中检测到了这些内容问题，被丢弃不索引。因此，没有包括该页。通常，您应该首先检查原始日志，看它是否已被爬网。如果已经被抓取，可能是内容质量有问题。如果根本没有被抓取过，建议先看看网站结构有没有问题。

加了nofollow的链接目标页面可以被抓取和索引

如前所述，nofollow既不禁止爬行也不禁止索引。nofollow的作用是告诉蜘蛛不要关注这个链接，就像这个链接不存在一样，但是nofollow只对这个链接有效，对其他链接无效。将nofollow添加到此链接并不意味着在其他地方没有到此URL的正常链接。只要在其他地方有一个没有nofollow的链接，目标URL还是会被找到，被抓取(假设没有被robotx文件禁止)，被索引(假设添加了noindex)。

本文转自:ZAC天天贴。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://www.outofmemory.cn/zz/747552.html

爬行、抓取、索引、收录，指的都是什么？

发表评论

评论列表（0条）