网站优化中怎样尽量减少无效URL的爬行和索引

网站优化中怎样尽量减少无效URL的爬行和索引,第1张

网站优化中怎样尽量减少无效URL的爬行和索引

简单来说,帖子强调了一个严肃而实用的SEO问题:很多网站,尤其是B2C,产品标准过滤系统软件(如知名品牌、价格、规格、功能、主要参数等。所选产品的)会造成很多无效的网址,往往只是从SEO的角度来说才叫做无效。这个网址不能造成SEO效应,但是有负面信息效应,所以这个网址不收录为好,因为它包含:

很多过滤标准页面内容重复或极其相似(很多复制的内容会降低网站整体质量)
很多过滤标准页面没有匹配的产品,页面上没有内容(如“100元以下42寸LED电视机”)
大部分过滤标准页面不具备排名能力(排名能力远低于分类页面),但是它们消耗了一定的权重
这个过滤标准页并不是商品页收录的必要安全通道(商品页应该有其他内部链接帮助抓取收录)
很多抓取的过滤标准页消耗了巨量的搜索引擎蜘蛛抓取时间,导致有效页面收录机会减少(过滤标准页是一个很大的数字)
简单来说,帖子强调了一个严肃而实际的SEO问题:很多网站,尤其是B2C,产品标准过滤系统软件(如知名品牌、价格、规格、功能、主要参数等。选定产品的)将导致许多无效的网址。通常被称为无效。只是从SEO的角度观察。这个网址不能造成SEO效应,但是有负面信息效应。因此,最好不要包含这个URL。原因包括:

很多过滤标准页面内容重复或极其相似(很多复制的内容会降低网站整体质量)
很多过滤标准页面没有匹配的产品,页面上没有内容(如“100元以下42寸LED电视机”)
大部分过滤标准页面不具备排名能力(排名能力远低于分类页面),但是它们消耗了一定的权重
这个过滤标准页并不是商品页收录的必要安全通道(商品页应该还有其他内部链接帮助抓取收录)
很多抓取的过滤标准页消耗了搜索引擎蜘蛛大量的抓取时间,导致页面有效收录的几率降低(有大量的过滤标准页)
那么如何让这个URL尽可能不被数据库抓取索引收录呢?很遗憾,现阶段我无法理解最终的解决方案。明确提出两种方法,我觉得都不能做到极致。

第一种方法,ss="superseo">ss="superseo">就是把不愿意被收录的网址保持为动态网址,甚至尽可能保持动态,防止被抓取收录。不过现在搜索引擎可以抓取和收录动态网址,技术上也不是什么难题。虽然某一级的主要参数太多无法囊括,但一般能囊括四五个主要参数。我们无法确定阻止包含需要多少个主要参数,因此它不能作为一种可靠的方法。而且这种网址接受内部链接,没有排名能力,还是要消耗一定权重的。

第二种方式,禁止机器人包括。类似地,当URL接受内部链接时,它也接受权重。robots文件禁止抓取此类网址,因此无法传递接受的权重(搜索引擎不抓取不知道有哪些导出链接),页面成为权重只能进出的超级黑洞。

连这个网址的连接都是和nofollow合作的,和机器人差不多。Google中nofollow的实际效果是,这个URL不接受权重,但是权重没有分配给其他连接,所以权重也被消耗掉了。百度搜索据悉适用于nofollow,但如何处理权重未知。

把这个URL连接放到Flash和JS里是没用的。搜索引擎很早就可以抓取Flash和JS中的连接,以后可能会越来越擅长抓取。很多SEO忽略的是,JS中的链接不仅可以被抓取,还可以传递权重,就像所有正常的链接一样。

还可以把过滤标准连接做成AJAX模式,这样客户点击后就不容易浏览到新的网址,或者原网址后面加了一个#就不容易被当成不同的网址。和JS问题一样,搜索引擎也积极尝试抓取和抓取AJAX内容,这是没有商业保险的。

另一种方式是在页面头部添加noindexfollowlogo,意思是这个页面不需要数据库索引,而是跟踪页面上的链接。即可以处理复制内容的问题,也可以解决权重的超级黑洞问题(权重可以随着导出链接传递到其他页面)。不能处理的是消耗搜索引擎蜘蛛抓取时间的问题,还是要被搜索引擎蜘蛛抓取(后面可以看到页面html中的noindexfollowlogo)。对于一些网站来说,被过滤的页面总数是极其庞大的,如果爬取这样的页面,搜索引擎蜘蛛就没有足够的时间爬取有效页面。

另一种可以考虑的方式是隐藏页面(隐身),也就是用程序流程来检查访问者。如果搜索引擎蜘蛛不得不返回到页面,它将删除这个过滤标准连接,如果客户不得不返回到所有带有过滤标准的正常页面。这是一个理想的解决方案,但唯一的问题是,它很可能被视为欺诈。搜索引擎经常告诉SEO欺诈与否的最大标准是:没有搜索引擎你会做吗?也就是说,选择某一类方法只是为了更好的搜索引擎吗?很明显,使用伪装来隐藏不想被抓取的URL是为搜索引擎做的,而不是为客户做的。虽然这种情况下隐身的目的是开心的,无意的,但是风险是存在的,可以大胆使用。

另一种方法是应用canonicallogo。大问题是百度搜索是否适用,canonicallogo是对搜索引擎的建议,而不是命令。换句话说,这个logo搜索引擎很可能不跟,相当于不工作。另外,canonicallogo的本义是一个特定的规范性网址。过滤标准页是否可用有些疑问。毕竟这个页面上的内容往往是不一样的。

现阶段比较好的一个办法就是严格禁止iframe机器人。将一部分代码过滤到iframe中,相当于启用了其他文档内容,对于搜索引擎来说不属于当前页面,即内容被隐藏。但是不属于今天的页面不代表不会有。搜索引擎可以找到iframe中的内容和链接,或者极有可能抓取这个网址,所以严禁添加机器人抓取。iframe中的内容仍然会有一些权重流出,但是权重流出较少,因为iframe中的链接没有与当前页面分离,而只是与启用的文档分离。除了排版设计、电脑与浏览器的兼容模式等令人头疼的问题,iframe模式的一个潜在问题就是欺诈风险。现在搜索引擎普遍不认为iframe有欺诈性,很多广告都放在iframe里,但是隐藏一堆链接和隐藏广告还是有一些细微的区别的。一般情况下,对于搜索引擎来说,很难说这不是专业做的。我还记得马特·卡茨(MattCutts)说过,谷歌可能会在那之后将解决方案改为iframe,他们仍然期望在同一个页面上看到单个用户可以看到的所有内容。

总之,这个现实而严肃的问题,现阶段我还没有最终的答案。自然,你处理不到极致,不代表你活不下去。不同的网站有不同的SEO键。在对实际问题进行深入分析后,你应该能够通过选择上述方法中的一种或几种来处理关键问题。

最大的问题不是上面说的那个,而是有时候你要让这个过滤页被抓取收录,这是餐具的循序渐进。我们以后再讨论。

第一,把不愿意被收录的网址保持为动态网址,甚至尽可能保持动态,防止被抓取收录。不过现在搜索引擎可以抓取和收录动态网址,技术上也不是什么难题。虽然某一级的主要参数太多无法囊括,但一般能囊括四五个主要参数。我们无法确定阻止包含需要多少个主要参数,因此它不能作为一种可靠的方法。而且这种网址接受内部链接,没有排名能力,还是要消耗一定权重的。

第二种方式,机器人严禁包括。类似地,当URL接受内部链接时,它也接受权重。robots文件禁止抓取此类网址,因此无法传递接受的权重(搜索引擎不抓取不知道有哪些导出链接),页面成为权重只能进出的超级黑洞。

连这个网址的连接都是和nofollow合作的,和机器人差不多。Google中nofollow的实际效果是,这个URL不接受权重,但是权重没有分配给其他连接,所以权重也被消耗掉了。百度搜索据悉适用于nofollow,但如何处理权重未知。

把这个URL连接放到Flash和JS里是没用的。搜索引擎很早就可以抓取Flash和JS中的连接,以后可能会越来越擅长抓取。很多SEO忽略的是,JS中的链接不仅可以被抓取,还可以传递权重,就像所有正常的链接一样。

还可以把过滤标准连接做成AJAX模式,这样客户点击后就不容易浏览到新的网址,或者原网址后面加了一个#就不容易被当成不同的网址。和JS问题一样,搜索引擎也积极尝试抓取和抓取AJAX内容,这是没有商业保险的。

另一种方式是在页面头部添加noindexfollowlogo,意思是这个页面不需要数据库索引,而是跟踪页面上的链接。即可以处理复制内容的问题,也可以解决权重的超级黑洞问题(权重可以随着导出链接传递到其他页面)。不能处理的是消耗搜索引擎蜘蛛抓取时间的问题,还是要被搜索引擎蜘蛛抓取(后面可以看到页面html中的noindexfollowlogo)。对于一些网站来说,被过滤的页面总数是极其庞大的,如果爬取这样的页面,搜索引擎蜘蛛就没有足够的时间爬取有效页面。

另一种可以考虑的方式是隐藏页面(隐身),也就是用程序流程来检查访问者。如果搜索引擎蜘蛛不得不返回到页面,它将删除这个过滤标准连接,如果客户不得不返回到所有带有过滤标准的正常页面。这是一个理想的解决方案,但唯一的问题是,它很可能被视为欺诈。搜索引擎经常告诉SEO欺诈与否的最大标准是:没有搜索引擎你会做吗?也就是说,选择某一类方法只是为了更好的搜索引擎吗?很明显,使用伪装来隐藏不想被抓取的URL是为搜索引擎做的,而不是为客户做的。虽然这种情况下隐身的目的是开心的,无意的,但是风险是存在的,可以大胆使用。

另一种方法是应用canonicallogo。大问题是百度搜索是否适用,canonicallogo是对搜索引擎的建议,而不是命令。换句话说,这个logo搜索引擎很可能不跟,相当于不工作。另外,canonicallogo的本义是一个特定的规范性网址。过滤标准页是否可用有些疑问。毕竟这个页面上的内容往往是不一样的。

现阶段比较好的一个办法就是严格禁止iframe机器人。将一部分代码过滤到iframe中,相当于启用了其他文档内容,对于搜索引擎来说不属于当前页面,即内容被隐藏。但是不属于今天的页面不代表不会有。搜索引擎可以找到iframe中的内容和链接,或者极有可能抓取这个网址,所以严禁添加机器人抓取。iframe中的内容仍然会有一些权重流出,但是权重流出较少,因为iframe中的链接没有与当前页面分离,而只是与启用的文档分离。除了排版设计、电脑与浏览器的兼容模式等令人头疼的问题,iframe模式的一个潜在问题就是欺诈风险。现在搜索引擎普遍不认为iframe有欺诈性,很多广告都放在iframe里,但是隐藏一堆链接和隐藏广告还是有一些细微的区别的。一般情况下,对于搜索引擎来说,很难说这不是专业做的。我还记得马特·卡茨(MattCutts)说过,谷歌可能会在那之后将解决方案改为iframe,他们仍然期望在同一个页面上看到单个用户可以看到的所有内容。

总之,这个现实而严肃的问题,现阶段我还没有最终的答案。自然,你处理不到极致,不代表你活不下去。不同的网站有不同的SEO键。在对实际问题进行深入分析后,你应该能够通过选择上述方法中的一种或几种来处理关键问题。

最大的问题不是上面说的那个,而是有时候你要让这个过滤页被抓取收录,这是餐具的循序渐进。我们以后再讨论。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://www.outofmemory.cn/zz/785693.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-04
下一篇 2022-05-04

发表评论

登录后才能评论

评论列表(0条)

保存