搜索引擎收录的过程是什么？

2022/08/22 09:54 5G收录网已浏览221次

　　曾经在2007年，我们操作的一个企业网站的SEO项目，这个网站是一个有历史时间的基础老站点。我们给站点制定了内容策略，整体导入了3万篇内容。这些内容被百度和Google收录的很快，然后在一周的时间内，这些页面就大部分都获得了排名了。
　　这些页面的内容质量还比较高，是二级目录的页面，所以锁定的关键词还不是长尾关键词。但也非常快的获得排名了。
　　然后再到2010年，我们操作的另外一个行业门户网站。通过给门户网站增加了一个问答频道，在较短的时间给问答导入了100万数据。当百度收录到60万数据的时候，百度导入过来的流量就已经超过了每天20万UV的流量。
　　这两个案例情况就表示搜索引擎并没有将大量数据的收录和排名进行剥离。这其实很容易会导致一些黑帽SEO的攻击。例如短时间导入数千万内容。
　　但是在这个问题上，搜索引擎是不是没有预防措施，是有的。但是是滞后的。在门户网站快速获得了这些流量后，第二年，我们观察在问答的流量在慢慢下降。因为时间太长，这有可能已经是搜索引擎更新了新算法导致也是有可能。但是第一个我们说的企业站的那个案例，丝毫不受影响。
　　我很早的时候有一个预判，就是搜索引擎关于收录和排名的机制发展就是：大量收录，收录等于排名，收录不等于排名。三个步骤演化。
　　因为老站点的权重的关系。一个大型门户老站点，如果在8个月时间内导入了200万的数据是很容易能够在一个比较短的时间内获得至少10-20万的日UV流量。这其实是一种漏洞。
　　在Google的历史上，也曾出现过网站导入过亿的数据被收录从而获得大量的流量的例子发生。
　　现在来看，Google似乎已经到了收录不等于排名的阶段，百度还不完全是。
　　也正是解决了这些问题，Google才会在收录机制上反应的更快速，更快的收录网站的新页面。而如果没有能够有效剥离，那对新内容的收录就要慎重很多。两者在结果上会出现这个差异化。
　　第二点：收录是不是要依靠权重还是靠发现。
　　我们通常被鼓励多做网站地图，多配合使用各种通知搜索引擎有数据更新的推送功能。这些东西，按照我的观点。我是觉得作用并不大的，只不过技术实现上并不难，所以做了比没做好。但要真正讨论，我认为作用是不大。
　　一个新站点的收录可以依靠被发现。但是新站点的内页被收录，更多就是依靠内容质量与网站权重了。
　　所以要提高收录量，重点还是要把关好网页的内容质量，做好网站结构，提升网站的权重。
　　对于新站点来说，重要的是做内容质量和网站结构的优化。
　　第三点：收录的配额问题。
　　尽管在百度搜索资源平台都出现过关于网站收录的配额这个说法。但我认为还是认为，多少可以忽略掉这个。
　　官方一篇文章中的观点是：
　　由于Baiduspider对每个站点的抓取额是有限定的，所以这些垃圾搜索结果页被百度收录，会导致其它有意义的页面因配额问题不被收录，同时可能因百度处理垃圾页面而影响网站正常排名。
　　这里面提到了抓取额和配配额两个问题。抓取额肯定是存在的，就是搜索引擎蜘蛛来访的是不是足够频繁。SEO提倡每天更新网站，实际的目的之一就是希望搜索引擎蜘蛛来的更频繁。也就是提高这个抓取额。
　　但网站收录的配额，我觉得是可以忽略的。因为首先一个网站，你当然要注意别出现垃圾内容的问题。不管是自己产生的，还是被人攻击产生的垃圾内容，这个问题都是要注意的。
　　所以最终只剩下一个情况，就是你必须要给网站产生有意义的页面。如果你能产生1万张都是有意义的页面，那我们为什么会考虑这个所谓配额的问题，只要网站的问题没出现收录障碍。那么有意义的页面不被收录，就是搜索引擎有问题。
　　第四点：大家要经常用site:看收录情况。
　　以百度搜索资源平台查看索引量的界面和功能设计，它是不给你直接展示你网站具体的页面收录URL。你可以定义目录一个个的去查，但这也是需要你主动去定制。如果你没定制到，就查不了。
　　所以，建议要经常用site:看收录，这是检查下网站的收录有没有异常。有没有出现一些低质量的页面被收录了，或者一些你没想到的环节出现了差错导致被搜索引擎收录了很多页面。因为搜索引擎的蜘蛛是比你更了解你的网站。