首先,我们需要一份免责声明——他们不一定是必要的,但以防万一…但你必须注意的是,这些都是概念性的东西,至少我这么认为,还没有实际的测试和实践证明。

蜘蛛逆向爬行…至少我第一次起这个名字的时候是这么想的。这个想法来自很多地方:

如果网站页面的深度非常高,这对爬行和索引都是一个挑战,因为它们的结构非常深,有大量的页面,会有爬行障碍(例如,大量的参数URL或者那些被认为没有价值的页面经常出现在一些电子商务网站上。)

或者一个网站希望尽可能充分和快速地被索引(也许一个网站添加了新的内容,它的URL尽管301已经被定位,或者这是一个新的网站,但会发生戏剧性的变化。

因此,如何使网站正常爬行和索引?通常通过以下方式:

搜索引擎蜘蛛会根据链接进入你的网站

提交:站长将网站和页面提交给搜索引擎

XML网站地图:站长为他们的网站创建一个网站XML通过搜索引擎使网站地图有效,或者把它放在网站的根目录中作为网站地图或使用ROBOTS自动搜索文件。

这些方法都是优缺点,但至少他们通过使用解决了如何让蜘蛛进入他们的网站XML网站地图可以帮助蜘蛛克服一些爬行障碍。

这些方法都是优缺点,但至少他们通过使用解决了如何让蜘蛛进入他们的网站XML网站地图可以帮助蜘蛛克服一些爬行障碍。但它并不完全准确,但我认为这是一条自上而下的路线,就像这样…

主页被发现,无论是直接还是间接。然后蜘蛛会按照自己的路线爬行。从顶级导航到第二层,让后到子导航,爬到顶级分类页面,通过子分类界面,再到更深层次的产品和信息页面。另一方面,你想要索引的页面同时占据了头部和长尾的搜索。这些页面也可能产生交易或转换。

蜘蛛来到你页面的频率是多少?一次爬多少页?新页面会被发现和捕获多久?旧页面会被发现和捕获多久?本质上,应平衡抓取,这就解释了为什么排除重复内容的重要性。你不想让你心爱的蜘蛛把时间浪费在爬行和包含的内容上。

当你为一些大型网站指出这些问题时,你会发现蜘蛛想爬行和喜欢它们URL实在是多的让人觉得可怕,即使没有那些隐藏着的爬行障碍。请记住,甚至XML每个网站的地图最多只能包括5万张URL,如果至少有20张单独的网站地图,总共会有1万页。

我想提醒你,这种情况并不适用于所有的网站和情况。这种“蜘蛛逆向爬行”基础和使用XML网站地图有些不同。典型的XML网站地图策略是提交每一个URL,希望每一页都能被索引。这也许不是最好的策略,但是这是另外一个问题了。即便如此,这些策略往往会给主页太多的权重和优先权。

相反,我们应该关注一些低级别的页面。通常是单个产品和信息页面。这个想法是让蜘蛛去最深最难爬的页面。

他们以后会去哪里?他们会像蜘蛛一样爬行。想想这些深层次的页面。希望他们内容丰富,关键词丰富。它们可能包含一些可导航的元素,即使不是完全高级导航,至少是分类导航。如果网站上有类似的面包屑导航,我们可以直接喂蜘蛛。

在这一点上,我们应该以更多的方式向蜘蛛展示我们的网站。这个概念可能不是关于逆向爬行,而是关于让蜘蛛从两个底部爬行,最终导航到顶部。

我们通常假设蜘蛛自然会先去主页,然后爬下整个网站。与那些多样化的产品级页面相比,从主页到顶页有多少个独特的页面?URL?我的猜测是,由于页面深度不同,两级页面的捕获数量也大不相同。

正如我所说,我认为这是一条低风险的路线。无论有没有xml蜘蛛可以在网站地图上找到页面。他们会找到不在网站地图上的页面,所以即使是没有主页和顶级页面的网站地图也不会错过。

这些问题可能不会出现在自然环境中。蜘蛛会很快爬过整个网站。他们一旦找到链接,就会追根究底。也许这些页面埋得太深了,他们有点不喜欢。


无论如何,让这些网页被爬到索引是非常重要的,这对我的站来说确实是一个艰难的过程。也许这只是时间问题。至少我要试试。一旦整个网站的页面都像我想象的那样建立了索引,我就可以继续和在一起了XML在网站地图中添加其他内容URL,或者我可以做一个实验,不要把网站地图放在网站上。