用Robots协议引导蜘蛛对页面进行抓取
做最负责任的网络企业服务商
用我们真诚的微笑换取客户对我们服务的满意

用Robots协议引导蜘蛛对页面进行抓取

作者:网络 / 发布时间:2022-05-02 19:21:40 / 浏览量:5611

  Robots协议是放在根目录下的一个协议,也是蜘蛛爬行网站的时候需要访问的第一个文件,通过解读Robots文件的策略,蜘蛛可以知道哪些页面可以爬行,哪些不可以爬行。一般来说,网站都是可以开发给蜘蛛来抓取的,某些不允许抓取的页面或者频道,只需要在Robots里面设定Disallow(禁止抓取的命令)就可以。但是在实际运营中,可能面临更复杂的情况,比如整站已经在HTTPS下,但是部分页面需要蜘蛛爬行,怎么办?有以下几个解决办法。【网站优化

  (1)复制一份到HTTP下。

  (2)使用user-agent判断来访者,将蜘蛛引导到HTTP页面。

  关于Robots文件,详细说明如下。

  (1)特定页面已经不需要蜘蛛抓取,可以进行Disallow。

  (2)某类集中的页面具有共同的URL参数,可以实现批量禁止抓取功能。在操作批量禁止的时候,需要避免误伤,即具有同样URL特征的功能可能并不在禁止的目的之内,无意中被禁止了。

  关于同类特征的URL的一个特殊应用就是批量禁止动态URL的抓取。比如一个动态发布内容的网站,初始页面都是动态页面,从SEO角度考虑,这些动态页面全部批量生成了对应的静态页面,如下。

  http://www.abc.com/?id=1

  http://www.abc.com/?id=2

  ......

  (已经批量生成了如下)

  http://www.abc.com/1.html

  http://www.abc.com/2.html

  ......

  如果同时被蜘蛛抓取了动态页面和对应的静态页面,那么网站就存在大量的重复页面,对SEO是不好的。可以通过Robots功能,统一禁止动态URL的抓取,比如在Robots文件里写如下内容。

  Disallow:/*?*

  在抓取方面,蜘蛛会依据实际情况调整对网站的抓取频次,即分配抓取定额,每天定量抓取网站内容,“定量”这个词意味着是有限的,-一个大门]户网站如果一次性提交10万条URL,并不意味着蜘蛛会很快把10万条数据抓取回去,因此,必须有耐心跟踪搜索蜘蛛在网站每天的爬行和收录情况。

  以上就是《用Robots协议引导蜘蛛对页面进行抓取》的全部内容,仅供站长朋友们互动交流学习,SEO优化是一个需要坚持的过程,希望大家一起共同进步。


热门资讯

  • 网站快速排名是什么技术

    网站快速排名,圈内是指网站的关键词快速排名搜索引擎首页。很多站长朋友和企业老总们总喜欢问:网站快速排名是什么技术实现的,安不安全,是不是排名快的都是快排技术?小编也大致说下。网站快速排名,可以有两种理解,

    2018-09-04
  • 营销型网站制作需要注意的知识点

      互联网的发展给营销型网站制作公司带来春天,营销型网站的最大诱人之处在于比普通网站的转化率优秀。因此获得许多企业的青睐,从此营销型网站制作就火了!众所周知营销型网站能为企业赢得网站流量,进而提高企业

    2022-03-18
  • 2018年搜索引擎搜索给SEO站长们的一些不可磨灭的印象

    回顾一年来做SEO的历程,有过太多的感慨,就小编自身而言,比较大的感慨就是两个词:降权!排名不稳!这两个问题今年就一直围绕在小编的脑海中不曾停止过,经过一年来的实践,

    2018-12-17
  • 搜索引擎自然搜索结果首页不止10个

    今日,小编在使用搜索引擎搜索的时候意外发现,搜索的自然结果数量由默认的10个变成了12个,有的13个,翻页的还是保留原来的默认10个。经过小编仔细查看,发现之所以多出了几个位置,应该是搜索引擎近期做了一些调整

    2019-11-11
  • 中小企业网络推广需要2.0

     企业信息化建设、电子商务解决方案、企业网站建设等各方面意见不一,使中小企业感到困惑,未能深刻揭示大多数中小企业的内在真实需求。面对各种不同的观点,网络推广理论更符合广大中小企业的实际需要。显而易见的

    2019-07-31