在新建网页采集规则项时,第一步需要新建url正则表达式,并且同事需要用户填写【描述】。

【描述】字段的作用:是为了防止时间长了用户忘掉这个配置当时是干什么的?有没有什么注意事项等?内容如下图所示:

【url正则】为你希望解析的URL的正则表达式,正好此时讲到了url正则,就在所难免的要讲到我们平台采集器模式url正则的整体设计。

url正则设计理念为:

(1) 【网页采集规则】中多个url正则可以符合同一个url,同理【内容采集规则】中也一样,

(2) 同一个url可同时被【网页采集规则】和【内容采集规则】中url正则符合,

这样设计的好处,也是其它爬虫平台所没有的,其它爬虫平台都只能解析一类url,而我们的平台有了url正则的概念,就可以同时支持多类url,就以为这同一个任务可以配置为整个领域资源的下载。

这此页面用户可以设置这个url正则对应的网络请求是否需要渲染?是否启用?

渲染指的是:一般的平台请求是直接的网络请求,而用户从浏览器中看到的是经过浏览器渲染过之后,这两个的数据可能存在差异。我们平台渲染使用的是splash;平台其它地方的渲染字样同样含义。

启用是指:决定这个url正则配置在后面的任务运行是否使用,这样做是为了防止现在不用删除,后面使用再次创建带来重复的开发量。

results matching ""

    No results matching ""