针对“爬虫模式”的【其它设置】中,【页面类型判断】的“一般逻辑”和“正则判断”的选择,这快在使用的时候这边有点想法要讲:

(1) 如果用户的任务是从具体网站下载,这时候推荐使用“正则判断”,因为具体的网站,其内容页的url格式是固定的,可以通过url正则进行判断;如果要使用一般逻辑,这个要求每个请求不论是否为内容页都必须先请求,这样的效率很低;特别是最优一层最明显。

(2) 如果用户下载的需求是从搜索引擎、或者网站不确定,这块可以使用“一般逻辑”。

results matching ""

    No results matching ""