场景:

用户看到一个页面,他觉得这个页面很多字段都是自己需要的,等他分析页面网络请求后发现,这个页面展示的结果是多个请求的结果,如果用户要想把这些字段存放在同一张表中。


不妥的做法:

创建两个任务,一个任务用于下载主要的字段信息,另一个任务用于通过关联刷新设置为刷新任务,我们平台认为这种做法不妥的原因为:

(1) 一个任务被拆分为两个任务不方便维护,

(2) 对mongodb数据库操作,由一个新增操作变为一个新增操作加上一个刷新操作。


正确的做法:

步骤:

(1) 通过采集器模式的内容采集规则,进行如下图所示设置。

(1) 当(1)设置完成之后,需要设置具体字段进行解析,具体选择如下图所示。


疑难杂症:

如何确定主页面?可以按照以下原则确定:

(1) 看“网页采集规则”和“内容采集规则”是否存在同类url 正则配置项?

(2) 看多个请求,按照参数完整率从高到低排,取完整率最高的

results matching ""

    No results matching ""