通过上面的讲解我们可以配置一般的下载任务,但是任务配置完成,最终的目的是能够运行,并爬取到数据。在平台中提供如下图所示的启动功能界面。

通过上图所示的界面,启动的设置大致可以分为以下几个部分:

(1) 【启动模式】:“爬取新数据”和“更新旧数据”;其中“爬取新数据”又分为:;“爬取新数据”对应的【爬虫设置】中的“起始网址配置”是必须要配置的。而“更新旧数据”分为:,其实不管用户选择哪个,都需要对下面的【关联任务】进行设置,在这样方式下用户在选择需要被刷新的任务、表和更新条件,平台是从选择条件的表中取固定的“url”字段作为起始网址,在【爬虫设置】中的“起始网址配置”是不起作用的。

(2) 【任务计划设置】:在 这个不选中的情况下,是按只运行一次的标准来的,如果用户选中了,可以从下面选择一个合适自己任务的方式。其实这块不知道有没有发现,平台还少了常用的“crontab”方式,至于这种方式平台后面会支持的,敬请期待!

除此之外,有点大家需要注意的是,由于爬虫任务和其它任务不同,受被爬取网站和用户对设置的启动平率不合理的影响,可能会出现一次运行未结束下一次又运行,这样会导致任务运行越来越糟糕;所以平台做了: “周期性任务,同一时刻只有一个是处于运行中状态”的限制。

(1) 【任务运行线程设置】:如下图所示为任务运行线程设置交互页面。

以下为多字段设置说明:

  • “守护线程数”为此任务在运行时可能被拆分的子进程数,“守护线程数”设置的最大值是和用户等级有关的,如果用户希望更大的值,可以联系管理员。

  • “请求间隔时间”为每个请求之间的等待时间,这是反反爬可以设置的一个值,在使用时请大家区分与解析配置中【其它设置】“http请求设置”的超时时间的区别,超时时间是指这个请求允许等待服务器的最大时间。

  • “运行最长时间”,用户可以设置此任务最大的运行时间,如果任务从启动开始超过了最大运行时间,平台会主动停止此任务的运行。

  • “采集URL最多个数”,用户可以设置此运行任务最多允许发送URL请求的个数,如果此任务总请求超过了最大值,平台会主动停止此任务的运行。

(1) 【通知邮件设置】

如果用户选择了“邮件通知”,在任务结束后,平台会以邮件的方式通知此任务运行结束。

results matching ""

    No results matching ""