用户下载的需求不一定全部都是文本,有时也有可能是图片、音频等文件,这是我们的平台提供了文件下载的设置;在设置文件下载之前大家要确保当前的这个字段值为文件下载的url链接,否则会失败。

文件下载设置需要用户填写的有两个地方,一个在【内容采集规则】页面,一个在【其它-文件下载设置】,具体填写内容如下图所示。

下面对上图的待设置字段做具体讲解:

【是否需要下载文件】如果要进行文件下载,则这个必须选择。

【将相对地址补全为绝对地址】有时在文件下载前,这个字段获得的不是完整的url,需要对url补全,如果用户选中【将相对地址补全为绝对地址】,这平台会根据请求的url和字段值进行链接补全操作。

【文件地址必含】用户可以根据自己的需要选择,并填写需要过滤的关键词组。

【文件保存目录】平台会对每个任务独立建个文件夹,这个【文件保存目录】会在任务文件夹下再建子文件夹,这块平台提供了默认的选择

【高级属性】由于下载的是文件,有可能是图片、音频或者是视频,所以有的用户希望可以同时获得对应文件的属性,对此平台予以支持了。

【是否获取响应头信息】有的用户希望可以保存文件下载的响应头信息,可以选中这个设置。

上图主要涉及到文件下载存储的设置,如果选中【存储集群】则下载的文件是存放在我们的存储集群上的,如果选中【云文件托管】,用户需要在【云文件托管】页面设置云存储账号。

除此之外,为了让用户可以更多的设置自己的任务的每个环节,在wget的命令使用上我们让允许用户具体设置。

results matching ""

    No results matching ""