这里主要讲内容分页,关联多页以及文件下载部分相关知识
新建一个任务,填写一些基本信息之后,由于这三种都在内容页中,我们在这里略过列表页的配置。
1. 内容分页配置
在这里以http://www.en8848.com.cn/fanyi/sx/daxue/189030.html为例,
因为我们要提取的是
这一部分内容,而这些内容并不是统一的呈现在一个页面中,它还出现在下一页的的内容部分,所以,这里要用到内容分页相关知识,首先我们要用到内容分页时,要选中 ‘默认页和内容分页源码’
然后配置当前页面的content内容,通过xpath提取
//div[@id="articlebody"]/p//text()
最后我们来配置内容分页信息,
这里有两种模式,这两个模式之间区别在这里就不赘述,我们选用上下页模式
我们这里要配置的是寻找下一页的链接,在网页中右击检查
在区域设置中填写的是包含了我们所要链接的起始部分已经结束部分,这里可以稍微精确点,只需要将我们这里需要的下一页的内容涵盖即可。
然后我们在链接提取中配置提取正则,这里越精确越好,我们提取的是‘下一页’的链接,将
<a href="(/fanyi/sx/daxue/\w+.html)">下一页</a></div>
写入即可,然后在拼接规则点击参数,你在上面的链接提取中设置了几个变量这里就点击几次,由于在网页中没有显示这个网站的域名,我们在这里要手动加上
http://www.en8848.com.cn\[参数1\]
这个时候你点击测试便可以获取‘下一页’的内容了,保存,完成
至此内容分页配置便完成了。
2. 关联多页配置
以http://www.hxen.com/interpretation/bilingualnews/20180417/494494.html
为例,我们希望这一页的英文正文部分和下一页的中文页面同时保存在一条记录中,可以先定义两个字段,ch和en ,en保留当前页面正文内容,ch保留英文页面正文内容,那么如何从本页拿到其他页面的信息呢,这就是关联多页要解决的问题,ch字段和en字段配置保持一致,xpath规则都是
//div[@id="arctext"]/p//text()
不同的是ch字段要选择从关联多页中获取
然后我们拉到页面下面找到这个部分,点击添加
这里选取的是从源码中截取。
在匹配内容这块注意要和前面的关联多页的正则提取一样,精确定位,源代码的下一页部分是这样的
通过上图中配置,然后按照组合结果中配置,点击确定,然后在这个地方把我们定义的多页配置上去
点击保存,完成,然后就可以实现关联多页的内容。
文件下载配置
以http://espanol.cri.cn/audioonline/chinahoy/1028/20180412/116717.html为例
我们要下载的音频在这里
新建字段配置xpath提取src内容 //audio[@controls="controls"]/@src
我们希望下载这个链接所对应得音频时,可以选择数据处理方式中的文件下载,然后将是否需要下载文件这个复选框勾选上,点击保存,完成即可。