1. 实例网站及要求

目标网址：263作文网高一作文部分(http://www.263y.com/gaozhong/gaoyi/)。

下载要求：下载作文内容页的作文标题和作文内容字段。

2. 配置步骤

新建任务

在平台上新建任务，配置相应的英文名称，中文名称，分类，以及任务组这些基本信息,相关名词解释已在前面说明，在起始url中配置所要爬取网站的链接，然后在其他设置里面我们要习惯性的更改网页的编码格式以及设置UA，查看网页编码格式如下图所示

通过这样在360浏览器里面进行编码查看便可以快速的查看网页编码，下面我们开始进行爬虫列表页以及内容页的操作。

解析配置：网页采集规则

当我们进入列表页配置的时候，要知道列表页的链接是从起始url中来的，第一步配适配于起始url的正则，我们的起始url是http://www.263y.com/gaozhong/gaoyi/，

这里我们可以http://www.263y.com/\w+/\w+/$这个作为正则规则，具体正则请看相应文档查阅，我们在配置提取url这块时，要选择xpath，也可以选择自动提取，自动提取下面有三个属性，分别对应提取所有url，相同域链接，以及url正则

在这里我们选择的xpath提取方式，通过下图分析

我们获取了本页的作文链接的所在路径

//div[@class="zw_item"]/dl/dt/h3/a/@href

到目前为止，我们还无法实现获取下一页的链接的这个功能，为找到这个入口，我们从网页中寻找到下图

通过如图所示框架，我们可以配置这样的xpath提取规则

//div[@class="pagination pagination-centered"]/ul/li/a/@href

将这两个xpath规则用‘|’连接，我们便实现了在列表页获取作文链接已经下一页的链接，那么接下来我们开始配置内容页的相关信息。

解析配置：内容采集规则

点开具体的一篇作文，我们在这里要提取的是标题，以及正文，回到平台内容页配置

点击内容页解析配置列表后面的‘+’，弹出内容页配置有关信息，填写好一些基本信息，在这里要为这个内容页也配置一个正则，以http://www.263y.com/gaozhong/gaoyi/121479.html为例，我们可以看到，当点开不同的作文范文页面时，变化的是121479这6位数字组成的id，所以在这里配置正则时只需要http://www.263y.com/gaozhong/gaoyi/\d+.html即可，到这里进行的就是具体字段的配置了

点击‘+’，配置字段名英文名称，中文名称，以及描述，

点击确认

选择xpath提取，勾选完整xpath后面的那个复选框，在作文页面标题部分右击检查，即可配置如图xpath路径，将两个字段配置完成之后点击页面下方保存按钮，再点击完成，到这里这个爬虫就已经配置完成，我们可以点击启动，运行出结果之后就可以在爬取结果中看见我们爬到的数据了。

简单爬取任务

1. 实例网站及要求

2. 配置步骤

results matching ""

No results matching ""