在首页点击右上角按钮,进入“控制台”界面。点击界面上的按钮进入新建爬虫任务页面,根据页面提示填写爬虫任务的相关信息,其中标有*的项目为必填项。

任务组:

在“专业知识点介绍”章节已经讲过关于任务组的概念,用户在新建任务时只需要根据自己任务的需求设置合适的任务组。


选择模式:

在“平台爬虫解析模式”章节已经讲过关于相关的概念,用户在新建任务时只需要根据自己任务的需求选择合适的解析模式。


起始网址设置:

在我们的平台中,起始网址请求支持两种类型:GET和POST,其中POST请求的书写格式为:{"url":"...","data":{...}};其中url为请求链接,data为post请求的参数。

起始网址设置目前支持以下四种方式:

(1) 普通网址:逐条输入网页地址,一行一个,以http://或https://开头,最多支持20条,可以自动去重,

(2) 批量网址:在批量构造url时,支持最多3个参数设置,每个参数可以设置的类型为:数字变化、字母变化、时间变化和自定义列表,

(3) 文本导入:在前两种方式无法构造用户的起始网址的时候,用户可以把自己的需要请求的网址写入文件中,通过文件导入的方式添加,

(4) 数据库导入:数据库导入方式是我们最后加进去的,是在实际需求推动下形成的;有部分任务需求的起始网址是存在数据库中,但是这个数据库中的url是边的,即有其它任务操作这个任务(平台任务和非平台任务),要想实现这一块的自动化,就必须支持从数据库导入的方式。

目前支持的数据库为:mongodb和mysql。

在如何从数据库数据构造我们需要的url,平台支持两种方式:

  • 多列多参数:有时待构造的url是从数据库中一条记录的多个字段构造,

  • 多行一参数:有时待构造的url是从数据库中多条记录的一个字段拼接为批量请求url。


过滤url集合:

可能有的任务希望在任务开始抓取时不抓那些内容,用户可以通过设置过滤url集合文件进行实现。

过滤url集合需要用户事先写到文件中,一个url写一行,然后点击【上传】即可。

results matching ""

    No results matching ""