【爬虫设置】页面中需要用户填写的字段不多,这里面就讲解对用户来说稍微难点的字段【爬取深度】、【爬取域设置】和【页面提取设置】。

(1) 【爬取深度】:这里面需要填写的是层数,是相对于用户在“起始网址配置”中配置的种子url来说,种子url是第一层;种子url下面的url再次爬取,是第二次;以此类推。其中采用的是“广度优先遍历”思路。

(2) 【爬取域设置】:是指提取当前页面中的那些类型的链接(即html a标签元素)。

(3) 【页面提取设置】:如果都不选择的话,是只存储html字段;用户也可以选择用户需要提取的字段。

results matching ""

    No results matching ""