网页采集规则配置中,提取规则有自动提取、XPath提取和正则表达式提取三种;以下对三种提取方式一一予以讲解:

(1) 自动提取

【提取全部链接(href)】即提取请求返回html中的所有的链接。

【提取全部相同域链接(href)】即从请求返回html中提取和请求链接一级域名相同的链接。

【urlpattern】即可以根据你测试的用url,自动获取的url正则,如果不是你想要的,用户可以自行修改。

【设置区域 】用户最好通过获得,因为用户点击进去看到的内容是请求的返回的原始数据;在设置区域中用户可以设置自己要获取的url是在那个区段内。

总结:自动提取方式只适合请求返回的数据是html,如果要是json、xml就不适合。

(1) XPath提取

Xpath是最常用的一种方式,用户只需要按照提示的方式写入自己想要解析内容的xpath即可,

或者是通过输入框后面的智能获取xpath也可。

(1) 正在表达式

是用户从指定字符串提取出自己需要内容的正则表达式,用户设置完这个后,用户会得到一个参数值,就是下面的输入值。

有时从上面正则表达式获得的内容可能还不是用户希望数据的完整格式,这是用户可能需要设置【拼接规则】,具体的填写格式如下图所示:

其中值是通过点击右上方获得的。

除了上面讲解的三种提取方式外,用户还可以对通过上面三种方式提取到目标集合做过滤操作,即功能,在【链接过滤】中用户可以设置包含和不包含的关键词集合。

  • 不得包含:只要符合其中一个即可,

  • 必须包含:有如下图所示两种方式。

除此之外,还有,是指用户此次网络请求是需要登录的,正常的登录过程之后用户浏览器端会获得一个cookie,用户下次再次访问的时候只需带上这个cookie即可;所以用户需要点击跳转到最后一步设置cookie即可,如下图所示。

results matching ""

    No results matching ""