技术要点
我们再通过GooSeeker的api接口实时获得提取规则,对网页进行抓取。本示例主要有如下两个技术要点:
通过GooSeeker API实时获取用于页面提取的xslt
使用GooSeeker提取器gsExtractor从网页上一次提取多个字段内容。
python源代码
抓取结果
运行上节的代码,即可在控制台打印出提取结果,是一个xml文件,如果加上换行缩进,内容如下图:
技术要点
我们再通过GooSeeker的api接口实时获得提取规则,对网页进行抓取。本示例主要有如下两个技术要点:
通过GooSeeker API实时获取用于页面提取的xslt
使用GooSeeker提取器gsExtractor从网页上一次提取多个字段内容。
python源代码
抓取结果
运行上节的代码,即可在控制台打印出提取结果,是一个xml文件,如果加上换行缩进,内容如下图: