Skip to main content
 Web开发网 » 站长学院 » 浏览器插件

Python爬取Drupal论坛帖子列表

2021年11月03日8170百度已收录

技术要点

我们再通过GooSeeker的api接口实时获得提取规则,对网页进行抓取。本示例主要有如下两个技术要点:

通过GooSeeker API实时获取用于页面提取的xslt

使用GooSeeker提取器gsExtractor从网页上一次提取多个字段内容。

python源代码

Python爬取Drupal论坛帖子列表  Drupal 第1张

抓取结果

运行上节的代码,即可在控制台打印出提取结果,是一个xml文件,如果加上换行缩进,内容如下图:

Python爬取Drupal论坛帖子列表  Drupal 第2张

评论列表暂无评论
发表评论
微信