Skip to main content
 Web开发网 » 站长学院 » 帝国cms教程

织梦采集侠打造织梦全能采集插件

2021年11月16日6920百度已收录

  织梦CMS是广大站长所熟知优秀CMS建站程序,是同类产品中用户最多,口碑最好,功能最强的开源CMS程序,织梦管理员之家专注与织梦CMS方面的研究,所开发的织梦采集侠能够很好的兼容织梦CMS各大版本。

   随着织梦采集侠V2.2版的发布,插件的功能也越趋完善,加入了全新的RSS采集和页面监控采集功能,这两款新功能弥补了根据关键词采集的不足,只需要设置监控页和文章URL规则,便能够定向采集某个站点,某个栏目里面的内容,正文部分再由织梦采集侠正文识别系统来识别提取,无需进行过多的设置便能轻松采集到需要的内容。

   编写采集规则进行采集的时代,也会即将成为过去,虽然现在织梦采集侠的定向采集功能还有很多不足,未能很好的采集到出处、作者和发布时间等文章相关信息。但对于文章标题、正文部分,算法基本能够正确识别提取,正确率极高。

   我们目前着手研究的新算法,将会对多个页面进行对比精确查找出标题、正文部分,以及加入微调功能,手工辅助精确定位获取标题与正文。开发完成后,将会在下一版本中加入。

   采集的用途很广泛,比如行业网站,需要采集一些行业相关的新闻;设计师制作网站,需要采集些内容进行填充,提高效率,可以方便直观的看到页面效果以及进行调试;个人站长所做的网站栏目较多,或许也会用上采集进行内容填充等等。

   织梦采集侠提供多种采集方式,打造全能采集插件。

   (1)根据关键词采集

   根据关键词采集很够很方便的采集到关键词相关的内容,插件有多套采集引擎规则可以跟换,能够采集不同搜索引擎里面的搜索结果。

   优点:简单方便,输入关键词即可采集

   缺点:受搜索结果影响,或许会采集到一些多余或者不太相关的内容

   (2)RSS采集

   通过网站提供的RSS地址,采集RSS提供的文章URL页面内容

   优点:简单方便,定向采集,输入RSS地址即可采集

   缺点:无明显缺点,所采内容均是RSS所提供的URL地址

   (3)页面监控采集

   通过设置监控页面,以及文章URL规则,即可采集相关内容

   优点:简单方便,定向采集,设置监控页面,文章URL即可采集

   缺点:收监控页面所限,只采集监控页面包含的文章URL

  使用地址:

评论列表暂无评论
发表评论
微信