python不是开发爬虫的,爬虫是其它的一个功能python可以实现很多功能:web开发、人工智能、数据挖掘、网络爬虫、数据科学、自动化运维等,网络爬虫只是其中的一个可实现的功能。所以,严格来说python不是开发爬虫,如果那样的话会被认为Python只能用于爬虫。限制了对他的全面性的理解。
scrapy,在这里介绍一下网络爬虫框架说到网络爬虫,自然会让人想到scrapy,因其跨平台性。网络爬虫是指在互联网上自动爬取内容信息的程序,也称网络蜘蛛。
scrapy使用python开发编写的开源网络爬虫框架。scrapy简单易用、灵活易拓展、开发社区活跃。
scrapy爬虫的框架结构和工作原理如下图展示scrapy框架的组成结构,从数据流的角度提示scrapy的工作原理。
引擎、框架的核心,其他所有组件在其控制下协同工作;
高度器,负面对spider提交的下载任务进行高度;
下载器,负责下载页面;
爬虫,负面提取页面中的数据,并产生下次请求;
中间件,负面对请求进行处理;
数据管道,负责对爬取到的数据进行处理。
以上是关于Python的网络爬虫的理解和介绍了其中一个比较流行的框架,希望,能够对Python是网络爬虫开发的认识有所帮助,也希望大家留言讨论。