爬虫对数学的要求不高,最基础的是要对网页有基本了解,包括网页的基本元素、网页的结构、数据的加载方式等,下面我介绍一下学习python爬虫的基本过程:
1.掌握基础的网页知识,这个是爬虫的前提,我们爬取的数据大部分都会在嵌套在网页中,如果对网页基本元素都不认识,怎么解析网页,提取数据呢?所以,如果对网页基础知识不了解的话,建议花上个几天时间学习一下,很快就能学会,这里直接看w3cschool的教程就行,地址/,如下:
2.对网页基础知识了解后,可以试着爬取一些简单地静态页面,这里入门的话,可以选择requests和bs4这2个包,requests负责请求页面,返回网页源码,bs4(Beautiful)负责解析网页,提取数据,这2个包是一个很不错的的搭档,简单易学,容易上手,地址/:
3.掌握基本静态网页爬取后,你会发现有些数据明明可以在网页中看到,但是请求后的页面数据不存在,或者网页源码中是不存在的,这就是动态加载的数据,这个时候你就需要分析,学会使用浏览器开发者工具,学会抓包分析,分析真实数据的来源,找到真实的url,然后再进行解析:
4.掌握基本爬虫后,你会发现针对不同的网页,需要重复的调整结构,重复的造轮子,这时候你就需要一个爬虫框架,在它的基础上只需做局部的修改,增加自己的东西,整个程序就能跑起来,这里推荐python的爬虫框架—scrapy,使用广泛,容易学习,资料也多,官网文档地址/:
就分享这么多吧,学爬虫的基本经验,至于后面的分布式爬取、数据的存储,这个感兴趣的自己可以研究研究,数据爬取下来后,最重要的还是分析,这个时候数学的基础就很重要的,机器学习各种算法,神经网络等,都需要很好的数学基础,才能做深入的研究和应用,如果只是爬虫获取数据的话,数学基础要求不是很高,希望以上分享的内容能对你有所帮助吧。