实际上什么语言都可以爬虫,我试过用C++、Java和Python写过爬虫去爬取各大门户的网站,复杂程度:C++>Java>Python。
nodeJS当然也可以写爬虫,但我更推荐用Python写爬虫,最主要的原因是库多,requests,xml,beautifulsoup,selenium,scrapy等都是爬虫利器,只要几行代码就可以实现大部分功能。
实际上爬虫写到后面关注的是效率和防爬攻防的问题,如随机headers处理、IP代理池,验证码识别等,需要在这些细节上去考量。
如果对学习人工智能和深度学习感兴趣,你可以订阅我的头条号,我会在这里发布所有与算法、机器学习以及深度学习有关的有趣文章。