当然是Python了,之所以Python能在机器学习方面笑傲江湖,全靠他哥俩,numpy和pandas,因为有了他俩,Python处理数组和矩阵才成为现实。
在数据挖掘过程中,数据探索和数据处理方面,主要是pandas,提供了类似行列式DataFrame的数据结构,在读取外部数据,变换数据,处理空置和异常数据方面有极其强大的作用,而且使用起来非常简单。是我日常分析数据,处理数据常用的工具。
matplotlib库是Python数据图库,提供了强大的图表功能,在在平面和三维立体图方面非常便捷,是数据可视化的机器。
当然,还有机器学习库scikit-learn,里面包含了绝大部分算法,分类,回归,降维,还提供了强大的模型优化类和模型评估类,也有专门用作文本分析的算法和特征提取,特征选择等。
当然,Python也有不足之处,就是Python不支持分布式计算,在当然大数据方面,这是致命的不足,不过分布式计算平台spark,提供了全面的Python接口,可以方便的使用Python来操作spark来处理数据。