如果打算利用Python来执行机器学习,对Python有一些基本的理解是至关重要的,由于其作为通用编程语言的广泛流行,以及它在科学计算和机器学习中的普及,初学者的教程并不是很难,在Python和编程方面的经验水平对于选择起点至关重要。
首先,你需要安装Python。由于我们会在某些时候使用科学计算和机器学习软件包,因此建议安装Anaconda,它是针对Linux,OSX和Windows的工业级Python实现,包含numpy,scikit-learn和matplotlib等所需的机器学习软件包,还包括iPython Notebook,这是我们许多教程的交互式环境。会建议Python 2.7,除了它仍然是主要的安装版本之外,没有其他原因。
人们认为“数据科学家”存在很多变化。这实际上是机器学习领域的一个反映,因为数据科学家所做的大部分工作都涉及到不同程度的机器学习算法。是否有必要密切理解核心方法,以便有效地创建并从支持向量机模型中获得洞察力?当然不是。像生活中的任何事物一样,理论理解的深度与实际应用相关。深入了解机器学习算法超出了本文的范围,通常需要大量的时间投入到更多的学术环境中,或者至少需要通过强烈的自学。
吴恩达在Coursera的课程广受好评,有时间就可以去上,吴恩达的一些课程很适合初学者,不过建议浏览由在线课程的前任学生编写的课程笔记。除了Python之外,还有一些通常用于促进实际机器学习的开源库。
顺便说一句,如果你想知道更多硅谷或者美国科技的前沿信息,可以关注微信号“硅发布”。