Skip to main content
 Web开发网 » 操作系统 » linux系统

要如何开始从零掌握Python机器学习?

2021年10月17日6150百度已收录

  本篇是使用 Python 掌握机器学习的几个步骤系列文章的下篇,如果你已经学习了该系列的上篇,那么应该达到了令人满意的学习速度和熟练技能;如果没有的话,你也许应该回顾一下上篇,具体花费多少时间,取决于你当前的理解水平。我保证这样做是值得的。快速回顾之后,本篇文章会更明确地集中于几个机器学习相关的任务集上。由于安全地跳过了一些基础模块——Python 基础、机器学习基础等等——我们可以直接进入到不同的机器学习算法之中。这次我们可以根据功能更好地分类教程。

  第1步:机器学习基础回顾&一个新视角

  上篇中包括以下几步:

  1. Python 基础技能

  2. 机器学习基础技能

  3. Python 包概述

  4. 运用 Python 开始机器学习:介绍&模型评估

  5. 关于 Python 的机器学习主题:k-均值聚类、决策树、线性回归&逻辑回归

  6. 关于 Python 的高阶机器学习主题:支持向量机、随机森林、PCA 降维

  7. Python 中的深度学习

  如上所述,如果你正准备从头开始,我建议你按顺序读完上篇。我也会列出所有适合新手的入门材料,安装说明包含在上篇文章中。

  然而,如果你已经读过,我会从下面最基础的开始:

  机器学习关键术语解释,作者 Matthew Mayo。

  维基百科条目:统计学分类。

  机器学习:一个完整而详细的概述,作者 Alex Castrounis。

  如果你正在寻找学习机器学习基础的替代或补充性方法,恰好我可以把正在看的 Shai Ben-David 的视频讲座和 Shai Shalev-Shwartz 的教科书推荐给你:

  Shai Ben-David 的机器学习介绍视频讲座,滑铁卢大学。

  理解机器学习:从理论到算法,作者 Shai Ben-David & Shai Shalev-Shwartz。

  记住,这些介绍性资料并不需要全部看完才能开始我写的系列文章。视频讲座、教科书及其他资源可在以下情况查阅:当使用机器学习算法实现模型时或者当合适的概念被实际应用在后续步骤之中时。具体情况自己判断。

  第2步:更多的分类

  我们从新材料开始,首先巩固一下我们的分类技术并引入一些额外的算法。虽然本篇文章的第一部分涵盖决策树、支持向量机、逻辑回归以及合成分类随机森林,我们还是会添加 k-最近邻、朴素贝叶斯分类器和多层感知器。

  Scikit-learn 分类器

  k-最近邻(kNN)是一个简单分类器和懒惰学习者的示例,其中所有计算都发生在分类时间上(而不是提前在训练步骤期间发生)。kNN 是非参数的,通过比较数据实例和 k 最近实例来决定如何分类。

  使用 Python 进行 k-最近邻分类。

  朴素贝叶斯是基于贝叶斯定理的分类器。它假定特征之间存在独立性,并且一个类中任何特定特征的存在与任何其它特征在同一类中的存在无关。

  使用 Scikit-learn 进行文档分类,作者 Zac Stewart。

  多层感知器(MLP)是一个简单的前馈神经网络,由多层节点组成,其中每个层与随后的层完全连接。多层感知器在 Scikit-learn 版本 0.18 中作了介绍。

  首先从 Scikit-learn 文档中阅读 MLP 分类器的概述,然后使用教程练习实现。

  神经网络模型(监督式),Scikit-learn 文档。

  Python 和 Scikit-learn 的神经网络初学者指南 0.18!作者 Jose Portilla。

  第3步:更多聚类

  我们现在接着讲聚类,一种无监督学习形式。上篇中,我们讨论了 k-means 算法; 我们在此介绍 DBSCAN 和期望最大化(EM)。

  Scikit-learn聚类算法

  首先,阅读这些介绍性文章; 第一个是 k 均值和 EM 聚类技术的快速比较,是对新聚类形式的一个很好的继续,第二个是对 Scikit-learn 中可用的聚类技术的概述:

  聚类技术比较:简明技术概述,作者 Matthew Mayo。

  在玩具数据集中比较不同的聚类算法,Scikit-learn 文档。

  期望最大化(EM)是概率聚类算法,并因此涉及确定实例属于特定聚类的概率。EM 接近统计模型中参数的最大似然性或最大后验估计(Han、Kamber 和 Pei)。EM 过程从一组参数开始迭代直到相对于 k 聚类的聚类最大化。

  首先阅读关于 EM 算法的教程。接下来,看看相关的 Scikit-learn 文档。最后,按照教程使用 Python 自己实现 EM 聚类。

  期望最大化(EM)算法教程,作者 Elena Sharova。

  高斯混合模型,Scikit-learn 文档。

  使用 Python 构建高斯混合模型的快速介绍,作者 Tiago Ramalho。

  如果高斯混合模型初看起来令人困惑,那么来自 Scikit-learn 文档的这一相关部分应该可以减轻任何多余的担心:

  高斯混合对象实现期望最大化(EM)算法以拟合高斯模型混合。

  基于密度且具有噪声的空间聚类应用(DBSCAN)通过将密集数据点分组在一起,并将低密度数据点指定为异常值来进行操作。

  首先从 Scikit-learn 的文档中阅读并遵循 DBSCAN 的示例实现,然后按照简明的教程学习:

  DBSCAN 聚类算法演示,Scikit-learn 文档。

  基于密度的聚类算法(DBSCAN)和实现。

  第4步:更多的集成方法

  上篇只涉及一个单一的集成方法:随机森林(RF)。RF 作为一个顶级的分类器,在过去几年中取得了巨大的成功,但它肯定不是唯一的集成分类器。我们将看看包装、提升和投票。

要如何开始从零掌握Python机器学习?  机器学习 第1张

  西线学院还为大家整理了一套非常齐全的 Python学习视频课程资料,不论是兴趣爱好还是单纯的为了就业,它都是不错的选择!

评论列表暂无评论
发表评论
微信