机器学习是什么？这一次终于讲明白了..._linux系统

作者：Daniel Faggella

编译 | CDA数据分析师

What is Machine Learning?

在谷歌搜索中输入“什么是机器学习？”打开了一个潘多拉的论坛，学术研究和这里说的 - 本文的目的是简化机器学习的定义和理解，这要归功于我们的机器学习研究小组。

除了机器学习（ML）的知情，工作定义之外，我们还旨在简要概述机器学习的基本原理，让机器“思考”的挑战和局限性，以及今天深入解决的一些问题学习（机器学习的“前沿”），以及开发机器学习应用程序的关键要点。

我们将这个资源放在一起，以帮助您解决有关机器学习的任何好奇心 - 所以滚动到您感兴趣的部分，或者随意阅读文章，从下面的机器学习定义开始：

什么是机器学习？

“机器学习是让计算机像人类一样学习和行动的科学，通过以观察和现实世界互动的形式向他们提供数据和信息，以自主的方式改善他们的学习。”

上述定义包含了机器学习的理想目标或最终目标，正如该领域的许多研究人员所表达的那样。本文的目的是为具有商业头脑的读者提供有关如何定义机器学习及其工作原理的专家观点。机器学习和人工智能在许多人的脑海中具有相同的定义，但读者也应该认识到一些明显的差异。本文末尾包含参考文献和相关研究人员的访谈，以便进一步挖掘。

我们如何到达我们的定义：

（我们的聚合机器学习定义可以在本文开头找到）

与任何概念一样，机器学习的定义可能略有不同，具体取决于您的要求。我们梳理互联网，从信誉良好的资源中找到五个实用的定义：

“最基本的机器学习是使用算法解析数据，从中学习，然后对世界上某事做出决定或预测的做法。” - Nvidia “机器学习是让计算机在没有明确编程的情况下采取行动的科学。” - 斯坦福“机器学习基于可以从数据中学习而不依赖于基于规则的编程的算法。” - 麦肯锡公司“机器学习算法可以通过推广实例来弄清楚如何执行重要任务。” - 华盛顿大学“机器学习领域旨在回答这样一个问题：”我们如何建立能够根据经验自动改进的计算机系统，以及管理所有学习过程的基本法则是什么？“ - 卡内基梅隆大学我们将这些定义发送给我们采访过和/或包含在我们之前的研究共识中的专家，并要求他们回答他们最喜欢的定义或提供他们自己的定义。我们的介绍性定义旨在反映不同的反应。以下是他们的一些回复：

蒙特利尔大学Yoshua Bengio博士：

ML不应由否定定义（因此裁定2和3）。这是我的定义：

机器学习研究是人工智能研究的一部分，旨在通过数据，观察和与世界的互动为计算机提供知识。获得的知识允许计算机正确地推广到新设置。

Danko Nikolic博士，CSC和Max-Planck研究所：

（编辑上面的数字2）：“机器学习是让计算机在没有明确编程的情况下采取行动的科学，而是让他们自己学习一些技巧。”

路易斯维尔大学Roman Yampolskiy博士：

机器学习是让计算机学习和人类做得更好或更好的科学。

华盛顿大学Emily Fox博士：

我最喜欢的定义是5

机器学习基本概念

有许多不同类型的机器学习算法，每天发布数百种，并且它们通常按学习风格（即监督学习，无监督学习，半监督学习）或通过形式或功能的相似性（即分类，回归，决策树，聚类，深度学习等）。无论学习风格或功能如何，机器学习算法的所有组合都包含以下内容：

表示（一组分类器或计算机理解的语言）评估（又名客观/评分功能）优化（搜索方法;通常是评分最高的分类器;使用现成的和自定义的优化方法）

机器学习算法的基本目标是概括超出训练样本，即成功解释之前从未“见过”的数据。

机器学习模型的可视化表示

到目前为止，概念和要点只能用于理解。当人们问“什么是机器学习？”时，他们经常想看看它是什么以及它做了什么。以下是机器学习模型的一些可视化表示，以及附带的链接以获取更多信息。

决策树模型：

高斯混合模型：

神经网络：

使用卷积神经网络合并色度和亮度：

我们如何让机器去学习？

有许多不同的方法让机器学习，从使用基本决策树到聚类到人工神经网络层（后者已经让位于深度学习），取决于你要完成的任务和类型以及您可用的数据量。这种动态在各种应用中发挥作用，如医疗诊断或自动驾驶汽车。

虽然重点通常放在选择最佳学习算法上，但研究人员发现，一些最有趣的问题都源于可用的机器学习算法。大多数情况下，这是训练数据的问题，但在新域中使用机器学习时也会出现这种情况。

在处理实际应用程序时所做的研究通常会推动该领域的进展，原因有两个：1。发现现有方法的界限和局限性的趋势2.研究人员和开发人员与领域专家合作，利用时间和专业知识来提高系统性能。

有时这也是由“意外”发生的。我们可能会考虑模型集合或许多学习算法的组合来提高准确性，这是一个例子。竞争2009 Netflix Price的团队发现，当他们将学习者与其他团队的学习者结合起来时，他们取得了最好的成绩，从而改进了推荐算法（请阅读Netflix的博客，了解他们最终未使用此合奏的原因）。

在业务和其他领域的应用方面，一个重要的观点（基于对该领域专家的访谈和对话）是机器学习不仅仅是，甚至是自动化，这是一个经常被误解的概念。如果你这样想，你一定会错过机器可以提供的宝贵见解和由此产生的机会（重新思考整个商业模式，例如制造业和农业等行业）。

学习的机器对人类有用，因为它们具有所有处理能力，能够更快地突出显示或找到人类可能错过的大（或其他）数据中的模式。机器学习是一种工具，可用于增强人类解决问题的能力，并从广泛的问题中做出明智的推断，从帮助诊断疾病到提出全球气候变化的解决方案。

挑战与局限

“机器学习无法从无到有......它的作用是从更少的东西中获得更多。” - 华盛顿大学Pedro Domingo博士

机器学习中两个最大的，历史性的（和持续的）问题涉及过度拟合（其中模型表现出对训练数据的偏见，并且不会推广到新数据，和/或变化，即在训练新数据时学习随机事物）和维度（具有更多特征的算法在更高/更多维度上工作，使得理解数据更加困难）。在某些情况下，访问足够大的数据集也是主要问题。

机器学习初学者中最常见的错误之一是成功地测试训练数据并具有成功的假象; Domingo（和其他人）强调在测试模型时保持一些数据集是分开的重要性，并且仅使用该保留数据来测试所选模型，然后学习整个数据集。

当学习算法（即学习者）不起作用时，通常更快的成功之路是为机器提供更多数据，其可用性现已成为近期机器和深度学习算法进步的主要驱动因素。年份; 然而，这可能导致可扩展性问题，我们有更多的数据，但有时间了解数据仍然是一个问题。

就目的而言，机器学习本身并不是目的或解决方案。此外，尝试将其用作一揽子解决方案即“BLANK”并不是一项有用的练习; 相反，带着问题或目标来到桌面通常最好由一个更具体的问题驱动 - “BLANK”。

深度学习与神经网络的现代发展

深度学习涉及机器算法的研究和设计，用于在多个抽象级别（安排计算机系统的方式）学习数据的良好表示。最近通过DeepMind，Facebook和其他机构进行深度学习的宣传突显了它作为机器学习的“下一个前沿”。

该机器学习国际会议（ICML）被广泛认为是世界上最重要的项目之一。今年6月在纽约市举行，汇集了来自世界各地的研究人员，他们致力于解决当前深度学习中的挑战：

小数据集中的无监督学习基于模拟的学习和对现实世界的可转移性深度学习系统在过去十年中在诸如对象检测和识别，文本到语音，信息检索等领域取得了巨大的进步。研究现在专注于开发数据高效的机器学习，即深度学习系统，可以在更少的时间和更少的数据中以更高的效率学习，在个性化医疗保健，机器人强化学习，情感分析等前沿领域，其他。

应用机器学习的关键要点

下面是一系列应用机器学习的最佳实践和概念，我们已经从我们对播客系列的采访以及本文末尾引用的选择来源进行了整理。我们希望这些原则中的一些将阐明如何使用ML，以及如何避免公司和研究人员在启动ML相关项目时可能容易受到的一些常见陷阱。

可以说，在成功的机器学习项目中最重要的因素是功能用来描述数据（这是特定于域），并具有足够的数据来训练你的模型摆在首位大多数情况下，当算法表现不佳时，这是由于训练数据存在问题（即数据量不足/数据偏差;数据噪声较大;或者描述数据的功能不足以做出决策 “简单并不意味着准确性” - 根据多明戈的说法，模型的参数数量和过度倾向之间没有给定的联系如果可能的话，应该获得实验数据（而不是我们无法控制的观察数据）（例如，从发送电子邮件的不同变体到随机观众抽样的数据）无论我们是否标记数据因果关系或相关性，更重要的是预测我们行为的影响始终留出一部分训练数据集进行交叉验证; 您希望您选择的分类器或学习算法在新数据上表现良好