新课上线：fast.ai推出针对程序员的机器学习课程

论智 05-31 1848

前言：

此刻兄弟们对“pythonngram”大体比较关注，咱们都想要分析一些“pythonngram”的相关资讯。那么小编也在网摘上收集了一些对于“pythonngram””的相关内容，希望看官们能喜欢，小伙伴们一起来了解一下吧！

昨天，数据科学家Jeremy Howard发布了fast.ai最新的（也是最全面的）课程：Introduction to Machine Learning for Coders。这门课程在旧金山大学中录制，是数据科学研究生课程的一部分，涵盖了目前机器学习中最重要的使用基础。其中共有12节课，每节课大约2小时。课程要求你有至少一年的编程经验，以及高中数学基础。以下是论智对课程内容的大致编译：

现在网上有很多优秀的机器学习课程了，最出名的Andrew Ng的Coursera课程。但是由于课程推出的时间较早，有些过时，因为其中用到的是Matlab。而我们这次的新课程使用的是现在流行的工具和库，例如Python、pandas、scikit-learn和PyTorch。与很多领域中的教育资料不同，我们的方法是“编程为先”而不是“数学为先”。这很适合每天编写代码的人，但可能不会过多地练习数学知识（我们会在必要的时候穿插讲解数学）。更重要的是，这项课程非常“个性化”，我们并不会讲到各种类型的模型，只是关注在实践中真正有用的东西。

在课程中，我们会讲到两种主要类型的模型：基于决策树的模型（尤其是经过bagging的决策数森林），以及基于梯度下降的模型（逻辑回归和它的变体）。决策树模型搭建的结构如下图所示（实际工作中你可能会用到比这更大的树）：

Terence Parr教授和Prince Grover关于决策树可视化技术的研究，利用了他最新的a

决策树方法非常灵活易用，用bagging和boosting结合后，可以在很多实用任务上运用。但是，当它们用到训练之外的数据上时，可能有些困难，而且在图像、音频、自然语言等类型的数据上会表现得不太精确。这些问题通常都能用梯度下降的方法解决，这些会在我们课程的下半部分讲到，然后简单地讲些深度学习神经网络的知识作为结尾。（如果你曾经上过我们的Practical Deep Learning for Coders的课程，可能会觉得有些地方概念有重合，但是我们教授的方法是不同的）

你将学会如何从零开始创建完整的决策树森林，并编写自己的深度学习模型，从零开始训练。在这一过程中，你会学到很多有关数据处理、模型测试和产品开发的技巧（包括有关数据产品的道德问题）。

下面是对每节课程的简要介绍。

Lesson 1—Introduction to Random Forests

第一课将向同学们展示如何创建一个随机森林，随机森林也许是应用最广泛的机器学习模型了，其中会以Kaggle竞赛中的Bull Book for Bulldozers项目为例，用随机森林创造出解决方案，结果可以达到Kaggle排行榜的前25%。你将学到如何用Jupyter Notebook创建并分析模型，如何下载数据，以及其他可能在实践中用到的机器学习基础技巧。

Lesson 2—Random Forest Deep Dive

这节课我们将学习尺度（metrics）、损失函数和过度拟合（这可能是最重要的机器学习概念）。我们会讨论如何用验证集和测试集帮助我们衡量过度拟合。

之后，我们讲学习随机森林是如何运行的。首先，观察组成森林的每个决策树，然后学习“bagging”。之后，我们会学习一些能让随机森林更快更精确的有用的技术。

Lesson 3—Performance，Validation and Model Interpretation

这节课我们会讲到如何读取更大的数据集，这个数据集可能都无法在你机器上的RAM中读取。之后，我们还会学习如何从该数据集中创建一个随机森林。之后，还会讲到软件工程中的“profiling”的概念，学习如何加速代码，尤其是在处理大型数据集时。

接着，我们会进一步研究验证集，讲解如何创建好的验证集，之后会从新的数据集中按此标准选择好的验证集。

在这节课的后半部分，我们会讲到“模型的可解释性”——这是用模型理解数据的重要技巧。这里研究可解释性主要是看“特征重要性曲线”，这是该话题下重要的技术。

Lesson 4—Feature Importance，Tree Interpreter

这节课，我们会深入讲解特征重要性，其中会讲到如何才能让重要性曲线含有更丰富信息的多种方法，如何用它们去修整你的特征空间，以及用树状图理解特征关系。

在本节课的后半部分，我们会学到两种重要的解释技术：部分依赖图和树形解释图。

Lesson 5—Extrapolation and RF from Scratch

这节课会学习“树解释器（tree interpreter）”，包括用“瀑布图”分析输出。下一步，我们会解释外推法（extrapolation）的重要概念，这是随机森林的一个弱点，它无法预测输入数据范围之外的值。我们研究了如何能确定这一问题的方法，以及如何应对。