龙空技术网

机器学习及其分类——概述

天空不曾留下鸟的痕迹 103

前言:

如今朋友们对“常用机器算法”都比较重视,大家都需要分析一些“常用机器算法”的相关内容。那么小编在网络上汇集了一些对于“常用机器算法””的相关内容,希望各位老铁们能喜欢,小伙伴们快快来学习一下吧!

机器学习(Machine Learning)

近年来,伴随着AlphaGo在人机对决的胜利,无人驾驶汽车的出现,语音识别,图像识别等领域的突破, 使得机器学习在人工智能的发展中备受瞩目。关于什么是机器学习,有很多种定义。简单地说,机器学习就是让机器从数据集中训练出模型,并利用模型对未知的数据进行分析预测。机器学习也是继专家系统之后人工智能应用的又一重要研究领域。

工作流程 (Workflow)

图片来源:

Data Processing(数据处理)

在数据的处理阶段,收集充足的数据并建立有效的数据集是接下来训练模型的必要前提和基础。例如需要对数据中的缺失值处理,去除异常值等。同时,还要对数据集进行有效的划分为训练集合,验证集合和测试集合。

Modelling (建模)

在开发训练模型阶段,通过选择算法,不断地进行参数调优,对数据集进行识别分析及探索数据间的隐含关系,从而训练出模型。使用验证数据集进行校验,从而不断的优化模型。

Deployment (部署)

在输出阶段,利用优化好的模型,对未知的数据进行分析预测。

机器学习算法分类

按照学习的方式分类, 机器学习的算法可以分成如下四类:

有监督学习 (Supervised Learning)

从给定的训练数据集中学习出一个模型,当新的数据输入时,可以根据这个模型预测结果。在监督学习中训练数据既有特征(feature)有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。常见的监督学习算法包括回归(regression)—— 预测输出是的连续值,例如根据样本值拟合出一条连续的房价预测曲线。分类(classification)—— 预测输出的是有限个离散值,例如根据肿瘤特征判断良性还是恶性。此外,还包括决策树、贝叶斯分类、最小二乘回归、逻辑回归、支持向量机、神经网络等。

无监督学习 (Unsupervised Learning)

与监督学习的区别是不知道数据集中数据、特征之间的关系, 目标是通过对无标记训练样本的学习来揭示数据的内在性质和规律, 为进一步数据分析提供基础。常见算法有聚类(clustering)—— 试图使类内差距最小化,类间差距最大化。例如网站有大量的购物访客的数据,包括·购买次数、平均客单价、购物时长、购物种类、数量等,可以通过聚类算法,自动的把这些人分成几个类别,分类后,可以进一步人工的把这些分类标记,如企业客户、家庭主妇等。此外,还包括降维,关联规则学习等。

半监督学习 (Semi-supervised Learning)

半监督学习可以处理部分标记的训练数据,通常是大量未标记的数据和少量标记的数据,即让学习者不依赖外界交互、自动的利用未标记的样本来提升学习性能。例如,在线相册可以指定识别同一个人的照片(无监督学习),当你把这些同一个人增加一个标签的后,新的有同一个人的照片就自动帮你加上标签了。

半监督学习是归纳式的,生成的模型可用做更广泛的样本。其常用算法包括图论推理算法、拉普拉斯支持向量机等。

强化学习 (Reinforcement Learning)

强化学习即让机器在环境中不断的尝试而学得一个新的“策略”(policy),根据这个策略,在某个状态下就得知要执行的动作。它必须自行学习什么是最好的策略,从而随着时间推移获得最大的回报。例如,许多机器人通过强化学习算法来学习如何行走。AlphaGo项目也是一个强化学习的好例子。

输入数据作为对模型的反馈,强调如何基于环境而行动,以取得最大化的预期利益。与监督式学习之间的区别在于,它并不需要出现正确的输入 / 输出对,也不需要精确校正次优化的行为。强化学习更加专注于在线规划,需要在探索(在未知的领域)和遵从(现有知识)之间找到平衡。

标签: #常用机器算法