龙空技术网

大数据概念及常用算法介绍

温馨147932519 305

前言:

当前看官们对“hadoopknn算法”大体比较关切,咱们都想要学习一些“hadoopknn算法”的相关知识。那么小编同时在网络上网罗了一些关于“hadoopknn算法””的相关资讯,希望我们能喜欢,小伙伴们快快来了解一下吧!

01.大数据的一些概念

大数据:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

日常使用大数据的一些平台有hadoop 和Microsoft Azure,也有一些数据库软件平台,如:ORACLE (甲骨文)和SQL Server等。

日常的大数据应用主要有:SQL查询和传统报表分析。一些技术应用包括:数据挖掘,机器学习,深度学习,人工智能等。

人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括语音识别、图像识别、机器人、自然语言处理、智能搜索和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也有可能超过人的智能。

数据挖掘(Data Mining),顾名思义就是从海量数据中“挖掘”隐藏信息,按照教科书的说法,这里的数据是“大量的、不完全的、有噪声的、模糊的、随机的实际应用数据”,信息指的是“隐含的、规律性的、人们事先未知的、但又是潜在有用的并且最终可理解的信息和知识”。在商业环境中,企业希望让存放在数据库中的数据能“说话”,支持决策。所以,数据挖掘更偏向应用。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

机器学习(Machine Learning)是指用某些算法指导计算机利用已知数据得出适当的模型,并利用此模型对新的情境给出判断的过程。机器学习的思想并不复杂,它仅仅是对人类生活中学习过程的一个模拟。而在这整个过程中,最关键的是数据。任何通过数据训练的学习算法的相关研究都属于机器学习,包括很多已经发展多年的技术,比如线性回归(Linear Regression)、K均值(K-means,基于原型的目标函数聚类方法)、决策树(Decision Trees,运用概率分析的一种图解法)、随机森林(Random Forest,运用概率分析的一种图解法)、PCA(Principal Component Analysis,主成分分析)、SVM(Support Vector Machine,支持向量机)以及ANN(Artificial Neural Networks,人工神经网络)。

深度学习(Deep Learning)的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。

机器学习人工智能的一种实现方式,深度学习机器学习的一种研究方向

数据挖掘主要利用机器学习提供的技术来分析海量数据,利用数据库的技术来管理海量数据

02.常用算法介绍

单个样本

我们可以根据单独样本,描述一个样本特征的向量。以此类推,针对多个群体,就会得出一个样本集。

小明:【180,80,59,87,70,120,4.72,5】

小李:【162,75,58,80,80,160,6.1,5.9】

...........

然后我们进行向量距离计算,

计算公式有欧式距离,曼哈顿距离,切比雪夫距离,马氏距离......

这里我们以欧式距离为例。

欧式距离 :欧几里得度量(educlidean metric),指在m维空间中两点之间的真实距离,或者向量的自然长度,即该点到原点的距离。

X=[180,80,59,87,70,120,4.72,5]

Y=[162,75,58,80,80,160,6.1,5.9]

D(x,y)

通过上式,我们就可以算出具体数值。

接下来介绍三个概念:聚类、分类 、线性回归。

聚类(无监督):将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。

简而言之:面对一堆样本,不知道可以有几个类,也不知道每个类是什么,需要跑出结果后,总结每个类的特征。

A

C

聚类-Kmeans

1、在A中,2个红色的点分别代表深浅两种颜色的样本点所在各自群的中心点。

2、不考虑现在分群情况,分别计算各个样本点到2个红色中心点的距离,将距离相似的样本点形成一个新群;如B所示

3、计算C中2个新群的中心点(图中红色的点)。

4、如果C中新的中心点与之前A中的中心点相比较变化极小,则迭代结束;否则返回第1步。

分类(有监督):明确知道要分几类。由带标签的训练集“教”会计算机什么样的样本属于什么类,然后输入不带标签的“测试集”测试“教育成果”。

分类算法示意图

分类-KNN(K近邻)

所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。俗话说:近朱者赤近墨者黑。

KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。

K值若较小,这里取内圈,红色三角占2/3,则绿色的未知物被判断为红色三角;

K值若较大,这里取外圈,蓝色方块占3/5,则绿色未知物被判断为蓝色方块。

模型评价指标:准确率,精度,F值

查准率(Precision)=(检索出的相关信息量/检索出的信息总量)*100%

查全率(Recall)=(检索出的相关信息量/系统中的相关信息总量)*100%

F值=((2*P*R)/(P+R)) *100%

线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。

线性回归方程示意图

标签: #hadoopknn算法