龙空技术网

Python机器学习入门之Python数据准备

AI人工智能知识库 746

前言:

眼前大家对“python353怎么保存”大体比较着重,大家都想要了解一些“python353怎么保存”的相关内容。那么小编也在网络上汇集了一些有关“python353怎么保存””的相关文章,希望我们能喜欢,咱们一起来学习一下吧!

这篇文章主要介绍了Python机器学习入门知识,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

多多关注博主哟~会持续分享编程干货!

目录

特征选择是困难耗时的,也需要对需求的理解和专业知识的掌握。在机器学习的应用开发中,最基础的是特征工程。

——吴恩达

1.数据预处理

数据预处理需要根据数据本身的特性进行,有缺失的要填补,有无效的要剔除,有冗余维的要删除,这些步骤都和数据本身的特性紧密相关。

1.1调整数据尺度

如果数据的各个属性按照不同的方式度量数据,那么通过调整数据的尺度让所有属性按照相同的尺度来度量,就会给机器学习的算法模型训练带来极大的方便。

在scikit-learn中,可以通过Min Max Scalar类来调整数据尺度。将不同计量单位的数据统一成相同的尺度,利于对事物的分类或分组。Min Max Scalar其实是将属性缩放到一个指定范围,或者对数据进行标准化并将数据都聚集到0附近,方差为1

[[0.353 0.744 0.59 ... 0.501 0.234 0.483]

[0.059 0.427 0.541 ... 0.396 0.117 0.167]

[0.471 0.92 0.525 ... 0.347 0.254 0.183]

...

[0.294 0.608 0.59 ... 0.39 0.071 0.15 ]

[0.059 0.633 0.492 ... 0.449 0.116 0.433]

[0.059 0.467 0.574 ... 0.453 0.101 0.033]]

1.2正态化数据

正态化数据是有效的处理符合高斯分布数据的手段,输出结果以0为中位数,方差为1。使用scikit-learn提供的Standard Scalar类来进行正态化处理。

[[ 0.64 0.848 0.15 ... 0.204 0.468 1.426]

[-0.845 -1.123 -0.161 ... -0.684 -0.365 -0.191]

[ 1.234 1.944 -0.264 ... -1.103 0.604 -0.106]

...

[ 0.343 0.003 0.15 ... -0.735 -0.685 -0.276]

[-0.845 0.16 -0.471 ... -0.24 -0.371 1.171]

[-0.845 -0.873 0.046 ... -0.202 -0.474 -0.871]]

1.3标准化数据

标准化数据是将每一行数据距离处理成1(在线性代数中矢量距离为1),又叫“归一元”处理,适合处理稀疏数据(具有很多为0的数据),归一元处理的数据对使用权重输入的神经网络和使用距离的K近邻算法的准确度的提升有显著作用

使用scikit-learn中的Normalizer类实现。

[[0.034 0.828 0.403 ... 0.188 0.004 0.28 ]

[0.008 0.716 0.556 ... 0.224 0.003 0.261]

[0.04 0.924 0.323 ... 0.118 0.003 0.162]

...

[0.027 0.651 0.388 ... 0.141 0.001 0.161]

[0.007 0.838 0.399 ... 0.2 0.002 0.313]

[0.008 0.736 0.554 ... 0.241 0.002 0.182]]

1.4二值数据

二值数据是使用值将数据转化为二值,大于阈值设置为1,小于阈值设置为0。

使用scikit-learn中的Binarizer类实现。

[[1. 1. 1. ... 1. 1. 1.]

[1. 1. 1. ... 1. 1. 1.]

[1. 1. 1. ... 1. 1. 1.]

...

[1. 1. 1. ... 1. 1. 1.]

[1. 1. 1. ... 1. 1. 1.]

[1. 1. 1. ... 1. 1. 1.]]

2.数据特征选定

在开始建立模型之前,执行特征选定有助于:降低数据的拟合度,提高算法精度,减少训练时间。

2.1单变量特征选定

统计分析可以用来分析选择对结果影响最大的数据特征。在scikit-learn中通过SelectKBest类来实现,使用一系列统计方法来选定数据特征,也是对卡方检验的实现。

卡方值越大,实际观测值与理论推断值之间越不符合;卡方值越小,实际观测值与理论推断值之间越符合;若两个值完全相等,卡方值为0。

执行后得到了卡方检验对每一个数据特征的评分,以及得分最高的四个数据特征。[ 111.52 1411.887 17.605 53.108 2175.565 127.669 5.393 181.304]

[[148. 0. 33.6 50. ]

[ 85. 0. 26.6 31. ]

[183. 0. 23.3 32. ]

...

[121. 112. 26.2 30. ]

[126. 0. 30.1 47. ]

[ 93. 0. 30.4 23. ]]

2.2递归特征消除

递归特征消除(RFE)使用一个及模型来进行多轮训练,每轮训练后消除若干权值系数的特征,再基于新的特征集进行下一轮训练。通过每一个基模型的精度,找到对最终预测结果影响最大的数据特征。

特征个数:

3

被选定的特征:

[ True False False False False True True False]

特征排名:

[1 2 4 6 5 1 1 3]

2.3数据降维

常见降维方法有PCA(主要成分分析)和LDA(线性判别分析)。在聚类算法中,通常会用PCA对数据进行降维处理,以利于对数据的简化分析和可视化。

解释方差:[0.889 0.062 0.026]

[[-2.022e-03 9.781e-02 1.609e-02 6.076e-02 9.931e-01 1.401e-02

5.372e-04 -3.565e-03]

[-2.265e-02 -9.722e-01 -1.419e-01 5.786e-02 9.463e-02 -4.697e-02

-8.168e-04 -1.402e-01]

[-2.246e-02 1.434e-01 -9.225e-01 -3.070e-01 2.098e-02 -1.324e-01

-6.400e-04 -1.255e-01]]

2.4特征重要性

使用袋装决策树算法、随机森林算法和极端随机树算法可以计算数据特征的重要性。

[0.109 0.234 0.101 0.077 0.076 0.14 0.121 0.142]

总结

本文主要讲了机器学习中的数据准备工作,包括数据预处理和数据特征选定,这些都是为了后序优化算法所做的准备工作。

到此这篇关于Python机器学习之数据准备的文章就介绍到这了,更多相关Python机器学习内容请关注博主或继续浏览下面的相关文章希望大家以后多多支持!

标签: #python353怎么保存