龙空技术网

机器学习中的数据预处理步骤

不止于编程 1032

前言:

此时你们对“数据导入与预处理”都比较关注,我们都想要了解一些“数据导入与预处理”的相关内容。那么小编也在网络上汇集了一些关于“数据导入与预处理””的相关文章,希望小伙伴们能喜欢,看官们一起来学习一下吧!

步骤1: 导入所需的库

这两个库是我们每次都会导入的基本库:

numpy 是一个包含数学函数的库。pandas 是用于导入和管理数据集的库。步骤2:导入数据集

数据集通常以 .csv 格式提供。csv文件以纯文本形式存储表格数据。文件的每一行都是一个数据记录。我们使用 pandas 库的 read_csv 方法将本地 csv 文件作为 DataFrame 类型读取。然后从 DataFrame 中分离出独立变量(X)和因变量(Y)的矩阵和向量。

步骤3:处理缺失值

我们得到的数据很少是完整的。由于各种原因,数据可能会丢失,需要处理这些数据,这样就不会降低机器学习模型的性能。我们可以用整个列的均值或中值来替换缺失的数据。我们使用 sklearn.preprocessing 中的 Imputer 类来处理这个问题。

步骤4:分类数据编码

分类数据是包含标签值而不是数值的变量。可能值的数量通常局限于一个固定的集合,例如“Yes”和“No”这样的示例值不能用于模型的数学方程中,因此我们需要将这些变量编码为数字。为此,我们可以从 sklearn.preprocessing 库中导入 LabelEncoder、OneHotEncoder 类来处理这个问题。

创建虚拟变量

这里要注意的是,要避免虚拟变量陷阱,这个以后再谈,这里主要要知道数据预处理基本步骤。

步骤5:将数据集划分为训练集和测试集

我们将数据集分为两部分,一部分用于训练模型(称为训练集),另一部分用于测试训练模型(称为测试集)的性能。通常比例为80/20。为完成这个步骤我可以从sklean.model_selection 库中导入 train_test_split() 方法来处理。

步骤6:特征缩放

大部分模型算法使用两点间的欧式距离表示,但此特征在幅度、单位和范围姿态问题上变化很大。在距离计算中,高幅度的特征比低幅度特征权重更大。可用特征标准化或Z值归一化解决。导入 sklearn.preprocessing 库的 StandardScaler 类。

总结1、导入所需库2、导入数据集3、处理缺失值4、分类数据编码5、将数据集划分为训练集和测试集6、特征缩放

标签: #数据导入与预处理