逻辑回归是一种使用Python的简化方法

AI中国 08-18 163

前言：

当前大家对“python中逻辑回归”都比较关心，小伙伴们都需要剖析一些“python中逻辑回归”的相关知识。那么小编在网摘上网罗了一些对于“python中逻辑回归””的相关资讯，希望咱们能喜欢，咱们快快来了解一下吧！

点击上方关注，All in AI中国

作者：Surya Remanan

逻辑回归的目标是什么？

在逻辑回归中，我们希望根据一个或多个自变量（X）对因变量（Y）进行建模。这是一种分类方法。此算法用于分类的因变量。Y使用一个函数建模，该函数为X的所有值提供0到1之间的输出。在逻辑回归中，使用Sigmoid（aka Logistic）函数。

使用混淆矩阵进行模型评估

在针对某些训练数据训练逻辑回归模型之后，我们将评估模型在某些测试数据上的性能。为此，我们使用混淆矩阵（Confusion Matrix）。混淆矩阵是一个表，通常用于描述分类模型在一组已知真实值的测试数据上的性能。下面给出的是混淆矩阵。

TP代表真正例（True Positive），即我们预测为"是（yes）"且实际值为"真（true）"的情况。TN代表真负例（True Negative），即我们预测为"否（no）"且实际值为"假（false）"的情况。FP代表假正例（False Positive），这是我们预测为"是（yes）"，实际值为"假（false）"的情况。FN代表假负例（False Negative），这是案例我们预测为"否（no）"，实际值是"真（true）"的情况。

我们从混淆矩阵中推断出什么？

混淆矩阵有助于我们确定模型预测是正确的，或者换句话说，模型的准确性。通过上面的表格，它给出：

(TP+TN )/Total = 100+50/165 =0.91

这意味着该模型的正确度为91％。混淆矩阵还用于测量错误率，该错误率由下式给出：

(FP+ FN)/Total=15/165 = 0.09

模型中有9％的错误。

在本文中，我们将在python中处理非常简单的步骤来模拟逻辑回归。

Python代码详细解释

我们将观察数据、分析数据，将其可视化，清理数据，构建逻辑回归模型，分成训练和测试数据，进行预测并最终评估。所有这些都将一步一步完成，我们将要处理的数据是kaggle.com提供的"泰坦尼克号数据集"。这是一个非常著名的数据集，通常是学生基于分类学习机器学习的第一步。我们正在尝试预测分类：生存或死亡

首先，我们将导入numpy和pandas库：

我们来进行可视化导入：

我们将继续将泰坦尼克号数据集导入pandas数据帧。之后，我们将检查数据框的头部，以便清楚地了解数据框中的所有列。