龙空技术网

python:数据挖掘常用工具包

开心ing 47

前言:

此时各位老铁们对“lasso算法matlab代码”大致比较着重,你们都需要知道一些“lasso算法matlab代码”的相关内容。那么小编也在网上网罗了一些对于“lasso算法matlab代码””的相关知识,希望兄弟们能喜欢,兄弟们一起来了解一下吧!

Python进行数据挖掘的常用工具包主要有:

➢ NumPy

➢ Pandas

➢ matplotlib

➢ statsmodels

➢ SciPy

➢ scikit-learn

➢ ……

NumPy(全称为Numerical Python)是Python中科学计算的基本包。

Python数据分析的绝大多数内容基于NumPy和在NumPy之上构建的库。其提供众多功能。

除了NumPy在Python中添加的快速数组处理功能之外,它在数据分析方面的主要目的之一是作为数据在算法之间传递的主要容器。

Pandas提供丰富的数据结构和功能,旨在使结构化数据快速、简单、富有表现力。它是使Python成为一个强大且高效的数据分析环境的关键因素之一。Pandas基于两种数据类型:Series与DataFrame。

➢ Series是一个一维的数据类型,其中每一个元素都有一个标签。Series类似于Numpy中元素带标签的数组。其中,标签可以是数字或者字符串。

➢ DataFrame是一个二维的表结构。Pandas的DataFrame可以存储许多种不同的数据类型,并且每一个坐标轴都有自己的标签。

matplotlib是最流行的用于生成绘图和其他2D和3D数据可视化的Python库。它最初是由John d . Hunter(JDH)创建的,现在由一个大型开发团队维护。它非常适合于创建用于发布和展示的图形。

它与IPython集成得很好,从而为绘图和探测数据提供了一个舒适的交互式环境。这些图也具有互动性;可以在plot窗口中使用工具栏来放大图的一部分。

Statsmodels是Python的统计建模和计量经济学工具包,包括一些描述统计、统计模型估计和推断。主要功能包括:

➢ Liner regression models:线性回归模型

➢ Gneralized linear models:一般线型模型

➢ Robust linear models:鲁棒线性模型

➢ Discrete choice models:离散选择模型

➢ ANOVA:方差分析模型

➢ Time series analysis:时间序列分析

➢ Nonparametric estimators:非参检验

➢ a wide range of statistical tests:各种统计检验

➢ 以各种方式输出表格:text,latex,html;读取各种格式的数据

➢ 绘图功能

SciPy 是基于Numpy构建在科学计算中处理多个不同标准问题域的包的集合。主要包括以下模块包括:

➢ scipy.integrate: 数值积分和微分方程求解器

➢ scipy.linalg: 拓展了numpy.linalg中的线性代数和矩阵分解功能

➢ scipy.optimize:函数优化器(最小化器)和根查找算法

➢ scipy.signal: 信号处理工具

➢ scipy.sparse: 系数矩阵和线性系统求解器

➢ scipy.special: 对于SPECFUN的封装, SPECFUN库实现了许多常见的数学函数

➢ scipy.stats: 标准连续和离散概率分布(密度函数,采样器,连续分布函数),各种统计检验,和更多的描述性统计

➢ scipy.weave: 使用内联c++代码来加速数组计算的工具

通过结合使用NumPy和SciPy能够实现绝大部分matlab及其工具包的功能。

scikit-learn是Python的一个开源机器学习模块,它建立在NumPy,SciPy和matplotlib模块之上,实现了大量的机器学习算法。包括:

➢ Classification:分类 - SVM, nearest neighbors, random forest, logistic regression,etc.

➢ Regression:回归 - Lasso, ridge regression, etc.

➢ Clustering:聚类 - k -means, spectral clustering, etc.

➢ Dimensionality reduction:降维 - PCA, feature selection, matrix factorization, etc.

➢ Model selection:模型选择 - Grid search, cross-validation, metrics

➢ Preprocessing:预处理 - Feature extraction, normalization

标签: #lasso算法matlab代码