第三课：RapidMiner软件使用简介

不想编程的数据挖掘er 07-11 254

前言：

现在兄弟们对“rapidminer算子”大致比较珍视，姐妹们都需要了解一些“rapidminer算子”的相关文章。那么小编在网上汇集了一些有关“rapidminer算子””的相关知识，希望姐妹们能喜欢，你们一起来了解一下吧！

回顾

上节课我们了解了RapidMiner软件的特点以及软件安装，本节课一起来学习一下软件的基础操作。

软件界面介绍

图1.软件默认界面

软件默认界面分为：快捷命令、文件库、算子库、快捷导航面板、流程界面、参数设置区域、帮助&功能介绍模块。我们来详细认识一下这些模块：

1.快捷命令

图2.快捷命令

快捷命令包含了多个子菜单，file为文件处理，edit是流程编辑，process是对流程进行操作，view是修改软件界面显示，connections为数据库连接以及云数据库链接管理，setting是对软件的一些常规设置，extensions是对拓展库进行管理，最后一个help则是软件的帮助以及教程之类的。

2.文件库

图2.文件库

软件在安装完成之后会生成一个本地文件库，这个文件库中包含了软件自学的源文件、软件自带的样例、软件社区案例、拓展模块的案例、以及数据库链接等。在这里需要注意一点，社区案例(Community Sample)保存在云服务器上，因此如果要想借鉴里面的文件需要连接到互联网。

3.算子库

图3.算字库

算子是软件的核心，这些形形色色的算子经过合理的搭配就可以完成一项复杂的建模工作。软件自带的算子有1500个，我们还可以通过拓展库增加新的算子。软件对这些算子进行了分类，其中包括：

data access：数据获取blending：数据调和cleansing：数据清洗modeling：数据建模scoring：模型评价validation：模型验证utility：公用/多用途算子extension：软件拓展

4.快捷导航

图4.快捷导航

快捷导航面板能让你快速在多个视图之间切换。通常我们在Design视图下进行建模，在results视图下观察建模结果。如果你的是正式版或者学生版的话，你可以激活Turbo prep视图，在这个视图下，你可以快速的可视化了解数据结构，方便后续建模。同样的，Auto model也是正式版才有的，你可以使用软件提空的自动建模过程，通过简单的点击几下鼠标就可以完成数据建模的工作。Hadoop data是一个分布式集群计算的概念，这部分我们一般用不到暂时不多做详解。

图5.auto model视图界面

5.流程界面

图6.数据建模流程

通过将算子和数据分别从算字库和文件库拖拽出来，点击端点进行连接，我们可以得到如图所示的流程。该流程是一个多项式拟合的数据处理流程，具体建模思路我们留到后续多项式建模课程讲解。

6.参数设置区域

图7.参数设置界面

虽然RapidMiner软件是一款非编程数据挖掘软件，但他的算子参数设置项很多，完全保留了模型的灵活性。对于新手而言，你大可关闭高级参数，或者让其保持默认，对于建模高手而言，如果你对算法了如指掌，这些高级参数能大大加快你的建模进度。

7.帮助&功能介绍模块

图8.帮助模块

在帮助模块内，你可以了解每一个算子的使用说明，包括其进出断点的数据类型以及算子涉及到参数的释义等。对于一些常见的算子而言，RapidMiner为其专门制作了新手示例，用户可以打开示例进行查看学习。

本节课就先到这里啦～

下节预告