RapidMiner Studio开放式内核已获得 AGPL许可
软件功能
1、应用与界面
RapidMinerStudio是视觉数据科学工作流程设计师,可加快模型的原型制作和验证。
易于使用的可视化环境,用于构建分析流程:
图形化设计环境使设计更好的模型变得简单快捷
带有注释的视觉表示促进了所有利益相关者之间的协作
每个分析都是一个过程,每个转换或分析步骤都是操作员,从而使设计快速,易于理解并且可完全重用
利用人群的智慧进行指导性的流程设计,即RapidMiner社区中超过200,000用户的知识和最佳实践
运营商推荐人建议下一步
参数推荐器,指示要更改的参数和值
便捷的数据探索工具集和直观的可视化
通过教程或帮助面板分享您对产品的反馈
超过1500名操作员负责数据转换和分析的所有任务
支持脚本环境(如R或Groovy)以实现最终的可扩展性
无缝访问和使用H2O,Weka和其他第三方库中的算法
与RapidMinerServer的透明集成可自动进行数据转换,模型构建,评分和与其他应用程序集成的流程
可通过开放平台API和具有附加功能的市场进行扩展
强大的全局搜索功能可在存储库中进行筛选,以快速检索所有内容,包括流程,模型,运算符,扩展甚至UI操作
2、资料存取与管理
借助RapidMinerStudio,您可以访问,加载和分析任何类型的数据-传统结构化数据和非结构化数据(如文本,图像和媒体)。它还可以从这些类型的数据中提取信息,并将非结构化数据转换为结构化数据。
通过URL访问40多种文件类型,包括SAS,ARFF,Stata
MicrosoftExcel&Access,CSV和数据库连接向导
访问NoSQL数据库MongoDB和Cassandra
写入QlikQVX或TableauTDE文件
访问Dropbox和AmazonS3等云存储
访问文本文档和网页,PDF,HTML和XML
支持所有JDBC数据库连接,包括Oracle,IBMDB2,MicrosoftSQLServer,MySQL,Postgres,Teradata,Ingres,VectorWise等
访问全文索引和搜索平台SOLR
访问Twitter和Salesforce.com
通过RapidMinerServer在本地系统或中央服务器上基于存储库的数据管理
连接到Zapier并触发Zapier任务
访问时间序列数据,音频文件,图像等
用于存储库条目的增强型数据和元数据编辑器
3、数据探索
立即了解并创建计划以准备数据,自动提取统计信息和关键信息。
描述性统计
单变量统计和图
数值属性:平均值,中位数,最小值,最大值,标准偏差和缺失值数量
标称/类别属性:类别数,计数,模式,缺失值数
日期属性:最小值,最大值,缺失值的数量
分布图
双变量统计和图:
协方差矩阵
相关矩阵
方差矩阵
分组的方差分析
过渡矩阵
过渡图
互信息矩阵
雨流矩阵
比例和非比例均值偏差图
基于与目标的多种连接类型的属性权重图
轴的简单缩放
可以轻松将图复制并粘贴到其他应用程序中,也可以以PNG,SVG,JPEG,EPS或PDF格式导出
从多种不同的配色方案中选择
图形和信息
易于配置的图表,可通过各种可视化快速生成见解
散点图,散点图矩阵
线
气泡
平行
偏差
框
3维
密度
直方图
区域
条形图,堆积条形图
饼状图
调查地块
自组织图
安德鲁斯曲线
四分位数
曲面/轮廓图,时间序列图
帕累托/提升图
支持缩放和平移
附加的高级图表引擎,用于任意定义多个图表,包括:动态分组,过滤和聚合
4、数据准备
RapidMinerStudio中丰富的数据准备功能可以应对任何现实数据转换难题,因此您可以格式化和创建用于预测分析的最佳数据集。RapidMinerStudio可以将结构化数据与非结构化数据混合,然后利用所有数据进行预测分析。可以保存任何数据准备过程以供重复使用。
基本
选择属性运算符
多个组和功能的汇总,例如总和,平均值,中位数,标准差,方差,计数,最小值,众数,最小值,最大值,乘积或对数乘积
设置运算符,例如连接,合并,追加,并集或相交
用于处理元数据(如重命名或属性角色定义)的运算符
根据范围,缺失值,错误或正确的预测或特定属性值过滤行/示例
根据距离,密度,局部离群值因素,类别离群值因素,局部相关积分或基于聚类的离群值检测来过滤离群值
识别和删除重复项
采样
基于绝对,相对或概率
均衡
分层
自举
基于模型
肯纳德·斯通
范围
转变
标准化和标准化
Z变换,范围变换,比例变换或四分位数范围
用于对测试/评分数据应用相同转换的预处理模型
利用预处理模型去归一化
重量缩放
数值属性,名义/分类属性和日期属性之间的各种类型转换
用于从现有数据集中猜测正确的元数据的运算符
调整日历日期和时间
排序和帕累托排序
改组
数据集的轮换:数据透视,去透视和转置
用于属性任意转换的表达式生成器:统计函数:圆形,最小,最大,平均值,最小值,最大值
基本功能:加法,减法,乘法,除法,小于,大于,小于或等于,大于或等于,等于,不等于,布尔非,布尔与,布尔或
对数和指数函数:自然对数,以10为底的对数,对数对数,指数,幂
三角函数:正弦,余弦,正切,反正弦,反余弦,反正切,双曲正弦,双曲余弦,双曲正切,反双曲正弦,反双曲余弦,反双曲正切
文本功能:字符串,数字,剪切,串联,替换和替换全部,下,上,索引,长度,字符在,比较,包含,等于,开头,结尾,匹配,后缀,前缀,修剪,转义的HTML
日期函数:解析,使用语言环境解析,自定义屁股,之前,之后,字符串,使用语言环境的字符串,使用自定义模式的字符串,创建当前,差异,添加,设置和获取
杂项函数:Ifthen-else,平方根,正负号,随机数,模数,总和,二项式,缺失二项式,缺失
资料分割
通过保留数据集确保高模型质量
创建培训,验证和测试数据集
如果可用,则按类别进行默认分层
用户定义的分区可能
结果示例集可用于建模或进一步的转换
装箱
通过用户规范进行交互式分箱
简单装箱
基于计数
基于大小
基于频率
基于熵的最小化诱导分区中的熵
将缺失值作为自己的组进行处理
权重和选择
属性权重
30多种加权方案,用于测量属性的影响并形成基本或基于权重的选择(过滤器方法)
属性选择
通过用户规范选择属性
删除“无用”属性
根据卡方或基于相关性的选择标准删除与目标无关的属性
基于任意权重方案(例如信息增益,Gini索引等),删除与目标无关的属性
缺少值的删除属性
选择随机属性子集
自动优化选择
进化的
向前选择
向后淘汰
体重指导
蛮力
属性空间转换
主成分分析(PCA)
奇异值分解
支持快速地图
主成分系数,特征值和特征值累积方差的图
根据相关和协方差矩阵计算特征值和特征向量
选择要保留的组件数
独立成分分析(ICA)
广义Hebbian算法(GHA)
自组织图(SOM)减少维度
对应分析
属性生成
用于生成ID,副本,合并,聚合,乘积,高斯分布等的运算符
自动优化潜在变量的生成和检测:进化加权
前向加权
向后加权
用于基于现有属性的任意功能自动创建新属性的多种算法
基因编程
5、造型
RapidMinerStudio配备了无与伦比的建模功能和机器学习算法集,可进行有监督和无监督的学习。它们灵活,健壮,可让您专注于针对任何用例构建最佳模型。
相似度计算
计算数据点之间的相似度
CrossDistances运算符计算两个数据集的数据点之间的相似度
数值距离量度
欧几里得
坎贝拉
切比雪夫
相关性
余弦
骰子
动态时间规整
内部产品
雅卡德
内核欧几里得
曼哈顿
最大产品
交叠
标称/绝对距离度量
标称
骰子
雅卡德
库尔琴斯基
罗杰斯-谷本
罗素劳
简单匹配
具有数值和名义属性的情况的混合欧几里德距离
布雷格曼分歧
板仓斋藤
Kullback-Leibler
对数损失
物流损失
马哈洛诺比斯
平方欧几里得
平方损失
聚类
用户定义的群集或自动选择最佳群集
支持向量聚类
将类编码为聚类的几种策略
k均值(用于所有可用的距离和相似性度量)
k-Medoids(适用于所有可用的距离和相似性度量)
内核k均值
X均值
蛛网
斜率
数据库扫描
期望最大化聚类
自组织图
聚集聚类
自上而下的群集
扁平化层次集群模型的运算符
基于质心的聚类模型的原型提取
市场篮分析
关联和序列发现
通过支持,置信度,LaPlace,增益,ps值,提升或信念来衡量规则的质量
交互式过滤器,用于频繁的项目集
关联规则作为网络图的交互式可视化
规则说明表
用户定义的规则过滤取决于上述标准的最小值或特定项目的匹配标准
FP-Growth运算符比以往更快(类似于Apriori,但效率更高)
广义顺序模式
模块化运算符,仅用于创建频繁项集或关联规则
后处理以统一项目集
应用关联规则以部署为推荐引擎
决策树
易于理解的模型
支持的方法:分类和回归树(CART),CHAID,决策树桩,ID3,C4.5,随机森林,装袋和增强
支持多路树
梯度增强树(GBT)
预修剪和修剪
拆分条件包括信息增益,增益比,准确性和基尼系数
基于错误和基于置信度的修剪
树叶上显示的分布
分布条的高度与每个叶子中的示例数相关
树叶上显示的多数类
类计数显示为树叶上的工具提示
连接的暗淡与该路径上的示例数相关
树木的图形和文字表示
树木的交互式可视化,包括节点的选择和移动
规则归纳
递归技术,结果易于阅读
对于建模罕见事件(例如用于子组发现)特别有用
支持的方法:规则归纳,单个规则归纳,单个属性,子组发现,树到规则
支持的拆分标准包括信息获取和准确性
规则纯正的定义
基于错误的修剪
易于阅读并将规则集表示形式解析为文本描述或表格
贝叶斯建模
朴素贝叶斯
内核朴素贝叶斯
贝叶斯模型可以更新,因此特别适合于大型数据集或在线流挖掘
回归
线性的
后勤
广义线性模型(H2O)
内核逻辑回归
线性判别分析(LDA)
二次判别分析(QDA)
正则判别分析(RDA)
逐步向前和向后选择
使用M5',t检验或迭代t检验进行选择
看似无关的回归
向量线性回归
多项式回归
局部多项式回归
高斯过程
神经网络
具有不同激活功能的灵活网络架构
具有不同数量节点的多层
不同的训练技巧
感知器
多层感知器
深度学习(H2O)
训练期间神经网络的学习率和大小调整的自动优化
支持向量机
强大且强大的建模技术,可用于大量尺寸
通过正则化提供过度拟合控制
特别适用于对非结构化信息(例如文本数据)进行建模
支持向量分类,回归和聚类的十多种方法
支持向量机
相关向量机
线性,进化,PSO,快速大幅度保证金,超超
内核函数包括点,径向基函数,多项式,神经,Anova,Epachnenikov,高斯组合或多二次
简单的支持向量机以增强支持
用于快速训练的线性时间支持向量机也适用于大量维度和示例
基于记忆的推理
k最近邻用于分类和回归
局部加权学习
通过球树数据搜索结构优化得分
模型合奏
层次模型
多个模型的组合以形成可能更强大的模型
投票
加性回归
艾达助推器
贝叶斯增强
装袋
堆码
回归分类
元成本,用于定义不同错误类型的成本并检测最佳模型以避免昂贵的错误
6、验证方式
RapidMinerStudio提供了准确而适当地估计模型性能的方法。在其他工具往往过于紧密地将建模和模型验证联系在一起的情况下,RapidMinerStudio遵循严格的模块化方法,该方法可防止在预处理步骤中使用的信息从模型训练中泄漏到模型的应用程序中。这种独特的方法是唯一的保证,不会引入过度拟合,也不会发生对预测性能的高估。
绩效标准
数字和名义/分类目标的许多性能标准,包括:
准确性
分类错误
河童
曲线下面积(AUC)
精确
召回
电梯
掉出来
F测量
误报
假阴性
真正的积极
真底片
灵敏度
特异性
尤登指数
阳性预测值
负预测值
计划
相关性
斯皮尔曼·罗
肯德尔·陶
平方相关
绝对误差
相对误差
归一化绝对误差
均方根误差(RMSE)
根相对平方误差(RRSE)
平方误差
交叉熵
余量
软保证金损失
物流损失
计算显着性测试以确定是否以及哪种模型表现更好
T检验
阿诺娃
查找阈值运算符以确定二项式类别的最佳临界点
基于距离计算,密度计算或项目分布的集群模型性能评估
验证技术
将预处理步骤嵌入到验证中
在历史记录中显示多个结果,以帮助更好地评估模型性能
评估模型性能的各种技术:交叉验证(与折叠并行执行)
分割验证
自举
批量交叉验证
包装器交叉验证
包装分割验证
视觉评估技术
提升图
ROC曲线
混淆矩阵
7、计分
无论您是在RapidMiner平台中对模型进行评分,还是在其他应用程序中使用生成的模型,RapidMinerStudio均可简化模型的应用。
将模型应用于数据集的操作员(评分)
支持预测模型,聚类模型,预处理模型,转换模型和缺失值估算模型
将模型存储在中央存储库中,以便在其他流程和项目中重用
应用模型可通过忽略未使用的属性并处理以前看不见的值来创建最佳分数
从存储库或文件导入和导出RapidMiner模型,R模型和Weka模型
支持PMML3.2和4.0
8、自动化与过程控制
与许多其他预测分析工具不同,RapidMinerStudio甚至可以覆盖最棘手的数据科学用例,而无需进行编程。除了用于准备数据和构建模型的所有强大功能之外,RapidMinerStudio还具有一组类似于实用程序的过程控制操作,可让您构建行为类似于程序的过程,以重复和循环执行任务,分支流和调用系统资源。RapidMinerStudio还支持多种脚本语言。
后台进程执行
并行执行多个流程
长时间运行的流程可以在后台运行,同时继续在前台运行其他流程,以实现更快,更有效的开发迭代。
可以监视在后台运行的进程。结果和日志一旦可用就可以进行查看。
可以配置允许同时运行的最大进程数,以适应硬件资源和正在执行的进程的需求。默认值为核心数减一。
脚本编写
在现有操作员可能不足的情况下,编写易于复杂数据准备和转换任务的脚本
结合其他流程或项目中的程序
开发定制模型
通过自定义的后处理或模型应用程序进行增强评分逻辑
易于使用的程序开发界面:通用数据结构的预定义导入
语法糖,简化了数据访问和更改
交互式代码编辑器和语法突出显示
执行命令行程序并将结果和结果代码集成到流程中
直接在数据库中执行SQL语句
将各种编程语言无缝集成到RapidMinerStudio用户界面中:在RapidMinerStudio流程中执行Groovy脚本
在RapidMinerStudio流程中执行OS脚本
在RapidMinerStudio流程中执行R脚本
在RapidMinerStudio流程中执行Python脚本
预定义的脚本模型和转换可用作运算符
定制脚本可以在流程中作为自己的运算符存储和执行
过程控制
在子流程中组织细分并在不同项目中重复使用
在流程的一部分上重复执行
支持循环
循环(基本循环,并行执行迭代)
属性(并行执行迭代)
标签
子集
值(并行执行迭代)
例子
集群
分批
数据集
数据分数
参量
文件(并行执行迭代)
储存库条目
基于以下条件的分支(if-then-else):
数据值
属性存在
例子数
绩效值
文件和过程输入的存在
宏的定义
任意表达式
创建相同类型的集合
集合处理:选择,展平或循环
记住和调用(中间)过程结果以进行复杂的过程设计
处理预期的和意外的错误和异常
自动优化
自动选择性能最佳的子流程
通过嵌套的交叉验证/其他验证来衡量预处理步骤的影响
自动选择最佳模型类型和参数
自动选择最佳属性子集
自动优化过程参数,包括建模参数
格网
二次方的
进化的
巨集
集中定义包含任意文本或数字内容的宏/变量
在过程设计中到处都使用宏,尤其是作为参数值时
宏可以在过程中或过程上下文中定义
在上下文中定义宏可以对整个过程进行参数化,例如用于将过程转换为可定制的Web服务
从数据值,元数据或统计信息中提取宏值
用于从现有宏计算任意宏值的表达式引擎
记录中
可以在进程中的任意位置引入日志记录
日志记录可以收集每个操作员的参数值,性能值或特定值,例如,进化算法的当前版本
可以记录数据值
可以记录宏值
记录值可以转换为多种格式,包括:数据集和权重,可以像存储其他任何数据集一样进行存储,转换,分析或可视化。
基于流程的报告
如果仅靠日志记录还不够,则基于过程的完整报告引擎可在静态报告中收集任意结果
支持不同的格式,例如PDF,Excel,HTML或RTF
不同的报告样式,包括顺序报告或门户
支持多达5个级别的部分
任意过程结果和中间结果都可以转换为不同类型的可视化形式,例如表格,图表等。
支持分页符和其他样式信息
与循环或其他过程控制结构结合使用,即使对于复杂的过程设计,也可以实现高度详细的结果概览