数据挖掘丨轻松应用RapidMiner机器学习内置数据分析案例模板详解(下篇)
RapidMiner 案例模板
RapidMiner 机器学习平台提供了一个可视化的操作界面,允许用户通过拖放的方式构建数据分析流程。RapidMiner目前内置了 13 种案例模板,这些模板是预定义的数据分析流程,可以帮助用户快速启动和执行常见的数据分析任务。
上期文中我们给大家介绍了6种案例模板,包括客户流失分析、精准营销、信用风险、购物篮分析、预测性维护、价格风险聚类。大家可在文末回顾上期文章~
在本期文章中,我们将继续给介绍其余7种案例模板:提升图、流程自动化、异常值检测、地理距离计算、情感分析、医疗欺诈检测、网页分析。
案例模板界面
*如内置模板不能满足用户的场景,用户也可以使用模型流程设计器构建自己的模型流程。
1、提升图案例模板
创建提升图能够评估识别具有较高流失概率、响应的营销活动或转化为产品用户的群体的能力。
步骤1:
加载包含客户数据和感兴趣的目标变量的数据——这里指的是:客户流失。
步骤2:
将数据分割为训练集和测试集(保留集)。在训练集上训练一个预测模型,并将模型应用于测试集。
步骤3:
创建提升图。
2、流程自动化案例模板
将预测分析嵌入到业务流程中:当条件满足时,自动执行预测结果并触发动作。
步骤1:
从各种来源读取数据(可以是数据库、文件、Hive等...)。
步骤2:
编辑、转换和加载(ETL)- 数据根据需要进行准备和组合。
步骤3:
在其他地方预训练好的模型被读取。
步骤4:
将模型应用于数据,以发现谁是未来的客户,然后计算并监控性能。现在怎么办?如果性能低于阈值,我们必须做出反应!双击操作符以查看更多。
这个分支操作符检查是否满足某个特定条件 - 在这里:如果性能高于/低于某个特定阈值。在构建和监控模型时,适应检查任何条件。
3、异常值检测案例模板
异常检测技术通过葡萄酒化学成分数据分析,首先对数据进行标准化处理,以便比较不同属性,然后识别数据集群和局部离群因子来检测异常。
步骤1:
加载数据并准备进行分析。在比较不同性质的属性时,对数据进行标准化是一个典型的步骤。在这种情况下,我们使用Z变换作为方法,以确保典型的偏差相等,这样在问题的各个维度中,异常值都有明确的含义。数据集显示了具有各种化学成分的葡萄酒。
步骤2:
我们对数据应用聚类操作符,以在葡萄酒列表中找到一致的组。然后我们使用LOF(局部异常因子)机制来找到“异常值评分”。
步骤3:
我们通过应用反向标准化模型来对数据进行去标准化,从而获得原始数据。然后我们过滤示例,以获得一个包含异常值的数据集和另一个包含其余数据的数据集,使用“异常值=1.5”作为阈值。
4、地理距离计算案例模板
通过使用“1NN”模型,并将其应用于客户位置,计算给定客户位置最近的天线。
步骤1:
获取包含天线位置的数据集。通过选择适当的属性并指明模型的目标:找到CellId,这将是模型的标签,来执行一些简单的ETL操作。
步骤2:
使用数据集训练一个k-最近邻(k-NN)模型(k=1)。它将帮助我们找到最近的天线。
步骤3:
获取客户的相关数据。该过程的目标是为每个客户找到最近的天线。
步骤4:
应用1-最近邻(1-NN)模型来为每个客户的地理位置找到最近的天线(CellId)。
5、情感分析案例模板
使用用户评论数据上训练的分类模型来检测文本中的情感。
步骤1:导入带有相关情感评估的文本数据。它被处理以提取单词,并生成词向量(文本的数值表示)。
步骤2:训练一个支持向量机(SVM)模型,并对其进行验证以收集性能数据。
步骤3:从文本创建一个新文档(添加你自己的文本并尝试),然后像处理初始文档一样处理它。初始单词列表是额外的输入。
步骤4:用旧文本训练的模型应用于新文档。
6、医疗欺诈检测案例模板案例模板
医疗欺诈检测通过训练并应用梯度提升树模型,基于患者信息来检测医疗欺诈。模型通过验证来检查性能。
步骤1:
从患者那里获取医疗数据,以及有关潜在欺诈行为的过去信息。为了将这些数据输入GBT算法,数据被转换为数字。
步骤2:
我们有很多属性,但有些属性是相关的(例如,总额与部分计数相比)。我们自动移除相关性高于95%的属性。
步骤3:
使用GBT算法推断欺诈行为。对模型进行验证以检查性能并避免统计偏差。在验证的训练部分,平衡数据以帮助模型检测不寻常的欺诈案例。
7、网页分析案例模板
通过应用广义线性模型,根据用户在网站上的页面访问情况,将用户评分为高价值/低价值。
步骤1:
我们检索网页数据,设置我们想要预测的属性(高价值/低价值),最后我们移除那些高度相关的属性,因此,它们不提供额外的信息。
步骤2:
复制数据并以两种方式进行分析。
步骤3:
使用H2O的广义线性模型来训练模型并验证预测。数据事先进行了平衡,以帮助模型检测较少出现的“高价值”案例。
步骤4:
计算相关性权重,以检测最相关的属性。
若您对数据分析以及人工智能感兴趣,欢迎与我们一起站在全球视野关注人工智能的发展,与Forrester 、德勤、麦肯锡等全球知名企业共探AI如何加速制造进程,
共同参与6月20日由Altair主办的面向工程师的全球线上人工智能会议“AI for Engineers”。
点击立即免费报名
(注:现在注册参会,即可于会后第一时间获得Altair全球100个客户案例资料)
关于 Altair RapidMiner
Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。
欲了解更多信息,欢迎访问:www.altair.com.cn
相关文章:

数据挖掘丨轻松应用RapidMiner机器学习内置数据分析案例模板详解(下篇)
RapidMiner 案例模板 RapidMiner 机器学习平台提供了一个可视化的操作界面,允许用户通过拖放的方式构建数据分析流程。RapidMiner目前内置了 13 种案例模板,这些模板是预定义的数据分析流程,可以帮助用户快速启动和执行常见的数据分析任务。 …...

时代巨兽!深度神经网络如何改变我们的世界?
深度神经网络 1、 简介1.1 定义深度神经网络1.2 深度学习的发展历程1.3 深度神经网络的应用领域 2、深度神经网络的基本原理2.1 神经元层2.1.1 神经元2.1.2 神经元层 2.2 前向传播2.3 反向传播2.4 激活函数2.4.1、作用2.4.2、常见激活函数2.4.3、选择激活函数的考虑 2.5 损失函…...

LVS+Keepalived高可用负载均衡群集
目录 一.高可用群集相关概述 1.高可用(HA)群集与普通群集的比较 普通群集 高可用群集(HA) 两者比较 2.Keepalived高可用方案 3.Keepalived的体系模块及其作用 4.Keepalived实现原理 二.LVSKeepAlived高可用负载均衡集群的…...

【MySQL】MySQL45讲-读书笔记
1、基础架构:一条SQL查询语句是如何执行的? 1.1 连接器 连接器负责跟客户端建立连接、获取权限、维持和管理连接。 mysql -h$ip -P$port -u$user -p输完命令之后,输入密码。 1.2 查询缓存 MySQL 拿到一个查询请求后,会先到查询缓…...

python:faces swap
# encoding: utf-8 # 版权所有 2024 ©涂聚文有限公司 # 许可信息查看: 两个头像图片之间换脸 # 描述: https://stackoverflow.com/questions/902761/saving-a-numpy-array-as-an-image?answertabvotes # Author : geovindu,Geovin Du 涂聚文. #…...

Android开发之音乐播放器添加排行需求
Music统计功能需求 1.记录歌曲名称与次数(歌曲播放结束算一次),根据播放次数制作一个排行列表;(开始说要记录歌手,后面debug发现这个字段没有,暂时不记录) 2.记录播放歌曲的时长,时间累加;&…...

latex 方括号编号
最近在做简历,需要列出发表的论文。 论文编号一般是采用[1]这种样式,但是找了几个简历模板里头没有直接包含这种编号样式。 我只好求助网络。 在CSDN上找了一圈,这篇博客给了一个思路:在\begin{enumerate}后面添加对应的样式即…...

Vue CLI 4与项目构建实战指南
title: Vue CLI 4与项目构建实战指南 date: 2024/6/9 updated: 2024/6/9 excerpt: 这篇文章介绍了如何使用Vue CLI优化项目构建配置,提高开发效率,涉及配置管理、项目部署策略、插件系统定制以及Webpack和TypeScript的深度集成技巧。 categories: 前端…...
深入解析Web通信 HTTP、HTTPS 和 WebSocket
在现代Web开发中,了解和掌握HTTP、HTTPS以及WebSocket协议是非常重要的。这些协议是实现Web应用程序之间通信的基石。本文将详细介绍这三种协议,包括它们的基本概念、工作原理、优缺点以及适用场景。通过深入解析它们的特点和应用,帮助读者更好地理解和使用这些协议。 一、…...

FISCO BCOS x GitLink,为国产开源技术生态注入新活力
作为中国领先的区块链底层平台之一,FISCO BCOS 自成立以来始终致力于推动国产开源区块链技术的应用和普及。近期,FISCO BCOS 将开源代码托管到CCF官方代码托管平台 GitLink (确实开源),为国产开源技术生态注入新活力。…...

Linux crontabs定时执行任务
文章目录 前言一、安装二、服务1. 启动crond服务2. 关闭crond服务3. 重启crond服务4. 设置crond开机启动5. 禁用crond开机启动6. 查看crond是否开机启动7. 重新载入配置8. 查看crond运行状态 三、使用1. 查看当前用户的crontab2. 编辑用户的crontab3. 删除用户的crontab的内容 …...

QNX简述
文章目录 前言1. QNX简介1.1 什么是QNX1.2 QNX的应用场景1.3 QNX的优点1.4 QNX的发展史1.5 QNX的商业模式 2. QNX的技术特点3. QNX和其它操作系统的比较3.1 QNX VS LINUX3.2 QNX VS FreeRTOS3.3 QNX VS 鸿蒙操作系统 4. 我的疑问4.1 微内核看起来又稳定又容易调试,为…...

[Llama3] ReAct Prompt 测试实验
ReAct 是一种 LLM 提示和结果处理方法,结合了推理、行动计划和知识源整合,使 LLM 超越其语言模型,并在预测中使用来自现实世界的信息。 ReAct 是推理和行动的结合。 介绍 ReAct 的论文表明它比思维链提示更好。与后者不同的是,Re…...

nodejs 某音douyin网页端搜索接口及x_bogus、a_bogus(包含完整源码)(2024-06-13)
前言 x_bogus或a_bogus算法大概是对数据、ua、时间戳、浏览器的几个指纹进行计算,拿到一个110位大数组,然后转字符,在头部再添加十二位随机字符,再进行魔改的base64加密。 问:抖音的x_bogus、a_bogus值有什么用&#x…...

继承深度剖析
前言 从继承开始就开始C进阶了, 这一块需要好好学习,这块知识很重要, 坑有点多,所以是面试笔试的常客。 基本概念 继承(inheritance)机制是面向对象程序设计使代码可以复用的最重要的手段, 它允许程序员在保持原有…...

使用 Vue 和 Ant Design 实现抽屉效果的模块折叠功能
功能描述: 有两个模块,点击上面模块的收起按钮时,上面的模块可以折叠,下面的模块随之扩展 代码实现: 我们在 Vue 组件中定义两个模块的布局和状态管理: const scrollTableY ref(560); // 表格初始高度…...

Springboot整合SpringCache+redis简化缓存开发
使用步骤: 1.引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-cache</artifactId> </dependency><dependency><groupId>org.springframework.boot</groupI…...

关于EOF标识符
EOF的概念 EOF是C语言中表示文件结束的标志符号,通常被定义为-1,它用于指示已到达文件的末尾或输入流的末尾。 EOF的使用 在输入操作中,EOF常常用于判断是否到达了文件末尾或输入流末尾,以便终止读取操作。例如,在使…...

家用洗地机排行榜前十名:2024十大王牌机型精准种草
最近很多人都在问我洗地机相关的问题,不愧是改善家庭生活品质的“三神器”之一。洗地机依靠其清洁力和清洁效率吸引了越来越多的平时需要做家务人群的兴趣,为了解答大家关于洗地机的各种疑问,我把市面上目前非常火爆的洗地机型号和参数都进行…...
【Chrome插件】如何在Chrome插件开发中处理复杂数据结构的存储
最近俺在接触 Chrome 插件开发,需要把一个数据存放到浏览器的存储中。这个数据结构有点复杂,它包含一个 Map 和一个数组。我使用 chrome.storage.local API来存储这个数据,然后在另一个地方获取数据。保存数据的代码并没有报错,但…...

【Axure高保真原型】引导弹窗
今天和大家中分享引导弹窗的原型模板,载入页面后,会显示引导弹窗,适用于引导用户使用页面,点击完成后,会显示下一个引导弹窗,直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…...
conda相比python好处
Conda 作为 Python 的环境和包管理工具,相比原生 Python 生态(如 pip 虚拟环境)有许多独特优势,尤其在多项目管理、依赖处理和跨平台兼容性等方面表现更优。以下是 Conda 的核心好处: 一、一站式环境管理:…...
Admin.Net中的消息通信SignalR解释
定义集线器接口 IOnlineUserHub public interface IOnlineUserHub {/// 在线用户列表Task OnlineUserList(OnlineUserList context);/// 强制下线Task ForceOffline(object context);/// 发布站内消息Task PublicNotice(SysNotice context);/// 接收消息Task ReceiveMessage(…...

关于nvm与node.js
1 安装nvm 安装过程中手动修改 nvm的安装路径, 以及修改 通过nvm安装node后正在使用的node的存放目录【这句话可能难以理解,但接着往下看你就了然了】 2 修改nvm中settings.txt文件配置 nvm安装成功后,通常在该文件中会出现以下配置&…...

DAY 47
三、通道注意力 3.1 通道注意力的定义 # 新增:通道注意力模块(SE模块) class ChannelAttention(nn.Module):"""通道注意力模块(Squeeze-and-Excitation)"""def __init__(self, in_channels, reduction_rat…...

vue3+vite项目中使用.env文件环境变量方法
vue3vite项目中使用.env文件环境变量方法 .env文件作用命名规则常用的配置项示例使用方法注意事项在vite.config.js文件中读取环境变量方法 .env文件作用 .env 文件用于定义环境变量,这些变量可以在项目中通过 import.meta.env 进行访问。Vite 会自动加载这些环境变…...

Map相关知识
数据结构 二叉树 二叉树,顾名思义,每个节点最多有两个“叉”,也就是两个子节点,分别是左子 节点和右子节点。不过,二叉树并不要求每个节点都有两个子节点,有的节点只 有左子节点,有的节点只有…...
是否存在路径(FIFOBB算法)
题目描述 一个具有 n 个顶点e条边的无向图,该图顶点的编号依次为0到n-1且不存在顶点与自身相连的边。请使用FIFOBB算法编写程序,确定是否存在从顶点 source到顶点 destination的路径。 输入 第一行两个整数,分别表示n 和 e 的值(1…...

微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据
微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据 Power Query 具有大量专门帮助您清理和准备数据以供分析的功能。 您将了解如何简化复杂模型、更改数据类型、重命名对象和透视数据。 您还将了解如何分析列,以便知晓哪些列包含有价值的数据,…...

排序算法总结(C++)
目录 一、稳定性二、排序算法选择、冒泡、插入排序归并排序随机快速排序堆排序基数排序计数排序 三、总结 一、稳定性 排序算法的稳定性是指:同样大小的样本 **(同样大小的数据)**在排序之后不会改变原始的相对次序。 稳定性对基础类型对象…...