当前位置: 首页 > news >正文

【机器学习笔记】 15 机器学习项目流程

机器学习的一般步骤

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

数据清洗

数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。
在这里插入图片描述

探索性数据分析(EDA

探索性数据分析(EDA)是一个开放式流程,我们制作绘图并计算统计数据,以便探索我们的数据。目的是找到异常,模式,趋势或关系。 这些可能是有趣的(例如,找到两个变量之间的相关性),或者它们可用于建模决策,例如使用哪些特征。简而言之,EDA的目标是确定我们的数据可以告诉我们什么
在这里插入图片描述
在这里插入图片描述
IQR = Q3-Q1,即上四分位数与下四分位数之间的差,也就是盒子的长度。
最小观测值为min = Q1 - 1.5IQR,如果存在离群点小于最小观测值,则下限为最小观测值,离群点单独以点汇出。
最大观测值为max = Q3 +1.5
IQR,如果存在离群点大于最大观测值,则上限为最大观测值,离群点单独以点汇出。如果没有比最大观测值大的数,则上限为最大值。

  • 寻找关系
    为了查看分类变量 - categorical variables对分数的影响,我们可以通过分类变量的值来绘制密度图。 密度图还显示单个变量的分布,可以认为是平滑的直方图。 如果我们通过为分类变量密度曲线着色,这将向我们展示分布如何基于类别变化的。
    在这里插入图片描述
    现在我们有了正确的列数据类型,我们可以通过查看每列中缺失值的百分比来开始分析。 当我们进行探索性数据分析时,缺失的值很好,但是必须使用机器学习方法进行填写。Pairs Plot是一次检查多个变量的好方法,因为它显示了对角线上的变量对和单个变量直方图之间的散点图。

在这里插入图片描述

特征工程

特征工程:

获取原始数据并提取或创建新特征的过程。这可能意味着需要对变量进行变换,例如自然对数和平方根,或者对分类变量进行one-hot编码,以便它们可以在模型中使用。 一般来说,我认为特征工程是从原始数据创建附加特征。

特征工程在数据挖掘中有举足轻重的位置数据领域一致认为:数据和特征决定了机器学习的上限,而模型和算法只能逼近这个上限而已。

  • 特征工程重要性:
    特征越好,灵活性越强; 特征越好,模型越简单;特征越好,性能越出色;好特征即使使用一般的模型,也能得到很好的效果!
  • 主要方法
    离散型变量处理
    分箱/分区
    交叉特征
    特征缩放
    特征提取

特征选择

选择数据中最相关的特征的过程。在特征选择中,我们删除特征以帮助模型更好地总结新数据并创建更具可解释性的模型。一般来说,特征选择是减去特征,所以我们只留下那些最重要的特征。

  • 特征选择主要有两个功能
    1.减少特征数量、降维,使模型泛化能力更强,减少过拟合
    2.增强对特征和特征值之间的理解
  • 主要方法
    去除变化小的特征
    去除共线特征
    去除重复特征
    主成分分析(PCA)

在这里插入图片描述

数据建模

• 基于性能指标比较几种机器学习模型
• 对最佳模型执行超参数调整
• 在测试集上评估最佳模型
• 解释模型结果
• 得出结论

相关文章:

【机器学习笔记】 15 机器学习项目流程

机器学习的一般步骤 数据清洗 数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。 探索性数据分析(EDA 探索性数据…...

【C语言】位操作符与移位操作符练习

目录 前言: 1.一道变态的面试题 2.输入一个整数 n ,输出该数32位二进制表示中1的个数。其中负数用补码表示。 方法一: 方法二: 方法三: 3.打印整数二进制的奇数位和偶数位 前言: 前篇我们学习过C语言…...

第十四届“中关村青联杯”全国研究生数学建模竞赛-A题:无人机在抢险救灾中的优化运用

目录 摘 要: 1 问题重述 1.1 问题背景 1.2 待解决的问题 2 模型假设及符号说明...

Android 9.0 Launcher3桌面显示多个相同app图标的解决办法

1.前言 在9.0的系统ROM定制化开发中,在Launcher3的系统原生桌面中,在显示桌面的时候,在禁用和启用app的功能测试的时候,会发现有多个相同app的图标显示在桌面 这对Launcher3的体验效果不是很好,所以为了优化产品,需要解决这个bug,然后让产品更完善 2.桌面显示多个相同…...

WordPress主题YIA在广告位添加图片广告时下方有空白怎么办?

YIA主题设置中默认有4个广告位,而侧边栏的广告位由站长自行添加。boke112百科在这些广告位添加图片广告后发现图片下方有空白,导致下方的两个角没有变圆角,看起来也有点不好看。具体如下图所示: 其实,这个问题就是典型…...

5.15 BCC工具之kvm_hypercall.py解读

一,工具简介 在该示例中,我们可以了解到如何使用eBPF(扩展BPF,Berkeley Packet Filter的扩展)和bcc(BPF Compiler Collection)来分析KVM(Kernel-based Virtual Machine)中的超级调用(hypercall)。 即当exit_reason为VMCALL时,有状态的kvm_entry和kvm_exit记录以及…...

git 解除本地分支与其它分支(远程分支)的关联

开发中,我在同事的分支开一条分支,并将同事的分支作为关联分支,前两天还好,我一个人在干活,然而第3天,同事回来了,他在他那条分支也开发,这时就会出现2种情况, 1. 同时修…...

conda 所有的命令及其讲解

Conda 是一个开源的包管理器和环境管理器,可以用于安装、运行和升级跨平台的软件包和环境。Conda 很流行于数据科学、机器学习、科学计算等领域,因为它能够快速地安装、管理和部署软件包和环境。以下是 Conda 的一些主要命令及其简要说明: 环…...

mysql 数据库主从复制搭建

MySQL 主从复制主要用于实现高可用性和备份。在主从复制中,一个 MySQL 实例(称为主节点)将其数据更改复制到至少一个其他 MySQL 实例(称为从节点)上。主要借助于数据库二进制日志binlog进行数据的复制。 主从数据库对应…...

小白水平理解面试经典题目LeetCode 1025 Divisor Game【动态规划】

1025 除数游戏 小艾 和 小鲍 轮流玩游戏&#xff0c;小艾首先开始。 最初&#xff0c;黑板上有一个数字 n 。在每个玩家的回合中&#xff0c;该玩家做出的动作包括&#xff1a; 选择任意 x&#xff0c;使 0 < x < n 和 n % x 0 。将黑板上的数字 n 替换为 n - x 。 此…...

基于单片机的智能宠物喂食器设计

摘要:阐述智能宠物喂食器的实现方式,以STC89C52单片机为核心芯片,控制LCD的显示、语音芯片的启动和步进电机的运行。通过按键设置预设时间,当时间到达预设时间时,语音电路发出提示,步进电机工作,提供食物。此系统解决了主人由于各种原因不在家,使得宠物不能按时吃饭的问…...

探索单片机应用领域:从智能家居到工业自动化

单片机作为一种微型计算机芯片&#xff0c;在智能家居和工业自动化领域有着广泛的应用。以下将从智能家居和工业自动化两个方面分点论述单片机的应用。 智能家居领域&#xff1a; 1. 智能灯光控制&#xff1a; 单片机可以用于控制智能灯光系统&#xff0c;实现灯光的远程控制…...

Nginx介绍和使用

Nginx是一个高性能的HTTP和反向代理web服务器&#xff0c;其使用方法包括安装、配置以及与其他软件的配合使用。 Nginx被广泛认为是一个轻量级、占用资源少、并发处理能力强大的web服务器软件。它不仅可以作为HTTP服务器提供静态内容服务&#xff0c;还可以作为反向代理服务器…...

异步编程——CompletableFuture用法详解

文章目录 前言1. Future 线程池2. 什么是CompletableFuture 前言 我们异步执行一个任务时&#xff0c;需要用线程池Executor去创建&#xff0c;有两种方式&#xff1a; 如果不需要有返回值&#xff0c; 任务继承Thread类或实现Runnable接口&#xff1b;如果需要有返回值&…...

Linux常用命令(不断更新)

cd 切换目录 cd .. 返回上一级目录 cd ../.. 返回上两级目录 pwd 显示工作路径 ls -l 显示文件和目录的详细信息 ls -a 列出全部文件 ls -R 连同子目录的内容一起列出 ls -lh 显示权限 cp 复制 mv 移动 rm 删除 cat 查看文件内容 find 文件搜索 文件权限 …...

C++ 浮点数二分 数的三次方根

给定一个浮点数 n &#xff0c;求它的三次方根。 输入格式 共一行&#xff0c;包含一个浮点数 n 。 输出格式 共一行&#xff0c;包含一个浮点数&#xff0c;表示问题的解。 注意&#xff0c;结果保留 6 位小数。 数据范围 −10000≤n≤10000 输入样例&#xff1a; 1000.00…...

辽宁博学优晨教育科技有限公司视频剪辑培训专业之选

随着数字时代的到来&#xff0c;视频剪辑技术已成为各行各业不可或缺的一项技能。为了满足市场需求&#xff0c;辽宁博学优晨教育科技有限公司&#xff08;以下简称“博学优晨”&#xff09;推出了专业的视频剪辑培训课程&#xff0c;旨在为广大学员提供系统、高效的学习机会。…...

数据转换成json格式

// List<SpinfokuZD> xm GetmoreSpinfoku(id); // return JsonConvert.SerializeObject(xm); //将数据转换成json格式 return JsonConvert.SerializeObject(ds); //将数据转换成json格式 spcgjlZD spselld JsonConvert.Deseriali…...

css3的var()函数

css3的var()函数 变量要以两个连字符--(横杆)(减号)为开头 变量可以在:root{}中定义, :root可以在css中创建全局样式变量。通过 :root本身写的样式&#xff0c;相当于 html&#xff0c;但优先级比后者高。 在CSS3中&#xff0c;var()函数是一个用于插入CSS自定义属性&#xff…...

武汉灰京文化展望未来游戏产业,科技创新引领全面升级的游戏体验

随着科技的迅速发展&#xff0c;未来游戏产业的发展将迎来一个全新的纪元。科技创新将引领游戏体验的全面升级&#xff0c;让玩家不再仅仅是通过屏幕与游戏互动&#xff0c;而是能够亲身感受到游戏世界的存在。这种全新的游戏体验将推动游戏产业不断突破创新&#xff0c;吸引更…...

24小时运行不中断:OpenClaw+Qwen3-32B监控网站变更并邮件报警

24小时运行不中断&#xff1a;OpenClawQwen3-32B监控网站变更并邮件报警 1. 为什么需要自动化网站监控&#xff1f; 去年我负责一个竞品分析项目时&#xff0c;每天要手动检查十几个竞争对手官网的更新情况。某天凌晨两点&#xff0c;竞品突然上线了关键功能更新&#xff0c;…...

3大核心功能提升50%英雄联盟操作效率的开源工具

3大核心功能提升50%英雄联盟操作效率的开源工具 【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power &#x1f680;. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 你是否曾在排位赛中因手速慢错过最佳英雄选择时…...

8 个值得收藏的综合类在线工具网站

8 个值得收藏的综合类在线工具网站1. tool.lu&#xff1a;老牌开发者工具箱&#xff0c;胜在稳定tool.lu 是很多开发者都用过的老站。它的优势不在“花哨”&#xff0c;而在于工具体系比较成熟&#xff0c;像代码格式化、压缩、加密解密、时间处理、图片与图标处理这类高频需求…...

智慧机场三维空间智能中枢系统白皮书——构建“全域感知 × 空间认知 × 智能调度”的下一代机场操作平台

智慧机场三维空间智能中枢系统白皮书——构建“全域感知 空间认知 智能调度”的下一代机场操作平台&#xff08;镜像视界&#xff08;浙江&#xff09;科技有限公司空间计算技术体系支撑&#xff09;一、项目背景&#xff1a;机场正在进入“复杂系统时代”现代机场已从单一交…...

LANCZOS智能压缩+RGB自动转换:Anything to RealCharacters预处理模块详解

LANCZOS智能压缩RGB自动转换&#xff1a;Anything to RealCharacters预处理模块详解 1. 项目概述 Anything to RealCharacters是一款专为RTX 4090显卡设计的2.5D转真人图像转换系统。该系统基于通义千问Qwen-Image-Edit-2511图像编辑模型&#xff0c;集成了专门优化的写实化权…...

AI辅助开发:让快马AI为你的clawhub skill添加智能标签与内容摘要

今天想和大家分享一个最近在做的项目优化——如何用AI给clawhub技能平台添加智能标签和内容摘要功能。作为一个开发者社区&#xff0c;clawhub上每天都有大量技能分享&#xff0c;但手动打标签和写摘要实在太费时间了。正好发现InsCode(快马)平台内置了多种AI模型&#xff0c;就…...

Unity游戏实时翻译插件XUnity.AutoTranslator的完整技术解析与实战指南

Unity游戏实时翻译插件XUnity.AutoTranslator的完整技术解析与实战指南 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator XUnity.AutoTranslator是一个功能强大的Unity游戏自动翻译框架&#xff0c;为全球玩…...

手机检测落地标准化:实时手机检测-通用模型企业级部署Checklist

手机检测落地标准化&#xff1a;实时手机检测-通用模型企业级部署Checklist 1. 引言&#xff1a;为什么企业需要标准化的手机检测方案&#xff1f; 想象一下&#xff0c;你是一家大型电子产品质检工厂的负责人。每天&#xff0c;成千上万的手机从流水线上经过&#xff0c;需要…...

3个关键优化:如何让Stable Diffusion模型在普通硬件上流畅运行?

3个关键优化&#xff1a;如何让Stable Diffusion模型在普通硬件上流畅运行&#xff1f; 【免费下载链接】chilloutmix_NiPrunedFp32Fix 项目地址: https://ai.gitcode.com/hf_mirrors/emilianJR/chilloutmix_NiPrunedFp32Fix 你是否曾经尝试运行Stable Diffusion模型&a…...

glTF和glb格式与模型渲染,CesiumJS 中的 glTF 渲染系统以该类为核心

CesiumJS 中的 glTF 渲染系统以该类为核心&#xff0c;该类为加载和渲染 3D 资产提供了高层次的抽象。该系统支持 glTF 2.0 规范&#xff0c;包括多种压缩、元数据和实例化的扩展。该架构采用模块化的“流水线阶段”设计&#xff0c;将 glTF 组件转换为 GPU 可用的绘制命令。Mo…...