当前位置: 首页 > news >正文

机器学习基本篇

文章目录

  • 1 基本概念
  • 2 基本流程
    • 2.0 数据获取
    • 2.1 预处理
      • 2.1.0 认识数据
        • 认识问题
      • 2.1.1 不平衡标签的处理
        • a.随机过采样方法 ROS,random over-sampling
        • b. SMOTE synthetic minority Over-Sampling Technique
      • 2.2 缺失值处理
      • 2.3 数据清洗
        • 2.3.0离散特征编码
      • 2.3.1 连续特征处理
        • 归一化
        • 标准化
      • 特征工程

1 基本概念

机器学习,分为 回归,分类,聚类,降维
有监督学习 回归,分类, 有特征,有标签,进行训练,然后对新数据进行预测
无监督学习 聚类,降维。

题目越多,训练越好,

2 基本流程

数据预处理—— 模型训练与评估
可以优化为 获取数据——数据预处理——EDA 分析——特征工程——模型训练——可解释性分析

2.0 数据获取

利用 kaggle, 天池 等平台的 开源 数据,

2.1 预处理

目的:

  1. 让数据更符合逻辑
  2. 让数据更容易计算
    借助函数实现变换 or 运算

2.1.0 认识数据

常用 pandas 包,是 python 中一个强大的数据分析和处理库。
其可以

  1. 数据处理,对数据进行 清洗,转换,合并,分组等操作,处理缺失的和重复的数据。
  2. 数据读取和写入, 如 CSV 格式,excel, JSON, SQL 等
  3. 对数据进行时间序列分析,移动窗口统计等操作

** 部分常用 API **
import pandas as pd
读取数据
df = pd.read_csv(‘data.csv’)
查看数据
df.head()
显示数据集形状. (几行几列)
df.shape

查看数据集信息。 (特征的种类和标签)
Data.info
显示 data.frame 的详细信息,数据类型,每列数据类型,非空值数量

显示数据集的统计特征,
df.decribe()
count 非空值的数量
mean 均值
std 标准差
min 最小值
25% 第 25 %分位点, 就是 100组数据,25%在 25.
50%
max 最大值
unique 唯一值数量
top 出现频率最高的值
freq 最高频率出现次数

认识问题

机器学习: 特征 和 标签
说白了 输入 和 输出
工作 会称 这一对为 字段

2.1.1 不平衡标签的处理

在机器学习任务中,标签的均衡性会对模型的性能有重大影响。
主要是在 分类中。
若 各类样本的数量差异较大,则使得数据集不平衡,
会导致 数据集更偏向 多数类,从而影响少数类的预测性能。
比如说: 990张狗,10张猫
那么模型在 95%以上正确率时,可能会更偏向把猫全部认为成狗。

a.随机过采样方法 ROS,random over-sampling

就是 随机复制少数类样本,增加其数量,使各类样本区于平衡。
但是可能会导致模型过拟合,模型对少数样本的特征过于敏感。

如果数据过多,也能用 欠采样。

from imblearn.over_sampling import RandomOverSampler
# 定义随机过采样器,设置过采样倍数为 2
ros = RandomOverSampler(sampling_strategy=2, random_state=42)# 对数据集进行过采样
X_resampled, y_resampled = 

相关文章:

机器学习基本篇

文章目录 1 基本概念2 基本流程2.0 数据获取2.1 预处理2.1.0 认识数据认识问题2.1.1 不平衡标签的处理a.随机过采样方法 ROS,random over-samplingb. SMOTE synthetic minority Over-Sampling Technique2.2 缺失值处理2.3 数据清洗2.3.0离散特征编码2.3.1 连续特征处理归一化标…...

vue2.x与vue3.x生命周期的比较

vue2.x 生命周期图示: new Vue() | v Init Events & Lifecycle | v beforeCreate | v created | v beforeMount | v mounted | v beforeUpdate (when data changes) | v updated | v beforeDestroy (when vm.…...

接口测试及常用接口测试工具(Postman/Jmeter)

🍅 点击文末小卡片 ,免费获取软件测试全套资料,资料在手,涨薪更快 首先,什么是接口呢? 接口一般来说有两种,一种是程序内部的接口,一种是系统对外的接口。 系统对外的接口&#xf…...

[论文阅读] SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution

文章目录 一、前言二、主要贡献三、Introduction四、Methodology4.1 Motivation :4.2Framework Overview.** 一、前言 通信作者是香港理工大学 & OPPO研究所的张磊教授,也是图像超分ISR的一个大牛了。 论文如下 SeeSR: Towards Semantics-Aware Rea…...

Python实战进阶 No1: RESTful API - 基于Flask的实例说明

Python实战进阶 No1: RESTful API - 基于Flask的实例说明 RESTful API 是一种基于 REST(Representational State Transfer) 架构风格的 Web 服务接口设计规范。它使用 HTTP 协议的标准方法(如 GET、POST、PUT、DELETE 等)来操作资…...

Redis——优惠券秒杀问题(分布式id、一人多单超卖、乐悲锁、CAS、分布式锁、Redisson)

#想cry 好想cry 目录 1 全局唯一id 1.1 自增ID存在的问题 1.2 分布式ID的需求 1.3 分布式ID的实现方式 1.4 自定义分布式ID生成器(示例) 1.5 总结 2 优惠券秒杀接口实现 3 单体系统下一人多单超卖问题及解决方案 3.1 问题背景 3.2 超卖问题的…...

OpenCV机器学习(5)逻辑回归算法cv::ml::LogisticRegression

OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 cv::ml::LogisticRegression 是 OpenCV 机器学习模块中的一个类,用于实现逻辑回归算法。逻辑回归是一种广泛应用于分类问题的统计方法,特别适合二分类任务。…...

百度百舸 DeepSeek 一体机发布,支持昆仑芯 P800 单机 8 卡满血版开箱即用

在私有云环境中成功部署 DeepSeek 满血版并实现性能调优,并不是一件容易的事情。选择合适的 GPU 配置、安装相应的环境、成功部署上线业务、加速推理任务加速、支撑多用户并发 …… 完成业务测试,成功融入生产业务中。 为了帮助企业快速实现 DeepSeek 服…...

批处理效率提升技巧

在数据量大的后端应用程序中进行批处理(batch processing)是非常常见的需求,尤其是在需要处理大量数据或进行周期性任务时。批处理的目的是通过将数据分批次处理来提高效率,减少资源消耗,并确保应用程序的可伸缩性。以下是一些在这种场景下进行批处理的方法和实践: 一、…...

Kubernetes知识点总结(十)

什么是 K8s 的 namespace? 在 K8s 中,Namespace(名字空间)提供了一种机制,将同一集群中的资源划分为相互隔离的组, 是在多个用户之间划分集群资源的一种方法。 名字空间作用域仅针对带有名字空间的对…...

安全防御综合练习2 nat+智能选路

一、拓扑 二、需求 1、在企业出口防火墙上,设置一个“虚拟DNS服务器”,将内网用户的DNS设定为这个虚拟DNS服务器的地址 2、当内网用户发送DNS请求时,虚拟DNS服务器作为中间人,根据预配置算法,将DNS请求报文发送给各个…...

Flutter 中的数据跨层传递方案

在 Flutter 中,数据跨层传递(从父组件向子组件传递数据,或从子组件向父组件传递)有多种方案,主要包括以下几种: 1. 直接参数传递(Constructor 参数) 适用场景: 父组件向…...

代码随想录D50-51 图论 Python

理论基础 理论基础部分依然沿用代码随想录教程中的介绍: 图的种类 度 连通性 连通性用于表示图中节点的连通情况。 如果有节点不能到达其他节点,则为非连通图,想象将多个水分子表示为图,不考虑非键作用,这张图就不是…...

MyBatis进阶

日志的使用 我们在使用MyBatis的时候, 其实MyBatis框架会打印一些必要的日志信息, 在开发阶段这些日志信息对我们分析问题,理解代码的执行是特别有帮助的; 包括项目上线之后,我们也可以收集项目的错误日志到文件里面去; 所以我们采用专门的日志系统来处理. 步骤 导入坐标拷贝…...

容器化部署Kafka的最佳实践:基于KRaft模式的无ZooKeeper方案

一、docker 部署kafka单节点 1.1安装docker 可以参考这篇CentOS 7安装docker并配置镜像加速 1.3 运行kafka(注意修改zookeeper,kafka地址) docker run -d --name kafka -e KAFKA_ADVERTISED_LISTENERSPLAINTEXT://172.16.10.180:9092 -p …...

DeepSeek核心算法解析:如何打造比肩ChatGPT的国产大模型

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】 文章目录 DeepSeek大模型技术系列一DeepSeek核心算法解析:如何…...

LeetCode-633. 平方数之和

1、题目描述 给定一个非负整数 c ,你要判断是否存在两个整数 a 和 b,使得 a2 b2 c 。 示例 1: 输入:c 5 输出:true 解释:1 * 1 2 * 2 5示例 2: 输入:c 3 输出:f…...

前端面试技巧与实践

在当今快速发展的互联网行业中,前端开发已经成为了一个至关重要的角色。随着技术的不断进步和用户需求的日益复杂,前端工程师的职责不再仅仅是实现页面的布局和交互,而是需要具备全方位的技术能力和工程思维。根据2023年Stack Overflow的开发…...

windows Redis Insight 如何查看宝塔docker里的redis数据

1、ping 命令用于测试网络连通性,它只需要目标 IP 地址作为参数,不需要端口号。正确的命令如下: ping 公网地址2、使用 Telnet 测试端口连通性 telnet 公网地址 端口 telnet 47.108.67.228 6379如果连接成功,窗口会变为空白&am…...

sql数据执行失败,三个命令依次执行

set global innodb_strict_mode off set global.sql_mode ONLY_FULL_GROUP_BY,STRICT_TRANS_TABLES,ERROR_FOR_DIVISION_BY_ZERO,NO_ENGINE_SUBSTITUTION; set sql_mode ONLY_FULL_GROUP_BY,STRICT_TRANS_TABLES,ERROR_FOR_DIVISION_BY_ZERO,NO_ENGINE_SUBSTITUTION;...

知识图谱对自然语言处理中深层语义分析的影响与启示

摘要本报告旨在系统性地探讨知识图谱(Knowledge Graph, KG)在表示、存储、抽取、融合、推理及问答等全生命周期中的关键技术,并深入分析这些技术如何对人工智能(AI)领域的自然语言处理(NLP)中的…...

PyPI镜像失效、pip install卡死、torch.cuda.is_available()返回False?Python AI配置崩溃前的最后3分钟急救指南

更多请点击: https://intelliparadigm.com 第一章:PyPI镜像失效、pip install卡死、torch.cuda.is_available()返回False?Python AI配置崩溃前的最后3分钟急救指南 当 pip install 在下载 torch 时无限挂起,或 import torch; pri…...

STM32H743 FDCAN配置避坑指南:从共享RAM分配到滤波器设置,手把手教你搞定双CAN通信

STM32H743 FDCAN配置避坑指南:从共享RAM分配到滤波器设置,手把手教你搞定双CAN通信 在嵌入式系统开发中,CAN总线因其高可靠性和实时性被广泛应用于汽车电子、工业控制等领域。STM32H743作为STMicroelectronics的高性能MCU系列,其F…...

接入Taotoken后如何利用其提供的账单追溯功能核对项目支出

接入Taotoken后如何利用其提供的账单追溯功能核对项目支出 1. 账单功能入口与基础视图 Taotoken平台为每个账户提供完整的API调用记录与费用明细。登录控制台后,在左侧导航栏点击「账单与用量」即可进入账单管理界面。默认展示当前月份的汇总数据,包括…...

DoL-Lyra:轻松构建个性化游戏模组的终极解决方案

DoL-Lyra:轻松构建个性化游戏模组的终极解决方案 【免费下载链接】DOL-CHS-MODS Degrees of Lewdity 整合 项目地址: https://gitcode.com/gh_mirrors/do/DOL-CHS-MODS 在游戏模组的世界里,你是否曾为复杂的配置流程和版本兼容性问题而烦恼&#…...

MySQL数据库SQL语句简单用法

一、主要程序和命令1、MySQL服务端程序一般是安装目录下bin目录的mysqld.exe文件。2、MySQL客户端一般是安装目录下bin目录的mysql.exe文件。二、客户端登录用法(一)明文密码登录mysql -h 服务器地址 -P 端口号 -u 账号 -p 密码案例:默认是127.0.0.1的3306服务器&a…...

3步高效解决Linux下CH34x USB转串口驱动安装难题

3步高效解决Linux下CH34x USB转串口驱动安装难题 【免费下载链接】CH341SER CH341SER driver with fixed bug 项目地址: https://gitcode.com/gh_mirrors/ch/CH341SER 还在为Linux系统无法识别CH340/CH341 USB转串口设备而苦恼吗?无论你是Arduino开发者、嵌入…...

3步掌握Qwerty Learner:提升英语打字效率的终极方案

3步掌握Qwerty Learner:提升英语打字效率的终极方案 【免费下载链接】qwerty-learner 为键盘工作者设计的单词记忆与英语肌肉记忆锻炼软件 / Words learning and English muscle memory training software designed for keyboard workers 项目地址: https://gitco…...

别再死记硬背了!用这3个趣味游戏,让孩子5分钟记住26个英文字母

3个魔法游戏让孩子5天征服26个字母 在儿童语言启蒙的黄金期,传统填鸭式字母教学常陷入"今天学明天忘"的困境。我们追踪了327组家庭的教学实践发现,融入多感官刺激的游戏化学习,能使字母记忆效率提升4倍以上。下面这三个经过幼教专…...

3个隐藏频道管理难题,这款Discord插件如何帮你轻松解决?

3个隐藏频道管理难题,这款Discord插件如何帮你轻松解决? 【免费下载链接】return-ShowHiddenChannels A BetterDiscord plugin which displays all hidden channels and allows users to view information about them. 项目地址: https://gitcode.com/…...