当前位置: 首页 > news >正文

06-机器学习-数据预处理

数据清洗

数据清洗是数据预处理的核心步骤,旨在修正或移除数据集中的错误、不完整、重复或不一致的部分,为后续分析和建模提供可靠基础。以下是数据清洗的详细流程、方法和实战示例:


一、数据清洗的核心任务

问题类型表现示例影响
缺失值数值型字段为空(NaN)模型无法处理缺失值,导致训练中断或偏差
异常值年龄=200岁,房价=-100万扭曲统计指标(如均值),降低模型泛化性
重复数据两行记录完全相同导致模型过拟合,降低数据代表性
不一致数据日期格式混乱(2023-09-01 vs 01/09/23)解析错误,特征提取失败

二、数据清洗流程与工具

1. 缺失值处理
  • 检测缺失值

    # 统计每列缺失比例
    missing_ratio = data.isnull().mean() * 100
    print(missing_ratio.sort_values(ascending=False))
    
  • 处理方法

    方法适用场景代码示例
    直接删除缺失比例高(>80%)或无关字段data.dropna(axis=1, thresh=len(data)*0.2)
    均值/中位数填充数值型字段,缺失随机分布data['age'].fillna(data['age'].median(), inplace=True)
    众数填充类别型字段data['gender'].fillna(data['gender'].mode()[0], inplace=True)
    插值法时间序列数据(如温度记录)data['temperature'].interpolate(method='time', inplace=True)
    模型预测填充复杂场景(如多变量关联缺失)使用KNN或随机森林预测缺失值(见下方代码)

    KNN填充示例

    from sklearn.impute import KNNImputer
    imputer = KNNImputer(n_neighbors=5)
    data_filled = pd.DataFrame(imputer.fit_transform(data), columns=data.columns)
    

2. 异常值处理
  • 检测方法

    • 描述性统计:检查最小/最大值是否合理
      print(data.describe())
      
    • 箱线图(Boxplot)
      plt.figure(figsize=(8,4))
      sns.boxplot(x=data['income'])
      plt.title("Income Distribution")
      plt.show()
      
    • Z-Score法(正态分布数据):
      z_scores = (data['value'] - data['value'].mean()) / data['value'].std()
      outliers = data[abs(z_scores) > 3]  # Z>3为异常
      
    • IQR法(非正态分布数据):
      Q1 = data['age'].quantile(0.25)
      Q3 = data['age'].quantile(0.75)
      IQR = Q3 - Q1
      lower_bound = Q1 - 1.5 * IQR
      upper_bound = Q3 + 1.5 * IQR
      
  • 处理方法

    方法代码示例
    删除异常值data = data[(data['age'] >= 0) & (data['age'] <= 100)]
    截断(Winsorize)from scipy.stats.mstats import winsorize<br>data['income'] = winsorize(data['income'], limits=[0.05, 0.05])
    分箱(Binning)data['age_bin'] = pd.cut(data['age'], bins=[0,18,35,60,100])

3. 重复数据处理
  • 检测与删除

    # 检测完全重复的行
    duplicates = data.duplicated()
    print(f"重复行数量: {duplicates.sum()}")# 删除重复行(保留第一个出现值)
    data.drop_duplicates(keep='first', inplace=True)
    
  • 部分重复处理(如用户ID重复但信息不同):

    # 按关键字段去重(如用户ID)
    data.drop_duplicates(subset=['user_id'], keep='last', inplace=True)
    

4. 不一致数据修正
  • 格式统一

    # 日期格式标准化
    data['date'] = pd.to_datetime(data['date'], format='mixed')# 文本大小写统一
    data['category'] = data['category'].str.lower()# 单位统一(如货币转换)
    data['price'] = data['price'].apply(lambda x: x * 6.5 if 'USD' in x else x
    )
    
  • 逻辑校验

    # 检查年龄与出生日期是否一致
    current_year = pd.Timestamp.now().year
    data['calculated_age'] = current_year - data['birth_year']
    invalid_age = data[abs(data['age'] - data['calculated_age']) > 1]
    

三、实战案例:电商订单数据清洗

原始数据问题
import pandas as pd
data = pd.DataFrame({'order_id': [101, 102, 103, 104, 105, 106],'user_id': [1, 2, 2, 3, 4, None],'price': [29.9, 199.0, 199.0, -50.0, 89.9, 120.0],'order_date': ['2023-09-01', '01/09/2023', '2023-09-01', '2023-10-32', None, '2023-09-05']
})
清洗步骤
  1. 处理缺失值

    # 填充user_id缺失值(假设新用户ID为999)
    data['user_id'].fillna(999, inplace=True)# 删除order_date缺失的行
    data.dropna(subset=['order_date'], inplace=True)
    
  2. 修正异常价格

    # 删除价格为负的订单
    data = data[data['price'] > 0]# 截断价格超过200的订单(假设业务上限为200)
    data['price'] = data['price'].clip(upper=200)
    
  3. 标准化日期格式

    # 转换日期并过滤无效日期(如2023-10-32)
    data['order_date'] = pd.to_datetime(data['order_date'], errors='coerce')
    data.dropna(subset=['order_date'], inplace=True)
    
  4. 去重

    # 按user_id和order_date去重(保留最后一条)
    data.drop_duplicates(subset=['user_id', 'order_date'], keep='last', inplace=True)
    
清洗后数据
order_iduser_idpriceorder_date
101129.92023-09-01
1022199.02023-09-01
105489.9NaT(已删除)
106999120.02023-09-05

四、注意事项

  1. 避免过度清洗:保留合理的数据多样性(如正常的价格波动)。
  2. 记录清洗日志:跟踪每一步操作的影响(如删除了多少行数据)。
  3. 业务规则优先:与领域专家确认异常定义(如“用户年龄>100是否合理”)。
  4. 自动化流水线:对持续更新的数据,使用Pipeline封装清洗步骤:
    from sklearn.pipeline import Pipelineclean_pipeline = Pipeline([('fill_na', SimpleImputer(strategy='constant', fill_value=999)),('remove_duplicates', DropDuplicates(subset=['user_id'])),('clip_outliers', ColumnTransformer([('clip', FunctionTransformer(lambda x: x.clip(0, 200)), ['price'])])),
    ])
    

数据变换

以下是对数据变换的更紧凑、更细节化的总结,突出核心要点与实用技巧:


一、标准化/归一化:核心差异

方法公式适用场景异常值敏感度Scikit-learn工具
Z-score z = x − μ σ z = \frac{x - \mu}{\sigma} z=σxμ数据近似正态分布,线性模型(SVM、回归)StandardScaler
Min-Max x ′ = x − x min ⁡ x max ⁡ − x min ⁡ x' = \frac{x - x_{\min}}{x_{\max} - x_{\min}} x=xmaxxminxxmin图像像素、神经网络输入层MinMaxScaler
Robust x ′ = x − median I Q R x' = \frac{x - \text{median}}{IQR} x=IQRxmedian存在异常值,非正态分布RobustScaler

关键技巧

  • 树模型(如随机森林、XGBoost)无需标准化,但对特征组合敏感的模型(FM、NN)需要。
  • 归一化到[-1,1]可能对某些激活函数(如tanh)更友好。

二、非线性变换:快速选择

  1. 对数变换:右偏数据(如收入),用np.log1p避免零值。
  2. Box-Cox变换:需数据严格为正,自动优化λ值(scipy.stats.boxcox)。
  3. 分位数变换:强制数据服从均匀/正态分布(QuantileTransformer)。

示例代码

from sklearn.preprocessing import PowerTransformer
pt = PowerTransformer(method='yeo-johnson')  # 兼容零/负值
X_transformed = pt.fit_transform(X)

三、分类变量编码:场景化方案

方法优点缺点适用模型
One-Hot无顺序假设,兼容所有模型高维稀疏,需处理共线性线性模型、神经网络
Target编码保留类别与目标的关系需防过拟合(如交叉验证)树模型、高基数类别
Embedding低维稠密,捕捉语义相似性需预训练或端到端学习深度学习(NLP/推荐系统)

关键点

  • 高基数类别优先用Target EncodingCatBoost内置处理。
  • 树模型可尝试Label Encoding,但需验证类别顺序是否合理。

四、特征工程:高效操作

  1. 数值特征
    • 交叉特征:加减乘除(如电商中“单价×购买量=总金额”)。
    • 分箱:等频分箱(pd.qcut)或等宽分箱(pd.cut),捕捉非线性。
  2. 时间特征
    • 提取周期性(星期、月份),滑动窗口统计(均值、标准差)。
  3. 文本特征
    • 短文本用TF-IDF,长文本用BERT嵌入,高维稀疏时用TruncatedSVD降维。

代码示例

# 时间特征处理
df['hour'] = df['timestamp'].dt.hour
df['is_weekend'] = df['timestamp'].dt.weekday >= 5

五、降维:选择策略

方法核心思想适用场景注意事项
PCA线性投影最大化方差高维数据可视化/去噪需先标准化,可能丢失非线性信息
t-SNE非线性保留局部结构可视化高维聚类计算代价高,不用于特征输入
UMAP平衡速度与局部/全局结构大规模数据可视化/预处理参数敏感,需调参

经验

  • 输入特征>50时优先用PCA,保留95%方差(n_components=0.95)。
  • 避免对树模型使用降维,可能破坏特征重要性。

六、避坑指南

  1. 数据泄露
    • 所有变换必须仅用训练集统计量!用Pipeline确保流程:
      from sklearn.pipeline import make_pipeline
      pipe = make_pipeline(StandardScaler(), SVM())
      pipe.fit(X_train, y_train)
      
  2. 异常值处理
    • 缩尾处理(np.clip)或中位数填充,避免破坏分布。
  3. 评估验证
    • 对KNN、SVM等敏感模型,对比不同缩放方法的分类边界(如决策边界图)。

七、端到端流程

  1. 输入检查:分布(直方图/Q-Q图)、缺失值、异常值。
  2. 数值特征:缩放→非线性变换→分箱。
  3. 分类特征:编码→嵌入(可选)。
  4. 特征构造:领域知识驱动交叉/聚合。
  5. 输出验证:模型在验证集的表现波动是否<5%。

总结:数据变换需与模型特性深度耦合,通过实验迭代优化。记住:“Garbage in, garbage out”——宁可花80%时间在数据准备,而非调参!


特征工程

特征工程:从原始数据到模型燃料的核心技术

特征工程是机器学习的“炼金术”,旨在将原始数据转化为模型可理解的强特征,直接影响模型性能上限。以下是结构化拆解:


一、核心目标与价值
  • 目标:构造高信息量、低冗余、适配模型的特征。
  • 价值
    • 提升模型准确率(如添加用户历史行为统计特征)
    • 降低计算成本(通过降维/特征选择)
    • 增强可解释性(如分箱后的年龄组代替原始值)

二、特征构造:从原始数据中“挖掘金子”
  1. 时间特征

    • 基础字段:年、月、日、小时、星期几、是否节假日
    • 衍生特征:时间间隔(如上次购买距今的天数)、滑动窗口统计(过去7天均值)
    df['purchase_hour'] = df['timestamp'].dt.hour
    df['days_since_last_purchase'] = (current_date - df['last_purchase_date']).dt.days
    
  2. 交互特征(组合特征)

    • 数值交互:加减乘除(如“单价×数量=总价”)
    • 类别交叉:笛卡尔积(如“地区×产品类型”生成组合标签)
    df['price_per_sqmeter'] = df['total_price'] / df['area']
    
  3. 统计聚合特征

    • 单维度统计:用户历史购买金额的均值、最大值、方差
    • 跨表关联:订单表按用户ID聚合的订单数、退货率
    user_stats = orders.groupby('user_id')['amount'].agg(['mean', 'max'])
    
  4. 文本/图像特征

    • 文本:TF-IDF关键词权重、BERT句向量、情感分析得分
    • 图像:边缘特征、颜色直方图、预训练CNN提取的特征图

三、特征变换:提升模型适配性
  1. 分箱(Binning)

    • 等宽分箱:固定区间宽度(如年龄每10年一档)
    • 等频分箱:保证每箱样本量均衡
    • 模型分箱:使用决策树寻找最优分割点
    df['age_bin'] = pd.cut(df['age'], bins=[0,18,35,60,100], labels=['child', 'young', 'adult', 'senior'])
    
  2. 非线性变换

    • 对数变换:处理右偏分布(np.log1p避免零值)
    • Box-Cox变换:自动优化正态性(仅适用于正值)
    • 分位数变换:强制服从指定分布(如正态、均匀)
  3. 高基数类别处理

    • 目标编码(Target Encoding):用目标变量的统计量(如均值)代替类别
    • 频率编码:使用类别出现频率作为特征值
    • 嵌入编码(Embedding):通过神经网络学习低维表示(如Word2Vec)

四、特征选择:剔除噪声与冗余
方法原理适用场景
过滤法基于统计指标(如方差、卡方检验)快速初筛,计算成本低
包裹法通过模型性能迭代选择特征子集精确但计算代价高(递归特征消除)
嵌入法模型训练中自动选择(如L1正则化)与模型耦合,高效

实用技巧

  • 对树模型,直接使用feature_importances_筛选重要性>阈值特征
  • 对线性模型,结合Lasso回归的系数稀疏性做特征剔除

五、自动化特征工程工具
  1. FeatureTools:自动生成跨表聚合特征(如“用户最近3次登录时间标准差”)
  2. TSFresh:针对时间序列自动提取数百种统计特征(如自相关性、傅里叶变换系数)
  3. AutoFeat:自动构造多项式特征并进行显著性筛选
# FeatureTools示例
import featuretools as ft
es = ft.EntitySet()
es = es.entity_from_dataframe(entity_id='users', dataframe=users_df, index='user_id')
features, feature_defs = ft.dfs(entityset=es, target_entity='users')

六、避坑指南与最佳实践
  1. 避免数据泄露

    • 所有统计量(如Target Encoding的均值)必须仅从训练集计算!
    • 使用Pipeline封装预处理与模型训练:
      from sklearn.pipeline import Pipeline
      pipe = Pipeline([('encoder', TargetEncoder()), ('model', RandomForest())])
      
  2. 领域知识驱动

    • 在电商场景中,构造“商品价格与类目平均价格的比值”可能比单纯价格更有效
    • 在风控场景中,组合“申请时间与工作时段的重叠度”作为特征
  3. 迭代验证

    • 通过AB测试对比不同特征组合的模型性能
    • 监控特征稳定性(如PSI指标)防止线上数据分布偏移

七、终极心法
  • “Less is More”:优先构造10个强特征,而非100个弱特征。
  • “Think Like a Model”:理解模型如何利用特征(如线性模型依赖线性可分性,NN偏好稠密低维输入)。
  • “Data First, Algorithm Second”:特征工程提升的上限远高于调参!

总结:特征工程是融合领域知识、数据直觉与工程技巧的艺术。掌握核心方法后,需在业务场景中反复迭代,才能炼出“模型友好”的金牌特征。


相关文章:

06-机器学习-数据预处理

数据清洗 数据清洗是数据预处理的核心步骤&#xff0c;旨在修正或移除数据集中的错误、不完整、重复或不一致的部分&#xff0c;为后续分析和建模提供可靠基础。以下是数据清洗的详细流程、方法和实战示例&#xff1a; 一、数据清洗的核心任务 问题类型表现示例影响缺失值数值…...

电梯系统的UML文档12

5.2.1 DoorControl 的状态图 图 19: DoorControl 的状态图 5.2.2 DriveControl 的状态图 图 20: DriveControl 的状态图 5.2.3 LanternControl 的状态图 图 21: LanternControl 的状态图 5.2.4 HallButtonControl 的状态图 图 22: HallButtonControl 的状态图 5.2.5 CarB…...

萌新学 Python 之运算符

Python 中运算符包括&#xff1a;算术运算符、比较运算符、逻辑运算符、赋值运算符、位运算符、海象运算符 算术运算符&#xff1a;加 减 - 乘 * 除 / 取整 // 求余 % 求幂 ** 注意&#xff1a;取整时&#xff0c;一正一负整除&#xff0c;向下取整 比如 5 // …...

嵌入式知识点总结 Linux驱动 (五)-linux内核

针对于嵌入式软件杂乱的知识点总结起来&#xff0c;提供给读者学习复习对下述内容的强化。 目录 1.内核镜像格式有几种&#xff1f;分别有什么区别&#xff1f; 2.内核中申请内存有哪几个函数&#xff1f;有什么区别&#xff1f; 3.什么是内核空间&#xff0c;用户空间&…...

zabbix7 配置字体 解决中文乱码问题(随手记)

目录 问题网传的方法&#xff08;无效&#xff09;正确的修改方式步骤 问题 zabbix 最新数据 中&#xff0c;图标的中文显示不出。 网传的方法&#xff08;无效&#xff09; 网传有一个方法&#xff1a;上传字体文件到/usr/share/zabbix/assets/fonts&#xff1b;修改/usr/…...

预测不规则离散运动的下一个结构

有一个点在19*19的平面上运动&#xff0c;运动轨迹为 一共移动了90步&#xff0c;顺序为 y x y x y x 0 17 16 30 10 8 60 15 15 1 3 6 31 10 7 61 14 15 2 12 17 32 9 9 62 16 15 3 4 12 33 10 9 63 18 15 4 3 18 34 15 12 6…...

CTFSHOW-WEB入门-命令执行29-32

题目&#xff1a;web 29 题目&#xff1a;解题思路&#xff1a;分析代码&#xff1a; error_reporting(0); if(isset($_GET[c])){//get一个c的参数$c $_GET[c];//赋值给Cif(!preg_match("/flag/i", $c)){eval($c);//if C变量里面没有flag&#xff0c;那么就执行C…...

SQL Server 建立每日自动log备份的维护计划

SQLServer数据库可以使用维护计划完成数据库的自动备份&#xff0c;下面以在SQL Server 2012为例说明具体配置方法。 1.启动SQL Server Management Studio&#xff0c;在【对象资源管理器】窗格中选择数据库实例&#xff0c;然后依次选择【管理】→【维护计划】选项&#xff0…...

doris:HLL

HLL是用作模糊去重&#xff0c;在数据量大的情况性能优于 Count Distinct。HLL的导入需要结合hll_hash等函数来使用。更多文档参考HLL。 使用示例​ 第 1 步&#xff1a;准备数据​ 创建如下的 csv 文件&#xff1a;test_hll.csv 1001|koga 1002|nijg 1003|lojn 1004|lofn …...

双层Git管理项目,github托管显示正常

双层Git管理项目&#xff0c;github托管显示正常 背景 在写React项目时&#xff0c;使用Next.js,该项目默认由git托管。但是我有在项目代码外层记笔记的习惯&#xff0c;我就在外层使用了git托管。 目录如下 code 层内也有.git 文件&#xff0c;对其托管。 我没太在意&…...

准备知识——旋转机械的频率和振动基础

旋转频率&#xff0c;也称为转速或旋转速率&#xff08;符号ν&#xff0c;小写希腊字母nu&#xff0c;也作n&#xff09;&#xff0c;是物体绕轴旋转的频率。其国际单位制单位是秒的倒数(s −1 )&#xff1b;其他常见测量单位包括赫兹(Hz)、每秒周期数(cps) 和每分钟转数(rpm)…...

知识库管理驱动企业知识流动与工作协同创新模式

内容概要 知识库管理在现代企业中扮演着至关重要的角色&#xff0c;其价值不仅体现在知识的积累&#xff0c;还在于通过优质的信息流动促进协作与创新。有效的知识库能够将分散的信息整合为有序、易于访问的资源&#xff0c;为员工提供实时支持&#xff0c;进而提升整体工作效…...

CMake常用命令指南(CMakeList.txt)

CMakeList从入门到精通的文章有很多不再赘述&#xff08; 此处附带一篇优秀的博文链接&#xff1a;一个简单例子&#xff0c;完全入门CMake语法与CMakeList编写 &#xff09;。 本文主要列举 CMake 中常用命令的详细说明、优缺点分析以及推荐做法&#xff0c;以更好地理解和灵…...

【回溯+剪枝】找出所有子集的异或总和再求和 全排列Ⅱ

文章目录 1863. 找出所有子集的异或总和再求和解题思路&#xff1a;子集问题解法&#xff08;回溯 剪枝&#xff09;47. 全排列 II解题思路&#xff1a;排序 回溯 剪枝 1863. 找出所有子集的异或总和再求和 1863. 找出所有子集的异或总和再求和 一个数组的 异或总和 定义为…...

中国技术突破对国际格局的多维影响与回应

链接地址&#xff1a; https://download.csdn.net/download/wanggang130532/90323798https://download.csdn.net/download/wanggang130532/90323798...

【漫话机器学习系列】068.网格搜索(GridSearch)

网格搜索&#xff08;Grid Search&#xff09; 网格搜索&#xff08;Grid Search&#xff09;是一种用于优化机器学习模型超参数的技术。它通过系统地遍历给定的参数组合&#xff0c;找出使模型性能达到最优的参数配置。 网格搜索的核心思想 定义参数网格 创建一个包含超参数值…...

元宇宙下的Facebook:虚拟现实与社交的结合

随着科技的不断进步&#xff0c;虚拟现实&#xff08;VR&#xff09;技术逐渐从科幻走入现实&#xff0c;成为人们探索未来社交方式的重要工具。在这一浪潮中&#xff0c;Facebook&#xff08;现为Meta&#xff09;作为全球领先的社交平台&#xff0c;正在积极布局虚拟现实和元…...

记忆力训练day08

写作头脑风暴训练 1 集体的头脑风暴&#xff1a; 2 一个人的头脑风暴 没事&#xff0c;你说老师我还没有摸到门道&#xff0c;你去做&#xff0c;做的时候你就会知道什么叫做头脑风暴。记住&#xff0c;不要用脑子就在感觉里面&#xff0c;你究竟想给人呈现一种什么样的文章&am…...

崇州市街子古镇正月初一繁华剪影

今天是蛇年正月初一&#xff0c;下午笔者步出家门&#xff0c;逛到了崇州市街子古镇井水街&#xff0c;想看看景象如何。结果看到的是车水马龙、人流如织&#xff0c;繁花似锦&#xff0c;热闹非凡&#xff0c;原来今天开始预订此地摆下的长街宴。心里高兴&#xff0c;便用手机…...

websocket webworker教程及应用

WebSocket 和 Web Workers 是两种不同的 Web 技术&#xff0c;分别用于实现实时通信和后台线程处理。以下是它们的简要教程&#xff1a; WebSocket 教程 1. 什么是 WebSocket&#xff1f; WebSocket 是一种在单个 TCP 连接上进行全双工通信的协议。它允许服务器主动向客户端推…...

Linux相关概念和易错知识点(42)(TCP的连接管理、可靠性、面临复杂网络的处理)

目录 1.TCP的连接管理机制&#xff08;1&#xff09;三次握手①握手过程②对握手过程的理解 &#xff08;2&#xff09;四次挥手&#xff08;3&#xff09;握手和挥手的触发&#xff08;4&#xff09;状态切换①挥手过程中状态的切换②握手过程中状态的切换 2.TCP的可靠性&…...

最新SpringBoot+SpringCloud+Nacos微服务框架分享

文章目录 前言一、服务规划二、架构核心1.cloud的pom2.gateway的异常handler3.gateway的filter4、admin的pom5、admin的登录核心 三、code-helper分享总结 前言 最近有个活蛮赶的&#xff0c;根据Excel列的需求预估的工时直接打骨折&#xff0c;不要问我为什么&#xff0c;主要…...

Psychopy音频的使用

Psychopy音频的使用 本文主要解决以下问题&#xff1a; 指定音频引擎与设备&#xff1b;播放音频文件 本文所使用的环境&#xff1a; Python3.10 numpy2.2.6 psychopy2025.1.1 psychtoolbox3.0.19.14 一、音频配置 Psychopy文档链接为Sound - for audio playback — Psy…...

OpenPrompt 和直接对提示词的嵌入向量进行训练有什么区别

OpenPrompt 和直接对提示词的嵌入向量进行训练有什么区别 直接训练提示词嵌入向量的核心区别 您提到的代码: prompt_embedding = initial_embedding.clone().requires_grad_(True) optimizer = torch.optim.Adam([prompt_embedding...

【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分

一、项目背景回顾 前五弹完成了Json-Rpc协议解析、请求处理、客户端调用等基础模块搭建。 本弹重点聚焦于服务端的模块划分与架构设计&#xff0c;提升代码结构的可维护性与扩展性。 二、服务端模块设计目标 高内聚低耦合&#xff1a;各模块职责清晰&#xff0c;便于独立开发…...

七、数据库的完整性

七、数据库的完整性 主要内容 7.1 数据库的完整性概述 7.2 实体完整性 7.3 参照完整性 7.4 用户定义的完整性 7.5 触发器 7.6 SQL Server中数据库完整性的实现 7.7 小结 7.1 数据库的完整性概述 数据库完整性的含义 正确性 指数据的合法性 有效性 指数据是否属于所定…...

SQL慢可能是触发了ring buffer

简介 最近在进行 postgresql 性能排查的时候,发现 PG 在某一个时间并行执行的 SQL 变得特别慢。最后通过监控监观察到并行发起得时间 buffers_alloc 就急速上升,且低水位伴随在整个慢 SQL,一直是 buferIO 的等待事件,此时也没有其他会话的争抢。SQL 虽然不是高效 SQL ,但…...

MySQL JOIN 表过多的优化思路

当 MySQL 查询涉及大量表 JOIN 时&#xff0c;性能会显著下降。以下是优化思路和简易实现方法&#xff1a; 一、核心优化思路 减少 JOIN 数量 数据冗余&#xff1a;添加必要的冗余字段&#xff08;如订单表直接存储用户名&#xff09;合并表&#xff1a;将频繁关联的小表合并成…...

0x-3-Oracle 23 ai-sqlcl 25.1 集成安装-配置和优化

是不是受够了安装了oracle database之后sqlplus的简陋&#xff0c;无法删除无法上下翻页的苦恼。 可以安装readline和rlwrap插件的话&#xff0c;配置.bahs_profile后也能解决上下翻页这些&#xff0c;但是很多生产环境无法安装rpm包。 oracle提供了sqlcl免费许可&#xff0c…...

【UE5 C++】通过文件对话框获取选择文件的路径

目录 效果 步骤 源码 效果 步骤 1. 在“xxx.Build.cs”中添加需要使用的模块 &#xff0c;这里主要使用“DesktopPlatform”模块 2. 添加后闭UE编辑器&#xff0c;右键点击 .uproject 文件&#xff0c;选择 "Generate Visual Studio project files"&#xff0c;重…...