当前位置: 首页 > news >正文

数据去重与重复数据的高效处理策略

在实际业务中,数据去重是一个非常常见的需求,特别是在日志数据、用户操作记录或交易记录等领域。去重不仅仅是删除重复数据,更重要的是按照业务规则保留最有价值的数据记录

本文将探讨如何在 SQL 中高效地处理重复数据,通过 DISTINCTROW_NUMBER()GROUP BY 等方法解决不同场景下的数据去重问题。


一、常见的去重场景

  1. 用户登录记录:保留每个用户的最新登录记录,删除其他重复记录。
  2. 订单数据:针对重复订单记录,保留金额最大的订单或最新的订单记录。
  3. 日志分析:在日志表中去除重复的操作记录,只保留最近一次操作。

二、数据示例

假设有一个用户登录记录表 user_logins,其结构如下:

iduser_idlogin_timedevice
11012024-01-01 08:30:00PC
21012024-01-02 10:00:00Mobile
31022024-01-01 09:15:00PC
41032024-01-01 14:45:00Tablet
51012024-01-03 11:00:00Mobile
61022024-01-04 16:30:00Mobile

目标

  • 保留每个用户最近一次的登录记录,删除其他重复数据。

三、常用去重方法


1. 使用 DISTINCT 进行简单去重

DISTINCT 用于去除表中完全重复的行,适用于整个记录重复的场景。

SELECT DISTINCT user_id, device
FROM user_logins;

适用场景

  • 适合字段完全相同的简单重复数据。
  • 局限性DISTINCT 只能消除完全重复的行,如果存在时间戳不同但用户相同的记录,将无法处理。

2. 使用 GROUP BY 与聚合函数

通过 GROUP BY 分组和 MAX 函数,可以保留每组中的最新记录。

SELECT user_id, MAX(login_time) AS latest_login
FROM user_logins
GROUP BY user_id;

适用场景

  • 按用户分组,保留每个用户最新的登录时间。
  • 局限性:只能返回最大(最新)时间,无法保留完整记录中的其他字段(如设备类型)。

优化版本:使用子查询保留完整记录

SELECT * 
FROM user_logins u
WHERE login_time = (SELECT MAX(login_time)FROM user_loginsWHERE user_id = u.user_id
);
  • 说明:子查询筛选出每个用户最新的登录时间,再通过主查询返回完整记录。

3. 使用 ROW_NUMBER() 进行去重

ROW_NUMBER() 是 SQL 窗口函数,可以为每组记录生成唯一的序号,从而方便地保留最新或特定排名的记录。

WITH ranked_logins AS (SELECT *,ROW_NUMBER() OVER (PARTITION BY user_idORDER BY login_time DESC) AS rnFROM user_logins
)
SELECT id, user_id, login_time, device
FROM ranked_logins
WHERE rn = 1;

适用场景

  • 适合去除分组内的重复记录,保留每组中最新的一条记录。
  • 优势:可以返回完整的记录而不丢失其他字段。
  • 局限性:需要数据库支持窗口函数(如 MySQL 8.0+、PostgreSQL、SQL Server)。

4. 使用 DELETE 删除重复数据

如果要直接在表中删除重复记录,可以使用 ROW_NUMBER() 标记重复数据,然后删除排名大于 1 的行。

WITH ranked_logins AS (SELECT id,ROW_NUMBER() OVER (PARTITION BY user_idORDER BY login_time DESC) AS rnFROM user_logins
)
DELETE FROM user_logins
WHERE id IN (SELECT id FROM ranked_logins WHERE rn > 1
);
  • 说明:只保留每个用户最新的一条登录记录,删除其余记录。

四、性能对比与优化策略

性能对比
方法执行速度复杂度适用场景
DISTINCT简单去除完全重复的行
GROUP BY + MAX一般按分组保留最新或最早的记录
ROW_NUMBER()一般分组去重并保留完整记录
DELETE + ROW_NUMBER()复杂删除分组内多余记录

优化建议
  1. 索引优化:在去重字段(如 user_idlogin_time)上创建索引,可以显著提高查询速度。
CREATE INDEX idx_user_login ON user_logins(user_id, login_time DESC);
  1. 批量处理:对于超大数据量表,使用批量删除或分批次去重,避免锁表或性能瓶颈。
DELETE FROM user_logins
WHERE id IN (SELECT idFROM user_loginsWHERE login_time < NOW() - INTERVAL 30 DAY
);
  1. 避免全表扫描:在查询时尽量减少无关字段,只查询需要去重的字段,减少数据库 I/O 操作量。

五、实战案例:每日用户登录记录去重

需求描述

  • 保留每个用户最近一次的登录记录,删除多余的历史记录。
WITH ranked_logins AS (SELECT id,ROW_NUMBER() OVER (PARTITION BY user_idORDER BY login_time DESC) AS rnFROM user_logins
)
DELETE FROM user_logins
WHERE id IN (SELECT id FROM ranked_logins WHERE rn > 1
);

结果

  • 每个用户仅保留一条最近的登录记录。

六、总结

  1. DISTINCT 适合简单重复数据的去重。
  2. GROUP BY + 聚合函数 是最常用的去重方式,适合按特定规则分组去重。
  3. ROW_NUMBER() 提供了更强的灵活性,可以按业务规则保留最优记录,删除其他重复数据。
  4. 性能优化:结合索引与批量处理策略,能有效提升大数据量表的去重效率。

通过合理选择去重策略,可以确保数据的唯一性和完整性,同时提升数据库查询性能,保证业务系统的稳定高效运行。

相关文章:

数据去重与重复数据的高效处理策略

在实际业务中&#xff0c;数据去重是一个非常常见的需求&#xff0c;特别是在日志数据、用户操作记录或交易记录等领域。去重不仅仅是删除重复数据&#xff0c;更重要的是按照业务规则保留最有价值的数据记录。 本文将探讨如何在 SQL 中高效地处理重复数据&#xff0c;通过 DI…...

Spring Boot自动装配代码详解

概述 Spring Boot自动装配是其核心特性之一&#xff0c;它能够根据项目中添加的依赖自动配置Spring应用程序。通过自动装配&#xff0c;开发人员可以减少大量的配置工作&#xff0c;快速搭建起一个可用的Spring应用。 关键组件和注解 SpringBootApplication注解 这是Spring Bo…...

渗透测试-非寻常漏洞案例

声明 本文章所分享内容仅用于网络安全技术讨论&#xff0c;切勿用于违法途径&#xff0c;所有渗透都需获取授权&#xff0c;违者后果自行承担&#xff0c;与本号及作者无关&#xff0c;请谨记守法. 此文章不允许未经授权转发至除先知社区以外的其它平台&#xff01;&#xff0…...

122. 买卖股票的最佳时机 II

https://leetcode.cn/problems/best-time-to-buy-and-sell-stock-ii/description/?envTypestudy-plan-v2&envIdtop-interview-150问题分析&#xff1a; 和买卖股票的最佳时机I这题相比&#xff0c;区别就是可以买多只股票虽然同时只能持有一支&#xff0c;但是我们还是可以…...

Python爬虫入门指南:从零开始抓取数据

Python爬虫入门指南&#xff1a;从零开始抓取数据 引言 在大数据时代&#xff0c;数据是新的石油。而爬虫作为获取数据的重要手段&#xff0c;受到了越来越多的关注。Python作为一门强大的编程语言&#xff0c;其简洁易用的特性使得它成为爬虫开发的首选语言。本篇文章将带你…...

Android使用JAVA调用JNI原生C++方法

1.native-lib.cpp为要生成so库的源码文件 2.JNI函数声明说明 NewStringUTF函数会返回jstring JNI函数声明规则 3.JAVA中声明及调用JNI函数 声明&#xff1a; 调用 4.源码地址&#xff1a; gitgithub.com:tonyimax/UpdateTimeByThread.git...

ros常用命令记录

文章目录 1.基本2.rosbag2.1录制rosbag包2.2播放录制的ROS包 3.生命周期4.ROS启动&#xff0c;roslaunch5.ROS消息发布6.ROS消息后台打印监控 1.基本 ros2 topic list #查看话题列表2.rosbag 2.1录制rosbag包 ros2 bag record <topic_name> #记录单个主题消息 ros2 ba…...

UE5材质节点VertexNormalWs/PixelNormalWS

VertexNormalWs顶点法线方向&#xff0c;此节点可以做物体上积雪、青苔等效果 PixelNormalWS像素法线方向...

友元和运算符重载

1. 友元 可以把某些选定的函数看作类的“荣誉函数”&#xff0c;允许它们访问类对象中非公共的成员&#xff0c;就好像它们是类的成员一样&#xff0c;这种函数称为类的友元。友元可以访问类对象的任意成员。 1.1 友元函数 友元函数是一种定义在类外部的普通函数&#xff0…...

【数据库事务锁的类型:读锁/写锁、悲观锁/乐观锁、表锁/页锁/行锁】

数据库事务锁的类型&#xff1a;读锁/写锁、悲观锁/乐观锁、表锁/页锁/行锁 一、读锁/写锁1、锁定读 二、悲观锁/乐观锁2.1 悲观锁2.2 乐观锁 三、表锁/页锁/行锁3.1 表级别的S锁、X锁3.2 表级别的意向锁&#xff08;intention lock&#xff09; 一、读锁/写锁 对于数据库中并…...

【Motion Builder】配置c++插件开发环境

目录 准备环境构建官方案例另行构建经验分享附录 准备环境 安装Motion Builder 2024并破解安装Qt 5.15.2 截止至2024年12月19日&#xff0c;Qt的在线安装器的默认页面是没有5.15.2版本的。你需要&#xff1a;在“选择组件”界面&#xff0c;选择“Archive”&#xff0c;点击“…...

多线程访问FFmpegFrameGrabber.start方法阻塞问题

一、背景 项目集成网络摄像头实现直播功能需要用到ffmpeg处理rtmp视频流进行web端播放 通过网上资源找到大神的springboot项目实现了rtmp视频流转为http请求进行视频中转功能&#xff0c;其底层利用javacv的FFmpegFrameGrabber进行拉流、推流&#xff0c;进而实现了视频中转。 …...

MySQL使用记录

char和varchar varchar是可变长的&#xff0c;实际用多少它就占多少&#xff0c;和char不同&#xff0c;char规定多少它就会占多少 varchar的长度是字符个数&#xff0c;不管是数字、英文还是汉字&#xff0c;varchar(10)都可以存10个&#xff0c;而不会出现因为汉字占更多的字…...

【视觉SLAM:六、视觉里程计Ⅰ:特征点法】

视觉里程计&#xff08;Visual Odometry, VO&#xff09;是通过处理图像序列&#xff0c;估计摄像头在时间上的相对位姿变化的技术。它是视觉SLAM的重要组成部分之一&#xff0c;主要通过提取图像中的信息&#xff08;如特征点或直接像素强度&#xff09;来实现相机运动估计。以…...

Python 数据结构揭秘:栈与队列

栈&#xff08;Stack&#xff09; 定义 栈是一种后进先出&#xff08;Last In First Out, LIFO&#xff09;的数据结构。它类似于一个容器&#xff0c;只能在一端进行插入和删除操作。栈有两个主要的操作&#xff1a;push&#xff08;入栈&#xff09;和 pop&#xff08;出栈…...

常见的框架漏洞

1.Thinkphp Thinkphp5x远程命令执行及getshell 搭建靶场 cd vulhub/thinkphp/5-rce docker-compose up -d 首页 漏洞根本源于 thinkphp/library/think/Request.php 中method方法可以进行变量覆盖&#xff0c;通过覆盖类的核心属性filter导致rce&#xff0c;其攻击点较为多&…...

在C++中实现一个能够捕获弹窗、检查内容并在满足条件时点击按钮的程序;使用python的方案

在C中实现一个能够捕获弹窗、检查内容并在满足条件时点击按钮的程序是相当复杂的&#xff0c;因为C本身并不直接提供高级的GUI自动化功能。通常&#xff0c;这样的任务会使用Windows API&#xff08;如User32.dll中的函数&#xff09;或者一些第三方库&#xff08;如UIAutomati…...

《Vue3实战教程》26:Vue3Transition

如果您有疑问&#xff0c;请观看视频教程《Vue3实战教程》...

【架构设计(一)】常见的Java架构模式

常见的 Java 架构模式解析 在 Java 开发领域&#xff0c;选择合适的架构模式对于构建高效、可维护且能满足业务需求的软件系统至关重要。本文将深入探讨几种常见的 Java架构模式&#xff0c;包括单体架构与微服务架构、分层架构与微服务架构的对比&#xff0c;以及事件驱动架构…...

自定义有序Map

package cn.ziqirj.common.utils;import lombok.Getter; import lombok.Setter;import java.util.ArrayList; import java.util.List;/*** 模拟Map集合&#xff0c;key不可重复&#xff0c;按插入顺序排序* author zhangji** param <T>*/ public class CustomOrderlyMap&…...

Jenkins(持续集成与自动化部署)

Jenkins 是一个开源软件项目&#xff0c;是基于Java开发的一种持续集成工具。 官网&#xff1a;https://www.jenkins.io/ GitLab安装使用 安装前提&#xff1a;内存至少需要4G 官方网站&#xff1a;https://about.gitlab.com/ 安装文档&#xff1a;https://docs.gitlab.c…...

redis7基础篇2 redis的哨兵模式2

目录 一 哨兵模式 1.1 redis的哨兵模式作用 1.2 redis的哨兵模式架构 1.3 redis的哨兵模式参数说明 二 redis的哨兵模式搭建 2.1 redis的主从复制模式 2.2 redis的sentinel配置文件 2.3 redis的实例节点和sentinel节点启动 3.3 redis的哨兵模式原理 3.3.1 redis的哨兵…...

windows终端conda activate命令行不显示环境名

问题&#xff1a; 始终不显示环境名 解决 首先需要配置conda的环境变量 确保conda --version能显示版本 然后对cmd进行初始化&#xff0c;如果用的是vscode中的终端&#xff0c;那需要对powershell进行初始化 Windows CMD conda init cmd.exeWindows PowerShell conda …...

SpringBoot 2.6 集成es 7.17

引言 在现代应用开发中&#xff0c;Elasticsearch作为一个强大的搜索引擎和分析引擎&#xff0c;已经成为许多项目不可或缺的一部分。Spring Boot作为Java生态中最受欢迎的微服务框架之一&#xff0c;其对Elasticsearch的支持自然也是开发者关注的焦点。本文将详细介绍如何在S…...

加固服务器有什么用?

为什么越来越多的企业和个人都在加固他们的服务器&#xff1f;加固服务器不仅可以保护数据安全&#xff0c;还能提升整体系统的稳定性和可靠性。下面是聚名网的一些介绍。 加固服务器的首要目的就是提高安全性。随着网络攻击手段的不断演变&#xff0c;黑客和恶意软件的威胁也…...

Personal APP

1、Matlab 2023b https://www.bilibili.com/opus/887246540317392920 https://blog.csdn.net/qq_25719943/article/details/138096918 https://www.jokerdown.com/22886.html 2、 3、...

探索最新的编程技术趋势:AI 编程助手和未来的编程方式

随着技术的飞速发展&#xff0c;编程技术领域在近年来经历了深刻的变革。从人工智能到低代码开发工具&#xff0c;新的技术趋势不断涌现&#xff0c;不仅大幅提高了开发效率&#xff0c;也重新定义了开发者的角色和工作方式。本篇博客将探讨几项当前最值得关注的编程技术&#…...

Android:文件管理:打开文件意图

三步走&#xff1a; 一、先在AndroidManifest.xml声明provider&#xff1a; <providerandroid:name"androidx.core.content.FileProvider"android:authorities"${applicationId}.FileProvider"android:exported"false"android:grantUriPermi…...

从纯虚类到普通类:提升C++ ABI兼容性的策略

在C编程中&#xff0c;纯虚类&#xff08;也被称为抽象类&#xff09;通常用于定义接口&#xff0c;而普通类则包含具体的实现。然而&#xff0c;在某些情况下&#xff0c;将纯虚类转换为普通类并提供默认实现&#xff0c;可以显著提升应用程序二进制接口&#xff08;ABI&#…...

QT中如何限制 限制QLineEdit只能输入字母,或数字,或某个范围内数字等限制约束?

在 Qt 中&#xff0c;你可以通过多种方式来限制 QLineEdit 只能输入特定类型的字符&#xff0c;如字母、数字或某个范围内的数字。以下是一些常见的方法&#xff1a; 1. 使用输入验证器&#xff08;QIntValidator, QDoubleValidator, QRegExpValidator&#xff09; Qt 提供了…...