当前位置: 首页 > news >正文

【数据挖掘】如何修复时序分析缺少的日期

一、说明

        我撰写本文的目的是通过引导您完成一个示例来帮助您了解 TVF 以及如何使用它们,该示例解决了时间序列分析中常见的缺失日期问题。

        我们将介绍:

  • 如何生成日期以填补数据中缺失的空白
  • 如何创建 TVF 和参数的使用
  • 如何呼叫 TVF
  • 我们将考虑扩展我们的日期生成器以获得更大的灵活性。
  • 最后,我将分享如何访问我的TVF,并向您介绍一个名为BigFunctions的开源项目。

二、简述

在某些情况下,数据为零的日期很重要,必须在数据集中显示/包含。例如:

  • 企业可以从识别零售中没有销售的天数中受益。这些日子受到假期或客户行为变化的影响。
  • 查找数据中缺失的日期有助于揭示由系统故障或不完整的数据捕获引起的异常或异常值,从而提高数据质量。显示缺少的日期是实现此目标的有用工具。

        这些缺失的日期可能会导致分析和可视化问题。因此,您需要一个解决方案来确保输出中存在所有日期,即使没有相应的数据也是如此。

        在本文结束时,您将拥有自己的 TVF,它可以生成这个......

        从一行代码开始吧!

三、缺失日期如何补救?

        请考虑以下方案:您运行了一个查询,该查询按日期提供过去四周的总调查响应结果。然后,您将结果导入 Google 表格,以快速可视化数据。

        上图没有突出显示任何缺失的数据;它看起来完全符合预期。即使您选择在 x 轴上显示所有日期,您也没有注意到 7 月中缺少的两天也是可以原谅的。

        上图是真实数据,并真实反应7月缺少两天的数据,因而数据较窄。从中可以看出,Google的数据填充是天衣无缝的感觉,问题是离开Google,我们自己是否依然能够处理好这种缺失问题?答案是:需要经过一番研究。

四、我们如何解决这个问题

         为了解决这个问题,我创建了我喜欢称之为日期轴的东西。 此日期/周/月列(无论需要什么时间段)都是与正在分析的数据集分开构建的。这可确保日期是独立的,并且不依赖于数据存在。

        创建日期轴相当简单,尽管如果您经常需要创建一个,则很麻烦。

        下面是一个简单的示例,它生成2023-6-16到 2023-6-19 日之间的日期。


WITH date_axis as (SELECTdates
FROMUNNEST(generate_date_array("2023-06-19","2023-07-16")) as dates
)SELECTdates
FROMdate_axis

        generate_date_array函数是其中的关键部分,但正如函数名称所暗示的那样,输出以数组形式返回。因此,我们必须在下一步中取消嵌套(展平)此数组。

        日期轴存在于 CTE 中,因为我们需要将其视为一个单独的表,将我们的实际数据左连接到日期列表。

WITH date_axis as (SELECTdates
FROMUNNEST(generate_date_array("2023-06-19","2023-07-16")) as dates
)SELECTdates,responses as original_responses,ifnull(responses,0) as new_responses
FROMdate_axis as axis
LEFT JOIN`spreadsheep-20220603.Case_Studies.survey_responses` as surveyON axis.dates = survey.date

        正如您在上面看到的,我们在survey_responses表中为 7 月 2 日和 1 日的值,因为这些日期不存在。使用日期轴,我们可以轻松发现这些并适当地处理它们,在这种情况下,值将替换为0。

        重新绘制更新的数据,我们现在捕捉到7月初缺乏回复的情况。

五、关于TVF的使用(table value Function)?

5.1 什么是TVF

        TVF 是表值函数的缩写,table value Function。与 UDF(用户定义函数)非常相似,它们允许您指定一系列任务,这些任务将在调用自定义函数时运行。

        两者之间的区别在于 UDF 为数据集中的每一行返回结果,而 TVF 返回整个表。

        您可能想知道,如果 CTE 方法完美地完成了这项工作,那有什么意义。好吧,在 TVF 中,我们可以扩展日期轴函数的功能和可重用性并简化我们的代码。

        有许多创造性和有用的方法来使用 TVF,在本文中,我们将使用一种方法来生成日期轴。

5.2 创建TVF

CREATE OR REPLACE TABLE FUNCTION `spreadsheep-20220603.Case_Studies.generate_dates`(start_date DATE, end_date DATE)
AS (
SELECTdates
FROMUNNEST(generate_date_array(start_date,end_date)) as dates
)

        创建 TVF 既好又容易;从“开始,然后是要在项目中保存 TVF 的位置。然后,您可以添加参数,我们在此示例中添加了两个参数。create or replace table function

        start_date DATE, end_date DATE

        如下所示,这两个参数替换了我们添加到 generate_date_array 函数的静态值。

        unnest(generate_date_array(start_date,end_date)) as dates

        创建 TVF 后,您可以像调用表一样调用新函数。请注意,我在 FROM 子句末尾添加了括号,以指定我希望 TVF 使用哪些值,其中 7 月 1 日作为开始日期,7 月 7 日作为结束日期。

SELECT dates 
FROM `spreadsheep-20220603.Case_Studies.generate_dates`("2023-07-01", "2023-07-07")

        我们现在可以更新原始查询以使用新的 TVF。

WITH date_axis as (
SELECT dates 
FROM `spreadsheep-20220603.Case_Studies.generate_dates`("2023-06-19", "2023-07-16")
)SELECTdates,responses as original_responses,ifnull(responses,0) as new_responses
FROMdate_axis as axis
LEFT JOIN`spreadsheep-20220603.Case_Studies.survey_responses` as surveyON axis.dates = survey.date

5.3 在TVF上扩展

        到目前为止,该函数非常有限,因为它只提供日期。如果我们想要一周的开始日期,一周从星期日开始,或者我们想要过去几年的季度开始和结束日期,该怎么办?

        虽然我们可以将该逻辑添加到调用 TVF 的 CTE 中,但让我们在 TVF 中处理它,以便在需要时它就在那里。

        我的最终版本增加了一些其他可能性,具体取决于您是否需要每周、每月或每季度的日期范围。

CREATE OR REPLACE TABLE FUNCTION `spreadsheep-20220603.Case_Studies.generate_dates`(start_date DATE, end_date DATE)
OPTIONS (description="Generate a table of dates") AS (
(
selectdate,format_date("%a", date) as day_of_week,date_trunc(date, week(monday)) as week_start_monday,date_trunc(date, week(monday)) + 6 as week_end_monday,date_trunc(date, week(sunday)) as week_start_sunday,date_trunc(date, week(sunday)) + 6 as week_end_sunday,date_trunc(date, month) as month_start,date_add(date_trunc(date, month), interval 1 month) - 1 as month_end,date_trunc(date, quarter) as quarter_start,date_add(date_trunc(date, quarter), interval 1 quarter) - 1 as quarter_end,
from unnest(generate_date_array(start_date,end_date)
) as date
)
);

        这为我们提供了在本文开头看到的输出,其中单个查询行可以生成数年的日期,以及它们的周、月和季度部分。

        作为奖励,我们创建的这个函数不会查询任何实际数据。这意味着它是完全免费的,而且速度快如闪电。

        即使生成从 1820 年到现在的日期也只需 1 秒。

SELECT * FROM `spreadsheep-20220603.Case_Studies.generate_dates`("1820-07-01","2023-07-15")

摄影:Benjamin Davies on Unsplash

5.4 访问BigFunctions

        为了节省一些时间,您不必在项目中创建此 TVF;您可以使用公共版本,该版本存在于 BigFunctions 开源项目中。

        要将 BigFunctions 添加到项目中,您可以使用资源管理器添加功能,然后“按名称为项目加星标”,如下所示。

        这些函数在每个区域中都可用,在每个数据集中,您可以在“例程”下找到generate_dates。试试下面的代码!

SELECT * FROM `bigfunctions.europe_west2.generate_dates`("2022-01-01", "2023-01-01");

        有关 BigFunctions 的更多详细信息可以在这里找到,其中充满了很棒的自定义函数,其中一些甚至使用 Python 来运行各种整洁的东西。如果您在日常角色中使用 BigQuery,请查看它。

相关文章:

【数据挖掘】如何修复时序分析缺少的日期

一、说明 我撰写本文的目的是通过引导您完成一个示例来帮助您了解 TVF 以及如何使用它们,该示例解决了时间序列分析中常见的缺失日期问题。 我们将介绍: 如何生成日期以填补数据中缺失的空白如何创建 TVF 和参数的使用如何呼叫 TVF我们将考虑扩展我们的日…...

CDN、P2P、PCDN的区别是什么

本篇文章为大家介绍一下与网络加速有关的几个重要概念,一起了解一下CDN,P2P和PCDN究竟是什么吧! 1. CDN CDN即Content Delivery Network,中文全称为内容分发网络。 如果内容离用户远,用户可能无法获得及时的响应,那…...

MYSQL练习一答案

练习1答案 构建数据库 数据库 数据表 answer开头表为对应题号答案形成的数据表 表结构 表数据 答案: 1、查询商品库存等于50的所有商品,显示商品编号,商 品名称,商品售价,商品库存。 SQL语句 select good_no,good…...

路由器(第二十五课)

路由器的深入学习 一、路由 1、路由 1) 什么是路由:路由就是数据包从一个网络到另外一外网络的过程 2)支持路由功能的设备:路由器、三层交换机、防火墙 3 路由器转发数据包的依据: -每一台路由器都维护着一张路由表 -路由器是依靠这张路由表来转发数据的 -这张路由表就…...

物联网网关模块可以带几台plc设备吗?可以接几个modbus设备?

随着物联网技术的快速发展,物联网网关模块已经成为了实现物联网应用的重要工具。很多客户在选择物联网网关模块时想了解物联网网关模块的设备接入能力,一个物联网网关模块可以带几台PLC设备?可以接几个Modbus设备? 物联网网关模块…...

SpringBoot中间件—ORM(Mybatis)框架实现

目录 定义 需求背景 方案设计 代码展示 UML图 实现细节 测试验证 总结 源码地址(已开源):https://gitee.com/sizhaohe/mini-mybatis.git 跟着源码及下述UML图来理解上手会更快,拒绝浮躁,沉下心来搞 定义&#x…...

结构化思维:高效能项目经理人的底层能力

大家好,我是老原。 我们经常会说「高效能」,那怎么成为高效能人士?其实除了拼体力和心力以外,高效能更重要的是脑力,这里的脑力不是指智力,而是结构化思维。 随着你在职场中不断成长和进阶,级…...

Pytorch个人学习记录总结 07

目录 神经网络-非线性激活 神经网络-线形层及其他层介绍 神经网络-非线性激活 官方文档地址:torch.nn — PyTorch 2.0 documentation 常用的:Sigmoid、ReLU、LeakyReLU等。 作用:为模型引入非线性特征,这样才能在训练过程中…...

vue3+ts+elementui-plus二次封装树形表格

复制粘贴即可&#xff1a; 一、定义table组件 <template><div classmain><div><el-table ref"multipleTableRef" :height"height" :default-expand-all"isExpend" :data"treeTableData"style"width: 100%…...

机器学习/深度学习常见算法实现(秋招版)

包括BN层、卷积层、池化层、交叉熵、随机梯度下降法、非极大抑制、k均值聚类等秋招常见的代码实现。 1. BN层 import numpy as npdef batch_norm(outputs, gamma, beta, epsilon1e-6, momentum0.9, running_mean0, running_var1)::param outputs: [B, L]:param gamma: mean:p…...

京东技术专家首推:Spring 微服务架构设计,GitHub 星标 128K

前言 本书提供了实现大型响应式微服务的实用方法和指导原则&#xff0c;并通过示例全面 讲解如何构建微服务。本书深入介绍了 Spring Boot、Spring Cloud、 Docker、Mesos 和 Marathon&#xff0c;还会教授如何用 Spring Boot 部署自治服务&#xff0c;而 无须使用重量级应用服…...

R语言--森林图制作

#数据准备- data5 #install.packages("rmda")rm(list=ls())library(MASS)library(rmda)library(dplyr) #mutate依赖环境library(magrittr) #%>%依赖setwd("D:/R/nomo5new2")data...

Tomcat中利用war包部署

在Tomcat中利用war包部署Web应用程序时&#xff0c;默认情况下&#xff0c;应用程序的上下文路径&#xff08;也称为项目名称&#xff09;将是war文件的名称&#xff08;去除.war扩展名&#xff09;。这意味着您在访问Web应用程序时必须在URL中包含项目名称。例如&#xff0c;如…...

[JAVAee]线程安全

目录 线程安全的理解 线程不安全的原因 ①非原子性 ②可见性 ③代码重排序 体会何为不安全的线程 保证线程安全 一个代码在多线程的环境下就很容易出现错误. 线程安全的理解 线程安全是什么呢?通俗的来讲,线程安全就是在多线程的环境下,代码的结果是符合我们预期的,就…...

ELK环境搭建——概况

Elastic Stack,核心产品包括 Elasticsearch、Kibana、Beats 和 Logstash等等。能够安全可靠地从任何来源获取任何格式的数据,然后对数据进行搜索、分析和可视化。 目录 一:Elasticsearch: 1.1 从数据中探寻各种问题的答案 1.1.1 定义您自己的搜索方式...

面试知识点整理

计算机的物理内存是有限的&#xff0c;所以操作系统在遇到内存不足时&#xff0c;会通过换页机制暂时把 某个进程未使用的内存中的数据搬移到硬盘上&#xff08;比如 Linux 的 swap 分区&#xff09;&#xff0c;并在系统页表中 删除相应的表项。当该进程访问数据已经被搬移到硬…...

腾讯云服务器CVM计算型c6/c5实例CPU型号、处理器主频大全

腾讯云服务器CVM计算型C6、C5、C4、CN3、C3和C2实例&#xff0c;计算型C6云服务器CPU采用Intel Xeon Ice Lake处理器&#xff0c;主频3.2GHz&#xff0c;睿频3.5GHz&#xff0c;腾讯云服务器网分享更多计算型CVM云服务器CPU型号、处理器主频性能说明&#xff1a; 目录 云服务…...

vue3笔记-脚手架篇

第一章 基础篇 第二章 脚手架篇 vue2与vue3的一些区别 响应式系统&#xff1a; Vue 2 使用 Object.defineProperty 进行响应式数据的劫持和监听&#xff0c;它对数据监听是一项项的进行监听&#xff0c;因此&#xff0c;当新增属性发生变化时&#xff0c;它无法监测到&…...

数字的补数

题目&#xff1a; 对整数的二进制表示取反&#xff08;0 变 1 &#xff0c;1 变 0&#xff09;后&#xff0c;再转换为十进制表示&#xff0c;可以得到这个整数的补数。 例如&#xff0c;整数 5 的二进制表示是 "101" &#xff0c;取反后得到 "010" &…...

Taskfile demo

https://github.com/yangyang5214/blog/issues/1 makefile 很好用&#xff0c;但是有些语法我不会。 go-task yml & shell 不错&#xff0c;推荐 Taskfile.yml https://github.com/go-task/task/blob/main/.golangci.yml # go install github.com/go-task/task/v3/cmd/ta…...

多模态2025:技术路线“神仙打架”,视频生成冲上云霄

文&#xff5c;魏琳华 编&#xff5c;王一粟 一场大会&#xff0c;聚集了中国多模态大模型的“半壁江山”。 智源大会2025为期两天的论坛中&#xff0c;汇集了学界、创业公司和大厂等三方的热门选手&#xff0c;关于多模态的集中讨论达到了前所未有的热度。其中&#xff0c;…...

高危文件识别的常用算法:原理、应用与企业场景

高危文件识别的常用算法&#xff1a;原理、应用与企业场景 高危文件识别旨在检测可能导致安全威胁的文件&#xff0c;如包含恶意代码、敏感数据或欺诈内容的文档&#xff0c;在企业协同办公环境中&#xff08;如Teams、Google Workspace&#xff09;尤为重要。结合大模型技术&…...

【生成模型】视频生成论文调研

工作清单 上游应用方向&#xff1a;控制、速度、时长、高动态、多主体驱动 类型工作基础模型WAN / WAN-VACE / HunyuanVideo控制条件轨迹控制ATI~镜头控制ReCamMaster~多主体驱动Phantom~音频驱动Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation速…...

代码随想录刷题day30

1、零钱兑换II 给你一个整数数组 coins 表示不同面额的硬币&#xff0c;另给一个整数 amount 表示总金额。 请你计算并返回可以凑成总金额的硬币组合数。如果任何硬币组合都无法凑出总金额&#xff0c;返回 0 。 假设每一种面额的硬币有无限个。 题目数据保证结果符合 32 位带…...

【分享】推荐一些办公小工具

1、PDF 在线转换 https://smallpdf.com/cn/pdf-tools 推荐理由&#xff1a;大部分的转换软件需要收费&#xff0c;要么功能不齐全&#xff0c;而开会员又用不了几次浪费钱&#xff0c;借用别人的又不安全。 这个网站它不需要登录或下载安装。而且提供的免费功能就能满足日常…...

无人机侦测与反制技术的进展与应用

国家电网无人机侦测与反制技术的进展与应用 引言 随着无人机&#xff08;无人驾驶飞行器&#xff0c;UAV&#xff09;技术的快速发展&#xff0c;其在商业、娱乐和军事领域的广泛应用带来了新的安全挑战。特别是对于关键基础设施如电力系统&#xff0c;无人机的“黑飞”&…...

纯 Java 项目(非 SpringBoot)集成 Mybatis-Plus 和 Mybatis-Plus-Join

纯 Java 项目&#xff08;非 SpringBoot&#xff09;集成 Mybatis-Plus 和 Mybatis-Plus-Join 1、依赖1.1、依赖版本1.2、pom.xml 2、代码2.1、SqlSession 构造器2.2、MybatisPlus代码生成器2.3、获取 config.yml 配置2.3.1、config.yml2.3.2、项目配置类 2.4、ftl 模板2.4.1、…...

RSS 2025|从说明书学习复杂机器人操作任务:NUS邵林团队提出全新机器人装配技能学习框架Manual2Skill

视觉语言模型&#xff08;Vision-Language Models, VLMs&#xff09;&#xff0c;为真实环境中的机器人操作任务提供了极具潜力的解决方案。 尽管 VLMs 取得了显著进展&#xff0c;机器人仍难以胜任复杂的长时程任务&#xff08;如家具装配&#xff09;&#xff0c;主要受限于人…...

MyBatis中关于缓存的理解

MyBatis缓存 MyBatis系统当中默认定义两级缓存&#xff1a;一级缓存、二级缓存 默认情况下&#xff0c;只有一级缓存开启&#xff08;sqlSession级别的缓存&#xff09;二级缓存需要手动开启配置&#xff0c;需要局域namespace级别的缓存 一级缓存&#xff08;本地缓存&#…...

CSS3相关知识点

CSS3相关知识点 CSS3私有前缀私有前缀私有前缀存在的意义常见浏览器的私有前缀 CSS3基本语法CSS3 新增长度单位CSS3 新增颜色设置方式CSS3 新增选择器CSS3 新增盒模型相关属性box-sizing 怪异盒模型resize调整盒子大小box-shadow 盒子阴影opacity 不透明度 CSS3 新增背景属性ba…...