【数据挖掘】如何修复时序分析缺少的日期
一、说明
我撰写本文的目的是通过引导您完成一个示例来帮助您了解 TVF 以及如何使用它们,该示例解决了时间序列分析中常见的缺失日期问题。
我们将介绍:
- 如何生成日期以填补数据中缺失的空白
- 如何创建 TVF 和参数的使用
- 如何呼叫 TVF
- 我们将考虑扩展我们的日期生成器以获得更大的灵活性。
- 最后,我将分享如何访问我的TVF,并向您介绍一个名为BigFunctions的开源项目。
二、简述
在某些情况下,数据为零的日期很重要,必须在数据集中显示/包含。例如:
- 企业可以从识别零售中没有销售的天数中受益。这些日子受到假期或客户行为变化的影响。
- 查找数据中缺失的日期有助于揭示由系统故障或不完整的数据捕获引起的异常或异常值,从而提高数据质量。显示缺少的日期是实现此目标的有用工具。
这些缺失的日期可能会导致分析和可视化问题。因此,您需要一个解决方案来确保输出中存在所有日期,即使没有相应的数据也是如此。
在本文结束时,您将拥有自己的 TVF,它可以生成这个......

从一行代码开始吧!
![]()
三、缺失日期如何补救?
请考虑以下方案:您运行了一个查询,该查询按日期提供过去四周的总调查响应结果。然后,您将结果导入 Google 表格,以快速可视化数据。

上图没有突出显示任何缺失的数据;它看起来完全符合预期。即使您选择在 x 轴上显示所有日期,您也没有注意到 7 月中缺少的两天也是可以原谅的。

上图是真实数据,并真实反应7月缺少两天的数据,因而数据较窄。从中可以看出,Google的数据填充是天衣无缝的感觉,问题是离开Google,我们自己是否依然能够处理好这种缺失问题?答案是:需要经过一番研究。
四、我们如何解决这个问题
为了解决这个问题,我创建了我喜欢称之为日期轴的东西。 此日期/周/月列(无论需要什么时间段)都是与正在分析的数据集分开构建的。这可确保日期是独立的,并且不依赖于数据存在。
创建日期轴相当简单,尽管如果您经常需要创建一个,则很麻烦。
下面是一个简单的示例,它生成2023-6-16到 2023-6-19 日之间的日期。
WITH date_axis as (SELECTdates
FROMUNNEST(generate_date_array("2023-06-19","2023-07-16")) as dates
)SELECTdates
FROMdate_axis 
generate_date_array函数是其中的关键部分,但正如函数名称所暗示的那样,输出以数组形式返回。因此,我们必须在下一步中取消嵌套(展平)此数组。
日期轴存在于 CTE 中,因为我们需要将其视为一个单独的表,将我们的实际数据左连接到日期列表。
WITH date_axis as (SELECTdates
FROMUNNEST(generate_date_array("2023-06-19","2023-07-16")) as dates
)SELECTdates,responses as original_responses,ifnull(responses,0) as new_responses
FROMdate_axis as axis
LEFT JOIN`spreadsheep-20220603.Case_Studies.survey_responses` as surveyON axis.dates = survey.date 
正如您在上面看到的,我们在survey_responses表中为 7 月 2 日和 1 日的空值,因为这些日期不存在。使用日期轴,我们可以轻松发现这些并适当地处理它们,在这种情况下,空值将替换为0。
重新绘制更新的数据,我们现在捕捉到7月初缺乏回复的情况。

五、关于TVF的使用(table value Function)?
5.1 什么是TVF
TVF 是表值函数的缩写,table value Function。与 UDF(用户定义函数)非常相似,它们允许您指定一系列任务,这些任务将在调用自定义函数时运行。
两者之间的区别在于 UDF 为数据集中的每一行返回结果,而 TVF 返回整个表。
您可能想知道,如果 CTE 方法完美地完成了这项工作,那有什么意义。好吧,在 TVF 中,我们可以扩展日期轴函数的功能和可重用性并简化我们的代码。
有许多创造性和有用的方法来使用 TVF,在本文中,我们将使用一种方法来生成日期轴。
5.2 创建TVF
CREATE OR REPLACE TABLE FUNCTION `spreadsheep-20220603.Case_Studies.generate_dates`(start_date DATE, end_date DATE)
AS (
SELECTdates
FROMUNNEST(generate_date_array(start_date,end_date)) as dates
) 创建 TVF 既好又容易;从“开始,然后是要在项目中保存 TVF 的位置。然后,您可以添加参数,我们在此示例中添加了两个参数。create or replace table function
start_date DATE, end_date DATE
如下所示,这两个参数替换了我们添加到 generate_date_array 函数的静态值。
unnest(generate_date_array(start_date,end_date)) as dates
创建 TVF 后,您可以像调用表一样调用新函数。请注意,我在 FROM 子句末尾添加了括号,以指定我希望 TVF 使用哪些值,其中 7 月 1 日作为开始日期,7 月 7 日作为结束日期。
SELECT dates
FROM `spreadsheep-20220603.Case_Studies.generate_dates`("2023-07-01", "2023-07-07") 
我们现在可以更新原始查询以使用新的 TVF。
WITH date_axis as (
SELECT dates
FROM `spreadsheep-20220603.Case_Studies.generate_dates`("2023-06-19", "2023-07-16")
)SELECTdates,responses as original_responses,ifnull(responses,0) as new_responses
FROMdate_axis as axis
LEFT JOIN`spreadsheep-20220603.Case_Studies.survey_responses` as surveyON axis.dates = survey.date 5.3 在TVF上扩展
到目前为止,该函数非常有限,因为它只提供日期。如果我们想要一周的开始日期,一周从星期日开始,或者我们想要过去几年的季度开始和结束日期,该怎么办?
虽然我们可以将该逻辑添加到调用 TVF 的 CTE 中,但让我们在 TVF 中处理它,以便在需要时它就在那里。
我的最终版本增加了一些其他可能性,具体取决于您是否需要每周、每月或每季度的日期范围。
CREATE OR REPLACE TABLE FUNCTION `spreadsheep-20220603.Case_Studies.generate_dates`(start_date DATE, end_date DATE)
OPTIONS (description="Generate a table of dates") AS (
(
selectdate,format_date("%a", date) as day_of_week,date_trunc(date, week(monday)) as week_start_monday,date_trunc(date, week(monday)) + 6 as week_end_monday,date_trunc(date, week(sunday)) as week_start_sunday,date_trunc(date, week(sunday)) + 6 as week_end_sunday,date_trunc(date, month) as month_start,date_add(date_trunc(date, month), interval 1 month) - 1 as month_end,date_trunc(date, quarter) as quarter_start,date_add(date_trunc(date, quarter), interval 1 quarter) - 1 as quarter_end,
from unnest(generate_date_array(start_date,end_date)
) as date
)
); 这为我们提供了在本文开头看到的输出,其中单个查询行可以生成数年的日期,以及它们的周、月和季度部分。

作为奖励,我们创建的这个函数不会查询任何实际数据。这意味着它是完全免费的,而且速度快如闪电。
即使生成从 1820 年到现在的日期也只需 1 秒。
SELECT * FROM `spreadsheep-20220603.Case_Studies.generate_dates`("1820-07-01","2023-07-15") 

摄影:Benjamin Davies on Unsplash
5.4 访问BigFunctions
为了节省一些时间,您不必在项目中创建此 TVF;您可以使用公共版本,该版本存在于 BigFunctions 开源项目中。
要将 BigFunctions 添加到项目中,您可以使用资源管理器添加功能,然后“按名称为项目加星标”,如下所示。
这些函数在每个区域中都可用,在每个数据集中,您可以在“例程”下找到generate_dates。试试下面的代码!
SELECT * FROM `bigfunctions.europe_west2.generate_dates`("2022-01-01", "2023-01-01"); 有关 BigFunctions 的更多详细信息可以在这里找到,其中充满了很棒的自定义函数,其中一些甚至使用 Python 来运行各种整洁的东西。如果您在日常角色中使用 BigQuery,请查看它。
相关文章:
【数据挖掘】如何修复时序分析缺少的日期
一、说明 我撰写本文的目的是通过引导您完成一个示例来帮助您了解 TVF 以及如何使用它们,该示例解决了时间序列分析中常见的缺失日期问题。 我们将介绍: 如何生成日期以填补数据中缺失的空白如何创建 TVF 和参数的使用如何呼叫 TVF我们将考虑扩展我们的日…...
CDN、P2P、PCDN的区别是什么
本篇文章为大家介绍一下与网络加速有关的几个重要概念,一起了解一下CDN,P2P和PCDN究竟是什么吧! 1. CDN CDN即Content Delivery Network,中文全称为内容分发网络。 如果内容离用户远,用户可能无法获得及时的响应,那…...
MYSQL练习一答案
练习1答案 构建数据库 数据库 数据表 answer开头表为对应题号答案形成的数据表 表结构 表数据 答案: 1、查询商品库存等于50的所有商品,显示商品编号,商 品名称,商品售价,商品库存。 SQL语句 select good_no,good…...
路由器(第二十五课)
路由器的深入学习 一、路由 1、路由 1) 什么是路由:路由就是数据包从一个网络到另外一外网络的过程 2)支持路由功能的设备:路由器、三层交换机、防火墙 3 路由器转发数据包的依据: -每一台路由器都维护着一张路由表 -路由器是依靠这张路由表来转发数据的 -这张路由表就…...
物联网网关模块可以带几台plc设备吗?可以接几个modbus设备?
随着物联网技术的快速发展,物联网网关模块已经成为了实现物联网应用的重要工具。很多客户在选择物联网网关模块时想了解物联网网关模块的设备接入能力,一个物联网网关模块可以带几台PLC设备?可以接几个Modbus设备? 物联网网关模块…...
SpringBoot中间件—ORM(Mybatis)框架实现
目录 定义 需求背景 方案设计 代码展示 UML图 实现细节 测试验证 总结 源码地址(已开源):https://gitee.com/sizhaohe/mini-mybatis.git 跟着源码及下述UML图来理解上手会更快,拒绝浮躁,沉下心来搞 定义&#x…...
结构化思维:高效能项目经理人的底层能力
大家好,我是老原。 我们经常会说「高效能」,那怎么成为高效能人士?其实除了拼体力和心力以外,高效能更重要的是脑力,这里的脑力不是指智力,而是结构化思维。 随着你在职场中不断成长和进阶,级…...
Pytorch个人学习记录总结 07
目录 神经网络-非线性激活 神经网络-线形层及其他层介绍 神经网络-非线性激活 官方文档地址:torch.nn — PyTorch 2.0 documentation 常用的:Sigmoid、ReLU、LeakyReLU等。 作用:为模型引入非线性特征,这样才能在训练过程中…...
vue3+ts+elementui-plus二次封装树形表格
复制粘贴即可: 一、定义table组件 <template><div classmain><div><el-table ref"multipleTableRef" :height"height" :default-expand-all"isExpend" :data"treeTableData"style"width: 100%…...
机器学习/深度学习常见算法实现(秋招版)
包括BN层、卷积层、池化层、交叉熵、随机梯度下降法、非极大抑制、k均值聚类等秋招常见的代码实现。 1. BN层 import numpy as npdef batch_norm(outputs, gamma, beta, epsilon1e-6, momentum0.9, running_mean0, running_var1)::param outputs: [B, L]:param gamma: mean:p…...
京东技术专家首推:Spring 微服务架构设计,GitHub 星标 128K
前言 本书提供了实现大型响应式微服务的实用方法和指导原则,并通过示例全面 讲解如何构建微服务。本书深入介绍了 Spring Boot、Spring Cloud、 Docker、Mesos 和 Marathon,还会教授如何用 Spring Boot 部署自治服务,而 无须使用重量级应用服…...
R语言--森林图制作
#数据准备- data5 #install.packages("rmda")rm(list=ls())library(MASS)library(rmda)library(dplyr) #mutate依赖环境library(magrittr) #%>%依赖setwd("D:/R/nomo5new2")data...
Tomcat中利用war包部署
在Tomcat中利用war包部署Web应用程序时,默认情况下,应用程序的上下文路径(也称为项目名称)将是war文件的名称(去除.war扩展名)。这意味着您在访问Web应用程序时必须在URL中包含项目名称。例如,如…...
[JAVAee]线程安全
目录 线程安全的理解 线程不安全的原因 ①非原子性 ②可见性 ③代码重排序 体会何为不安全的线程 保证线程安全 一个代码在多线程的环境下就很容易出现错误. 线程安全的理解 线程安全是什么呢?通俗的来讲,线程安全就是在多线程的环境下,代码的结果是符合我们预期的,就…...
ELK环境搭建——概况
Elastic Stack,核心产品包括 Elasticsearch、Kibana、Beats 和 Logstash等等。能够安全可靠地从任何来源获取任何格式的数据,然后对数据进行搜索、分析和可视化。 目录 一:Elasticsearch: 1.1 从数据中探寻各种问题的答案 1.1.1 定义您自己的搜索方式...
面试知识点整理
计算机的物理内存是有限的,所以操作系统在遇到内存不足时,会通过换页机制暂时把 某个进程未使用的内存中的数据搬移到硬盘上(比如 Linux 的 swap 分区),并在系统页表中 删除相应的表项。当该进程访问数据已经被搬移到硬…...
腾讯云服务器CVM计算型c6/c5实例CPU型号、处理器主频大全
腾讯云服务器CVM计算型C6、C5、C4、CN3、C3和C2实例,计算型C6云服务器CPU采用Intel Xeon Ice Lake处理器,主频3.2GHz,睿频3.5GHz,腾讯云服务器网分享更多计算型CVM云服务器CPU型号、处理器主频性能说明: 目录 云服务…...
vue3笔记-脚手架篇
第一章 基础篇 第二章 脚手架篇 vue2与vue3的一些区别 响应式系统: Vue 2 使用 Object.defineProperty 进行响应式数据的劫持和监听,它对数据监听是一项项的进行监听,因此,当新增属性发生变化时,它无法监测到&…...
数字的补数
题目: 对整数的二进制表示取反(0 变 1 ,1 变 0)后,再转换为十进制表示,可以得到这个整数的补数。 例如,整数 5 的二进制表示是 "101" ,取反后得到 "010" &…...
Taskfile demo
https://github.com/yangyang5214/blog/issues/1 makefile 很好用,但是有些语法我不会。 go-task yml & shell 不错,推荐 Taskfile.yml https://github.com/go-task/task/blob/main/.golangci.yml # go install github.com/go-task/task/v3/cmd/ta…...
华为云AI开发平台ModelArts
华为云ModelArts:重塑AI开发流程的“智能引擎”与“创新加速器”! 在人工智能浪潮席卷全球的2025年,企业拥抱AI的意愿空前高涨,但技术门槛高、流程复杂、资源投入巨大的现实,却让许多创新构想止步于实验室。数据科学家…...
【HarmonyOS 5.0】DevEco Testing:鸿蒙应用质量保障的终极武器
——全方位测试解决方案与代码实战 一、工具定位与核心能力 DevEco Testing是HarmonyOS官方推出的一体化测试平台,覆盖应用全生命周期测试需求,主要提供五大核心能力: 测试类型检测目标关键指标功能体验基…...
centos 7 部署awstats 网站访问检测
一、基础环境准备(两种安装方式都要做) bash # 安装必要依赖 yum install -y httpd perl mod_perl perl-Time-HiRes perl-DateTime systemctl enable httpd # 设置 Apache 开机自启 systemctl start httpd # 启动 Apache二、安装 AWStats࿰…...
基于数字孪生的水厂可视化平台建设:架构与实践
分享大纲: 1、数字孪生水厂可视化平台建设背景 2、数字孪生水厂可视化平台建设架构 3、数字孪生水厂可视化平台建设成效 近几年,数字孪生水厂的建设开展的如火如荼。作为提升水厂管理效率、优化资源的调度手段,基于数字孪生的水厂可视化平台的…...
镜像里切换为普通用户
如果你登录远程虚拟机默认就是 root 用户,但你不希望用 root 权限运行 ns-3(这是对的,ns3 工具会拒绝 root),你可以按以下方法创建一个 非 root 用户账号 并切换到它运行 ns-3。 一次性解决方案:创建非 roo…...
dify打造数据可视化图表
一、概述 在日常工作和学习中,我们经常需要和数据打交道。无论是分析报告、项目展示,还是简单的数据洞察,一个清晰直观的图表,往往能胜过千言万语。 一款能让数据可视化变得超级简单的 MCP Server,由蚂蚁集团 AntV 团队…...
2023赣州旅游投资集团
单选题 1.“不登高山,不知天之高也;不临深溪,不知地之厚也。”这句话说明_____。 A、人的意识具有创造性 B、人的认识是独立于实践之外的 C、实践在认识过程中具有决定作用 D、人的一切知识都是从直接经验中获得的 参考答案: C 本题解…...
Fabric V2.5 通用溯源系统——增加图片上传与下载功能
fabric-trace项目在发布一年后,部署量已突破1000次,为支持更多场景,现新增支持图片信息上链,本文对图片上传、下载功能代码进行梳理,包含智能合约、后端、前端部分。 一、智能合约修改 为了增加图片信息上链溯源,需要对底层数据结构进行修改,在此对智能合约中的农产品数…...
使用Spring AI和MCP协议构建图片搜索服务
目录 使用Spring AI和MCP协议构建图片搜索服务 引言 技术栈概览 项目架构设计 架构图 服务端开发 1. 创建Spring Boot项目 2. 实现图片搜索工具 3. 配置传输模式 Stdio模式(本地调用) SSE模式(远程调用) 4. 注册工具提…...
Ubuntu Cursor升级成v1.0
0. 当前版本低 使用当前 Cursor v0.50时 GitHub Copilot Chat 打不开,快捷键也不好用,当看到 Cursor 升级后,还是蛮高兴的 1. 下载 Cursor 下载地址:https://www.cursor.com/cn/downloads 点击下载 Linux (x64) ,…...
