当前位置: 首页 > article >正文

大数据开发学习Day38

一、Linux1. 查看 HDFS 目录层级及文件大小hdfs dfs-du-h/user/hive/warehouse/dwd.db-du -h 人性化单位展示 HDFS 目录占用空间快速判断数仓分层表数据量大小判断是否需要归档清理日常数仓存储容量巡检必备2. 筛选日志中指定时间段报错日志grep2026-05-21 10:/opt/spark/logs/spark.log|grep-ierror先限定时间范围再过滤错误信息精准定位指定时段 Spark、YARN 任务报错比全量检索效率高数十倍排错最快用法3. 后台运行 Python 脚本并输出日志nohuppython3 etl_task.pytask_run.log21nohup 离线后台运行断开终端不终止进程task_run.log 正常日志写入文件21 错误日志同步写入日志文件大数据离线 Python 清洗脚本通用启动方式二、SQL通用表结构dwd_traffic_log 流量日志user_id,net_type,visit_time,stay_time,dtdwd_finance_trade 金融交易表trade_id,user_id,trade_money,trade_type,trade_timedwd_product_flow 商品流量表goods_id,expose_num,click_num,sale_num,dt1. 统计不同网络类型用户平均停留时长SELECTnet_type,ROUND(AVG(stay_time),2)avg_stay_time,COUNT(DISTINCTuser_id)user_cntFROMdwd_traffic_logWHEREdt2026-05-21GROUPBYnet_type;net_type 区分 4G、5G、WiFi、有线网络AVG(stay_time) 计算用户页面平均停留时长同时统计对应网络下活跃用户数用途移动端 APP 体验优化、流量场景分析2. 金融统计用户单日最大单笔交易、累计交易金额SELECTuser_id,MAX(trade_money)max_single_money,SUM(trade_money)total_trade_moneyFROMdwd_finance_tradeWHEREdt2026-05-21GROUPBYuser_id;MAX 取出单日单笔最高交易额SUM 汇总用户全天交易总额金融风控、用户资产评级、大额交易监控核心 SQL可延伸用于识别异常大额转账用户3. 计算商品点击率、转化率SELECTgoods_id,expose_num,click_num,sale_num,ROUND(click_num/expose_num,4)click_rate,ROUND(sale_num/click_num,4)convert_rateFROMdwd_product_flowWHEREdt2026-05-21;曝光量→点击量→成交量三层漏斗点击率 点击数 / 曝光数转化率 成交量 / 点击数电商运营商品爆款筛选、投放效果核心指标三、Pyspark今日重点PySpark Structured Streaming 实时流读取 Kafka 完整实战业务场景实时消费用户行为、订单、设备上报数据流做实时统计、实时预警核心依赖提交任务必须携带 Kafka 连接依赖包完整可运行代码frompyspark.sqlimportSparkSessionfrompyspark.sql.functionsimportfrom_json,colfrompyspark.sql.typesimportStringType,StructType,StructField# 1. 初始化Spark会话开启流处理依赖sparkSparkSession.builder \.appName(KafkaStreamRead)\.getOrCreate()# 2. 读取Kafka实时数据流kafka_dfspark.readStream \.format(kafka)\.option(kafka.bootstrap.servers,192.168.1.100:9092)\.option(subscribe,user_behavior_topic)\.option(startingOffsets,latest)\.load()# 3. 定义JSON数据结构schemaStructType([StructField(user_id,StringType()),StructField(event_type,StringType()),StructField(event_time,StringType())])# 4. 解析Kafka JSON数据stream_dfkafka_df.select(from_json(col(value).cast(string),schema).alias(data))\.select(data.*)# 5. 控制台输出测试querystream_df.writeStream \.outputMode(append)\.format(console)\.start()query.awaitTermination()format(“kafka”) 指定数据源为 Kafka 流subscribe 订阅指定主题支持多个主题逗号分隔startingOffsets latest 读取最新数据earliest 从头读取历史数据Kafka 原始数据为二进制必须转为 string 再解析 JSONfrom_json 按照预定义结构拆分字段append 追加模式只输出新增数据流处理最常用输出模式生产实战要点线上禁止console输出写入 ClickHouse/Hive/Kafka流处理必须设置水印处理乱序数据实时任务开启checkpoint断点续跑防止丢数.option(checkpointLocation,/hdfs/checkpoint/stream_task)三种输出模式append、complete、update 适用场景Kafka 流消费丢数、重复消费解决方案实时任务断点续传原理四、算法合并两个有序数组defmerge(nums1,m,nums2,n):i,j,km-1,n-1,mn-1whilei0andj0:ifnums1[i]nums2[j]:nums1[k]nums1[i]i-1else:nums1[k]nums2[j]j-1k-1nums1[:j1]nums2[:j1]思路精讲倒序双指针合并避免数组元素覆盖从两个数组末尾开始比较取值放入末尾剩余元素直接批量填充大数据用途离线分片有序数据合并日志有序时间数据合并排序数据分区有序重组高频思想

相关文章:

大数据开发学习Day38

一、Linux 1. 查看 HDFS 目录层级及文件大小 hdfs dfs -du -h /user/hive/warehouse/dwd.db-du -h 人性化单位展示 HDFS 目录占用空间 快速判断数仓分层表数据量大小,判断是否需要归档清理 日常数仓存储容量巡检必备2. 筛选日志中指定时间段报错日志 grep 2026-05-2…...

NotebookLM视频转文字API未公开的底层协议解析:如何绕过30分钟时长限制并批量处理TB级教学视频

更多请点击: https://intelliparadigm.com 第一章:NotebookLM视频转文字功能概览与官方限制边界 NotebookLM 是 Google 推出的面向研究者与知识工作者的 AI 助手,其核心能力之一是基于用户上传的内容(如 PDF、网页、音频&#xf…...

百度网盘限速破解终极指南:macOS用户免费解锁SVIP高速下载

百度网盘限速破解终极指南:macOS用户免费解锁SVIP高速下载 【免费下载链接】BaiduNetdiskPlugin-macOS For macOS.百度网盘 破解SVIP、下载速度限制~ 项目地址: https://gitcode.com/gh_mirrors/ba/BaiduNetdiskPlugin-macOS 还在为百度网盘在macOS上的蜗牛下…...

终极指南:如何使用NifSkope轻松编辑游戏3D模型文件

终极指南:如何使用NifSkope轻松编辑游戏3D模型文件 【免费下载链接】nifskope A git repository for nifskope. 项目地址: https://gitcode.com/gh_mirrors/ni/nifskope NifSkope是一款专为游戏开发者设计的开源3D模型编辑器,专注于NetImmerse文件…...

为什么AI终于能进车间了?从聊天工具到生产力,这三件事正在发生

中石化车间里的AI 2026年5月,中石化发布了"烽火"工业智能体。 这个智能体不是用来聊天的,而是能直接操作工业软件、分析生产数据、跑仿真。它是石油化工行业第一个真正能进车间的数字专家。 在这之前,AI在工业场景里的应用,大多停留在"数据分析"层面…...

formality

get_app_var verification_set_undriven_signalsset_app_var verification_set_undriven_signals binary 0ref的port是undriven,会说original undriven,并且给出0的cut_net激励,得到的值为0。这里的值给的是0而不是x,所以会特意说…...

Claude CLI 缓存陷阱:为什么用第三方模型时 token 会暴涨 10 倍?

一个开发者的真实经历 上周,我收到一位朋友的微信: “我用 Claude Code 接 DeepSeek API,明明代码没怎么变,token 消耗却突然涨了好几倍,一天就把额度用完了。” 这个情况不是个例。在 GitHub 上,至少有 80 多个相关 issue,核心问题都指向同一个点——Claude CLI 默认…...

【ElevenLabs广西话语音落地实战】:20年语音AI专家亲授3步绕过方言合成陷阱,97.3%自然度实测达标

更多请点击: https://intelliparadigm.com 第一章:ElevenLabs广西话语音落地实战总览 ElevenLabs 官方尚未提供原生广西话(粤语邕浔片/平话混合语境)语音模型,但通过其 API 的自定义语音微调(Fine-tuning&…...

Windows环境OpenCore引导盘制作:7步搞定Hackintosh安装

Windows环境OpenCore引导盘制作:7步搞定Hackintosh安装 【免费下载链接】OpenCore-Install-Guide Repo for the OpenCore Install Guide 项目地址: https://gitcode.com/gh_mirrors/op/OpenCore-Install-Guide 想在Windows电脑上安装macOS吗?别担…...

双翌精翌亮相工业软件产业协同对接交流会,共筑国产精密测量新生态

本次交流会以“同心聚链、智造共赢”为主题,汇聚了来自全国各地的工业软件开发商、高端装备制造商、系统集成商以及行业专家,围绕工业软件国产化替代、软硬件协同适配、产业生态共建等核心议题展开深入探讨。在国家信创战略加速推进的大背景下&#xff0…...

Speechless:3分钟完成微博PDF备份的终极解决方案

Speechless:3分钟完成微博PDF备份的终极解决方案 【免费下载链接】Speechless 把新浪微博的内容,导出成 PDF 文件进行备份的 Chrome Extension。 项目地址: https://gitcode.com/gh_mirrors/sp/Speechless 你是否曾担心珍贵的微博记忆会突然消失&…...

CrewAI 多智能体 Unity 自动开发项目的三轮迭代复盘

这是一篇技术讨论文章,不是产品宣传。我把 MyCrew 项目从 v1(一个 CrewAI 模板 demo)到 v2(弃用的桌面应用)再到 v3(当前 188 commits、约 6 万行代码的 Tauri FastAPI 工程)的全部弯路、踩坑、…...

My-TODOs:免费开源跨平台桌面待办清单应用终极指南

My-TODOs:免费开源跨平台桌面待办清单应用终极指南 【免费下载链接】My-TODOs A cross-platform desktop To-Do list. 跨平台桌面待办小工具 项目地址: https://gitcode.com/gh_mirrors/my/My-TODOs 你是否经常忘记重要任务?是否在多个待办应用间…...

通过Hermes Agent自定义供应商配置接入Taotoken多模型

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 通过Hermes Agent自定义供应商配置接入Taotoken多模型 对于使用Hermes Agent构建智能体应用的开发者而言,直接对接单一…...

* LangChain4j中的会话记忆ChatMemory

在构建 AI 志愿填报顾问时,一个很自然的期望是它能记住我们之前聊过什么,而不是每次都像第一次见面一样。大模型本身是无状态的,每次调用都是独立的,要实现“记忆”,唯一的方法就是把聊天历史连同新问题一起发给模型。…...

2026年吃油腻重口后的脾虚湿热腹泻辨证用药与中成药选购参考

日常饮食中,若长期或一次性摄入过多油腻、辛辣、重口味食物,可能会引发肠胃不适的一种常见类型。这类情况的相关知识、公开产品信息整理如下,本文仅做日常健康科普,不构成诊断、治疗或用药建议。一、公开提到的该类型肠胃不适的常…...

如何快速掌握串口数据可视化:SerialPlot终极完整教程

如何快速掌握串口数据可视化:SerialPlot终极完整教程 【免费下载链接】serialplot Small and simple software for plotting data from serial port in realtime. 项目地址: https://gitcode.com/gh_mirrors/se/serialplot 想象一下,你正在调试一…...

HTR6916 共阴极16x9阵列LED驱动器 聚能芯半导体禾润电子一级代理

概述HTR6916 是一款功能卓越的 LED 驱动芯片。它可通过 2 线串行接口进行编程,能够完美支持 169 阵列的 LED 布局。芯片中的每一颗 LED 均能借助 8 位 PWM 数据实现独立调光,为用户提供了高度灵活的调光方案。此外,用户还能通过 ISET 端的外部…...

行业内热门的饲料颗粒机厂家哪家靠谱

在饲料生产链条中,颗粒机作为核心成型设备,其性能直接关系到饲料品质、能耗水平以及综合运营成本。然而,当前行业内部分产品仍面临显著的技术瓶颈,制约着生产效率的进一步提升。本文将深入剖析行业痛点,并以荥阳市光辉…...

Healthy Care辅酶Q10怎么选?

当代社会,心脏健康养护早已不是中老年人的专属需求。长期熬夜的年轻人、高压职场人群、作息紊乱的轮班从业者、体力消耗偏大的服务行业工作者,都容易出现心脏能量不足的信号:爬楼容易气喘、安静状态下莫名心慌、睡眠充足却依旧浑身疲惫。这类…...

苏州晟雅泰电子:关于长鑫存储与兆易创新的关系

长鑫存储(及其母公司长鑫科技)与兆易创新的关系极为紧密,是由一位核心人物——董事长朱一明联结而成的深度战略联盟。这两家公司在股权、人事和业务等多个层面相互绑定,形成了“一个核心、两个支点”的独特格局。以下是其关系的具…...

PowerToys中文汉化:3分钟让微软效率工具变身中文版

PowerToys中文汉化:3分钟让微软效率工具变身中文版 【免费下载链接】PowerToys-CN PowerToys Simplified Chinese Translation 微软增强工具箱 自制汉化 项目地址: https://gitcode.com/gh_mirrors/po/PowerToys-CN 还在为PowerToys的英文界面发愁吗&#xf…...

【NotebookLM关键词提取实战指南】:20年AI工程师亲授3步精准提取法,90%用户忽略的隐藏参数曝光

更多请点击: https://kaifayun.com 第一章:NotebookLM关键词提取的核心原理与适用场景 NotebookLM 是 Google 推出的面向研究者与知识工作者的 AI 助手,其关键词提取能力并非依赖传统 TF-IDF 或 TextRank 等静态统计方法,而是深度…...

ESP32蓝牙音频终极指南:3个实用技巧轻松实现A2DP音乐传输 [特殊字符]

ESP32蓝牙音频终极指南:3个实用技巧轻松实现A2DP音乐传输 🎵 【免费下载链接】ESP32-A2DP A Simple ESP32 Bluetooth A2DP Library (to implement a Music Receiver or Sender) that supports Arduino, PlatformIO and Espressif IDF 项目地址: https:…...

智慧巡检-基于深度学习的指针式压力表读数识别【YOLO+OpenCv+TensorRT+ROS+Python】

智慧巡检-基于深度学习的指针式压力表读数识别【YOLOOpenCvTensorRTROSPython】 1指针式压力表读数识别系统(YOLOOpenCVTensorRTROS)一、系统整体架构 ┌──────────────────────────────────────────────…...

Global Mapper 26空间数据转换安装教程 Windows版:自定义路径+Crack替换指南

它以出色的格式兼容性(支持数百种矢量和栅格格式,如 CAD、SHP、GeoTIFF 等)和高效的数据处理能力著称,广泛应用于测绘、林业、矿业及土地规划领域。 一、准备工作 安装包下载:https://pan.quark.cn/s/a361bbddd854&a…...

C++中的函数知识点大全

函数的定义不能嵌套但调用可以嵌套在函数调用时,如某一默认参数要指明一个特定值,则有其之前所有参数都必须赋值赋默认实参时 一旦某个形参被赋予了默认值,它后面的所有形参都必须有默认值,因为设置默认参数的顺序是自右向左&…...

AI Agent 上线后,别只看成功率:你需要一套可观测性指标

很多团队做 AI Agent,上线前会问一个问题: “成功率多少?” 这当然要看。 但只看成功率,很容易误判。 因为 AI Agent 的问题不是简单的成功或失败。 它可能成功调用了工具,但参数是错的。 它可能生成了回复&#xff0c…...

构造函数、this指向和原型链机制

今天在刷力扣 [146. LRU 缓存](https://leetcode.cn/problems/lru-cache/) 的时候,遇到了原型链的写法,想想这个写法我正式开发中从来都没有用过,到底是个什么玩意?遂将各个节点和变量都定义在外面,但是代码居然报错啦…...

【Coze工作流】零代码做AI自动化,小白也能5分钟上手

一、问题背景:手工做重复AI任务太累,想自动化但不会写代码在日常办公或者内容创作中,很多人都有过这样的痛点:每天要重复打开各种AI工具。比如你要写一篇爆款文章,先要找AI找选题,再让AI写大纲,…...