当前位置: 首页 > news >正文

阿里云实时数据仓库HologresFlink

1. 实时数仓Hologres特点
专注实时场景:数据实时写入、实时更新,写入即可见,与Flink原生集成,支持高吞吐、低延时、有模型的实时数仓开发,满足业务洞察实时性需求。
亚秒级交互式分析:支持海量数据亚秒级交互式分析,无需预计算,支持多维分析、即席分析、探索式分析、MaxCompute加速分析,满足所见即所得分析体验。
统一数据服务出口:支持多维分析、高性能点查、数据检索等多个场景,支持负载隔离,简化数据架构,统一数据访问接口,实践分析服务一体化(HSAP)。
开放生态:标准SQL协议,无缝对接主流BI和SQL开发框架,无需应用重写。支持数据湖场景,支持JSON等半结构化数据,OSS、DLF简易入仓。

2. 实时计算Flink服务
全托管Flink服务:开箱即用、开发远维全周期、计费灵活
丰富的企业级能力:流批一体的一站式开发运维平台、Flink CDC实时入湖入仓、动态CEP助力实时风控/营销、作业自动调优充分利用资源、智能冷断快速定位
性能强劲:内核引擎优化: CPU超秒数十万记录处理能力、Nexmark 测试性能技开源提升200%、状态存储后端优化
100%兼容开源:100%兼容Apache Flink、支持开源 Flink平滑迁移上云、无缝对接主流开源大教据生态
开放被集成能力强:自定义连按器、UXF能力扩展、Open API帮助用户集成自身系统、用户开发能力扩展与沉淀复用、用户自身系统集成
业界认可:中国信通院权威认证、中国唯一进入 Forrester 象限的实时流计算产品、金融实时数仓方案入围工信部信创典型目录

3. 数据仓库概念
数据仓库定义 ( Data Warehouse ):为企业所有决策制定过程,提供所有系统数据支持的战略集合。
传统的离线数仓无法实现当天数据的及时分析数据,所以需要开发实时数仓开填补空缺。


4. 阿里云技术框架
阿里云产品    简介    类比
Flink实时计算平台    大数据计算框架    Hadoop集群+Flink+调度器
Hologres    大数据存储框架    Kafka+Redis+HBase+ClickHouse
DataHub    数据流存储    Kafka+元数据管理
RDS    关系型数据库    MySql
DataV    可视化数据展示工具    Tableau、Echarts、Kibana
5. 系统数据流程设计


 5. Hologres的购买和基础介绍


 

 后来我总是找不到实例在哪。(我等了两个小时终于实例出来啦)

 点击登录实例

点击连接实例

 双击 登录库

可以编辑SQL

SELECT table_name
FROM information_schema.tables
WHERE table_schema = 'public' -- 可以根据需要更改模式名称
AND table_type = 'BASE TABLE';


6. Flink实时计算


 

 开通之后点击立即试用

 7. 数据总线Datahub
数据总线datahub是阿里云免费提供的服务,相当于大数据框架中的kafka,可以用作数据的缓存。

进入到datahub的主页面之后,点击项目管理,之后再点击新建项目。填写项目名称之后即可完成创建。


8. 业务表


一共7个表

9. 同步策略
数据同步策略的类型包括:全量同步(每天把完整的数据同步)、增量同步(有一条数据变化就同步过来)
实时数仓统一都要选择增量同步,细节在于维度表数据需要保持和业务数据库始终一致,同步修改和删除。而业务流程数据需要记录下每一次数据的变化。

10. RDS服务器购买
阿里云关系型数据库(Relational Database Service,简称RDS)是一种稳定可靠、可弹性伸缩的在线数据库服务。

使用的都是内网

 导入数据库

11. ODS数据同步
        ODS层的数据同步需要将数据从业务表格监控数据的实时变化,将变化数据写入到DataHub中,同步业务表格RDS(MySQL)的变更数据有多种方法,较为简单的方法,可以直接使用阿里云的DataWorks数据同步功能,此处选择更加泛用的flinkCDC方法来实现。

12. FlinkCDC
        CDC是Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件(datahub,类似kafka)中以供其他服务进行订阅及消费。

        CDC主要分为基于查询和基于Binlog两种方式,我们主要了解一下这两种之间的区别:

基于批处理/基于流处理

Flink社区开发了 flink-cdc-connectors 组件,这是一个可以直接从 MySQL、PostgreSQL 等数据库直接读取全量数据和增量变更数据的 source 组件。目前也已开源,

13. Flink Stream API完成数据同步
在数据总线DataHub中,先创建项目gmall_realtime,之后创建主题ods_table_ri用于接收数据,同时填写元数据信息。

13.1 创建IDEA项目
 

 解决错误 “Plugin ‘maven-shade-plugin:3.1.1‘ not found“ 的方法详解

 找到对应文件夹,更改成对应的版本号

 解决方式是,删掉.idea这个文件夹,再导入一次项目

 运行之后出现,需要把依赖添加进来


13.2 创建工具类
推荐使用阿里云官方提供的DataHubSink写出数据,可以直接添加DataHub的元数据对应。

下面这些信息都在阿里的DataHub中找信息,使用的是外网

运行CDCToDataHub,就可以看到在官网上的结果。

 13.3 打包上传
点击Maven的packeage功能。

在Flink平台部署jar包

测试是否能连通DataHub?

但是我这里是报错的

需要买公网IP,才不会报错

DataHub成功访问 

 RDS访问成功

启动成功

14. DIM层
        本次实时数仓将维度表存放到实时数仓hologres中,而维度表的原始数据在RDS中,所有DIM层的搭建就是将RDS中的维度表同步至hologres中,同时要能够实现实时更新的功能。

14.1 ​​​​​​​添加RDS的元数据连接
        添加RDS和hologres的catalog元数据,让flink实时计算平台能够连接对应的数据存储。

14.2 ​​​​​​​添加hologres的元数据连接


使用内网vpc的endpoint,对应的dbname

14.3 ​​​​​​​创建hologres的维度表
 按照行存,分区分组

14.4 ​​​​​​​创建实时同步数据到hologres
 

 创建集群

运行成功 

 提交到hologres中

点击部署

 点击启动

 启动成功之后,可以看到数据已经发送过来了

全部的部署

15. DWD层
新建文件夹

复制with里面的内容

 15.1 读取ODS业务数据

造数据

 得到新生成的数据

15.2 ​​​​​​​Interval join合并业务表
之后进行interval join将订单表和订单明细表合并起来。文档地址:

IntervalJoin语句_实时计算Flink版-阿里云帮助中心

 按住滚轮往下滑, ctrl + shift + ’->‘  就可以选到每行首个单词

使用 Interval join合并业务表 的时候出现这个问题
————————————————

                            版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
                        
原文链接:https://blog.csdn.net/weixin_42322991/article/details/134825170

相关文章:

阿里云实时数据仓库HologresFlink

1. 实时数仓Hologres特点 专注实时场景:数据实时写入、实时更新,写入即可见,与Flink原生集成,支持高吞吐、低延时、有模型的实时数仓开发,满足业务洞察实时性需求。 亚秒级交互式分析:支持海量数据亚秒级交…...

生成式语言模型的文本生成评价指标(从传统的基于统计到现在的基于语义)

文本生成评价指标 以 BLEU 为代表的基于统计的文本评价指标基于 BERT 等预训练模型的文本评价指标 1.以 BLEU 为代表的基于统计的文本评价指标 1.BLEU(Bilingual Evaluation Understudy, 双语评估辅助工具) 所有评价指标的鼻祖,核心思想是比较 候选译文 和 参考…...

【网安案例学习】暴力破解攻击(Brute Force Attack)

### 案例与影响 暴力破解攻击在历史上曾导致多次重大安全事件,特别是在用户数据泄露和账户被盗的案例中。随着计算能力的提升和密码管理技术的进步,暴力破解的威胁虽然有所减弱,但仍需警惕,特别是在面对高价值目标时。 【故事一…...

时间序列预测(十八)——实现配置管理和扩展命令行参数解析器

如图,这是一个main,py文件,在此代码中,最开始定义了许多模型参数,为了使项目更加灵活和可扩展,便于根据不同的需求调整参数和配置,可以根据实际需要扩展参数和配置项。 下面是如何实现配置管理和扩展命令行…...

Vue问题汇总解决

作者:fyupeng 技术专栏:☞ https://github.com/fyupeng 项目地址:☞ https://github.com/fyupeng/distributed-blog-system-api 留给读者 我们经常在使用Vue开发遇到一些棘手的问题,解决后通常要进行总结,避免下次重复…...

Spark学习

Spark简介 1.Spark是什么 首先spark是一个计算引擎,而不是存储工具,计算引擎有很多: 第一代:MapReduce廉价机器实现分布式大数据处理 第二代:Tez基于MR优化了DAG,性能比MR快一些 第三代:Spark…...

一些小细节代码笔记汇总

Python cv2抓取摄像头图片保存到本地 import cv2 import datetime, ossavePath "E:/Image/"if not os.path.exists(savePath):os.makedirs(savePath)cap cv2.VideoCapture(0) capture Falseif not cap.isOpened():print("无法打开摄像头")exit()while…...

L4.【LeetCode笔记】链表题的VS平台调试代码

不用调用87.【C语言】数据结构之链表的头插和尾插文章提到的头插函数 记下这个模板代码,可用于在Visual Studio上调试出问题的测试用例 如创建链表[1,2,3,4,5] #include <stdilb.h> // Definition for singly-linked list.struct ListNode {int val;struct ListNode *…...

JavaCV 之高斯滤波:图像降噪与细节保留的魔法

🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/literature?__c=1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,精通Java编程,高并发设计,Springboot和微服务,熟悉Linux,ESXI虚拟化以及云原生Docker和K8s…...

VsCode显示空格

ctrl shift p选择Preferences: Open User Settings (JSON) 加上"editor.renderWhitespace": "all" {"cmake.configureOnOpen": true,"files.encoding": "gb2312","editor.fontVariations": false,"edito…...

.Net C# 基于EFCore的DBFirst和CodeFirst

DBFirst和CodeFirst 1 概念介绍 1.1 DBFirst&#xff08;数据库优先&#xff09; 含义&#xff1a;这种模式是先创建数据库架构&#xff0c;包括表、视图、存储过程等数据库对象。然后通过实体框架&#xff08;Entity Framework&#xff09;等工具&#xff0c;根据已有的数据…...

w012基于springboot的社区团购系统设计

&#x1f64a;作者简介&#xff1a;拥有多年开发工作经验&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。&#x1f339;赠送计算机毕业设计600个选题excel文件&#xff0c;帮助大学选题。赠送开题报告模板&#xff…...

笔记本降频超鬼锁屏0.39电脑卡到不行解决办法实操记录

1、最开始没发现cpu问题&#xff0c;我发现我电脑突然异常的卡顿&#xff0c;最开始我怀疑是不是微软win用久了或者自动更新导致的问题&#xff0c;于是自己重装了操作系统 发现问题依然存在 2、我怀疑难道我的 cpu 内存 固态硬盘 其中一个有点问题&#xff1f;心想要是硬盘的…...

优选算法第四讲:前缀和模块

优选算法第四讲&#xff1a;前缀和模块 1.[模板]前缀和2.【模板】二维前缀和3.寻找数组的中心下标4.除自身以外数组的乘积5.和为k的子数组6.和可被k整除的子数组7.连续数组8.矩阵区域和 1.[模板]前缀和 链接: link #include <iostream> #include <vector> using…...

ubuntu20.04 加固方案-设置限制su命令用户组

一、编辑/etc/pam.d/su配置文件 打开终端。 使用文本编辑器&#xff08;如vim&#xff09;编辑/etc/pam.d/su文件。 vim /etc/pam.d/su 二、添加配置参数 在打开的配置文件的中&#xff0c;添加以下参数&#xff1a; auth required pam_wheel.so 创建 wheel 组 并添加用户 …...

TDengine数据备份与恢复

TDengine数据备份与恢复 一、数据备份和恢复介绍二、基于 taosdump 进行数据备份恢复三、基于 taosExplorer 进行数据备份恢复3.1 taosExplorer 的安装与配置3.2 使用taosExplorer 进行数据备份 一、数据备份和恢复介绍 官网地址&#xff1a;TDengine - 数据备份和恢复 为了防止…...

2024最新的开源博客系统:vue3.x+SpringBoot 3.x 前后端分离

本文转载自&#xff1a;https://fangcaicoding.cn/article/54 大家好&#xff01;我是方才&#xff0c;目前是8人后端研发团队的负责人&#xff0c;拥有6年后端经验&3年团队管理经验&#xff0c;截止目前面试过近200位候选人&#xff0c;主导过单表上10亿、累计上100亿数据…...

研究中的“异质性”、“异质性结果”是指?

“异质性”这个词在统计学和研究中指的是数据、现象或群体之间的差异&#xff0c;即不同个体、组别、区域或时间点的表现或特征并不相同。相对的概念是“同质性”&#xff0c;即所有个体或组别在某一方面表现相同或接近。 异质性&#xff08;Heterogeneity&#xff09;的含义 …...

Springboot整合AOP和redis

aop pom.xml <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-aop</artifactId> </dependency> 开启自动代理 注意&#xff1a;在完成了引入AOP依赖包后&#xff0c;一般来说并不需要去做其他…...

freetype学习总结

freetype学习总结 目录 freetype学习总结1. LCD显示字符问题引入2. freetype概念2.1 嵌入式设备使用FreeType的方法步骤2.2 嵌入式设备使用FreeType的注意事项 3. freetype官方C示例3.1 example1.c源码 4. 嵌入式设备上使用FreeType的简单示例4.1 简单示例代码4.2 代码分析 5. …...

Wan2.1视频生成创意玩法:把你的想法变成动态视觉故事

Wan2.1视频生成创意玩法&#xff1a;把你的想法变成动态视觉故事 1. 从文字到视频的魔法 你有没有过这样的经历&#xff1f;脑海中浮现出一个绝妙的创意场景&#xff0c;却苦于没有专业的视频制作技能将它呈现出来。或许是一个科幻故事的开场&#xff0c;一个产品演示的构想&…...

千问3.5-9B Visio图表智能生成:从文本描述到专业架构图

千问3.5-9B Visio图表智能生成&#xff1a;从文本描述到专业架构图 1. 效果惊艳的智能图表生成 想象一下&#xff0c;你只需要用简单的文字描述系统架构&#xff0c;就能在几分钟内获得专业的Visio图表。千问3.5-9B让这个场景成为现实。这个模型不仅能理解复杂的系统架构描述…...

6 鸿蒙应用启动速度优化全流程拆解 | 鸿蒙开发筑基实战

6 鸿蒙应用启动速度优化全流程拆解 | 鸿蒙开发筑基实战 作者&#xff1a;杨建宾&#xff08;华夏之光永存&#xff09; 摘要 本文面向鸿蒙应用开发工程师&#xff0c;聚焦应用启动慢、首屏白屏等核心痛点&#xff0c;拆解从代码配置到资源处理的全流程优化方案。内容包含启动流…...

Phi-4-mini-reasoning镜像部署案例:低成本GPU环境下高效推理落地实录

Phi-4-mini-reasoning镜像部署案例&#xff1a;低成本GPU环境下高效推理落地实录 1. 项目背景与模型介绍 Phi-4-mini-reasoning是一个基于合成数据构建的轻量级开源模型&#xff0c;专注于高质量、密集推理的数据处理能力。作为Phi-4模型家族的一员&#xff0c;它特别针对数学…...

OpenClaw压力测试:千问3.5-9B持续运行24小时稳定性

OpenClaw压力测试&#xff1a;千问3.5-9B持续运行24小时稳定性 1. 为什么需要压力测试&#xff1f; 上周我在本地部署了OpenClaw千问3.5-9B组合&#xff0c;想用它自动处理一些日常文档整理工作。最初几小时运行很顺畅&#xff0c;但第二天早上发现系统卡死了——这让我意识到…...

Docker快速部署Nacos

生成数据目录sudo mkdir -p /app/nacos/logs sudo mkdir -p /app/nacos/data sudo chmod -R 777 /app/nacos生成一个随的 Base64 密钥&#xff1a;openssl rand -base64 32nacos启动命令docker run --name nacos-server \-e MODEstandalone \-v /app/nacos/logs:/home/nacos/lo…...

Facebook Instant Game变现全攻略:如何通过广告和内购让你的HTML5游戏赚钱

Facebook Instant Game变现全攻略&#xff1a;如何通过广告和内购让你的HTML5游戏赚钱 在HTML5游戏开发领域&#xff0c;Facebook Instant Game已经成为不可忽视的平台。这个无需下载、即点即玩的游戏生态系统&#xff0c;为开发者提供了独特的变现机会。不同于传统应用商店30%…...

python-langchain框架(1-8-2 缓存机制——验证缓存的效果)

当用户提出一个常见问题时&#xff0c;首次调用大模型需要经历网络传输、排队等待、模型推理等完整链路&#xff0c;响应时间通常在1至3秒。这个时长已超过人类对“流畅交互”的心理阈值&#xff08;200毫秒&#xff09;&#xff0c;用户会明显感知到“卡顿”和“等待焦虑”。而…...

元宇宙遗产:那些永远无法测试的AR社交漏洞

测试的疆界与永恒的盲区在软件测试领域&#xff0c;我们习惯于与已知作战。我们制定详尽的测试用例&#xff0c;模拟用户行为&#xff0c;构建自动化脚本&#xff0c;利用AI生成攻击向量&#xff0c;力求覆盖每一个可预见的边界和异常。漏洞扫描、渗透测试、模糊测试、代码审查…...

保姆级教程:手把手教你用VCSA 8.0.3接管Windows AD域,实现统一登录

企业级虚拟化身份管理&#xff1a;VCSA 8.0.3与Windows AD域深度集成实战 在数字化转型浪潮中&#xff0c;企业IT基础设施的集中化管理已成为刚需。当虚拟化平台规模扩大至数百台主机时&#xff0c;如何确保管理员和开发人员既能高效访问资源&#xff0c;又能遵循最小权限原则&…...