当前位置: 首页 > news >正文

Temp123

MapDB:的持久化机制,以及源码分析和摘取

1、spark streaming--struct streaming 基于 时间间隔 攒批

2、kafka-connect-hdfs 控制 flush.size 和 interval.ms控制 攒批

        - 完全自研 攒批机制

        - 使用 embeded 版  https://lxblog.com/qianwen/share?shareId=cc89bb1e-0a59-42ef-a420-6b9a6c35e816

多个sql并行查询的结果,能生成有多个attachment?

- DT-A: 入sqlite查询并上传minio

- DT-T: 下载minio并转换和hash分片 上传minio

- DT-S: 下载minio前一天的和当天的数据 对比 ,并入库,推送,归档

确定DT-A流式处理框架,是每多少条数据调用一次groovy脚本?

- 假如5w条数据,for循环是写在groovy脚本外好,还是写在groovy内部好

        - spark.readStream -> foreach line row -> call groovy?

        - spark.readStream -> foreach 5k batch row -> call groovy? -> foreach line row in 5k batch -> process(line row)

探索高效稳定的排序算法:GrailSort

3、项目及技术应用场景
GrailSort适用于各种需要稳定排序的场合,特别是那些对内存使用敏感或处理大数据量的项目:

内存受限环境:由于GrailSort能够在常数额外空间内工作,因此特别适合于资源有限的嵌入式系统。
大规模数据处理:对于百万级甚至亿级元素的数据集,GrailSort可以提供比std::stable_sort更好的性能。
数据挖掘:在需要对大量记录进行预处理和排序的分析任务中,GrailSort的效率尤为突出。
并行计算:由于其优秀的分治特性,GrailSort也适合作为并行排序算法的基础。
4、项目特点
稳定性:GrailSort保证了相等元素的相对顺序不会改变,这是许多应用所必需的特性。
内存效率:提供了多种内存管理策略,包括无额外空间、固定大小缓冲区和动态缓冲区,适应不同需求。
高性能:在测试中,尤其在数据集中键值分布不均时,GrailSort的运行速度可与std::stable_sort媲美,甚至在某些情况下更快。
易用性:通过简单的API设计,用户可以方便地将其集成到自己的项目中。
————————————————
                        
原文链接:https://blog.csdn.net/gitblog_00064/article/details/139367454

opentelemetry   【IT老齐432】可观测性,优雅零侵入,Spring Boot接入OpenTelemetry_哔哩哔哩_bilibili

算力平台log采集方案:

iLogtail 回顾视频:开源两周年,感恩遇见,畅想未来_哔哩哔哩_bilibili

借鉴hdfs的逻辑写一套minio追加写的客户端,主要是控制 间隔时间、行数、以及主动提交

8.flume实时监控文件hdfs sink使用演示_哔哩哔哩_bilibili

DT-A的级联分发是不用走落盘的,直接走网络传输

DTN DT-A数据采集,解决flume的级联方式,并且flume支持事务,保证数据的一致性,可扩展用于以后的数据对账使用

https://www.cnblogs.com/typ1805/p/10405313.html

https://www.cnblogs.com/xuziyu/p/11004103.html

https://download.csdn.net/blog/column/1488183/52622685

值得注意的是,Flume提供了大量内置的Source、Channel和Sink类型。不同类型的Source,Channel和Sink可以自由组合。组合方式基于用户设置的配置文件,非常灵活。

  比如:Channel可以把事件暂存在内存里,也可以持久化到本地硬盘上。Sink可以把日志写入HDFS, HBase,甚至是另外一个Source等等。Flume支持用户建立多级流,

  也就是说,多个agent可以协同工作,并且支持Fan-in、Fan-out、Contextual Routing、Backup Routes,这也正是Flume强大之处。如下图所示:

数据清洗:

pandas、tablesaw

去重:

探索数据清洗新境界:csvdedupe - 精准去重利器-CSDN博客

GitHub - dedupeio/dedupe: :id: A python library for accurate and scalable fuzzy matching, record deduplication and entity-resolution.

https://github.com/dedupeio/dedupe?tab=readme-ov-file

Dedupe 2.0.17 — dedupe 2.0.17 documentation

csvdedupe、csvlink、csvkit

对于比较100GB无序CSV数据这类大规模数据比较任务,直接在内存中操作可能不太现实,因此需要采取更高效和可扩展的方法。以下是一些建议:

### 1. 使用分布式计算框架
- **Apache Spark**:Spark是一个强大的分布式计算框架,擅长处理大规模数据集。你可以将CSV数据加载到DataFrame中,使用Spark的`join`、`subtract`等操作来比较数据集。Spark支持在内存中进行计算,如果数据太大,它会自动溢写到磁盘。此外,Spark SQL也提供了丰富的比较功能。

### 2. 分块处理
- 将CSV文件分割成多个小文件,然后逐个或并行处理这些小文件。这可以通过命令行工具(如split)预先处理,或者在读取时直接在程序中实现。处理完每个小块的数据比较后,汇总所有差异结果。

### 3. 外部排序
- 由于原始数据无序,直接比较困难,可以先对两个CSV文件进行排序(可以使用外部排序算法,因为数据量大,不适合一次性载入内存排序),然后再进行比较。虽然排序本身需要额外的时间和空间,但对于后续的差异检测会非常高效。

### 4. 使用数据库
- 导入CSV数据到数据库(如PostgreSQL、MySQL或大数据平台如Hadoop HDFS + Hive),利用数据库的比较和查询功能进行差异分析。数据库天生擅长处理大规模数据,并且提供丰富的SQL查询能力,可以方便地进行JOIN操作来发现差异。

### 5. 专用数据比较工具
- 一些专业的数据比较工具,如**DiffKit**或**Daff**,设计用于处理大规模数据集的比较,它们支持并行处理和高效的比较算法,适合处理GB甚至TB级别的数据。

### 6. MapReduce或Hadoop
- 如果你熟悉Hadoop生态系统,可以编写MapReduce作业来并行处理数据比较。将数据切分成块,Map阶段处理每一块内的比较,Reduce阶段整合差异结果。

### 7. Python + Dask
- Dask是一个并行计算库,适用于处理超出内存大小的数据集。结合Pandas,可以实现类似Spark的DataFrame操作,但更易于Python开发者上手。Dask可以将任务分解到多核CPU或分布式计算集群上执行。

### 注意事项
- 在处理前,确保有足够的磁盘空间用于临时文件和输出。
- 考虑数据的唯一标识符或键,这将直接影响比较的效率和准确性。
- 性能优化也很关键,比如使用高效的编码格式(如gzip压缩)来减少I/O开销,合理分配计算资源等。

综上所述,根据你的资源和技术栈选择最合适的方法,处理100GB无序CSV数据比较任务。


 

【JVM 监控工具】性能诊断--JProfiler的使用_逆流°只是风景-bjhxcc的博客-CSDN博客

lsieun | Every search begins with beginner’s luck. And every search ends with the victor’s being severely tested. – The AlchemistEvery search begins with beginner’s luck. And every search ends with the victor’s being severely tested. – The Alchemisthttps://lsieun.github.io/Pointofix,软件官网:https://www.pointofix.de/download.php



lsieun | Every search begins with beginner’s luck. And every search ends with the victor’s being severely tested. – The Alchemist

https://github.com/lsieunhttps://github.com/lsieun

java agent: GitHub - YorkHwang/exec-timer: 基于java agent实现无侵入方法执行时长打印

SkyWalking

相关文章:

Temp123

MapDB:的持久化机制,以及源码分析和摘取 1、spark streaming--struct streaming 基于 时间间隔 攒批 2、kafka-connect-hdfs 控制 flush.size 和 interval.ms控制 攒批 - 完全自研 攒批机制 - 使用 embeded 版 https://lxblog.com/qianwen/share?shar…...

春秋杯-WEB

SSTI 可以看到主页那里有个登录测试之后为ssti {{4*4}} fenjing梭哈即可得到payload {{((g.pop.__globals__.__builtins__.__import__(os)).popen(cat flag)).read()}}file_copy 看到题目名字为file_copy, 当输入路径时会返回目标文件的大小, 通…...

JavaEE:多线程初阶

JavaEE:多线程初阶 一、线程的原理和进程与线程之间的关系1. 线程的原理线程的基本概念线程的生命周期线程的调度线程的并发与并行 2. 进程与线程的关系进程(Process)线程与进程的关系进程和线程的对比线程的优势线程的缺点 3. 总结 二、多线…...

Linux之文件系统前世今生(一)

Linux在线1 Linux在线2 一、 基本概念 1.1 块(Block) 在计算机存储之图解机械硬盘这篇文章中我们提到过,磁盘读写的最小单位是扇区,也就是 512 Byte;很明显,每次读写的效率非常低。 为了提高IO效率&…...

当设置dialog中有el-table时,并设置el-table区域的滚动,看到el-table中多了一条横线

问题:当设置dialog中有el-table时,并设置el-table区域的滚动,看到el-table中多了一条横线; 原因:el-table有一个before的伪元素作为表格的下边框下,初始的时候已设置,在滚动的时候并没有重新设置…...

Windows远程桌面网关出现重大漏洞

微软披露了其Windows远程桌面网关(RD Gateway)中的一个重大漏洞,该漏洞可能允许攻击者利用竞争条件,导致拒绝服务(DoS)攻击。该漏洞被标识为CVE-2025-21225,已在2025年1月的补丁星期二更新中得到…...

vue 前端优化性能优化方法

1.列表使用唯一 key v-for"item in activeList" :key"item.id"原因是不使用 key 或者列表的 index 作为 key 的时候,每个元素对应的位置关系都是 index,直接导致我们插入的元素到后面的全部元素,对应的位置关系都发生了变…...

docker-compose部署kafka 3.3.1 kraft

一、服务器: 节点1:10.1.1.165 节点2:10.1.1.164 节点3:10.1.1.169二、添加环境地址解析 vim /etc/hosts kafka1 10.1.1.165 kafka2 10.1.1.164 kafka3 10.1.1.169三、节点配置 节点1 version: "3" services:kafka1:image: bitnami/kafka:3.3.1contain…...

【Python】第二弹---深入理解编程基础:从常量、变量到注释的全面解析

✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】【C详解】【Linux系统编程】【MySQL】【Python】 目录 1、常量和表达式 2、变量和类型 2.1、变量是什么 2.2、变量的语法 2.3、变量的类型 2.4、动态类型特…...

[BrainShadow-V1] VR头戴设备统计报告

Brain-Shadow-V1 EventVR headsetsReported byXiao enDate2025/01/15Version1.0 HTC Vive Pro 2 Pro HTC Vive Pro 2 是一款高端虚拟现实头显,配备双 2.5K 显示屏,组合分辨率达到 48962448,提供 120 的视场角和 120Hz 的刷新率。该设备支持…...

跨境电商使用云手机用来做什么呢?

随着跨境电商的发展,越来越多的卖家开始尝试使用云手机来协助他们的业务,这是因为云手机具有许多优势。那么,具体来说,跨境电商使用云手机可以做哪些事情呢? (一)实现多账号登录和管理 跨境电商…...

DAY23 使用具有通用性的队列

1.初始化数组 //Initialize arrays.int tempLength getNumNodes();valuesArray new char[tempLength];indicesArray new int[tempLength];int i 0;2.初始化队列 创建了一个名为tempQueue的CircleObjectQueue对象,即一个循环对象队列。 将当前对象(即…...

汽车网络信息安全-ISO/SAE 21434解析(上)

目录 概述 第四章-概述 1. 研究对象和范围 2. 风险管理 第五章-组织级网络安全管理 1. 网络安全治理(cybersecurity governance) 2. 网络安全文化(cybersecurity culture) 3. 信息共享(Information Sharing) 4. 管理体系…...

通用查询类接口开发的另类思路

文章目录 一、需求概述二、开发方式1、传统开发方式2、将接口视为资源文件1.)springmvc工程2.)springboot工程3.)nginx代理 三、接口数据如何更新1、原始数据文件生成接口数据1.)定义启动类2.)启动监听3.)文…...

uc/os-II 原理及应用(八) 系统裁减以及移植到51单片机-下

现在说明几个重要的点, OSStartHighRdy 的作用就是把任务栈复制到系统栈上面,再利用RET的时候会从系统栈上到一个地址放到PC寄存器上来实现任务运行。OSCtxSw是任务切换,把系统栈全部备份到当前任务栈映射上,然后改OSTCBCur,调用…...

职场沟通与行为

职场沟通与行为 引言 在职场上,你是否曾遇到过困惑的沟通?是否对同事的行为有过疑虑?这不仅是个别现象,而是我们这个时代工作文化中的普遍问题。许多职场的摩擦,来自沟通不畅或是行为不当。那么,如何才能…...

【tailscale 和 ssh】当服务器建立好节点,但通过客户端无法通过 ssh 连接

背景 当服务器建立好节点,一切显示正常但通过客户端无法通过 vs code 中的 ssh 连接到服务器 问题解决 因为服务器是重装过的,所以忘记在服务器上下载 ssh 了。。。安装完成并启动 SSH 服务后便可正常连接! sudo apt update sudo apt in…...

Spark 之 Aggregate

Aggregate 参考链接: https://github.com/PZXWHU/SparkSQL-Kernel-Profiling完整的聚合查询的关键字包括 group by、 cube、 grouping sets 和 rollup 4 种 。 分组语句 group by 后面可以是一个或多个分组表达式( groupingExpressions )。 聚合查询还支持 OLAP 场景下的多…...

【JSqlParser】Java使用JSqlParser解析SQL语句总结

简述 Java解析SQL语句有很多工具都可以做到,比如Mybatis、Druid、目前用来用去最全面的仍然是Jsqlparser,它是一个Github上的开源项目,JSqlParser是一个用于解析SQL语句的Java库,它可以帮助开发者分析和操作SQL语句的结构。无论是…...

Linux下的dev,sys和proc(TODO)

(TODO) 还有一个sysfs 在 Linux 系统中,/dev、/sys 和 /proc 是三个特殊的虚拟文件系统目录,它们各自有特定的用途,主要用于与设备和内核交互。以下是它们的详细区别和功能说明: 1. /dev(Devi…...

C++初阶-list的底层

目录 1.std::list实现的所有代码 2.list的简单介绍 2.1实现list的类 2.2_list_iterator的实现 2.2.1_list_iterator实现的原因和好处 2.2.2_list_iterator实现 2.3_list_node的实现 2.3.1. 避免递归的模板依赖 2.3.2. 内存布局一致性 2.3.3. 类型安全的替代方案 2.3.…...

linux arm系统烧录

1、打开瑞芯微程序 2、按住linux arm 的 recover按键 插入电源 3、当瑞芯微检测到有设备 4、松开recover按键 5、选择升级固件 6、点击固件选择本地刷机的linux arm 镜像 7、点击升级 (忘了有没有这步了 估计有) 刷机程序 和 镜像 就不提供了。要刷的时…...

解决本地部署 SmolVLM2 大语言模型运行 flash-attn 报错

出现的问题 安装 flash-attn 会一直卡在 build 那一步或者运行报错 解决办法 是因为你安装的 flash-attn 版本没有对应上,所以报错,到 https://github.com/Dao-AILab/flash-attention/releases 下载对应版本,cu、torch、cp 的版本一定要对…...

【服务器压力测试】本地PC电脑作为服务器运行时出现卡顿和资源紧张(Windows/Linux)

要让本地PC电脑作为服务器运行时出现卡顿和资源紧张的情况,可以通过以下几种方式模拟或触发: 1. 增加CPU负载 运行大量计算密集型任务,例如: 使用多线程循环执行复杂计算(如数学运算、加密解密等)。运行图…...

MySQL 8.0 OCP 英文题库解析(十三)

Oracle 为庆祝 MySQL 30 周年,截止到 2025.07.31 之前。所有人均可以免费考取原价245美元的MySQL OCP 认证。 从今天开始,将英文题库免费公布出来,并进行解析,帮助大家在一个月之内轻松通过OCP认证。 本期公布试题111~120 试题1…...

OpenPrompt 和直接对提示词的嵌入向量进行训练有什么区别

OpenPrompt 和直接对提示词的嵌入向量进行训练有什么区别 直接训练提示词嵌入向量的核心区别 您提到的代码: prompt_embedding = initial_embedding.clone().requires_grad_(True) optimizer = torch.optim.Adam([prompt_embedding...

大语言模型(LLM)中的KV缓存压缩与动态稀疏注意力机制设计

随着大语言模型(LLM)参数规模的增长,推理阶段的内存占用和计算复杂度成为核心挑战。传统注意力机制的计算复杂度随序列长度呈二次方增长,而KV缓存的内存消耗可能高达数十GB(例如Llama2-7B处理100K token时需50GB内存&a…...

用机器学习破解新能源领域的“弃风”难题

音乐发烧友深有体会,玩音乐的本质就是玩电网。火电声音偏暖,水电偏冷,风电偏空旷。至于太阳能发的电,则略显朦胧和单薄。 不知你是否有感觉,近两年家里的音响声音越来越冷,听起来越来越单薄? —…...

R语言速释制剂QBD解决方案之三

本文是《Quality by Design for ANDAs: An Example for Immediate-Release Dosage Forms》第一个处方的R语言解决方案。 第一个处方研究评估原料药粒径分布、MCC/Lactose比例、崩解剂用量对制剂CQAs的影响。 第二处方研究用于理解颗粒外加硬脂酸镁和滑石粉对片剂质量和可生产…...

人工智能(大型语言模型 LLMs)对不同学科的影响以及由此产生的新学习方式

今天是关于AI如何在教学中增强学生的学习体验,我把重要信息标红了。人文学科的价值被低估了 ⬇️ 转型与必要性 人工智能正在深刻地改变教育,这并非炒作,而是已经发生的巨大变革。教育机构和教育者不能忽视它,试图简单地禁止学生使…...