当前位置: 首页 > article >正文

DDD难落地?就让AI干吧! - cleanddd-skills介绍儆

AI训练存储选型的演进路线第一阶段单机直连时代早期的深度学习数据集较小模型训练通常在单台服务器或单张GPU卡上完成。此时直接将数据存储在训练机器的本地NVMe SSD/HDD上。其优势在于IO延迟最低吞吐量极高也就是“数据离计算最近”。缺点也很明显数据孤岛多台机器无法共享数据数据拷贝scp/rsync)及其耗时。容量受限本地磁盘容量有限。数据安全数据没有冗余机器或盘挂了数据可能就丢了。第二阶段传统共享存储时代NFS/NAS到后来开始团队协作训练规模也变大则需要多机多卡分布式训练同时出于使用方便大家希望像操作本地文件一样操作共享数据。此时开始以NFSNetwork File System)挂载传统的NAS存储阵列来使用。其优势在于POSIX兼容不需要修改PyTorch/TensorFlow代码直接读写文件路径共享也十分便利所有节点看到的目录结构一致。缺点则在于元数据性能瓶颈NFS在处理海量小文件的open,lookup操作时元数据服务器可能被瞬间打死。另外所有计算节点抢占同一个NAS的出口带宽也可能导致GPU等待IO造成GPU无法维持高使用率。第三阶段大数据融合时代HDFSGoogle等大厂入局Hadoop诞生。数据存储在HDFS上通过一些软件层面的优化将大量小图片打包成大文件变成“顺序读”训练代码通过API读取。这样就能够极大地利用HDFS的设计初衷吞吐量极高、大规模顺序读同时还能利用现成的大数据基础设施。但同样有缺点生态割裂PyTorch对HDFS支持不如TensorFlow友好。随机访问差对于需要频繁Shuffle(随机打乱)的数据集HDFS性能不佳。Java开销HDFS客户端通常较重占用CPU资源第四阶段高性能并行文件系统HPC/Parallel FS)此时的AI领域进入超算时代模型越来越大对低延迟和超高带宽的要求极高。此时的方案是借用超算HPC领域的Lustre或GPFSIMB Spectrum Scale)。优点在于专为高并发设计可以轻松喂饱数千张GPU支持POSIX且元数据性能极强。缺点则在于贵运维难Lustre等系统内合级调优十分困难一旦集群崩溃恢复十分困难扩容困难很难像云存储那样弹性伸缩。第五阶段存算分离与分层架构Object Storage Cache)当前这个时代即云原生时代数据集达到PB级别成本成为了核心考量。对象存储最便宜且容量无限但性能尤其是元数据不够好。 此时针对元数据有了若干解决方案方案一 原生对象存储格式优化这种方案将数据存储在S3客户端使用S3 SDK进行对接以对象存储的接口访问文件。同时降低小文件数量对小文件进行打包。此处的缺点则在于丧失了POSIX标准。方案二对象存储高性能文件网关这是目前的最终形态也是本文将要讲的形态。其底层数据存储在对象存储中S3、COS、OSS、ceph在用户和对象存储层中加一个中间层作为文件系统层负责将文件系统与对象存储的操作进行翻译转换从而实现POSIX兼容。而最重要的是在GPU训练节点的本地NVMe SSD上建立热数据缓存以提升IO能力。此时第一次读取时从对象存储拉取数据过程稍慢而后续的读取则可以直接走本地缓存极快。而一些实现如JuiceFS)将元数据独立放在Redis/TiKV中可以完美地解决对象存储list对象的性能问题。据最新的企业版JuiceFS文档说明当前单机文件系统已经可以支持5000亿级别文件本文将以“对象存储高性能文件网关”的技术路线的现状进行分析描述业界若干实现的设计思想抛砖引玉。Object Storage Cache的一般性设计原则本小节介绍Object Storage Cache的一般性设计原则。在介绍之前首先需要理清楚文件系统与对象存储的区别是什么文件系统对接对象存储需要做哪些工作之后才考虑性能的优化与可靠性的优化。文件系统与对象存储的异同点分析文件系统的核心特征如下所示层级结构数据以目录树的形式组织文件包含在目录中目录又包含在父目录中。寻址方式通过路径名来访问。数据可变性支持原地修改。应用程序可以打开一个文件seek到特定偏移量然后只修改文件中间的几个字节而无需重写整个文件。操作接口基于系统调用如open(), read(), write(), seek(), close(), flock()等。元数据如权限、创建时间、大小与文件数据紧密绑定通常存储在inode中。强一致性在单机文件系统中写入数据后随后的读取操作立即能看到新数据。原子性许多元数据操作如rename通常是原子的。对象存储的核心特征如下所示扁平结构数据存储在“桶“中没有真正的文件夹或目录层级。虽然看起来像目录但这只是对象键名key)中的前缀字符串。寻址方式通过key访问需要结合对象存储访问域名/IP来访问。数据不可变性对象通常被视为原子单元。无法修改对象的中间部分。如果要修改部分数据必须新上传一个对象来覆盖旧对象Read-Modify-Write。操作接口基于RESTful API(HTTP)主要操作是PUT上传/覆盖GET下载DELETE删除HEAD获取元数据不支持seek或部分写入。一致性模型不同的对象存储实现下有不同的一致性模型。可能是强一致性如ceph也可能是最终一致性。整理如下表所示image将对象存储S3 协议等挂载为本地文件系统FUSE是业界的常见需求目的是为了让不支持 S3 API 的传统应用也能利用对象存储的低成本和无限容量。由于我们在上一部分分析了“文件系统”与“对象存储”存在巨大的语义鸿沟因此这些 FUSE 工具的核心设计难点都在于如何用笨重的 HTTP 对象接口去模拟灵活的 POSIX 文件接口。业界主流有两个设计流派直接映射型1:1 Mapping文件对应对象元数据存放在对象头中。元数据分离型Metadata Separation数据存在对象存储元数据存放在独立的数据库中。对象存储的 FUSE 并不是完美的。直接映射型保留了数据的通用性但牺牲了性能和语义元数据分离型重建了文件系统语义和性能但把对象存储降级为了纯粹的“硬盘”牺牲了数据的通用访问性。设计优劣势分析1. 直接映射型 (S3FS, Goofys, Rclone)设计优点通用性强 写入的数据就是标准的 S3 对象。你用 S3FS 传上去的图片可以直接用浏览器通过 S3 URL 打开也可以被其他不使用 FUSE 的程序处理。部署简单 无需额外部署数据库只要有 S3 账号就能用。无状态 客户端挂了重启即可不依赖外部元数据服务。设计劣势元数据性能灾难 S3 处理元数据非常慢。执行 ls -l 可能会很慢还可能造成集群slow op。重命名原子性缺失 在 S3 中没有“重命名目录”的操作。重命名一个包含 1000 个文件的目录S3FS 需要执行 1000 次 Copy 1000 次 Delete。这不仅慢而且如果在中间崩溃目录会断裂一半在旧名一半在新名。无法支持随机写/追加写 修改 1GB 文件的最后 1 个字节S3FS 必须下载 1GB - 修改 - 上传 1GB。效率极低。2. 元数据分离型 (JuiceFS)设计优点极致性能 元数据操作ls, getattr, rename都在 Redis/SQL 中完成延迟是微秒级与本地文件系统无异。完全 POSIX 兼容 通过将文件切块Chunking实现了对象存储本身不支持的“随机写”和“追加写”只用重传修改过的那个 Block。原子性保障 重命名目录只是数据库里的一个事务瞬间完成且原子。缓存能力 通常带有强大的本地缓存机制利用本地磁盘缓存 S3 的数据块。设计劣势数据不透明黑盒 你在 S3 Bucket 里看到的不再是 photo.jpg而是 chunks/1/123_456 这样的分块数据。脱离了 JuiceFS 客户端你无法直接识别和使用 S3 里的数据。运维复杂度 需要额外部署和维护一个高可用的元数据引擎如 Redis 集群或 RDS。丈亢赡蠢

相关文章:

DDD难落地?就让AI干吧! - cleanddd-skills介绍儆

AI训练存储选型的演进路线 第一阶段:单机直连时代 早期的深度学习数据集较小,模型训练通常在单台服务器或单张GPU卡上完成。此时直接将数据存储在训练机器的本地NVMe SSD/HDD上。 其优势在于IO延迟最低,吞吐量极高,也就是“数据离…...

基于File-Based App开发MVP项目钨

Issue 概述 先来看看提交这个 Issue 的作者是为什么想到这个点子的,以及他初步的核心设计概念。?? 本 PR 实现了 Apache Gravitino 与 SeaTunnel 的集成,将其作为非关系型连接器的外部元数据服务。通过 Gravitino 的 REST API 自动获取表结构和元数据&…...

MySQL触发器可以修改当前行数据吗_MySQL触发器修改字段值

BEFORE触发器可安全修改NEW字段值,AFTER中修改无效;禁止在触发器内UPDATE本表以防递归;INSERT中不可依赖NEW.id做逻辑;赋值需注意类型、长度及约束。BEFORE 触发器里能直接改 NEW 字段值可以,而且这是唯一安全修改当前…...

贾子科学三层结构定律(TMM):终结波普尔骗局,重塑科学真理主权的终极架构

贾子科学三层结构定律(TMM):终结波普尔骗局,重塑科学真理主权的终极架构副标题: Truth–Model–Method Framework——从“方法僭越”到“真理回归”的科学划界革命摘要针对波普尔可证伪主义导致的真理虚无化与当代学术…...

Flutter 框架跨平台鸿蒙开发 - 亲子故事共创

亲子故事共创应用欢迎加入开源鸿蒙跨平台社区: https://openharmonycrossplatform.csdn.net 一、项目概述 运行效果图1.1 应用简介 亲子故事共创是一款亲子教育类应用,核心理念是"父母孩子一起创作专属故事书"。通过角色设定、剧情分支、插图生…...

AI全自动解析复杂工程图纸与防造假质检知识库实战

工程结构的物理坍塌,往往始于底层数据范式的崩塌。 在近年来的多起重大桥梁垮塌事故(如黄河某公路大桥局部坍塌事件)的事后调查中,一个非常残酷的“文档黑洞”反复暴露在调查报告中:工程图纸的版本错乱、施工材料的质…...

UMS3 Helper:ESP32-S3开发板硬件抽象库详解

1. UMS3 Helper 库概述UMS3 Helper 是为 Unexpected Maker 全系列 ESP32-S3 开发板量身定制的底层硬件抽象辅助库,覆盖 NanoS3、OMGS3、TinyS3、ProS3、FeatherS3 及 FeatherS3 Neo 六款主流型号。该库并非通用型驱动框架,而是深度耦合各板载外设物理布局…...

火电审计Agent,大模型+RAG降维打击专治台账乱象

假设有两家电厂合谋,通过虚增煤炭采购量、虚构发电量来套取国家补贴。这一案例揭示了一个深层次问题:造假已从简单的财务做账,升级为对底层DCS运行日志、皮带秤称重记录、化验室热量报告等全链条数据的系统性篡改。 传统的事后审计在这类系统…...

ELF与镜像文件格式解析及二进制工具链实践

1. 文件格式基础概念解析在软件开发与系统底层交互过程中,我们经常会遇到各种不同类型的二进制文件。这些文件虽然都以二进制形式存储,但各自具有完全不同的结构和用途。理解它们的区别对于程序编译、链接、调试以及系统级开发都至关重要。ELF&#xff0…...

实现ITPS与OTPS双突破!昆仑芯马阳:文心一言背后的国产算力“压榨”实战

大模型靠盲目价格战和粗放燃烧算力的时代已经结束,真正的出路不再是“更便宜的 Token”,而是“更精细的工程架构”。市场正在倒逼工程进步,迫使技术开发者从算力的“消耗者”转变为算力的“压榨者”。责编 | 梦依丹出品 | CSDN(ID…...

高明总裁班台工厂推荐

在企业办公环境中,总裁班台不仅是工作的工具,更是企业形象和领导者身份的象征。选择一家靠谱的总裁班台工厂至关重要。今天,就为大家推荐佛山市豪亿办公家具,一家专注于中高端办公家具的源头工厂,为你解决办公家具采购…...

当 AI 主宰写代码,MoonBit 嵌入「形式化验证」让 Bug 清零

前言AI 写代码越来越快,真正的问题却越来越尖锐:生成成本在下降,正确性却不会自动提升。代码能跑,不等于代码是对的;功能看起来完整,也不代表系统真的可靠。对于金融清算、操作系统内核、自动驾驶、航空航天…...

办公家具工厂

在企业运营中,办公家具的选择至关重要。它不仅影响着员工的工作效率和舒适度,还关乎企业的形象和品牌气场。然而,市面上的办公家具存在诸多痛点,让企业主们头疼不已。今天,就带大家了解一家能解决这些痛点的办公家具工…...

OpenClaw错误处理机制:千问3.5-35B-A3B-FP8任务失败排查

OpenClaw错误处理机制:千问3.5-35B-A3B-FP8任务失败排查 1. 为什么需要关注错误处理机制 上周我在本地部署了千问3.5-35B-A3B-FP8模型,准备用OpenClaw实现一个自动化内容处理流程。本以为配置好模型地址就能顺利运行,结果第一个任务就卡在了…...

你的终端神器之Oh My Zsh刨

1.安装环境准备 1.1.查看物理内存 [rootaiserver ~]# free -m 1.2.操作系统版本 [rootaiserver ~]# cat /etc/redhat-release 1.3.操作系统内存 [rootaiserver ~]# df -h /dev/shm/ 1.4.磁盘空间 [rootaiserver ~]# df -TH [rootaiserver ~]# df -h /tmp/ [rootaiserver ~]# d…...

嵌入式轻量HTTP客户端设计与物联网数据上报实践

1. 项目概述 HTTPClient-Xively 是一个面向嵌入式平台的轻量级 HTTP 客户端实现,专为 mbed OS 网络栈设计,核心目标是与 Xively 平台(现已被 Google Cloud IoT Core 收购并逐步停用,但其 REST API 设计范式仍具典型工程参考价值&a…...

cka-2026-etcd

kubeadm 配置的集群已迁移到新机器。它需要更改配置才能成功运行。Task修复在机器迁移过程中损坏的单节点集群。首先,确定损坏的集群组件,并调查导致其损坏的原因。注意:已停用的集群使用外部 etcd 服务器。接下来,修复所有损坏的…...

微软发布的《生成式人工智能初学者.NET 第二版》课程辰

本课概览 Microsoft Agent Framework (MAF) 提供了一套强大的 Workflow(工作流) 框架,用于编排和协调多个智能体(Agent)或处理组件的执行流程。 本课将以通俗易懂的方式,帮助你理解 MAF Workflow 的核心概念…...

嵌入式开发编码规范与最佳实践

1. 为什么嵌入式开发需要编码规范?在嵌入式系统开发中,代码质量直接影响产品的稳定性和可靠性。与通用软件开发不同,嵌入式系统往往运行在资源受限的环境中,且通常需要长时间不间断工作。我曾参与过一个工业控制项目,由…...

【并发心法】别把 RTOS 当 Linux 玩!撕碎“万物皆线程”的并发毒药,论“事件驱动”与“无阻塞”的算力霸权

摘要:在拥有几个 G 内存和无数个核心的桌面端,线程是极其廉价的耗材。但在 SRAM 以 KB 计算的微控制器世界,每一次线程的创建都是在割肉,每一次线程的切换都是在流血。无数跨界开发者带着“阻塞等待”的恶习,用几十个微…...

STM32语音智能垃圾桶开发实战

1. 项目概述 这个基于STM32的语音智能垃圾桶项目,本质上是一个融合了嵌入式开发、语音识别和物联网技术的综合性解决方案。我在去年为一个社区环保项目开发过类似系统,实测下来发现这种智能垃圾桶不仅能提升垃圾分类效率,还能显著降低公共区域…...

OpenClaw技能调试技巧:千问3.5-35B-A3B-FP8任务失败的日志分析方法

OpenClaw技能调试技巧:千问3.5-35B-A3B-FP8任务失败的日志分析方法 1. 问题背景与调试困境 上周我尝试用OpenClaw对接千问3.5-35B-A3B-FP8模型实现一个自动化流程:让AI助手读取截图中的文字内容,整理成结构化数据后存入本地Excel文件。结果…...

使用小龙虾来操作猿编程的遥控车沙

一、什么是 Q 饱和运算? 1. 核心痛点:普通运算的 “数值回绕” 普通算术运算(如 ADD/SUB)溢出时,数值会按补码规则 “回绕”,导致结果完全错误: 示例:int8_t 类型最大值 127 1 → 结…...

OpenClaw技能组合技:Phi-3-mini-128k-instruct多模块协作处理

OpenClaw技能组合技:Phi-3-mini-128k-instruct多模块协作处理 1. 为什么需要技能组合技? 上周我需要处理一份市场调研的Excel数据,包含3000多条杂乱记录。手动清洗要花大半天时间,而用Python脚本又得反复调试。当我尝试用OpenCl…...

嵌入式RGB LED平滑过渡控制库GRGB设计解析

1. 项目概述GRGB 是一个专为嵌入式平台设计的轻量级 RGB LED 平滑控制库,其核心目标是解决传统 PWM 控制下 LED 色彩跳变、亮度阶跃明显、人眼可察觉闪烁等工程痛点。该库不依赖操作系统抽象层(如 FreeRTOS 任务调度),亦不绑定特定…...

字符编码原理与UTF-8实战指南

1. 字符集编码的前世今生第一次接触字符集编码这个概念,是在2008年处理一个中文乱码问题的时候。当时一个简单的网页表单提交,在数据库里存储的内容变成了"ˆ‘š„"这样的乱码。从那时起,我意识到字符编码这个看似基础的概念&…...

【毫米波混合波束成形】第8章 硬件不完美性与鲁棒AI设计

目录 第一部分:原理详解 8.1 低分辨率量化感知神经网络 8.1.1 1-bit与有限精度移相器建模 8.1.1.1 量化噪声的统计分布建模 8.1.1.1.1 量化感知训练(QAT)中的直通估计器原理与方差分析 8.1.1.1.2 软量化替代函数(Sigmoid/Tan…...

digitalPinFast:AVR平台GPIO寄存器级极速操作库

1. 项目概述 digitalPinFast 是一个面向嵌入式底层开发的轻量级 GPIO 操作加速库,其核心设计目标是 在不依赖编译器内置指令(如 __builtin_avr_delay_cycles )或硬件外设(如定时器、CLI/SEI 中断控制)的前提下&…...

ABAQUS盾构隧道开挖模型Cae文件详解:一环七片结构,含螺栓配筋及毫米单位制应用

ABAQUS盾构隧道开挖模型Cae文件,一环7片,含螺栓,配筋。 (此模型用的㎜单位制) 在ABAQUS软件中,存在一个盾构隧道开挖模型的Cae文件。该模型由一环七片组成,其中包含螺栓和配筋。该模型使用毫米作…...

LSTM神经网络回归预测+SHAP可解释分析+新数据预测+多输出,MATLAB代码

一、研究背景 在机器学习和深度学习应用中,模型(如LSTM)的“黑箱”特性限制了其在高风险决策场景中的可信度。SHAP(SHapley Additive exPlanations)值基于博弈论中的Shapley值,能够公平分配各特征对预测结果的贡献,是目前主流的模型可解释性方法之一。该代码结合LSTM多…...