当前位置: 首页 > article >正文

我用 AI 辅助开发了一系列小工具():文件提取工具读

从0构建WAV文件读懂计算机文件的本质虽然接触计算机有一段时间了但是我的视野一直局限于一个较小的范围之内往往只能看到于算法竞赛相关的内容计算机各种文件在我看来十分复杂认为构建他们并能达到目的是一件困难的事情然而近期我观看了油管上Magicalbat大神的视频发现其实它们的本质都惊人地简单所有计算机文件都是按特定规则组织的二进制数据是人为规定好格式再由计算机解析对于我们来说只要根据规定格式进行编辑就能够成功构建。今天我们就从最朴素的方式入手通过手动构建一个WAV音频文件拆解WAV格式的底层逻辑同时理解一个核心认知只要掌握了文件的格式规范任何类型的文件都能像搭积木一样一行行代码“拼”出来。先认识WAVWAV文件的格式WAV是微软开发的无损音频格式相比于压缩后的MP3它的结构更直白没有复杂的编码压缩因此我们能够通过C文件写入的方式直接完成wav文件的构建wav文件的核心由三个关键的“数据块(Chunk)”组成RIFF块文件的“身份卡”告诉计算机“我是一个WAV文件”fmt块音频的“参数说明”记录采样率、声道数、位深等核心参数data块真正的音频数据存储着声音的数字信号。而每个块的内容又如下图所示RIFF:字段名 字节数 数据类型 固定值/计算规则ChunkID 4 ASCII字符 固定为RIFF无终止符严格4字节ChunkSize 4 32位无符号整数 取值 整个WAV文件大小 - 8字节减去ChunkID和ChunkSize自身的8字节Format 4 ASCII字符 固定为WAVE无终止符严格4字节fmt:字段名 字节数 数据类型 固定值/计算规则ChunkID 4 ASCII字符 固定为fmt 末尾空格无终止符ChunkSize 4 32位无符号整数 PCM编码最常用下固定为16代表后续字段的总字节数不含ChunkID和ChunkSizeAudioFormat代码中Tag 2 16位无符号整数 编码格式1PCM无压缩通用3IEEE浮点6μ律7A律等NumChannels代码中Chnnels拼写笔误 2 16位无符号整数 声道数1单声道2立体声2多声道SampleRate 4 32位无符号整数 采样率每秒采样次数常见44100HzCD音质、48000Hz、22050Hz等ByteRate 4 32位无符号整数 每秒音频数据字节数 SampleRate × NumChannels × BitsPerSample / 8BlockAlign代码中BloclAlign拼写笔误 2 16位无符号整数 每个“采样帧”的字节数 NumChannels × BitsPerSample / 8播放器一次读取的最小单位BitsPerSample代码中BitsperSample 2 16位无符号整数 采样位深每个采样点的比特数8/16/24/3216位最常用data:字段名 字节数 数据类型 固定值/计算规则ChunkID代码中DataId 4 ASCII字符 固定为data无终止符严格4字节DataSize 4 32位无符号整数 音频数据总字节数 采样总数 × BlockAlign采样总数 SampleRate × 音频时长音频数据区 可变 二进制流 PCM编码下为线性整数/浮点数16位位深对应int16_t8位对应uint8_t32位浮点对应float我们接下来的代码就是严格按照这个模板把每个部分的二进制数据“写”进文件里。从零构建WAV一行代码拆解核心逻辑下面是完整的C代码新手也能看懂我们逐段拆解看如何从0生成一个能播放的440Hz正弦波WAV文件#includeusing namespace std;// 类型别名让代码更易读明确数据的字节长度#define u32 uint32_t // 32位无符号整数4字节#define u16 uint16_t // 16位无符号整数2字节#define f32 float // 32位浮点数4字节#define i16 int16_t // 16位有符号整数2字节#define HZ 44100 // 采样率每秒采集44100个声音样本标准音频采样率#define DURATION 5 // 音频时长5秒// 1. 定义WAV的三个核心数据块结构对应格式规范// RIFF块文件整体标识struct chunk1{char ChunkID[4]; // 块标识固定为RIFFu32 ChunkSize; // 从该字段到文件末尾的字节数总字节数-8char Format[4]; // 格式类型固定为WAVE}RIFF;// fmt块音频参数配置struct chunk2{char ChunkID[4]; // 块标识固定为fmt 注意末尾有空格u16 Tag; // 编码格式1代表PCM无压缩u32 ChunkSize; // fmt块的大小PCM格式固定为16u16 Chnnels; // 声道数1单声道2立体声u32 SampleRate; // 采样率u32 ByteRate; // 每秒数据量 采样率×声道数×位深/8u16 BloclAlign; // 每个采样的总字节数 声道数×位深/8u16 BitsperSample; // 每个采样的位深16位常见}Fmt;// data块音频数据存储区struct chunk3{char DataId[4]; // 块标识固定为datau32 DataSize; // 音频数据的总字节数}Data;signed main(int argc,char* argv[]){// 打开文件wb表示以二进制模式写入关键文件本质是二进制FILE *fp fopen(test.wav,wb);// 计算总采样数采样率×时长5秒×44100220500个样本u32 NumSamples HZ * DURATION;// 2. 填充RIFF块并写入文件memcpy(RIFF.ChunkID,RIFF,4); // 写入块标识RIFF.ChunkSize NumSamples*sizeof(u16)36; // 计算块大小memcpy(RIFF.Format,WAVE,4); // 声明为WAVE格式fwrite(RIFF.ChunkID,sizeof(char),4,fp); // 写入4个字符的ChunkIDfwrite(RIFF.ChunkSize,sizeof(u32),1,fp); // 写入4字节的ChunkSizefwrite(RIFF.Format,sizeof(char),4,fp); // 写入4个字符的Format// 3. 填充fmt块并写入文件memcpy(Fmt.ChunkID,fmt ,4);Fmt.ChunkSize 16; // PCM格式下fmt块固定16字节Fmt.Tag 1; // PCM无压缩编码Fmt.Chnnels 1; // 单声道Fmt.SampleRate HZ; // 44100Hz采样率Fmt.ByteRate HZ*sizeof(u16); // 每秒字节数44100×288200Fmt.BloclAlign Fmt.Chnnels * sizeof(u16); // 每个采样2字节Fmt.BitsperSample 16; // 16位位深// 按顺序写入fmt块的所有参数严格遵循格式规范fwrite(Fmt.ChunkID,sizeof(char),4,fp);fwrite(Fmt.ChunkSize,sizeof(u32),1,fp);fwrite(Fmt.Tag,sizeof(u16),1,fp);fwrite(Fmt.Chnnels,sizeof(u16),1,fp);fwrite(Fmt.SampleRate,sizeof(u32),1,fp);fwrite(Fmt.ByteRate,sizeof(u32),1,fp);fwrite(Fmt.BloclAlign,sizeof(u16),1,fp);fwrite(Fmt.BitsperSample,sizeof(u16),1,fp);// 4. 填充data块并写入文件memcpy(Data.DataId,data,4);Data.DataSize NumSamples * sizeof(u16); // 音频数据总字节数fwrite(Data.DataId,sizeof(char),4,fp);fwrite(Data.DataSize,sizeof(u32),1,fp);// 5. 生成音频数据并写入440Hz正弦波标准A调for(int i0;if32 t (f32)i/HZ; // 计算当前时间点秒// 生成440Hz正弦波的数值声音的本质是振动正弦波模拟声波f32 y sinf(t*440.0f*2.0f*3.1415926f);// 转换为16位整数适配16位位深的音频i16 sample (i16)(y*INT16_MAX);// 写入单个音频样本2字节fwrite(sample,sizeof(i16),1,fp);}fclose(fp); // 关闭文件return 0;}所有文件都是“按规则写二进制”的产物写完这段代码你可能会发现生成WAV文件的过程就是“按格式规范往文件里写二进制数据”的过程。而这个逻辑适用于所有计算机文件TXT文档本质是字符的ASCII/UTF-8编码比如字符A对应二进制01000001我们按顺序写入这些编码就成了TXT文件BMP图片由文件头记录宽、高、位深 像素数据每个像素的RGB值组成按BMP格式写这些数据就能生成图片MP4视频哪怕是压缩过的视频也是按MP4的格式规范把编码后的视频帧、音频帧组织成二进制数据EXE可执行文件遵循PE格式把指令、数据、资源按规则写入操作系统就能识别并运行。计算机之所以能“看懂”不同的文件不是因为文件有“魔法”而是因为程序员提前约定了“格式规范”——就像我们约定“RIFF”开头的是WAV文件播放器读到这个标识就按WAV的规则解析后续数据。计算机的本质是“朴素的规则”对刚接触计算机的人来说各种文件、软件、系统看似复杂但拆解到最底层都是“数据规则”的组合只要我们对着格式手册即便使用最朴素的方式也能够成功构建出可以使用的音频文件。计算机的世界没有想象中那般复杂计算机只在乎那最终排好队的 0 和 1。进一步思考从文件到软件了解了各类文件本质我们自然能理解计算机中各个编辑软件的原理是什么了就比如今天举的wav的例子如果我们将示例程序改进一下加入输入那么这是否就成了一个简单的音频编辑软件了呢所有的复杂软件如 Photoshop、Premiere底层逻辑都是如此读取特定规则的二进制 - 在内存中加工处理 - 按规则写回二进制。当你不再把文件看作“黑盒”你便拥有了重塑数字世界的能力。乐刺坦俨

相关文章:

我用 AI 辅助开发了一系列小工具():文件提取工具读

从0构建WAV文件:读懂计算机文件的本质 虽然接触计算机有一段时间了,但是我的视野一直局限于一个较小的范围之内,往往只能看到于算法竞赛相关的内容,计算机各种文件在我看来十分复杂,认为构建他们并能达到目的是一件困难…...

代码之外周刊(第期):当技术让一切趋同,我们还剩什么?啄

1. 前言 本文详细介绍如何使用 kylin v10 iso 文件构建出 docker image,docker 版本为 20.10.7。 2. 构建 yum 离线源 2.1. 挂载 ISO 文件 mount Kylin-Server-V10-GFB-Release-030-ARM64.iso /media 2.2. 添加离线 repo 文件 在/etc/yum.repos.d/下创建kylin-local…...

终极指南:5步掌握Wallpaper Engine资源解包与格式转换秘籍 [特殊字符]

终极指南:5步掌握Wallpaper Engine资源解包与格式转换秘籍 🚀 【免费下载链接】repkg Wallpaper engine PKG extractor/TEX to image converter 项目地址: https://gitcode.com/gh_mirrors/re/repkg 还在为Wallpaper Engine的PKG文件头疼吗&#…...

如何快速掌握GDScript:从零开始的游戏开发编程指南

如何快速掌握GDScript:从零开始的游戏开发编程指南 【免费下载链接】learn-gdscript Learn Godots GDScript programming language from zero, right in your browser, for free. 项目地址: https://gitcode.com/gh_mirrors/le/learn-gdscript 想要进入游戏开…...

如何用猫抓浏览器扩展轻松获取网页媒体资源:终极免费解决方案

如何用猫抓浏览器扩展轻松获取网页媒体资源:终极免费解决方案 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 你是否曾遇到过这样的困扰…...

SNN系列|学习算法篇(7)STDP变体与神经调制融合机制

1. STDP学习规则的核心原理与生物基础 脉冲时序依赖可塑性(STDP)是大脑中突触可塑性的重要机制之一,它通过调整突触前后神经元脉冲的相对时间来改变突触强度。想象一下两个小朋友在玩传球游戏——如果A小朋友总是在B小朋友准备接球前恰到好处…...

利用MSBuild自定义任务实现C#类库编译版本号自动迭代

1. 为什么需要版本号自动迭代? 每次手动修改版本号绝对是开发过程中最容易被忽略的环节之一。我见过太多团队因为忘记更新版本号,导致生产环境出现"1.0.0.0"版本运行了半年的尴尬情况。更糟的是,当需要回滚时,发现所有编…...

PyTorch 2.8镜像部署教程:支持screen后台运行与日志管理的稳定服务配置

PyTorch 2.8镜像部署教程:支持screen后台运行与日志管理的稳定服务配置 1. 镜像概述与环境准备 PyTorch 2.8深度学习镜像基于RTX 4090D 24GB显卡和CUDA 12.4深度优化,专为高性能计算任务设计。这个预配置环境消除了复杂的依赖安装过程,让开…...

重新定义Android调试:ADB Explorer架构深度解构与现代化设计范式

重新定义Android调试:ADB Explorer架构深度解构与现代化设计范式 【免费下载链接】ADB-Explorer A fluent UI for ADB on Windows 项目地址: https://gitcode.com/gh_mirrors/ad/ADB-Explorer 在Android开发工具生态中,ADB(Android De…...

终极百度网盘高速下载方案:免费解析工具让下载速度飙升

终极百度网盘高速下载方案:免费解析工具让下载速度飙升 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 还在为百度网盘几十KB的龟速下载而烦恼吗?面对大…...

NVIDIA Profile Inspector:深入解析驱动配置文件兼容性问题与解决方案

NVIDIA Profile Inspector:深入解析驱动配置文件兼容性问题与解决方案 【免费下载链接】nvidiaProfileInspector 项目地址: https://gitcode.com/gh_mirrors/nv/nvidiaProfileInspector NVIDIA Profile Inspector 是一款功能强大的第三方工具,它…...

免费开源条码字体终极指南:如何在办公软件中快速生成专业条码

免费开源条码字体终极指南:如何在办公软件中快速生成专业条码 【免费下载链接】librebarcode Libre Barcode: barcode fonts for various barcode standards. 项目地址: https://gitcode.com/gh_mirrors/li/librebarcode Libre Barcode是一款创新的开源条码字…...

Quansloth 本地 AI 服务器使用手册

Quansloth 本地 AI 服务器使用手册 📋 目录 项目简介 系统要求 安装指南 配置说明 使用教程 多 GPU 配置 故障排除 性能优化 项目简介 什么是 Quansloth? Quansloth 是一个基于 Google TurboQuant (ICLR 2026) 技术构建的本地 AI 服务器,专为消费级 GPU 设计。它通过 KV …...

快速掌握ComfyUI-Inpaint-CropAndStitch:图像修复的终极解决方案

快速掌握ComfyUI-Inpaint-CropAndStitch:图像修复的终极解决方案 【免费下载链接】ComfyUI-Inpaint-CropAndStitch ComfyUI nodes to crop before sampling and stitch back after sampling that speed up inpainting 项目地址: https://gitcode.com/gh_mirrors/c…...

3步解决Mac视频预览难题:QuickLookVideo让你的Finder支持MKV等格式

3步解决Mac视频预览难题:QuickLookVideo让你的Finder支持MKV等格式 【免费下载链接】QuickLookVideo This package allows macOS Finder to display thumbnails, static QuickLook previews, cover art and metadata for most types of video files. 项目地址: ht…...

终极解决方案:三分钟将B站缓存视频转换为永久可播放的MP4格式

终极解决方案:三分钟将B站缓存视频转换为永久可播放的MP4格式 【免费下载链接】m4s-converter 一个跨平台小工具,将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否曾遇到过这样的困…...

深度解析OpenCore引导器:PC安装macOS的完整实战指南

深度解析OpenCore引导器:PC安装macOS的完整实战指南 【免费下载链接】OpenCore-Install-Guide Repo for the OpenCore Install Guide 项目地址: https://gitcode.com/gh_mirrors/op/OpenCore-Install-Guide OpenCore引导器是当前Hackintosh社区的革命性工具&…...

Ubuntu 22.04 下从零安装casADI和Ipopt的完整指南(含HSL避坑技巧)

Ubuntu 22.04 下从零安装casADI和Ipopt的完整指南(含HSL避坑技巧) 在科学计算和优化领域,casADI和Ipopt的组合堪称黄金搭档。casADI提供了强大的符号计算能力,而Ipopt则是非线性优化问题的求解利器。本文将带你从零开始在Ubuntu …...

【ENSP实战】VLAN间通信的VLANIF三层路由配置详解(HCIA)

1. 为什么需要VLAN间通信? 在企业网络中,不同部门往往需要划分到不同的VLAN中。比如财务部在VLAN 10,市场部在VLAN 20,这是为了安全和管理方便。但问题来了:财务部有时候需要和市场部共享文件,这时候就需要…...

告别手动调试!海康VisionMaster全局触发与TCP通信实战:让视觉方案自动运行并上报结果

海康VisionMaster全局触发与TCP通信实战:构建无人值守视觉检测系统 在工业自动化领域,视觉检测系统早已从单纯"看得见"发展到"会思考、能决策"的智能化阶段。传统手动点击执行的视觉方案不仅效率低下,更难以融入现代化生…...

手把手教你搭建开源‘零信任’入口:基于FreeIPA和FreeRadius的2FA网关配置全记录

从零构建企业级双因素认证门户:FreeIPAFreeRadius实战指南 当团队规模扩张到20人以上时,分散在各个系统里的账号密码就像散落的拼图——防火墙用一套凭证、内部Wiki用另一套、VPN又是独立的账号体系。每次有新成员加入,运维人员不得不在多个系…...

Google 迎来「DeepSeek 时刻」:TurboQuant算法实现bit无损、×加速、×压缩、零预处理矫

从 UI 工程师到 AI 应用架构者 13 年前,我的工作是让按钮在 IE6 上对齐; 13 年后,我用 fetch-event-source 订阅大模型的“思维流”,用 OCR 解锁图片中的文字——前端,正在成为 AI 产品的第一道体验防线。 最近&…...

ADC测量不准?可能是Vref惹的祸!手把手教你用万用表校准参考电压

ADC测量不准?可能是Vref惹的祸!手把手教你用万用表校准参考电压 在嵌入式系统和电子测量领域,ADC(模数转换器)的精度直接影响整个系统的性能。许多工程师花费大量时间优化采样算法、滤波电路,却忽略了一个关…...

TVA团队之短:技能与意识不足,执行变形导致 “价值缩水”

(一)典型误区表现人员培训缺失,操作不规范:仅对一线操作人员进行简单的开机、关机培训,未开展系统的技术培训,导致操作人员不熟悉设备参数调整、故障排查、数据记录等核心技能,易出现操作失误。…...

TVA认知之偏:过度依赖 TVA,忽视全链条质量管控

(一)典型误区表现“TVA 万能论”,忽视全链条防控:认为引入AI智能体视觉检测系统( TVA) 后就能彻底解决质量问题,过度依赖 TVA 的检测功能,却忽视原料采购、生产加工、包装出厂等全环…...

Electron应用跨平台打包实战:兼容Windows 32位与64位系统

1. 为什么需要兼容32位和64位Windows系统? 最近接手一个项目,客户要求在展会上演示Web应用。这种线下场景用浏览器打开网址确实显得不够专业,于是决定用Electron打包成桌面应用。但现场设备五花八门,既有新款的64位Windows电脑&am…...

BepInEx插件框架:5个构建稳定插件生态系统的核心技术

BepInEx插件框架:5个构建稳定插件生态系统的核心技术 【免费下载链接】BepInEx Unity / XNA game patcher and plugin framework 项目地址: https://gitcode.com/GitHub_Trending/be/BepInEx BepInEx是Unity Mono、IL2CPP和.NET框架游戏的强大插件和模组框架…...

Flink CDC 与 Doris 的实时数据集成实战 —— 如何优化整库同步与维表关联性能

1. Flink CDC 与 Doris 实时数据集成核心价值 当企业需要处理海量实时数据时,传统ETL工具往往面临延迟高、资源消耗大等痛点。Flink CDC与Doris的组合恰好能解决这些问题,形成一套完整的实时数据集成方案。我在多个金融和电商项目中实测发现,…...

雀魂AI助手Akagi:3步安装,7天提升段位的终极指南

雀魂AI助手Akagi:3步安装,7天提升段位的终极指南 【免费下载链接】Akagi 支持雀魂、天鳳、麻雀一番街、天月麻將,能夠使用自定義的AI模型實時分析對局並給出建議,內建Mortal AI作為示例。 Supports Majsoul, Tenhou, Riichi City,…...

ShawzinBot完整教程:5分钟实现Warframe自动音乐演奏

ShawzinBot完整教程:5分钟实现Warframe自动音乐演奏 【免费下载链接】ShawzinBot Convert a MIDI input to a series of key presses for the Shawzin 项目地址: https://gitcode.com/gh_mirrors/sh/ShawzinBot 想在Warframe中轻松演奏专业音乐吗&#xff1f…...