当前位置：首页 > article >正文

我用 AI 辅助开发了一系列小工具（）：文件提取工具对

article 2026/4/13 11:22:39

从0构建WAV文件读懂计算机文件的本质虽然接触计算机有一段时间了但是我的视野一直局限于一个较小的范围之内往往只能看到于算法竞赛相关的内容计算机各种文件在我看来十分复杂认为构建他们并能达到目的是一件困难的事情然而近期我观看了油管上Magicalbat大神的视频发现其实它们的本质都惊人地简单所有计算机文件都是按特定规则组织的二进制数据是人为规定好格式再由计算机解析对于我们来说只要根据规定格式进行编辑就能够成功构建。今天我们就从最朴素的方式入手通过手动构建一个WAV音频文件拆解WAV格式的底层逻辑同时理解一个核心认知只要掌握了文件的格式规范任何类型的文件都能像搭积木一样一行行代码“拼”出来。先认识WAVWAV文件的格式WAV是微软开发的无损音频格式相比于压缩后的MP3它的结构更直白没有复杂的编码压缩因此我们能够通过C文件写入的方式直接完成wav文件的构建wav文件的核心由三个关键的“数据块(Chunk)”组成RIFF块文件的“身份卡”告诉计算机“我是一个WAV文件”fmt块音频的“参数说明”记录采样率、声道数、位深等核心参数data块真正的音频数据存储着声音的数字信号。而每个块的内容又如下图所示RIFF:字段名字节数数据类型固定值/计算规则ChunkID 4 ASCII字符固定为RIFF无终止符严格4字节ChunkSize 4 32位无符号整数取值整个WAV文件大小 - 8字节减去ChunkID和ChunkSize自身的8字节Format 4 ASCII字符固定为WAVE无终止符严格4字节fmt:字段名字节数数据类型固定值/计算规则ChunkID 4 ASCII字符固定为fmt 末尾空格无终止符ChunkSize 4 32位无符号整数 PCM编码最常用下固定为16代表后续字段的总字节数不含ChunkID和ChunkSizeAudioFormat代码中Tag 2 16位无符号整数编码格式1PCM无压缩通用3IEEE浮点6μ律7A律等NumChannels代码中Chnnels拼写笔误 2 16位无符号整数声道数1单声道2立体声2多声道SampleRate 4 32位无符号整数采样率每秒采样次数常见44100HzCD音质、48000Hz、22050Hz等ByteRate 4 32位无符号整数每秒音频数据字节数 SampleRate × NumChannels × BitsPerSample / 8BlockAlign代码中BloclAlign拼写笔误 2 16位无符号整数每个“采样帧”的字节数 NumChannels × BitsPerSample / 8播放器一次读取的最小单位BitsPerSample代码中BitsperSample 2 16位无符号整数采样位深每个采样点的比特数8/16/24/3216位最常用data:字段名字节数数据类型固定值/计算规则ChunkID代码中DataId 4 ASCII字符固定为data无终止符严格4字节DataSize 4 32位无符号整数音频数据总字节数采样总数 × BlockAlign采样总数 SampleRate × 音频时长音频数据区可变二进制流 PCM编码下为线性整数/浮点数16位位深对应int16_t8位对应uint8_t32位浮点对应float我们接下来的代码就是严格按照这个模板把每个部分的二进制数据“写”进文件里。从零构建WAV一行代码拆解核心逻辑下面是完整的C代码新手也能看懂我们逐段拆解看如何从0生成一个能播放的440Hz正弦波WAV文件#includeusing namespace std;// 类型别名让代码更易读明确数据的字节长度#define u32 uint32_t // 32位无符号整数4字节#define u16 uint16_t // 16位无符号整数2字节#define f32 float // 32位浮点数4字节#define i16 int16_t // 16位有符号整数2字节#define HZ 44100 // 采样率每秒采集44100个声音样本标准音频采样率#define DURATION 5 // 音频时长5秒// 1. 定义WAV的三个核心数据块结构对应格式规范// RIFF块文件整体标识struct chunk1{char ChunkID[4]; // 块标识固定为RIFFu32 ChunkSize; // 从该字段到文件末尾的字节数总字节数-8char Format[4]; // 格式类型固定为WAVE}RIFF;// fmt块音频参数配置struct chunk2{char ChunkID[4]; // 块标识固定为fmt 注意末尾有空格u16 Tag; // 编码格式1代表PCM无压缩u32 ChunkSize; // fmt块的大小PCM格式固定为16u16 Chnnels; // 声道数1单声道2立体声u32 SampleRate; // 采样率u32 ByteRate; // 每秒数据量采样率×声道数×位深/8u16 BloclAlign; // 每个采样的总字节数声道数×位深/8u16 BitsperSample; // 每个采样的位深16位常见}Fmt;// data块音频数据存储区struct chunk3{char DataId[4]; // 块标识固定为datau32 DataSize; // 音频数据的总字节数}Data;signed main(int argc,char* argv[]){// 打开文件wb表示以二进制模式写入关键文件本质是二进制FILE *fp fopen(test.wav,wb);// 计算总采样数采样率×时长5秒×44100220500个样本u32 NumSamples HZ * DURATION;// 2. 填充RIFF块并写入文件memcpy(RIFF.ChunkID,RIFF,4); // 写入块标识RIFF.ChunkSize NumSamples*sizeof(u16)36; // 计算块大小memcpy(RIFF.Format,WAVE,4); // 声明为WAVE格式fwrite(RIFF.ChunkID,sizeof(char),4,fp); // 写入4个字符的ChunkIDfwrite(RIFF.ChunkSize,sizeof(u32),1,fp); // 写入4字节的ChunkSizefwrite(RIFF.Format,sizeof(char),4,fp); // 写入4个字符的Format// 3. 填充fmt块并写入文件memcpy(Fmt.ChunkID,fmt ,4);Fmt.ChunkSize 16; // PCM格式下fmt块固定16字节Fmt.Tag 1; // PCM无压缩编码Fmt.Chnnels 1; // 单声道Fmt.SampleRate HZ; // 44100Hz采样率Fmt.ByteRate HZ*sizeof(u16); // 每秒字节数44100×288200Fmt.BloclAlign Fmt.Chnnels * sizeof(u16); // 每个采样2字节Fmt.BitsperSample 16; // 16位位深// 按顺序写入fmt块的所有参数严格遵循格式规范fwrite(Fmt.ChunkID,sizeof(char),4,fp);fwrite(Fmt.ChunkSize,sizeof(u32),1,fp);fwrite(Fmt.Tag,sizeof(u16),1,fp);fwrite(Fmt.Chnnels,sizeof(u16),1,fp);fwrite(Fmt.SampleRate,sizeof(u32),1,fp);fwrite(Fmt.ByteRate,sizeof(u32),1,fp);fwrite(Fmt.BloclAlign,sizeof(u16),1,fp);fwrite(Fmt.BitsperSample,sizeof(u16),1,fp);// 4. 填充data块并写入文件memcpy(Data.DataId,data,4);Data.DataSize NumSamples * sizeof(u16); // 音频数据总字节数fwrite(Data.DataId,sizeof(char),4,fp);fwrite(Data.DataSize,sizeof(u32),1,fp);// 5. 生成音频数据并写入440Hz正弦波标准A调for(int i0;if32 t (f32)i/HZ; // 计算当前时间点秒// 生成440Hz正弦波的数值声音的本质是振动正弦波模拟声波f32 y sinf(t*440.0f*2.0f*3.1415926f);// 转换为16位整数适配16位位深的音频i16 sample (i16)(y*INT16_MAX);// 写入单个音频样本2字节fwrite(sample,sizeof(i16),1,fp);}fclose(fp); // 关闭文件return 0;}所有文件都是“按规则写二进制”的产物写完这段代码你可能会发现生成WAV文件的过程就是“按格式规范往文件里写二进制数据”的过程。而这个逻辑适用于所有计算机文件TXT文档本质是字符的ASCII/UTF-8编码比如字符A对应二进制01000001我们按顺序写入这些编码就成了TXT文件BMP图片由文件头记录宽、高、位深像素数据每个像素的RGB值组成按BMP格式写这些数据就能生成图片MP4视频哪怕是压缩过的视频也是按MP4的格式规范把编码后的视频帧、音频帧组织成二进制数据EXE可执行文件遵循PE格式把指令、数据、资源按规则写入操作系统就能识别并运行。计算机之所以能“看懂”不同的文件不是因为文件有“魔法”而是因为程序员提前约定了“格式规范”——就像我们约定“RIFF”开头的是WAV文件播放器读到这个标识就按WAV的规则解析后续数据。计算机的本质是“朴素的规则”对刚接触计算机的人来说各种文件、软件、系统看似复杂但拆解到最底层都是“数据规则”的组合只要我们对着格式手册即便使用最朴素的方式也能够成功构建出可以使用的音频文件。计算机的世界没有想象中那般复杂计算机只在乎那最终排好队的 0 和 1。进一步思考从文件到软件了解了各类文件本质我们自然能理解计算机中各个编辑软件的原理是什么了就比如今天举的wav的例子如果我们将示例程序改进一下加入输入那么这是否就成了一个简单的音频编辑软件了呢所有的复杂软件如 Photoshop、Premiere底层逻辑都是如此读取特定规则的二进制 - 在内存中加工处理 - 按规则写回二进制。当你不再把文件看作“黑盒”你便拥有了重塑数字世界的能力。仝陡刭业

我用 AI 辅助开发了一系列小工具（）：文件提取工具对

相关文章：

我用 AI 辅助开发了一系列小工具（）：文件提取工具对

HunyuanVideo-Foley入门必看：音频质量客观指标（PESQ/STOI）实测报告

基于STM32与Qwen3-ASR-0.6B的嵌入式语音控制系统

3步掌握sndcpy：Android音频无线转发终极指南

从混乱到秩序：FancyZones如何重塑你的Windows多任务工作流

YOLOE开放检测实战案例：YOLOE-v8l-seg在文化遗产数字化保护中的应用

文脉定序实战教程：如何将BGE-Reranker-v2-m3集成进现有ES/Meilisearch检索链

Qwen-Image-2512-Pixel-Art-LoRA 模型v1.0 版本管理：使用GitHub进行提示词工程与生成作品的协作

C# WinForms 多摄像头分屏显示的完整工业级实现

目前在工业 C# 上位机中使用最广泛的 YOLOv8 实时检测代码模板

C# 上位机开发与工控通讯实战的完整、务实、极简版拆解（基于 8 年真实产线经验）

【macOS】精选效率神器！大幅提升办公速度的宝藏软件

Sabaki围棋软件终极指南：免费优雅的围棋对弈与棋谱编辑器

CoPaw模型安全与伦理考量：内容过滤、偏见缓解与滥用防范配置指南

区块链开发最佳实践

Audiveris终极指南：如何用开源工具快速实现乐谱数字化转换

GLM-4.1V-9B-Base企业应用：制造业设备图谱识别与故障图文分析案例

5分钟开启音乐数字化之旅：Audiveris让纸质乐谱瞬间变数字宝藏

Python Web开发入门（二十一）：完整前后端项目实战——从零构建企业级电商系统

3大实战场景：dnSpyEx .NET逆向调试与编辑的完整指南

Qwen3.5-9B-AWQ-4bit网络协议分析小助手：图解HTTP请求与TCP连接过程

电商卖家注意了！萤火AI实测：从抠图到带货视频，一个人搞定整个团队的工作

精通猫抓扩展：7个高级配置与流媒体解析实战技巧

OpCore Simplify终极指南：5分钟搞定Hackintosh EFI配置，小白也能轻松上手

基于深度学习CNN的智慧电力电缆状态巡检电力线路覆冰状态电力线路覆冰检测数据集电力巡检系统实现覆冰风险自动识别第10413期 (1)

AI 日报 - 2026年4月13日

017、归一化层改进策略：从训练震荡到推理加速的实战调优

从PTPX报告反推：低频芯片Clock Tree功耗优化的3个关键决策点（含实验数据对比）

【NX二次开发】字符串操作-截取文件名

RabbitMQ系列02 - RabbitMQ 消息模型：Broker、交换器、队列与收发路径