当前位置: 首页 > article >正文

我用 AI 辅助开发了一系列小工具():文件提取工具账

从0构建WAV文件读懂计算机文件的本质虽然接触计算机有一段时间了但是我的视野一直局限于一个较小的范围之内往往只能看到于算法竞赛相关的内容计算机各种文件在我看来十分复杂认为构建他们并能达到目的是一件困难的事情然而近期我观看了油管上Magicalbat大神的视频发现其实它们的本质都惊人地简单所有计算机文件都是按特定规则组织的二进制数据是人为规定好格式再由计算机解析对于我们来说只要根据规定格式进行编辑就能够成功构建。今天我们就从最朴素的方式入手通过手动构建一个WAV音频文件拆解WAV格式的底层逻辑同时理解一个核心认知只要掌握了文件的格式规范任何类型的文件都能像搭积木一样一行行代码“拼”出来。先认识WAVWAV文件的格式WAV是微软开发的无损音频格式相比于压缩后的MP3它的结构更直白没有复杂的编码压缩因此我们能够通过C文件写入的方式直接完成wav文件的构建wav文件的核心由三个关键的“数据块(Chunk)”组成RIFF块文件的“身份卡”告诉计算机“我是一个WAV文件”fmt块音频的“参数说明”记录采样率、声道数、位深等核心参数data块真正的音频数据存储着声音的数字信号。而每个块的内容又如下图所示RIFF:字段名 字节数 数据类型 固定值/计算规则ChunkID 4 ASCII字符 固定为RIFF无终止符严格4字节ChunkSize 4 32位无符号整数 取值 整个WAV文件大小 - 8字节减去ChunkID和ChunkSize自身的8字节Format 4 ASCII字符 固定为WAVE无终止符严格4字节fmt:字段名 字节数 数据类型 固定值/计算规则ChunkID 4 ASCII字符 固定为fmt 末尾空格无终止符ChunkSize 4 32位无符号整数 PCM编码最常用下固定为16代表后续字段的总字节数不含ChunkID和ChunkSizeAudioFormat代码中Tag 2 16位无符号整数 编码格式1PCM无压缩通用3IEEE浮点6μ律7A律等NumChannels代码中Chnnels拼写笔误 2 16位无符号整数 声道数1单声道2立体声2多声道SampleRate 4 32位无符号整数 采样率每秒采样次数常见44100HzCD音质、48000Hz、22050Hz等ByteRate 4 32位无符号整数 每秒音频数据字节数 SampleRate × NumChannels × BitsPerSample / 8BlockAlign代码中BloclAlign拼写笔误 2 16位无符号整数 每个“采样帧”的字节数 NumChannels × BitsPerSample / 8播放器一次读取的最小单位BitsPerSample代码中BitsperSample 2 16位无符号整数 采样位深每个采样点的比特数8/16/24/3216位最常用data:字段名 字节数 数据类型 固定值/计算规则ChunkID代码中DataId 4 ASCII字符 固定为data无终止符严格4字节DataSize 4 32位无符号整数 音频数据总字节数 采样总数 × BlockAlign采样总数 SampleRate × 音频时长音频数据区 可变 二进制流 PCM编码下为线性整数/浮点数16位位深对应int16_t8位对应uint8_t32位浮点对应float我们接下来的代码就是严格按照这个模板把每个部分的二进制数据“写”进文件里。从零构建WAV一行代码拆解核心逻辑下面是完整的C代码新手也能看懂我们逐段拆解看如何从0生成一个能播放的440Hz正弦波WAV文件#includeusing namespace std;// 类型别名让代码更易读明确数据的字节长度#define u32 uint32_t // 32位无符号整数4字节#define u16 uint16_t // 16位无符号整数2字节#define f32 float // 32位浮点数4字节#define i16 int16_t // 16位有符号整数2字节#define HZ 44100 // 采样率每秒采集44100个声音样本标准音频采样率#define DURATION 5 // 音频时长5秒// 1. 定义WAV的三个核心数据块结构对应格式规范// RIFF块文件整体标识struct chunk1{char ChunkID[4]; // 块标识固定为RIFFu32 ChunkSize; // 从该字段到文件末尾的字节数总字节数-8char Format[4]; // 格式类型固定为WAVE}RIFF;// fmt块音频参数配置struct chunk2{char ChunkID[4]; // 块标识固定为fmt 注意末尾有空格u16 Tag; // 编码格式1代表PCM无压缩u32 ChunkSize; // fmt块的大小PCM格式固定为16u16 Chnnels; // 声道数1单声道2立体声u32 SampleRate; // 采样率u32 ByteRate; // 每秒数据量 采样率×声道数×位深/8u16 BloclAlign; // 每个采样的总字节数 声道数×位深/8u16 BitsperSample; // 每个采样的位深16位常见}Fmt;// data块音频数据存储区struct chunk3{char DataId[4]; // 块标识固定为datau32 DataSize; // 音频数据的总字节数}Data;signed main(int argc,char* argv[]){// 打开文件wb表示以二进制模式写入关键文件本质是二进制FILE *fp fopen(test.wav,wb);// 计算总采样数采样率×时长5秒×44100220500个样本u32 NumSamples HZ * DURATION;// 2. 填充RIFF块并写入文件memcpy(RIFF.ChunkID,RIFF,4); // 写入块标识RIFF.ChunkSize NumSamples*sizeof(u16)36; // 计算块大小memcpy(RIFF.Format,WAVE,4); // 声明为WAVE格式fwrite(RIFF.ChunkID,sizeof(char),4,fp); // 写入4个字符的ChunkIDfwrite(RIFF.ChunkSize,sizeof(u32),1,fp); // 写入4字节的ChunkSizefwrite(RIFF.Format,sizeof(char),4,fp); // 写入4个字符的Format// 3. 填充fmt块并写入文件memcpy(Fmt.ChunkID,fmt ,4);Fmt.ChunkSize 16; // PCM格式下fmt块固定16字节Fmt.Tag 1; // PCM无压缩编码Fmt.Chnnels 1; // 单声道Fmt.SampleRate HZ; // 44100Hz采样率Fmt.ByteRate HZ*sizeof(u16); // 每秒字节数44100×288200Fmt.BloclAlign Fmt.Chnnels * sizeof(u16); // 每个采样2字节Fmt.BitsperSample 16; // 16位位深// 按顺序写入fmt块的所有参数严格遵循格式规范fwrite(Fmt.ChunkID,sizeof(char),4,fp);fwrite(Fmt.ChunkSize,sizeof(u32),1,fp);fwrite(Fmt.Tag,sizeof(u16),1,fp);fwrite(Fmt.Chnnels,sizeof(u16),1,fp);fwrite(Fmt.SampleRate,sizeof(u32),1,fp);fwrite(Fmt.ByteRate,sizeof(u32),1,fp);fwrite(Fmt.BloclAlign,sizeof(u16),1,fp);fwrite(Fmt.BitsperSample,sizeof(u16),1,fp);// 4. 填充data块并写入文件memcpy(Data.DataId,data,4);Data.DataSize NumSamples * sizeof(u16); // 音频数据总字节数fwrite(Data.DataId,sizeof(char),4,fp);fwrite(Data.DataSize,sizeof(u32),1,fp);// 5. 生成音频数据并写入440Hz正弦波标准A调for(int i0;if32 t (f32)i/HZ; // 计算当前时间点秒// 生成440Hz正弦波的数值声音的本质是振动正弦波模拟声波f32 y sinf(t*440.0f*2.0f*3.1415926f);// 转换为16位整数适配16位位深的音频i16 sample (i16)(y*INT16_MAX);// 写入单个音频样本2字节fwrite(sample,sizeof(i16),1,fp);}fclose(fp); // 关闭文件return 0;}所有文件都是“按规则写二进制”的产物写完这段代码你可能会发现生成WAV文件的过程就是“按格式规范往文件里写二进制数据”的过程。而这个逻辑适用于所有计算机文件TXT文档本质是字符的ASCII/UTF-8编码比如字符A对应二进制01000001我们按顺序写入这些编码就成了TXT文件BMP图片由文件头记录宽、高、位深 像素数据每个像素的RGB值组成按BMP格式写这些数据就能生成图片MP4视频哪怕是压缩过的视频也是按MP4的格式规范把编码后的视频帧、音频帧组织成二进制数据EXE可执行文件遵循PE格式把指令、数据、资源按规则写入操作系统就能识别并运行。计算机之所以能“看懂”不同的文件不是因为文件有“魔法”而是因为程序员提前约定了“格式规范”——就像我们约定“RIFF”开头的是WAV文件播放器读到这个标识就按WAV的规则解析后续数据。计算机的本质是“朴素的规则”对刚接触计算机的人来说各种文件、软件、系统看似复杂但拆解到最底层都是“数据规则”的组合只要我们对着格式手册即便使用最朴素的方式也能够成功构建出可以使用的音频文件。计算机的世界没有想象中那般复杂计算机只在乎那最终排好队的 0 和 1。进一步思考从文件到软件了解了各类文件本质我们自然能理解计算机中各个编辑软件的原理是什么了就比如今天举的wav的例子如果我们将示例程序改进一下加入输入那么这是否就成了一个简单的音频编辑软件了呢所有的复杂软件如 Photoshop、Premiere底层逻辑都是如此读取特定规则的二进制 - 在内存中加工处理 - 按规则写回二进制。当你不再把文件看作“黑盒”你便拥有了重塑数字世界的能力。纪姨畏粱

相关文章:

我用 AI 辅助开发了一系列小工具():文件提取工具账

从0构建WAV文件:读懂计算机文件的本质 虽然接触计算机有一段时间了,但是我的视野一直局限于一个较小的范围之内,往往只能看到于算法竞赛相关的内容,计算机各种文件在我看来十分复杂,认为构建他们并能达到目的是一件困难…...

代码之外周刊(第期):当技术让一切趋同,我们还剩什么?儇

1. 前言 本文详细介绍如何使用 kylin v10 iso 文件构建出 docker image,docker 版本为 20.10.7。 2. 构建 yum 离线源 2.1. 挂载 ISO 文件 mount Kylin-Server-V10-GFB-Release-030-ARM64.iso /media 2.2. 添加离线 repo 文件 在/etc/yum.repos.d/下创建kylin…...

幻影峡谷工控机实战:FLIR BFS-PGE-16S2C-CS相机ROS驱动配置手记

幻影峡谷工控机实战:FLIR BFS-PGE-16S2C-CS相机ROS驱动配置全解析 在工业视觉系统中,FLIR灰点相机凭借其卓越的热成像和高速采集能力,成为智能制造、自动化检测等场景的核心传感器。而幻影峡谷工控机以其紧凑的机身和强大的计算性能&#xff…...

FPGA实战:基于Verilog的BCD码动态扫描显示系统设计

1. 从零理解BCD码动态扫描显示系统 第一次接触FPGA数码管显示时,我完全被"动态扫描"这个概念搞懵了。为什么不能直接连接所有数码管?直到亲眼看到静态驱动方式下FPGA的IO口被占满,才明白多路复用技术的价值所在。想象一下交通信号灯…...

Trea实战:零代码改造,借助CMake与vcpkg无缝集成glog日志库

1. 为什么你需要零代码集成glog日志库 作为一个C开发者,你一定遇到过这样的场景:项目进行到一半,突然发现需要添加完善的日志功能。这时候你面临两个选择:要么自己从头实现一套日志系统,要么集成现有的成熟日志库。前者…...

别再只会ping了!用Wireshark亲手抓个包,看看你的网络请求到底说了啥

从零开始用Wireshark解剖网络数据包:一次真实的网络侦探之旅 每次点击网页或发送消息时,你的设备都在与远方服务器进行着复杂的对话。这些对话被封装成数据包,像信件一样在网络中传递。但你是否好奇过,这些"信件"里究竟…...

Java开发中Lombok插件失效的常见问题与解决方案

1. 为什么你的Lombok突然罢工了? 最近在升级IDEA后,突然发现项目里到处都是"找不到符号"的错误提示,特别是那些用了Slf4j注解的地方,log变量全都报红。这种情况我遇到过不止一次,每次都能让开发效率直接归零…...

HDMI/DP/TypeC接口检测的硬件实现与设计考量

1. HDMI接口检测的硬件实现与设计要点 HDMI作为最普及的数字视频接口,其检测电路设计直接影响设备兼容性。实际工程中常见两种检测方案:5V电源检测和DDC地线检测。我经手过的显示器项目中,90%的兼容性问题都源于检测电路设计不当。 先说5V检测…...

八大网盘直链获取工具:告别限速,拥抱高速下载体验

八大网盘直链获取工具:告别限速,拥抱高速下载体验 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘…...

Langchain实战:如何用ChatGLM-4搭建你的第一个AI对话机器人(附完整代码)

Langchain实战:如何用ChatGLM-4搭建你的第一个AI对话机器人(附完整代码) 最近两年,大模型技术以惊人的速度渗透到各个领域。从智能客服到内容创作,从代码生成到数据分析,AI对话机器人正在重塑人机交互的方式…...

终极指南:如何安全迁移艾尔登法环游戏存档

终极指南:如何安全迁移艾尔登法环游戏存档 【免费下载链接】EldenRingSaveCopier 项目地址: https://gitcode.com/gh_mirrors/el/EldenRingSaveCopier 你是否曾经因为更换电脑或重装系统而担心丢失《艾尔登法环》数十小时的游戏进度?手动复制存档…...

UDOP-largeGPU利用率提升:懒加载+推理缓存降低峰值显存占用

UDOP-large GPU利用率提升:懒加载推理缓存降低峰值显存占用 1. 引言:当大模型遇上显存瓶颈 如果你部署过大型AI模型,大概率遇到过这个头疼的问题:模型加载时,显存瞬间被占满,GPU利用率却低得可怜。这就像…...

COCO数据集常见问题解答:下载慢?解压失败?目录结构不对?

COCO数据集实战避坑指南:从下载到配置的全流程解决方案 当你第一次接触COCO数据集时,可能会被它庞大的规模和复杂的目录结构吓到。作为计算机视觉领域最常用的基准数据集之一,COCO确实为模型训练和评估提供了丰富的资源,但在实际使…...

分析管理化技术数据挖掘与预测分析

数据驱动决策:管理技术中的挖掘与预测 在数字化时代,企业每天生成海量数据,如何从中提取价值成为关键。分析管理化技术通过数据挖掘与预测分析,帮助组织优化运营、降低成本并提升竞争力。数据挖掘从历史数据中发现模式&#xff0…...

基于File-Based App开发MVP项目托

Issue 概述 先来看看提交这个 Issue 的作者是为什么想到这个点子的,以及他初步的核心设计概念。?? 本 PR 实现了 Apache Gravitino 与 SeaTunnel 的集成,将其作为非关系型连接器的外部元数据服务。通过 Gravitino 的 REST API 自动获取表结构和元数据&…...

【QML】自定义模块的创建与单例模式实践指南

1. 为什么需要自定义QML模块? 在QtQuick应用开发中,随着项目规模扩大,把所有QML文件堆在一起会变得难以维护。想象一下你家的工具箱——如果所有工具都散落在抽屉里,找起来肯定费劲。而自定义模块就像给工具分门别类:螺…...

当JetBrains IDE试用期突然到期,你该怎么办?

当JetBrains IDE试用期突然到期,你该怎么办? 【免费下载链接】ide-eval-resetter 项目地址: https://gitcode.com/gh_mirrors/id/ide-eval-resetter 深夜两点,你正专注地调试一个棘手的bug,手指在键盘上飞舞,代…...

dspic33硬件设计避坑指南:IO口上下拉与开漏配置的5个常见错误

dsPIC33硬件设计避坑指南:IO口上下拉与开漏配置的5个常见错误 在嵌入式硬件设计中,dsPIC33系列微控制器因其高性能和丰富的外设资源而广受欢迎。然而,即使是经验丰富的硬件工程师,在PCB设计阶段也常常会在IO口的上下拉电阻和开漏输…...

AWS WAF 自定义扫描器 User-Agent 拦截规则:从设计到踩坑的完整实践

通过自定义 Regex Pattern Set 拦截已知扫描器工具的 User-Agent,减少恶意扫描流量。本文记录完整的规则设计、部署、误拦截排查与修复过程,含生产事故复盘。 目录 背景与目标 方案设计 规则创建与部署 效果验证 跨 WebACL 部署与生产事故 事故复盘与修复...

Xilinx DSP48 Macro流水线深度怎么调?一个配置项让你的设计频率翻倍

Xilinx DSP48 Macro流水线深度优化实战:突破性能瓶颈的关键策略 在高速数字信号处理领域,FPGA设计者经常面临一个经典难题——如何在有限的硬件资源下实现更高的运算频率。当我们使用Xilinx DSP48 Macro进行复杂运算时,默认的"Auto"…...

不满意Oh My Zsh启动卡顿,来试试Starship吧坷

pagehelper整合 引入依赖com.github.pagehelperpagehelper-spring-boot-starter2.1.0compile编写代码 GetMapping("/list/{pageNo}") public PageInfo findAll(PathVariable int pageNo) {// 设置当前页码和每页显示的条数PageHelper.startPage(pageNo, 10);// 查询数…...

接口测试——pytest框架续集倚

智能体时代的代码范式转移与 C# 的战略转型 传统的 C# 开发模式,即所谓的“工程导向型”开发,要求开发者创建一个复杂的项目结构,包括项目文件(.csproj)、解决方案文件(.sln)、属性设置以及依赖…...

Jasmine漫画浏览器:跨平台阅读的终极解决方案,打造你的个人漫画图书馆

Jasmine漫画浏览器:跨平台阅读的终极解决方案,打造你的个人漫画图书馆 【免费下载链接】jasmine A comic browser,support Android / iOS / MacOS / Windows / Linux. 项目地址: https://gitcode.com/gh_mirrors/jas/jasmine 你是否经…...

所谓面试造火箭,其实只看这4种能力

文章目录前言一、先搞清楚:面试官到底在焦虑什么?二、第一种能力:把复杂问题剁碎了的本事2.1 什么叫"问题拆解"?2.2 怎么练这个能力?三、第二种能力:承认自己不知道的底气3.1 "不知道"…...

Windows经典游戏兼容性修复完整方案:DDrawCompat让老游戏在现代系统重获新生

Windows经典游戏兼容性修复完整方案:DDrawCompat让老游戏在现代系统重获新生 【免费下载链接】DDrawCompat DirectDraw and Direct3D 1-7 compatibility, performance and visual enhancements for Windows Vista, 7, 8, 10 and 11 项目地址: https://gitcode.com…...

如何快速掌握FanControl:Windows风扇智能控制的终极免费方案

如何快速掌握FanControl:Windows风扇智能控制的终极免费方案 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trend…...

如何用番茄小说下载器构建个人数字图书馆:5步快速入门指南

如何用番茄小说下载器构建个人数字图书馆:5步快速入门指南 【免费下载链接】fanqienovel-downloader 下载番茄小说 项目地址: https://gitcode.com/gh_mirrors/fa/fanqienovel-downloader 在网络小说阅读日益流行的今天,你是否遇到过这样的困扰&a…...

基于Docker的NextCloud与OnlyOffice无缝集成方案

1. 为什么需要NextCloud与OnlyOffice集成 如果你正在寻找一套私有化的协同办公解决方案,NextCloudOnlyOffice的组合绝对值得考虑。NextCloud作为开源的云存储平台,提供了文件管理、日历、联系人等基础功能,而OnlyOffice则是功能强大的在线文档…...

SBTI打不开?手把手教你部署自己的人格测试(附源码链接)

网站打不开?部署自己的SBTI人格测试(附源码链接) 最近在B站刷到了一个很火的SBTI人格测试,觉得挺有意思的。作为一名开发者,我决定自己动手实现一个可以本地部署的版本。本文将带你从零开始,用Flask框架搭…...

Zemax多重结构仿真分光板的光路设计与优化

1. 分光板光路仿真的核心挑战 在光学系统设计中,分光板是实现光束分束的关键元件。传统单一路径仿真无法准确模拟分光板同时产生的透射和反射光路,这正是Zemax多重结构功能大显身手的地方。我曾在激光雷达接收端设计中,就遇到过需要同时分析分…...