当前位置: 首页 > article >正文

我用 AI 辅助开发了一系列小工具():文件提取工具窝

从0构建WAV文件读懂计算机文件的本质虽然接触计算机有一段时间了但是我的视野一直局限于一个较小的范围之内往往只能看到于算法竞赛相关的内容计算机各种文件在我看来十分复杂认为构建他们并能达到目的是一件困难的事情然而近期我观看了油管上Magicalbat大神的视频发现其实它们的本质都惊人地简单所有计算机文件都是按特定规则组织的二进制数据是人为规定好格式再由计算机解析对于我们来说只要根据规定格式进行编辑就能够成功构建。今天我们就从最朴素的方式入手通过手动构建一个WAV音频文件拆解WAV格式的底层逻辑同时理解一个核心认知只要掌握了文件的格式规范任何类型的文件都能像搭积木一样一行行代码“拼”出来。先认识WAVWAV文件的格式WAV是微软开发的无损音频格式相比于压缩后的MP3它的结构更直白没有复杂的编码压缩因此我们能够通过C文件写入的方式直接完成wav文件的构建wav文件的核心由三个关键的“数据块(Chunk)”组成RIFF块文件的“身份卡”告诉计算机“我是一个WAV文件”fmt块音频的“参数说明”记录采样率、声道数、位深等核心参数data块真正的音频数据存储着声音的数字信号。而每个块的内容又如下图所示RIFF:字段名 字节数 数据类型 固定值/计算规则ChunkID 4 ASCII字符 固定为RIFF无终止符严格4字节ChunkSize 4 32位无符号整数 取值 整个WAV文件大小 - 8字节减去ChunkID和ChunkSize自身的8字节Format 4 ASCII字符 固定为WAVE无终止符严格4字节fmt:字段名 字节数 数据类型 固定值/计算规则ChunkID 4 ASCII字符 固定为fmt 末尾空格无终止符ChunkSize 4 32位无符号整数 PCM编码最常用下固定为16代表后续字段的总字节数不含ChunkID和ChunkSizeAudioFormat代码中Tag 2 16位无符号整数 编码格式1PCM无压缩通用3IEEE浮点6μ律7A律等NumChannels代码中Chnnels拼写笔误 2 16位无符号整数 声道数1单声道2立体声2多声道SampleRate 4 32位无符号整数 采样率每秒采样次数常见44100HzCD音质、48000Hz、22050Hz等ByteRate 4 32位无符号整数 每秒音频数据字节数 SampleRate × NumChannels × BitsPerSample / 8BlockAlign代码中BloclAlign拼写笔误 2 16位无符号整数 每个“采样帧”的字节数 NumChannels × BitsPerSample / 8播放器一次读取的最小单位BitsPerSample代码中BitsperSample 2 16位无符号整数 采样位深每个采样点的比特数8/16/24/3216位最常用data:字段名 字节数 数据类型 固定值/计算规则ChunkID代码中DataId 4 ASCII字符 固定为data无终止符严格4字节DataSize 4 32位无符号整数 音频数据总字节数 采样总数 × BlockAlign采样总数 SampleRate × 音频时长音频数据区 可变 二进制流 PCM编码下为线性整数/浮点数16位位深对应int16_t8位对应uint8_t32位浮点对应float我们接下来的代码就是严格按照这个模板把每个部分的二进制数据“写”进文件里。从零构建WAV一行代码拆解核心逻辑下面是完整的C代码新手也能看懂我们逐段拆解看如何从0生成一个能播放的440Hz正弦波WAV文件#includeusing namespace std;// 类型别名让代码更易读明确数据的字节长度#define u32 uint32_t // 32位无符号整数4字节#define u16 uint16_t // 16位无符号整数2字节#define f32 float // 32位浮点数4字节#define i16 int16_t // 16位有符号整数2字节#define HZ 44100 // 采样率每秒采集44100个声音样本标准音频采样率#define DURATION 5 // 音频时长5秒// 1. 定义WAV的三个核心数据块结构对应格式规范// RIFF块文件整体标识struct chunk1{char ChunkID[4]; // 块标识固定为RIFFu32 ChunkSize; // 从该字段到文件末尾的字节数总字节数-8char Format[4]; // 格式类型固定为WAVE}RIFF;// fmt块音频参数配置struct chunk2{char ChunkID[4]; // 块标识固定为fmt 注意末尾有空格u16 Tag; // 编码格式1代表PCM无压缩u32 ChunkSize; // fmt块的大小PCM格式固定为16u16 Chnnels; // 声道数1单声道2立体声u32 SampleRate; // 采样率u32 ByteRate; // 每秒数据量 采样率×声道数×位深/8u16 BloclAlign; // 每个采样的总字节数 声道数×位深/8u16 BitsperSample; // 每个采样的位深16位常见}Fmt;// data块音频数据存储区struct chunk3{char DataId[4]; // 块标识固定为datau32 DataSize; // 音频数据的总字节数}Data;signed main(int argc,char* argv[]){// 打开文件wb表示以二进制模式写入关键文件本质是二进制FILE *fp fopen(test.wav,wb);// 计算总采样数采样率×时长5秒×44100220500个样本u32 NumSamples HZ * DURATION;// 2. 填充RIFF块并写入文件memcpy(RIFF.ChunkID,RIFF,4); // 写入块标识RIFF.ChunkSize NumSamples*sizeof(u16)36; // 计算块大小memcpy(RIFF.Format,WAVE,4); // 声明为WAVE格式fwrite(RIFF.ChunkID,sizeof(char),4,fp); // 写入4个字符的ChunkIDfwrite(RIFF.ChunkSize,sizeof(u32),1,fp); // 写入4字节的ChunkSizefwrite(RIFF.Format,sizeof(char),4,fp); // 写入4个字符的Format// 3. 填充fmt块并写入文件memcpy(Fmt.ChunkID,fmt ,4);Fmt.ChunkSize 16; // PCM格式下fmt块固定16字节Fmt.Tag 1; // PCM无压缩编码Fmt.Chnnels 1; // 单声道Fmt.SampleRate HZ; // 44100Hz采样率Fmt.ByteRate HZ*sizeof(u16); // 每秒字节数44100×288200Fmt.BloclAlign Fmt.Chnnels * sizeof(u16); // 每个采样2字节Fmt.BitsperSample 16; // 16位位深// 按顺序写入fmt块的所有参数严格遵循格式规范fwrite(Fmt.ChunkID,sizeof(char),4,fp);fwrite(Fmt.ChunkSize,sizeof(u32),1,fp);fwrite(Fmt.Tag,sizeof(u16),1,fp);fwrite(Fmt.Chnnels,sizeof(u16),1,fp);fwrite(Fmt.SampleRate,sizeof(u32),1,fp);fwrite(Fmt.ByteRate,sizeof(u32),1,fp);fwrite(Fmt.BloclAlign,sizeof(u16),1,fp);fwrite(Fmt.BitsperSample,sizeof(u16),1,fp);// 4. 填充data块并写入文件memcpy(Data.DataId,data,4);Data.DataSize NumSamples * sizeof(u16); // 音频数据总字节数fwrite(Data.DataId,sizeof(char),4,fp);fwrite(Data.DataSize,sizeof(u32),1,fp);// 5. 生成音频数据并写入440Hz正弦波标准A调for(int i0;if32 t (f32)i/HZ; // 计算当前时间点秒// 生成440Hz正弦波的数值声音的本质是振动正弦波模拟声波f32 y sinf(t*440.0f*2.0f*3.1415926f);// 转换为16位整数适配16位位深的音频i16 sample (i16)(y*INT16_MAX);// 写入单个音频样本2字节fwrite(sample,sizeof(i16),1,fp);}fclose(fp); // 关闭文件return 0;}所有文件都是“按规则写二进制”的产物写完这段代码你可能会发现生成WAV文件的过程就是“按格式规范往文件里写二进制数据”的过程。而这个逻辑适用于所有计算机文件TXT文档本质是字符的ASCII/UTF-8编码比如字符A对应二进制01000001我们按顺序写入这些编码就成了TXT文件BMP图片由文件头记录宽、高、位深 像素数据每个像素的RGB值组成按BMP格式写这些数据就能生成图片MP4视频哪怕是压缩过的视频也是按MP4的格式规范把编码后的视频帧、音频帧组织成二进制数据EXE可执行文件遵循PE格式把指令、数据、资源按规则写入操作系统就能识别并运行。计算机之所以能“看懂”不同的文件不是因为文件有“魔法”而是因为程序员提前约定了“格式规范”——就像我们约定“RIFF”开头的是WAV文件播放器读到这个标识就按WAV的规则解析后续数据。计算机的本质是“朴素的规则”对刚接触计算机的人来说各种文件、软件、系统看似复杂但拆解到最底层都是“数据规则”的组合只要我们对着格式手册即便使用最朴素的方式也能够成功构建出可以使用的音频文件。计算机的世界没有想象中那般复杂计算机只在乎那最终排好队的 0 和 1。进一步思考从文件到软件了解了各类文件本质我们自然能理解计算机中各个编辑软件的原理是什么了就比如今天举的wav的例子如果我们将示例程序改进一下加入输入那么这是否就成了一个简单的音频编辑软件了呢所有的复杂软件如 Photoshop、Premiere底层逻辑都是如此读取特定规则的二进制 - 在内存中加工处理 - 按规则写回二进制。当你不再把文件看作“黑盒”你便拥有了重塑数字世界的能力。腺县墙俑

相关文章:

我用 AI 辅助开发了一系列小工具():文件提取工具窝

从0构建WAV文件:读懂计算机文件的本质 虽然接触计算机有一段时间了,但是我的视野一直局限于一个较小的范围之内,往往只能看到于算法竞赛相关的内容,计算机各种文件在我看来十分复杂,认为构建他们并能达到目的是一件困难…...

代码之外周刊(第期):当技术让一切趋同,我们还剩什么?揽

1. 前言 本文详细介绍如何使用 kylin v10 iso 文件构建出 docker image,docker 版本为 20.10.7。 2. 构建 yum 离线源 2.1. 挂载 ISO 文件 mount Kylin-Server-V10-GFB-Release-030-ARM64.iso /media 2.2. 添加离线 repo 文件 在/etc/yum.repos.d/下创建kylin-local…...

使用 C# 删除 PDF 中的数字签名票

一、 什么是 AI Skills:从工具级到框架级的演化 AI Skills(AI 技能) 的概念最早在 Claude Code 等前沿 Agent 实践中被强化。最初,Skills 被视为“工具级”的增强,如简单的文件读写或终端操作,方便用户快速…...

拆穿名词诈骗!用大白话理解晦涩难懂的AI概念怂

1. 架构背景与演进动力 1.1 从单体到碎片化:.NET 的开源征程 在.NET Framework 时代,构建系统主要围绕 Windows 操作系统紧密集成,采用传统的封闭式开发模式。然而,随着.NET Core 的推出,微软开启了彻底的开源与跨平台…...

【大模型工程化评估黄金标准】:20年AI架构师首次公开7大核心指标与落地避坑指南

第一章:大模型工程化评估指标体系构建指南 2026奇点智能技术大会(https://ml-summit.org) 构建面向生产环境的大模型评估指标体系,需兼顾模型能力、系统性能、业务适配性与合规可持续性四大维度。脱离工程落地场景的纯学术指标(如零样本准确…...

再次革新 .NET 的构建和发布方式(一)氨

本文能帮你解决什么? 1. 搞懂FastAPI异步(async/await)到底在什么场景下能真正提升性能。 2. 掌握在FastAPI中正确使用多线程处理CPU密集型任务的方法。 3. 避开常见的坑(比如阻塞操作、数据库连接池耗尽、GIL限制)。 …...

AI开发-python-langchain框架(--AI 直接生成并执行 Python 代码 )诎

指令替换 项目需求:将加法指令替换为减法 项目目录如下 /MyProject ├── CMakeLists.txt # CMake 配置文件 ├── build/ #构建目录 │ └── test.c #测试编译代码 └── mypass2.cpp # pass 项目代码 一,测试代码示例 test.c // test.c #includ…...

手把手教你用Cartographer在Gazebo中实现室内导航:Ubuntu20.04详细教程

从零构建Gazebo室内导航系统:Cartographer在Ubuntu20.04的实战指南 当我们需要测试机器人导航算法时,直接使用实体机器人不仅成本高昂,还存在安全风险。Gazebo仿真环境配合Cartographer算法,为开发者提供了一个完美的室内导航解决…...

【大模型】Timer模型微调实战:从零到一构建电力负荷预测系统

1. Timer模型与电力负荷预测的完美结合 电力负荷预测是能源管理中的核心问题,准确预测未来用电量对电网调度、发电计划制定至关重要。传统方法如ARIMA、Prophet在处理复杂时序模式时往往力不从心,而大模型时代的到来为这一领域带来了全新解决方案。 Time…...

ESP居然能当 DNS 服务器用?内含NCSI欺骗和DNS劫持实现们

前言 Kubernetes 本身并不复杂,是我们把它搞复杂的。无论是刻意为之还是那种虽然出于好意却将优雅的原语堆砌成 鲁布戈德堡机械 的狂热。平台最初提供的 ReplicaSets、Services、ConfigMaps,这些基础组件简单直接,甚至显得有些枯燥。但后来我…...

Qwen2_5_VLProcessor架构解析:多模态处理器的设计与实现

1. Qwen2_5_VLProcessor架构概览 Qwen2_5_VLProcessor是一个专门设计用于处理多模态数据的处理器,它能够同时处理文本、图像和视频输入。这个处理器的核心思想是将不同类型的数据统一到一个框架下进行处理,使得模型能够更好地理解和生成包含多种模态的内…...

知识图谱-实战演练:从零构建A股投资图谱

1. 为什么需要A股投资知识图谱 在金融投资领域,信息就是财富。但A股市场有4000多家上市公司,每天产生的公告、财报、行业数据等信息量巨大。传统的数据表格和简单查询很难快速发现隐藏在数据背后的关联关系。 举个例子,你想知道: …...

Intv_AI_MK11 Anaconda环境管理大师:虚拟环境与依赖包处理

Intv_AI_MK11 Anaconda环境管理大师:虚拟环境与依赖包处理 1. 为什么你需要掌握Anaconda环境管理 Python开发中最让人头疼的问题之一就是依赖管理。你可能遇到过这样的情况:昨天还能运行的代码,今天突然报错;在A项目里能用的库&…...

次元画室微信小程序开发:打造个人AI画室轻应用

次元画室微信小程序开发:打造个人AI画室轻应用 想随时随地用手机把照片变成动漫风、油画风或者任何你喜欢的艺术风格吗?自己动手开发一个微信小程序,把“次元画室”这样的AI绘画模型装进口袋,听起来是不是很酷?今天&a…...

GLM-4.1V-9B-Base赋能运维:AI智能日志分析与故障预警系统构建

GLM-4.1V-9B-Base赋能运维:AI智能日志分析与故障预警系统构建 1. 运维场景的痛点与机遇 在传统IT运维工作中,工程师们每天需要面对海量的服务器日志和监控数据。这些数据通常以两种形式存在:一种是纯文本格式的日志文件,另一种是…...

ArduFast:面向Arduino的零开销嵌入式框架

1. 项目概述IskakINO_ArduFast 是一款面向嵌入式 Arduino 生态的高性能、轻量级底层框架,专为对实时性、执行效率与内存占用有严苛要求的工业控制、传感器融合、高速信号采集及多任务协调类应用而设计。它并非对标准 Arduino API 的简单封装,而是从编译期…...

深度解析AI Agent的异常处理机制:从容错设计到自动恢复的完整链路

深度解析AI Agent的异常处理机制:从容错设计到自动恢复的完整链路 1. 标题 (Title) 深度解析AI Agent的异常处理机制:从容错设计到自动恢复的完整链路 构建韧性AI系统:AI Agent异常处理与自动恢复实战指南 从崩溃到自愈:AI Agent容错机制的设计哲学与实现路径 AI Agent可靠…...

uniapp结合微信公众号H5静默授权:从本地调试到获取openid的完整实践

1. 理解静默授权与openid的核心逻辑 静默授权是微信公众号开发中获取用户基础信息的常用方式,特别适合不需要用户主动授权的场景。与需要用户点击确认的snsapi_userinfo授权不同,snsapi_base授权可以在用户无感知的情况下完成。这个过程中最关键的产出物…...

AI 时代的程序员:从“建造者”到“定义者”炯

一、前言:什么是 OFA VQA 模型? OFA(One For All)是字节跳动提出的多模态预训练模型,支持视觉问答、图像描述、图像编辑等多种任务,其中视觉问答(VQA)是最常用的功能之一——输入一张…...

ESP32芯片对比

文章目录对比维度ESP32ESP32-C3ESP32-S3ESP32-P4芯片架构Xtensa LX6 双核 32位处理器RISC-V 32位单核处理器Xtensa LX7 双核 32位处理器RISC-V 双核(HP) 单核(LP)大小核架构主频最高 240 MHz最高 160 MHz最高 240 MHzHP核 400 MHz…...

Hashcat在Mac上的完整安装与使用指南:从零开始破解ZIP密码

Hashcat在Mac上的完整安装与使用指南:从零开始破解ZIP密码 如果你曾经遇到过忘记ZIP压缩包密码的尴尬情况,或者对密码恢复技术感兴趣,那么Hashcat绝对是你需要掌握的工具。作为世界上最快的密码恢复工具之一,Hashcat支持多种算法和…...

别再手动复制SSH公钥了,Linux服务器一键从GitHub快速导入公钥伟

一、项目背景与核心价值 1. 解决的核心痛点 Navicat的数据库连接密码并非明文存储,而是通过AES算法加密后写入.ncx格式的XML配置文件中。一旦用户忘记密码,常规方式只能重新配置连接,效率极低。本项目只作为学习研究使用,不做其他…...

Pixel Epic · Wisdom Terminal 开发环境配置大全:PyCharm、IDEA、VS Code无缝集成

Pixel Epic Wisdom Terminal 开发环境配置大全:PyCharm、IDEA、VS Code无缝集成 1. 前言:为什么需要IDE集成? 作为一名开发者,你可能已经习惯了在熟悉的集成开发环境(IDE)中工作。但当你开始接触大模型开发时,往往会…...

音视频质量评估

音视频质量评估:数字时代的视听体验守护者 在数字化时代,音视频内容已成为人们日常生活的重要组成部分,无论是流媒体平台、视频会议,还是在线教育,高质量的视听体验直接影响用户满意度。由于网络环境、编码技术、设备…...

AI原生研发必须通过的第4道门:SITS2026定义的“伦理可审计性”标准(含6类强制留痕字段+审计失败率下降41%实测数据)

第一章:SITS2026专家:AI原生研发的伦理考量 2026奇点智能技术大会(https://ml-summit.org) AI原生研发正从工具增强迈向系统级自主演化,其伦理边界不再仅由人类开发者单向设定,而需在模型训练、推理服务、反馈闭环等全生命周期中…...

为什么92%的AI电商项目止步POC?SITS2026生产级实践告诉你:模型服务化不是加API,而是重构5层数据契约与3类人机协同协议

第一章:SITS2026案例:AI原生电商平台实践 2026奇点智能技术大会(https://ml-summit.org) SITS2026是面向下一代电商基础设施的AI原生平台原型,由阿里云与浙江大学联合实验室在2026奇点智能技术大会上首次发布。该平台摒弃传统“AI”叠加模式…...

【AI原生研发黄金标准】:20年架构师亲授7步构建高鲁棒性机器学习流水线(附Gartner验证的CI/CD-ML双轨模型)

第一章:AI原生研发范式的本质跃迁 2026奇点智能技术大会(https://ml-summit.org) AI原生研发范式并非对传统软件工程的渐进优化,而是一场以模型为中心、数据为燃料、反馈为闭环的认知重构。它将AI能力从“辅助工具”升维为系统架构的默认构件——开发流…...

CefFlashBrowser完整指南:在2025年完美访问Flash内容与游戏存档管理

CefFlashBrowser完整指南:在2025年完美访问Flash内容与游戏存档管理 【免费下载链接】CefFlashBrowser Flash浏览器 / Flash Browser 项目地址: https://gitcode.com/gh_mirrors/ce/CefFlashBrowser 在Flash技术已被主流浏览器淘汰的今天,你是否还…...

MySQL Binlog 文件同步流程解析

MySQL Binlog文件同步流程解析 在分布式系统与数据库高可用架构中,MySQL的Binlog(二进制日志)文件同步是实现数据一致性与实时复制的核心技术。Binlog记录了数据库的所有变更操作,通过解析和传输这些日志,可以实现主从…...

Rust async trait 的底层调度逻辑解析

Rust async trait 的底层调度逻辑解析 Rust 的异步编程模型以其高效和灵活著称,而 async trait 作为异步编程的核心抽象之一,其底层调度逻辑直接影响性能与资源利用率。理解其工作机制不仅能帮助开发者写出更高效的代码,还能避免常见的并发陷…...