当前位置：首页 > article >正文

Qwen3-ASR-0.6B作品分享：航空管制语音→航班号/高度层/应答机编码提取

article 2026/4/5 14:14:56

Qwen3-ASR-0.6B作品分享航空管制语音→航班号/高度层/应答机编码提取你有没有想过那些听起来像“天书”一样的航空管制对话背后藏着多少关键信息飞行员和管制员在无线电里快速交流每一句指令都关乎飞行安全。如果能把这些语音自动转成文字再从中精准提取出航班号、飞行高度、应答机编码这些核心数据那该多酷今天我就带你用Qwen3-ASR-0.6B这个轻量级语音识别模型亲手实现这个听起来很“硬核”的应用。它只有6亿参数但支持52种语言和方言识别又快又准特别适合处理这种专业领域的音频。我们不仅要把语音转成文字还要写个“小助手”从文字里把关键信息“挖”出来。整个过程就像玩一个解谜游戏上传一段真实的航空管制录音看模型怎么把它变成文字然后我们写的代码怎么从文字里找到“宝藏”。准备好了吗我们这就开始。1. 先来认识一下我们的“耳朵”Qwen3-ASR-0.6B在动手之前我们得先了解一下手里的工具。Qwen3-ASR-0.6B这个名字听起来有点长但拆开看就明白了。它到底是什么简单说它是一个专门用来“听声音、认文字”的AI模型。你给它一段音频它就能告诉你这段音频里说了什么。它的核心特点是“轻量级”和“高性能”。轻量级模型只有6亿个参数。在AI模型里这算是非常苗条的身材了。参数少意味着它对电脑硬件的要求不高普通的显卡甚至性能好点的CPU都能跑起来部署起来特别方便。高性能别看它小本事不小。它基于Qwen3-Omni这个强大的基础模型又用上了自研的AuT语音编码器所以在识别准确度和速度上都有不错的表现。官方说它主打多语种、低延迟和高并发意思就是能听很多种语言包括方言反应快还能同时处理很多任务。它能干什么对我们今天的任务来说它最核心的能力就一个语音识别ASR。我们把一段航空管制的对话录音喂给它它就能输出对应的文字稿。这是所有后续信息提取工作的第一步也是最关键的一步。它怎么用开发者已经把它做成了一个开箱即用的服务。有两种方式可以和它交互Web页面WebUI在浏览器里打开一个网页直接上传音频文件或者粘贴音频链接点个按钮就能看到识别结果。这对我们测试和演示特别友好。编程接口API通过发送HTTP请求来调用它的识别功能。这是我们写自动化程序时必须用的方式。服务跑起来后我们通常用http://服务器IP地址:8080来访问它的网页用http://服务器IP地址:8080/api/...来调用它的API。好了工具介绍完毕。它就像一副特别灵敏的“电子耳朵”。接下来我们就要用这副耳朵去聆听天空中的对话。2. 第一步让模型“听懂”天空中的对话我们的第一步是获取一段航空管制录音的文本。这里我准备了一小段模拟的陆空对话文本为了演示我们把它读出来录成音频或者直接用程序生成一段音频文件。假设我们有一个名为atc_audio.wav的音频文件里面录了这样一段对话管制员“国航981雷达看到了上升高度层108应答机2201。”飞行员“上升高度层108应答机2201国航981。”当然真实环境噪音可能更大语速更快还有无线电干扰。但Qwen3-ASR模型在处理清晰人声方面很拿手。2.1 通过Web页面快速测试最直观的方法就是通过它的网页来试试。确保你的Qwen3-ASR服务已经运行起来了访问http://你的服务器IP:8080能看到页面。打开WebUI在浏览器中输入服务地址。上传音频在页面上找到上传区域点击或者直接把atc_audio.wav文件拖进去。选择语言可选虽然模型能自动检测语言但如果我们明确知道是中文可以在下拉框里选择“Chinese”这样识别可能会更精准一点。开始转录点击“开始转录”按钮。稍等片刻页面下方就会显示出识别结果。理想情况下我们应该能看到类似这样的文本国航981雷达看到了上升高度层108应答机2201 上升高度层108应答机2201国航981你会发现模型识别出的文字是连续的没有标点也没有区分说话人。这是很多语音识别模型的默认输出它忠实还原了语音流。这正好我们下一步就要从这段“纯净”的文本里提取信息。2.2 通过API编程调用要在我们的程序里自动化这个过程就必须使用API。我们来写一个简单的Python脚本完成音频上传和识别。首先确保你的电脑上安装了requests库如果没有用pip install requests安装。import requests import json # 配置你的Qwen3-ASR服务地址 ASR_SERVER_URL http://你的服务器IP:8080 def transcribe_audio(file_path, languageNone): 调用API上传音频文件进行转录 :param file_path: 本地音频文件路径 :param language: 可选指定语言如 Chinese :return: 识别出的文本 api_url f{ASR_SERVER_URL}/api/transcribe # 准备请求数据 files {audio_file: open(file_path, rb)} data {} if language: data[language] language try: # 发送POST请求 response requests.post(api_url, filesfiles, datadata) response.raise_for_status() # 检查请求是否成功 # 解析返回的JSON result response.json() transcribed_text result.get(text, ).strip() print(语音识别成功) print(f识别结果{transcribed_text}) return transcribed_text except requests.exceptions.RequestException as e: print(fAPI请求失败{e}) if hasattr(e, response) and e.response is not None: print(f错误详情{e.response.text}) return None except json.JSONDecodeError as e: print(f解析响应JSON失败{e}) return None finally: files[audio_file].close() # 使用函数 if __name__ __main__: audio_file atc_audio.wav # 替换为你的音频文件路径 text_result transcribe_audio(audio_file, languageChinese) if text_result: # 保存识别结果供下一步使用 with open(transcribed_text.txt, w, encodingutf-8) as f: f.write(text_result) print(识别文本已保存到 transcribed_text.txt)运行这个脚本如果一切顺利你会在控制台看到识别出的文本并且文本会被保存到一个transcribed_text.txt文件里。这一步成功后我们就有了原材料——从语音转换而来的文字。3. 第二步编写我们的“信息挖掘机”现在我们手里有了一段文本“国航981雷达看到了上升高度层108应答机2201 上升高度层108应答机2201国航981”。接下来要做的就是编写规则从这段文本里提取出三个关键信息航班号 (Flight Number)例如 “国航981”高度层 (Altitude Level)例如 “108”通常表示飞行高度10800英尺应答机编码 (Transponder Code)例如 “2201”航空管制通信有比较固定的用语习惯这给我们编写提取规则提供了便利。我们主要使用正则表达式这个强大的文本匹配工具。3.1 提取航班号航班号的格式通常是“航空公司呼号数字编号”。在中文管制中常常直接使用航空公司简称数字。import re def extract_flight_number(text): 从文本中提取航班号。常见模式航空公司代码中英文后接数字如国航981, CCA1301 # 匹配中文航空公司呼号数字 (例如国航981南航3102) pattern_chinese r([\u4e00-\u9fa5]{1,4}航?\s?\d{2,4}) # 匹配英文/数字航班号 (例如CCA981, DL123, 1290) pattern_icao r\b([A-Z]{2,3}\d{1,4}|\d{1,4}[A-Z]?)\b matches [] # 先尝试匹配中文模式 for match in re.finditer(pattern_chinese, text): matches.append(match.group(1).replace( , )) # 去除可能空格 # 如果没找到中文模式尝试ICAO/IATA模式 if not matches: for match in re.finditer(pattern_icao, text): candidate match.group(1) # 简单过滤掉纯数字的高度或应答机编码长度和上下文判断较粗糙可优化 if not (candidate.isdigit() and (len(candidate) 4 or len(candidate) 3)): # 更精确的过滤可以在后续结合上下文进行 matches.append(candidate) # 返回找到的第一个或者去重后的列表 return list(set(matches)) if matches else []3.2 提取高度层高度层信息通常包含“高度”、“高度层”、“FL”、“Flight Level”等关键词后面跟着数字。def extract_altitude(text): 从文本中提取高度层信息。常见模式高度层数字或 FL 数字或直接数字高度 # 匹配中文模式上升/下降/保持/高度层数字 pattern r(?:上升|下降|保持|高度层|高度|FL)\s*(\d{2,3}) matches [] for match in re.finditer(pattern, text, re.IGNORECASE): altitude_num match.group(1) # 可以在这里将数字转换为标准格式例如补零成三位数 # standard_altitude fFL{altitude_num.zfill(3)} # 例如 FL108 matches.append(altitude_num) return list(set(matches))3.3 提取应答机编码应答机编码也叫Squawk Code是4位八进制数字0-7。def extract_transponder_code(text): 从文本中提取应答机编码Squawk Code。应答机编码是4位数字0-7但语音中可能读作四位任意数字规则上先匹配4位数字。 # 匹配4位连续数字这很可能是应答机编码 pattern r\b(\d{4})\b matches [] for match in re.finditer(pattern, text): code match.group(1) # 基础校验可以是任意4位数字严格来说应为0-7但语音识别可能转成8或9 # 这里我们先提取所有4位数后续可通过上下文或逻辑进一步筛选 # 例如如果同一句话里出现了高度层2-3位和航班号那么这个4位数很可能是应答机编码 matches.append(code) # 简单的上下文去重如果一句话里提到多次可能是一样的 return list(set(matches))3.4 组合成一个完整的信息提取器我们把上面的功能组合起来并加入简单的逻辑来提升准确性比如一句话里同时找到高度和应答机编码时关联性更强。def extract_atc_info(text): 主函数从识别文本中提取航班号、高度层、应答机编码。加入简单逻辑处理。 print(f正在分析文本: {text}) flight_numbers extract_flight_number(text) altitudes extract_altitude(text) squawk_codes extract_transponder_code(text) # 简单逻辑处理如果找到多个4位数字尝试通过关键词判断哪个是应答机编码 final_squawk [] if len(squawk_codes) 1: # 查找“应答机”、“squawk”、“编码”等关键词附近的数字 squawk_keyword_pattern r(?:应答机|编码|squawk)\s*(\d{4}) keyword_matches re.findall(squawk_keyword_pattern, text, re.IGNORECASE) if keyword_matches: final_squawk list(set(keyword_matches)) else: # 如果没有关键词暂时返回第一个实际应用需更复杂逻辑 final_squawk [squawk_codes[0]] if squawk_codes else [] else: final_squawk squawk_codes # 构建结果 result { flight_numbers: flight_numbers, altitudes: altitudes, transponder_codes: final_squawk, raw_text: text } return result # 测试一下 if __name__ __main__: # 读取之前保存的识别文本 try: with open(transcribed_text.txt, r, encodingutf-8) as f: test_text f.read().strip() except FileNotFoundError: # 如果文件不存在使用示例文本 test_text 国航981雷达看到了上升高度层108应答机2201 上升高度层108应答机2201国航981 info extract_atc_info(test_text) print(\n 信息提取结果 ) print(f原始文本: {info[raw_text]}) print(f航班号: {info[flight_numbers]}) print(f高度层: {info[altitudes]}) print(f应答机编码: {info[transponder_codes]})运行这个组合脚本你就能看到从那一串文本中“挖”出来的关键信息了。这感觉是不是很像数据挖掘4. 第三步串联起来打造自动化流程我们已经有了“耳朵”语音识别和“大脑”信息提取现在要把它们连接起来形成一个完整的自动化处理流程。这个流程是上传音频文件 - 调用Qwen3-ASR API识别成文本 - 用我们的提取器分析文本 - 输出结构化结果我们来写一个完整的main.py脚本import requests import json import re from typing import Dict, List, Optional class ATCVoiceProcessor: def __init__(self, asr_server_url: str): 初始化处理器 :param asr_server_url: Qwen3-ASR服务地址例如 http://192.168.1.100:8080 self.asr_server_url asr_server_url.rstrip(/) def transcribe(self, audio_path: str, language: str Chinese) - Optional[str]: 调用语音识别API api_url f{self.asr_server_url}/api/transcribe try: with open(audio_path, rb) as audio_file: files {audio_file: audio_file} data {language: language} if language else {} response requests.post(api_url, filesfiles, datadata, timeout30) response.raise_for_status() result response.json() return result.get(text, ).strip() except Exception as e: print(f语音识别失败: {e}) return None staticmethod def _extract_info(text: str) - Dict: 内部方法从文本提取信息复用之前的函数逻辑 # 航班号提取简化版 flight_pattern r([\u4e00-\u9fa5]{1,4}航?\s?\d{2,4}|[A-Z]{2,3}\d{1,4}) flights list(set([m.replace( , ) for m in re.findall(flight_pattern, text)])) # 高度层提取 alt_pattern r(?:上升|下降|保持|高度层|高度|FL)\s*(\d{2,3}) altitudes list(set(re.findall(alt_pattern, text, re.IGNORECASE))) # 应答机编码提取尝试关联“应答机”关键词 squawk_pattern_all r\b(\d{4})\b all_4digits re.findall(squawk_pattern_all, text) squawk_keyword_pattern r(?:应答机|编码|squawk)\s*(\d{4}) squawk_by_keyword re.findall(squawk_keyword_pattern, text, re.IGNORECASE) squawks list(set(squawk_by_keyword)) if squawk_by_keyword else (list(set(all_4digits)) if all_4digits else []) return { flights: flights, altitudes: altitudes, squawks: squawks, raw_text: text } def process_audio(self, audio_path: str, language: str Chinese) - Optional[Dict]: 主处理流程转录音频并提取信息 :return: 包含提取信息的字典或None如果失败 print(f处理音频文件: {audio_path}) # 1. 语音识别 print(步骤1: 正在调用语音识别服务...) transcribed_text self.transcribe(audio_path, language) if not transcribed_text: print(错误: 语音识别未返回有效文本。) return None print(f识别成功文本内容: {transcribed_text}) # 2. 信息提取 print(步骤2: 正在从文本中提取关键信息...) extracted_info self._extract_info(transcribed_text) return extracted_info def main(): # 配置 ASR_SERVER http://你的服务器IP:8080 # 请修改为你的实际地址 AUDIO_FILE atc_audio.wav # 请修改为你的音频文件路径 # 创建处理器并运行 processor ATCVoiceProcessor(ASR_SERVER) result processor.process_audio(AUDIO_FILE, languageChinese) # 打印结果 if result: print(\n *50) print(航空管制信息提取报告) print(*50) print(f原始语音转文本: {result[raw_text]}) print(f识别出的航班号: {result[flights] if result[flights] else 未识别到}) print(f识别出的高度层: {result[altitudes] if result[altitudes] else 未识别到}) print(f识别出的应答机编码: {result[squawks] if result[squawks] else 未识别到}) print(*50) # 你可以在这里将结果保存到数据库、JSON文件或发送到其他系统 # import json # with open(result.json, w, encodingutf-8) as f: # json.dump(result, f, ensure_asciiFalse, indent2) else: print(处理失败请检查音频文件和服务状态。) if __name__ __main__: main()把脚本里的你的服务器IP和atc_audio.wav替换成你自己的然后运行它。你会看到一个完整的处理流程在终端里打印出来最终给出一个清晰的信息提取报告。5. 还能做得更好思路扩展与优化我们实现了一个基础版本但它还有很大的改进空间。这里给你几个思路可以让这个“信息挖掘机”变得更聪明、更强大说话人分离与对话结构化真实的管制录音是双方对话。我们可以尝试用语音活动检测VAD或说话人分离技术先把不同人的话分开再分别识别和提取。这样结果就能区分“管制员指令”和“飞行员复诵”信息更清晰。# 伪代码思路 # 1. 使用VAD将长音频切分成多个短片段 # 2. 使用说话人识别模型给每个片段打上“管制员”或“飞行员”标签 # 3. 分别识别每个片段的文本 # 4. 提取信息时可以关联指令与复诵验证一致性更鲁棒的信息提取我们现在的正则表达式规则比较简单。面对更复杂、更不规范的语音识别结果比如数字识别错误、吞字规则可能失效。我们可以使用更精细的正则表达式覆盖更多表达方式如“上到幺两洞”、“下到九千”。引入自然语言处理NLP工具比如用NER命名实体识别模型来识别航班号等实体。或者直接使用**大语言模型LLM**进行信息抽取。把识别文本和提取要求一起发给LLM如Qwen、ChatGPT让它以JSON格式返回结果。这种方法泛化能力极强。处理背景噪音与干扰真实录音环境嘈杂。除了依赖Qwen3-ASR本身的抗噪能力我们可以在音频预处理环节加入降噪算法提升输入质量。构建可视化界面把我们这个Python脚本的功能用Web框架如Streamlit、Gradio包装成一个有上传按钮、结果展示框、甚至音频波形图的小网站让非技术人员也能方便使用。批量处理与实时流处理批量处理修改脚本让它能遍历一个文件夹里的所有音频文件批量识别和提取结果汇总成表格。实时流处理理论上可以对接实时音频流实现近乎实时的管制指令监听与告警例如检测到特定航班号或异常指令时触发通知。6. 总结我们来回顾一下今天完成的事情我们利用Qwen3-ASR-0.6B这个轻量又强大的语音识别模型搭建了一个从航空管制语音中自动提取关键信息的完整流程。这个过程分为三步“听”通过模型的API把一段.wav或.mp3格式的管制对话录音准确转换成文字。“懂”编写基于规则正则表达式的信息提取代码像筛子一样从连续的文字中筛出“航班号”、“高度层”、“应答机编码”这些关键数据。“用”将前两步串联形成一个自动化工具。你只需要提供音频文件它就能返回一份结构化的信息报告。这个项目的价值在哪里对航空爱好者/学习者可以自动分析监听来的录音快速整理出通话要点辅助学习管制用语。对相关领域开发者提供了一个完整的“语音识别领域信息提取”的技术demo。这套方法稍加修改就能用于客服录音分析提取工单号、问题类型、会议纪要生成提取决议、任务项、医疗问诊记录提取症状、药品等众多场景。展示了Qwen3-ASR的落地能力我们用它处理了专业领域、中英文混杂、包含数字代码的音频并得到了不错的结果。证明了它不仅在通用场景下好用在垂直领域也能作为可靠的基座。给你的建议先跑通一定要动手把今天的代码跑起来用你自己的音频试试。这是学习最快的方式。再优化根据你想处理的具体音频特点去调整和优化信息提取的正则表达式规则。没有一套规则能适用所有情况。后扩展如果规则变得太复杂或者你想处理更自由、更复杂的文本强烈考虑我上面提到的“LLM信息抽取”方案它会简单和强大得多。技术不是魔术而是解决问题的工具。希望这个从语音到结构化数据的“拆解”过程能给你带来一些启发。最重要的是你亲手实现了一个听起来很专业、很有用的应用。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

Qwen3-ASR-0.6B作品分享：航空管制语音→航班号/高度层/应答机编码提取

相关文章：

Qwen3-ASR-0.6B作品分享：航空管制语音→航班号/高度层/应答机编码提取

百考通：AI赋能答辩PPT，让研究更顺畅

百考通：AI精准赋能期刊论文写作，让研究更顺畅

从Java转行大模型应用，LangGraph架构学习

Qwen3-4B Instruct-2507企业级落地：集成至内部OA系统实现自然语言工单处理

别再手动调API了！用Spring Boot + WebClient一键集成Dify智能体（附完整代码）

告别VPN切换！用Docker在Windows上同时挂载两个EasyConnect（保姆级图文教程）

GetQzonehistory：QQ空间说说完整导出工具使用指南

原神高效管理神器：全方位游戏助手使用指南

千问3.5-2B AI Agent设计模式：从理论到实现的构建指南

新手福音：在快马平台通过实战示例快速上手w777.7cc框架

YimMenu终极指南：GTA V安全增强与游戏体验优化的完整教程

【无标题】视频号下载神器来了！可指定视频下载，支持批量解析下载

如何快速上手Fooocus：免费AI图像生成软件的完整指南

3种技术手段解决Figma中文界面需求：设计师本地化方案实践指南

2025届必备的五大降重复率平台推荐榜单

OpenClaw 快速入门：10 分钟完成本地安装与配置（附常用命令速查）

3步打造京东自动抢购神器：从安装到抢购全流程指南

3步快速找回加密压缩包密码：ArchivePasswordTestTool终极指南

ai赋能mybatis开发：让快马智能助手帮你优化sql语句与重构mapper文件

如何免费高效加速游戏：OpenSpeedy游戏变速工具的完整使用指南

Windows用户也能玩转Luckfox Pico：从驱动安装到ADB配置全攻略

BiliDownloader：B站视频高效下载与管理的全能解决方案

Steam游戏挂机终极指南：如何免费获取游戏时长与交易卡牌

YOLOv13开箱体验：无需配置，直接运行，效果惊艳的目标检测

SiameseAOE中文-base效果展示：电商评论中‘音质/发货/满意’精准抽取案例

CNN技术在PP-DocLayoutV3中的应用与优化

DeepSeek-OCR效果展示：中英文混排+数学公式+跨页表格精准还原

实战指南：在快马平台构建集成openclaw启动的电商价格监控系统

BGE-M3实战手册：Prometheus+Grafana监控Embedding QPS/延迟/显存指标