当前位置：首页 > news >正文

python 语音识别

news 2026/5/11 21:22:52

目录

一、语音识别

二、代码实践

2.1 使用vosk三方库

2.2 使用SpeechRecognition

2.3 使用Whisper

一、语音识别

今天识别了别人做的这个app，觉得虽然是个日记app 但是用来学英语也挺好的，能进行语音识别，然后矫正语法，自己说的时候，实在不知道怎么说可以先乱说，然后后续矫正，在把这个不会的点学起来。然后我就研究了下语音识别的技术方案。

语音识别（Speech Recognition）是一种将人类语音转换为可理解的文本或指令的技术。它的核心原理是通过对声音信号进行捕捉、特征提取和模式匹配，将语音信号映射到相应的文字或指令上。常见的语音识别应用包括：

语音助手：如苹果的Siri、谷歌助手、小度等，可根据语音指令执行任务，回答问题。
智能家居控制：通过语音

相关文章：

python 语音识别

目录一、语音识别二、代码实践 2.1 使用vosk三方库 2.2 使用SpeechRecognition 2.3 使用Whisper 一、语音识别今天识别了别人做的这个app，觉得虽然是个日记app 但是用来学英语也挺好的，能进行语音识别，然后矫正语法，自己说的时候，实在不知道怎么说可以先乱说，然…...

编程日记 2025/2/6 2:27:14

一文速览DeepSeek-R1的本地部署——可联网、可实现本地知识库问答：包括671B满血版和各个蒸馏版的部署

前言自从deepseek R1发布之后「详见《一文速览DeepSeek R1：如何通过纯RL训练大模型的推理能力以比肩甚至超越OpenAI o1(含Kimi K1.5的解读)》」，deepseek便爆火爆火以后便应了“人红是非多”那句话，不但遭受各种大规模攻击，即便…...

编程日记 2025/2/6 2:24:10

[mmdetection]fast-rcnn模型训练自己的数据集的详细教程

本篇博客是由本人亲自调试成功后的学习笔记。使用了mmdetection项目包进行fast-rcnn模型的训练，数据集是自制图像数据。废话不多说，下面进入训练步骤教程。注：本人使用linux服务器进行展示，Windows环境大差不差。另外&#xff0…...

编程日记 2025/2/6 2:21:07

1. Kubernetes组成及常用命令

Pods（k8s最小操作单元）ReplicaSet & Label（k8s副本集和标签）Deployments（声明式配置）Services（服务）k8s常用命令Kubernetes（简称K8s）是一个开源的容器编排系统，用于自动化应用程序的部署、扩展和管理。自2014年发布以来，K8s迅速成为容器编排领域的行业标准，被…...

编程日记 2025/2/6 2:16:59

linux下ollama更换模型路径

Linux下更换Ollama模型下载路径指南在使用Ollama进行AI模型管理时，有时需要根据实际需求更改模型文件的存储路径。本文将详细介绍如何在Linux系统中更改Ollama模型的下载路径。一、关闭Ollama服务在更改模型路径之前，需要先停止Ollama服务。…...

编程日记 2025/2/6 2:14:57

本地Ollama部署DeepSeek R1模型接入Word

目录 1.本地部署DeepSeek-R1模型 2.接入Word 3.效果演示 4.问题反馈上一篇文章办公新利器：DeepSeekWord，让你的工作更高效-CSDN博客https://blog.csdn.net/qq_63708623/article/details/145418457?spm1001.2014.3001.5501https://blog.csdn.net/qq…...

编程日记 2025/2/6 2:02:31

【自学笔记】Git的重点知识点-持续更新

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录 Git基础知识Git高级操作与概念Git常用命令总结 Git基础知识 Git简介 Git是一种分布式版本控制系统，用于记录文件内容的改动，便于开发者追踪…...

编程日记 2025/2/6 1:57:25

[EAI-028] Diffusion-VLA，能够进行多模态推理和机器人动作预测的VLA模型

Paper Card 论文标题：Diffusion-VLA: Scaling Robot Foundation Models via Unified Diffusion and Autoregression 论文作者：Junjie Wen, Minjie Zhu, Yichen Zhu, Zhibin Tang, Jinming Li, Zhongyi Zhou, Chengmeng Li, Xiaoyu Liu, Yaxin Peng, Chao…...

编程日记 2025/2/6 1:55:23

实现数组的扁平化

文章目录 1 实现数组的扁平化1.1 递归1.2 reduce1.3 扩展运算符1.4 split和toString1.5 flat1.6 正则表达式和JSON 1 实现数组的扁平化 1.1 递归通过循环递归的方式，遍历数组的每一项，如果该项还是一个数组，那么就继续递归遍历&#xff0c…...

编程日记 2025/2/6 1:50:17

登录认证（5）：过滤器：Filter

统一拦截上文我们提到（登录认证（4）：令牌技术），现在大部分项目都使用JWT令牌来进行会话跟踪，来完成登录功能。有了JWT令牌可以标识用户的登录状态，但是完整的登录逻辑如图所示&…...

编程日记 2025/2/6 1:48:10

pytorch实现门控循环单元 (GRU）

人工智能例子汇总：AI常见的算法和例子-CSDN博客特性GRULSTM计算效率更快，参数更少相对较慢，参数更多结构复杂度只有两个门（更新门和重置门）三个门（输入门、遗忘门、输出门）处理长时依赖一般适…...

编程日记 2025/2/6 1:42:03

Word List 2

词汇颜色标识解释词汇表中的生词词汇表中的词组成的搭配、派生词例句中的生词我自己写的生词（用于区分易混淆的词，无颜色标识） 不认识的单词或句式单词的主要汉语意思不太理解的句子语法和结构 Word List 2 英文音标中文regi…...

编程日记 2025/2/6 1:37:57

机器学习常用包numpy篇（四）函数运算

目录前言一、三角函数二、双曲函数三、数值修约四、求和、求积与差分五、指数与对数六、算术运算七、矩阵与向量运算八、代数运算九、其他数学工具总结前言 Python 的原生运算符可实现基础数学运算（加减乘除、取余、取整、幂运算&#…...

编程日记 2025/2/6 1:36:55

CSS in JS

css in js css in js 的核心思想是：用一个 JS 对象来描述样式，而不是 css 样式表。例如下面的对象就是一个用于描述样式的对象： const styles {backgroundColor: "#f40",color: "#fff",width: "400px",he…...

编程日记 2025/2/6 1:35:54

TCP 丢包恢复策略：代价权衡与优化迷局

网络物理层丢包是一种需要偿还的债务，可以容忍低劣的传输质量，这为 UDP 类服务提供了空间，而对于 TCP 类服务，可以用另外两类代价来支付： 主机端采用轻率的 GBN 策略恢复丢包，节省 CPU 资源，但…...

编程日记 2025/2/6 1:30:46

面经--C语言——内存泄漏、malloc和new的区别 .c文件怎么转换为可执行程序 uart和usart的区别继承的访问权限总结

文章目录内存泄漏预防内存泄漏的方法： malloc和new的区别.c文件怎么转换为可执行程序uart和usart的区别继承的访问权限总结访问控制符总结1. **public**:2. **protected**:3. **private**:继承类型： 内存泄漏内存泄漏是指程序在运行时动态分配内存后&…...

编程日记 2025/2/6 1:28:42

Denavit-Hartenberg DH MDH坐标系

Denavit-Hartenberg坐标系及其规则详解 6轴协作机器人的MDH模型详细图_6轴mdh-CSDN博客 N轴机械臂的MDH正向建模，及python算法_mdh建模-CSDN博客运动学3-----正向运动学 | 鱼香ROS 机器人学：MDH建模 - 哆啦美 - 博客园机械臂学习——标准DH法和改进MDH…...

编程日记 2025/2/6 1:25:39

力扣动态规划-20【算法学习day.114】

前言 ###我做这类文章一个重要的目的还是记录自己的学习过程，我的解析也不会做的非常详细，只会提供思路和一些关键点，力扣上的大佬们的题解质量是非常非常高滴！！！ 习题 1.网格中的最小路径代价题目链接…...

编程日记 2025/2/6 1:22:36

计算机视觉-边缘检测

一、边缘 1.1 边缘的类型 ①实体上的边缘 ②深度上的边缘 ③符号的边缘 ④阴影产生的边缘不同任务关注的边缘不一样 1.2 提取边缘突变-求导（求导也是一种卷积） 近似，1（右边的一个值-自己可以用卷积做） 该点f(x,y)…...

编程日记 2025/2/6 1:21:35

文字加持：让 OpenCV 轻松在图像中插上文字

前言在很多图像处理任务中，我们不仅需要提取图像信息，还希望在图像上加上一些文字，或是标注，或是动态展示。正如在一幅画上添加一个标语，或者在一个视频上加上动态字幕，cv2.putText 就是这个“文字魔术师”，它能让我们的图像从“沉默寡言”变得生动有趣。今天，我们…...

编程日记 2025/2/6 1:16:29

鸿蒙数据持久化三板斧：Preferences、RDB、分布式数据一文搞定，告别数据丢失

📖 鸿蒙NEXT开发实战系列 | 第21篇 | 数据篇 🎯 适合人群：有鸿蒙基础的开发者 ⏰ 阅读时间：约15分钟 | 💻 开发环境：DevEco Studio 5.0 ⬅️ 上一篇：20-网络篇-网络请求与数据加载 ➡️ 下一篇&…...

编程新知 2026/5/11 21:08:24

开源工具any2card：任意格式内容智能转换结构化卡片实战指南

1. 项目概述：从“任意格式”到“卡片”的智能转换革命最近在折腾个人知识库和内容管理时，我遇到了一个老生常谈但又无比棘手的问题：信息格式的碎片化。我的资料散落在各处，有PDF论文、网页文章、TXT笔记、甚至是一些图片里的文字。…...

编程新知 2026/5/11 20:04:29

用C语言手搓一个聊天室服务器：从socket到多线程的保姆级踩坑实录

用C语言手搓一个聊天室服务器：从socket到多线程的保姆级踩坑实录深夜两点，屏幕的蓝光映在脸上，第17次编译失败后，我盯着gcc报出的"segmentation fault"陷入了沉思。这就是用C语言实现网络服务的魅力所在——没有现成的…...

编程新知 2026/5/11 19:36:43

ReAct不是格式游戏！揭秘让LLM从“文本生成器”变身“决策引擎”的底层逻辑

文章指出，ReAct常被误解为高级Prompt工程，但核心是闭环执行架构。真正的ReAct强调“决策-执行-反馈”循环，而非固定的Thought/Action/Observation格式。工程代码定义流程，模型生成内容，实现真实工具调用与反馈闭环。文…...

编程新知 2026/5/11 18:46:49

别再手动算字模了！用Python+STM32CubeMX快速生成8*8点阵动画，效率提升10倍

用PythonSTM32CubeMX自动化生成8*8点阵动画：从手动编码到智能设计的跨越每次看到那些闪烁的8*8点阵动画，你是否想过背后的开发者要花多少时间手动计算每个像素的十六进制值？传统开发流程中，工程师需要先在纸上绘制图案&#xff0…...

编程新知 2026/5/11 18:44:28

浙大推出让AI会「导演」的角色扮演框架！四通道消息沉浸式交互｜ACL 2026

AdaMARP团队投稿量子位 | 公众号 QbitAIAI能实现真正的沉浸式扮演了。大语言模型在角色扮演任务上进展迅速，但现有系统往往缺乏沉浸感和适应性：环境信息未被充分建模，场景与角色也多为静态，难以支撑多角色调度、场景切换、动态引…...

编程新知 2026/5/11 18:42:13

从PTA到项目实战：用C++实现矩阵乘法的几种姿势与性能小谈

从PTA到项目实战：用C实现矩阵乘法的几种姿势与性能小谈矩阵乘法作为线性代数中的基础运算，在计算机科学领域有着广泛的应用场景。从学生时代的编程练习题到工业级的高性能计算，矩阵乘法的实现方式直接影响着程序效率。本文将带您从基础的PTA…...

编程新知 2026/5/11 18:21:43

保姆级教程：用KIT_A2G_TC397_5V_TFT开发板快速上手CAN FD通信（附接线图）

保姆级教程：用KIT_A2G_TC397_5V_TFT开发板快速上手CAN FD通信（附接线图） 最近在车载通信项目中频繁接触CAN FD协议，发现很多工程师对硬件连接和基础配置存在畏难情绪。恰好手头有英飞凌KIT_A2G_TC397_5V_TFT这块开发板&#xff0c…...

编程新知 2026/5/11 18:19:41

从仿真波形到板卡调试：一次搞定Xilinx UltraScale+ FPGA DDR4读写测试全流程

从仿真波形到板卡调试：Xilinx UltraScale FPGA DDR4读写测试全流程实战指南在FPGA系统设计中，DDR4内存接口的稳定性和性能往往是决定整个系统成败的关键因素。对于使用Xilinx UltraScale系列FPGA的工程师而言，从仿真验证到板卡调试的全流程掌…...

编程新知 2026/5/11 17:59:08

Vcpkg不只是个安装器：在Windows上用它为你的C++项目打造可复现的构建环境

Vcpkg工程化实践：构建可复现的C开发环境在大型C项目中，依赖管理一直是开发者面临的痛点之一。不同团队成员使用不同版本的第三方库，CI服务器上的构建环境与本地开发环境不一致，这些问题常常导致"在我机器上能运行"的尴…...

编程新知 2026/5/11 17:19:39