当前位置：首页 > article >正文

PS软件自动化：利用SenseVoice-Small语音指令批量处理图片

article 2026/4/8 5:45:44

PS软件自动化利用SenseVoice-Small语音指令批量处理图片你是不是也厌倦了在Photoshop里一遍又一遍地重复那些机械性的操作给几十张图片统一调整尺寸、批量添加水印、或者对一组照片执行同样的滤镜效果。这些工作既枯燥又耗时还容易因为手滑而出错。想象一下你只需要对着麦克风说一句“把所有图片的宽度都改成800像素”或者“给这组图加上我们公司的Logo水印”电脑就能自动完成所有工作。这听起来像是未来科技但其实通过结合Photoshop的脚本功能和开源的语音识别模型我们现在就能实现。今天要聊的就是如何用SenseVoice-Small这个轻量级的语音识别模型来打造一个能听懂你说话的PS自动化助手。这不是一个遥不可及的实验室项目而是一个你可以亲手搭建、立刻用起来的效率工具。它能实实在在地把你从重复劳动中解放出来让你把更多精力花在真正的创意设计上。1. 这个方案能解决什么问题在聊具体怎么做之前我们先看看它到底能帮上什么忙。对于经常处理图片的设计师、自媒体运营或者电商美工来说下面这些场景应该不陌生批量调整尺寸上传到网站或社交平台的图片往往有严格的尺寸要求。手动一张张调整费时费力。统一添加水印为了保护版权或进行品牌宣传需要给大量图片打上水印。手动调整水印位置和大小非常繁琐。执行重复性滤镜或调色对一系列照片应用相同的色彩校正、锐化或艺术滤镜效果。格式转换与导出将一批PSD文件转换成JPG或PNG并统一压缩质量。传统做法是要么手动操作要么录制Photoshop的“动作”然后批量播放。但“动作”的灵活性有限每次参数微调都需要重新录制或修改。而语音控制的魅力在于它提供了一种更自然、更灵活的交互方式。你可以用说话的方式即时下达复杂或临时的指令系统自动将其转化为PS能执行的脚本命令。SenseVoice-Small模型在这里扮演了“翻译官”的角色。它负责准确识别你的语音指令比如“调整尺寸宽度 800 高度自动”然后将这句自然语言转换成一段结构化的命令。后面的PS脚本再根据这个命令去调用Photoshop的接口完成实际工作。整个流程就是把你的话变成PS能懂、并能执行的动作。2. 核心思路与准备工作整个系统的运作流程其实很清晰就像一条流水线你说话 - 模型识别成文字 - 文字被解析成命令 - 命令驱动PS执行操作。2.1 系统工作流程语音输入你通过麦克风发出语音指令例如“给所有这些图片右下角添加半透明水印”。语音识别SenseVoice-Small模型接收音频并将其转换为准确的文本信息。指令解析一个简单的解析程序我们可以用Python写分析这段文本提取关键操作和参数。比如从中识别出操作是“添加水印”位置是“右下角”透明度是“半透明”。生成并执行PS脚本解析程序根据识别出的命令动态生成或调用对应的Photoshop JavaScript脚本。批量处理Photoshop执行该脚本对指定的所有图片文件进行自动化处理。2.2 你需要准备什么要搭建这个环境你需要准备以下几样东西一台电脑Windows或macOS都可以。安装好的Photoshop这是自动化操作的对象。Python环境我们将用Python来整合语音识别和指令解析。建议安装Python 3.8或以上版本。SenseVoice-Small模型这是一个开源的语音识别模型相对轻量适合本地部署。你需要获取它的模型文件。基础的Python库主要是用于加载AI模型的transformers库以及处理音频的librosa或sounddevice库。这里不会涉及复杂的模型训练我们直接使用预训练好的SenseVoice-Small模型来进行语音识别。我们的重点在于如何将识别出的文本与Photoshop的自动化脚本桥接起来。3. 动手搭建从语音到PS动作让我们一步步来看看如何把各个部分连接起来。我会尽量用简单的代码示例来说明。3.1 第一步让电脑“听见”并“听懂”你的话首先我们需要用Python写一个小程序它能录音并把录音交给SenseVoice-Small模型去识别。# speech_recognition_module.py import sounddevice as sd import numpy as np import scipy.io.wavfile as wav from transformers import pipeline import tempfile import os class VoiceCommandRecognizer: def __init__(self, model_nameSenseVoice-Small): # 加载语音识别管道 # 注意你需要根据SenseVoice-Small的实际Hugging Face模型ID来填写 self.pipe pipeline(automatic-speech-recognition, model模型ID或本地路径) self.sample_rate 16000 # 模型通常期望16kHz采样率 def record_audio(self, duration5): 录制一段指定时长秒的音频 print(f开始录音请说话...{duration}秒) audio_data sd.rec(int(duration * self.sample_rate), samplerateself.sample_rate, channels1, dtypefloat32) sd.wait() # 等待录音结束 print(录音结束。) return audio_data.flatten(), self.sample_rate def recognize_command(self, audio_array, sr): 识别音频中的语音指令 # 确保采样率匹配 if sr ! self.sample_rate: # 这里简单示意实际可能需要重采样库如librosa print(f警告采样率{sr}Hz模型期望{self.sample_rate}Hz可能需要重采样。) # 使用librosa进行重采样示例 (需安装 librosa) # import librosa # audio_array librosa.resample(audio_array, orig_srsr, target_srself.sample_rate) # sr self.sample_rate # 将识别结果转换为文本 result self.pipe({raw: audio_array, sampling_rate: sr}) command_text result[text] print(f识别出的文本{command_text}) return command_text if __name__ __main__: recognizer VoiceCommandRecognizer() audio, sr recognizer.record_audio(duration4) text recognizer.recognize_command(audio, sr)这段代码创建了一个类可以录音并用AI模型识别成文字。你需要将model模型ID或本地路径替换成实际的模型路径例如Hugging Face上的模型ID如sensevoice/SenseVoice-Small或者你下载到本地的模型文件夹路径。3.2 第二步理解指令转化为PS命令识别出文字只是第一步比如“把宽度设为800像素”我们需要让程序理解“宽度”对应PS的哪个属性“800”是参数。我们可以用一些简单的规则或关键词匹配来实现一个基础的解析器。# command_parser.py import re class CommandParser: def parse(self, text): 解析语音识别出的文本返回操作类型和参数字典 text text.lower() command {action: None, params: {}} # 1. 解析调整尺寸 if any(word in text for word in [宽度, 宽, 尺寸, 大小, resize]): command[action] resize # 使用正则表达式查找数字 numbers re.findall(r\d, text) if numbers: if 宽度 in text or 宽 in text: command[params][width] int(numbers[0]) if 高度 in text or 高 in text: # 简单逻辑如果找到两个数字第二个可能是高度 if len(numbers) 1: command[params][height] int(numbers[1]) elif 等比例 in text or 自动 in text: command[params][height] None # 表示按比例自动计算 # 2. 解析添加水印 elif any(word in text for word in [水印, logo, 标记]): command[action] add_watermark # 这里可以解析位置例如“右下角” if 右下角 in text: command[params][position] bottom-right elif 左下角 in text: command[params][position] bottom-left # 解析透明度 if 半透明 in text or 透明 in text: command[params][opacity] 50 else: command[params][opacity] 100 # 3. 可以继续添加更多命令解析如“导出为JPG”、“应用滤镜”等 elif 导出 in text and (jpg in text or jpeg in text): command[action] export_jpg if 质量 in text: qual_numbers re.findall(r\d, text.split(质量)[-1]) if qual_numbers: command[params][quality] min(int(qual_numbers[0]), 100) return command if __name__ __main__: parser CommandParser() test_commands [ 把宽度调整到800像素, 将所有图片的宽度设为1024高度自动调整, 在右下角添加一个半透明水印, 导出为JPG格式质量80 ] for cmd in test_commands: result parser.parse(cmd) print(f指令{cmd} - 解析结果{result})这个解析器还很基础但已经能处理几种常见指令了。在实际应用中你可以根据需求扩展它或者使用更高级的自然语言理解方法来提高准确性。3.3 第三步让Photoshop动起来这是最关键的一步根据解析出的命令生成并执行Photoshop脚本。Photoshop支持通过JavaScript、AppleScript或VBScript进行外部控制。这里我们用JavaScript.jsx为例因为它是跨平台的。我们写一个Python函数根据不同的命令动态生成对应的.jsx脚本文件然后让Photoshop去执行它。# ps_automator.py import os import subprocess import sys class PhotoshopAutomator: def __init__(self, ps_pathNone): :param ps_path: Photoshop可执行文件路径例如 Windows: rC:\Program Files\Adobe\Adobe Photoshop 2023\Photoshop.exe Mac: /Applications/Adobe Photoshop 2023/Adobe Photoshop 2023.app self.ps_path ps_path def create_resize_script(self, width, height, input_folder, output_folder): 创建调整图片尺寸的JSX脚本 script_content f // 调整图片尺寸脚本 var inputFolder new Folder({input_folder}); var outputFolder new Folder({output_folder}); if (!outputFolder.exists) outputFolder.create(); var files inputFolder.getFiles(/\.(jpg|jpeg|png|psd)$/i); for (var i 0; i files.length; i) {{ var file files[i]; open(file); var doc app.activeDocument; // 设置新的尺寸 var newWidth {width}; var newHeight {height}; if (newHeight null) {{ // 高度为null表示按比例自动计算 var ratio doc.height / doc.width; newHeight Math.round(newWidth * ratio); }} doc.resizeImage(UnitValue(newWidth, px), UnitValue(newHeight, px)); // 保存文件 var savePath new File(outputFolder / doc.name); var saveOptions new JPEGSaveOptions(); saveOptions.quality 12; // 高质量 doc.saveAs(savePath, saveOptions, true, Extension.LOWERCASE); doc.close(SaveOptions.DONOTSAVECHANGES); }} alert(批量调整尺寸完成共处理了 files.length 张图片。); return script_content def create_watermark_script(self, position, opacity, watermark_path, input_folder, output_folder): 创建添加水印的JSX脚本 # 位置映射 pos_map { bottom-right: [doc.width - wm.width - 10, doc.height - wm.height - 10], bottom-left: [10, doc.height - wm.height - 10], # ... 可以添加其他位置 } script_content f // 添加水印脚本 var watermarkFile new File({watermark_path}); var inputFolder new Folder({input_folder}); var outputFolder new Folder({output_folder}); if (!outputFolder.exists) outputFolder.create(); open(watermarkFile); app.activeDocument.selection.selectAll(); app.activeDocument.selection.copy(); app.activeDocument.close(SaveOptions.DONOTSAVECHANGES); var files inputFolder.getFiles(/\.(jpg|jpeg|png)$/i); for (var i 0; i files.length; i) {{ var file files[i]; open(file); var doc app.activeDocument; // 粘贴水印 doc.paste(); var wmLayer doc.activeLayer; wmLayer.opacity {opacity}; // 根据指令设置位置这里以右下角为例 wmLayer.translate(doc.width - wmLayer.bounds[2] - 20, doc.height - wmLayer.bounds[3] - 20); // 合并图层并保存 doc.flatten(); var savePath new File(outputFolder / doc.name); var saveOptions new JPEGSaveOptions(); saveOptions.quality 12; doc.saveAs(savePath, saveOptions, true, Extension.LOWERCASE); doc.close(SaveOptions.DONOTSAVECHANGES); }} alert(批量添加水印完成); return script_content def execute_script(self, script_content, script_nametemp_script.jsx): 将脚本写入临时文件并让Photoshop执行 temp_script_path os.path.join(tempfile.gettempdir(), script_name) with open(temp_script_path, w, encodingutf-8) as f: f.write(script_content) # 构建执行命令 if sys.platform darwin: # macOS # 使用osascript打开Photoshop并执行脚本 cmd fosascript -e \tell application Adobe Photoshop 2023 to do javascript file {temp_script_path}\ else: # Windows # 假设Photoshop已安装通过COM或直接调用 # 一种简单方式使用Photoshop的命令行参数执行脚本 if self.ps_path: cmd f{self.ps_path} {temp_script_path} else: # 如果未指定路径尝试常见路径或要求用户设置 cmd fstart photoshop {temp_script_path} try: subprocess.run(cmd, shellTrue, checkTrue) print(f已触发Photoshop执行脚本{script_name}) except subprocess.CalledProcessError as e: print(f执行脚本时出错{e}) finally: # 可选执行后删除临时脚本文件 # os.remove(temp_script_path) pass3.4 第四步把所有部分组装起来最后我们创建一个主程序把语音识别、指令解析和PS自动化串联起来。# main.py from speech_recognition_module import VoiceCommandRecognizer from command_parser import CommandParser from ps_automator import PhotoshopAutomator import time def main(): print( PS语音控制助手启动 ) recognizer VoiceCommandRecognizer() parser CommandParser() automator PhotoshopAutomator(ps_pathr你的Photoshop.exe路径) # 请修改为你的PS路径 # 假设我们处理固定文件夹的图片 input_folder r./待处理图片 output_folder r./已处理图片 while True: input(按回车键开始录音或输入 q 退出...) # 这里简化实际可以加一个退出判断 audio, sr recognizer.record_audio(duration5) command_text recognizer.recognize_command(audio, sr) parsed_cmd parser.parse(command_text) print(f解析后的命令{parsed_cmd}) if parsed_cmd[action]: if parsed_cmd[action] resize: width parsed_cmd[params].get(width, 800) height parsed_cmd[params].get(height) script automator.create_resize_script(width, height, input_folder, output_folder) automator.execute_script(script, resize_script.jsx) elif parsed_cmd[action] add_watermark: position parsed_cmd[params].get(position, bottom-right) opacity parsed_cmd[params].get(opacity, 50) watermark_path r./水印.png # 你的水印图片路径 script automator.create_watermark_script(position, opacity, watermark_path, input_folder, output_folder) automator.execute_script(script, watermark_script.jsx) # ... 处理其他命令 else: print(f暂不支持的命令{parsed_cmd[action]}) else: print(未能识别出有效指令请重试。) time.sleep(1) if __name__ __main__: main()4. 实际效果与扩展思路当你运行起这个程序你会体验到一种全新的交互方式。对着麦克风说“调整宽度到1000”然后看着Photoshop自动打开、处理图片、保存并关闭整个过程无需你动手点击任何菜单。对于需要处理上百张图片的情况效率的提升是肉眼可见的。当然上面展示的是一个最基础的、用于演示原理的版本。在实际应用中你还可以从以下几个方面让它变得更强大、更好用增强指令解析使用更智能的自然语言处理库让系统能理解更复杂、更口语化的命令比如“把这些图片弄得亮一点”、“背景弄模糊些”。设计图形界面用PyQt或Tkinter为这个工具做一个简单的界面可以方便地选择输入输出文件夹、设置默认参数、查看识别日志等。支持更多PS操作将常用的Photoshop动作都封装成可语音调用的命令比如裁剪、调色、滤镜、图层样式等。优化用户体验增加语音反馈让系统在识别后念出“正在调整尺寸...”处理完成后说“任务完成”。错误处理与日志增加更完善的错误捕获和日志记录方便排查问题。5. 总结把SenseVoice-Small这样的语音识别模型和Photoshop的脚本能力结合起来为我们打开了一扇通往设计自动化新世界的大门。它不仅仅是一个“炫技”的demo而是一个能切实提升工作效率的实用工具。它的核心价值在于将重复、机械的操作流程封装成一句句自然语言指令。你不再需要记忆复杂的PS动作快捷键或者手动编写脚本只需要说出你的需求。这对于那些高频、批量化处理图片的岗位来说意义尤其重大。搭建的过程本身也是一次有趣的探索。你会接触到语音AI的应用、PS的扩展接口以及如何用Python将它们粘合在一起。虽然初始版本可能比较简单但它的扩展性非常好。你可以根据自己的工作流定制专属的语音命令让它真正成为你的得力助手。下次当你在PS里进行重复劳动时不妨想想也许你可以教它“听懂”你的话让它自己来完成。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

PS软件自动化：利用SenseVoice-Small语音指令批量处理图片

相关文章：

PS软件自动化：利用SenseVoice-Small语音指令批量处理图片

SDMatte移动端优化思路：模型量化与轻量化部署探索

SECS-II与HSMS核心区别解析

RMBG-2.0部署避坑指南：常见问题解决方案

Phi-4-mini-reasoning效果展示：离散数学关系性质判定与反例构造生成

免费开源一款聚合支付系统，已封装微信、支付宝、PayPal、京东、银联、QQ等支付方式

EagleEye DAMO-YOLO TinyNAS实战：基于YOLOv8的高效目标检测部署

关于wokwi运行程序出错，而实机运行正常的问题

新手必看！手把手教你搭建微调大模型环境，附硬件配置与工具链教程

DeepSeek-OCR-2高级配置：多GPU并行处理优化

SecGPT-14B作品分享：5类典型安全任务（漏洞/日志/异常/攻防/命令）全覆盖输出

SDMatte助力电商应用：批量生成商品透明背景主图实战

Qwen3.5-9B实战教程：app.py添加流式输出支持+前端loading状态优化

项目建议书、可研报告与初步设计方案的定位与关联

3D高斯泼溅一键训练脚本：视频/图片输入全搞定（Win11+3070实测）

告别配置噩梦？LazyVim让你5分钟拥有专业开发环境

带行星传动装置的电动螺旋拆卸器设计【说明书 cad图纸 solidworks三维】

Shopify开发者必看：用Postman搞定GraphQL Admin API的完整流程（含Java代码示例）

Anything V5进阶使用：结合REST API实现批量自动生成二次元图像

Qwen3-VL-8B在.NET生态中的集成：开发C#桌面端图像分析应用

Python原生AOT在2026年终于可用？（官方PEP 718+PyO3 v0.24+Maturin 2.0三重验证实录）

Qwen3-14B虚拟机开发环境：在VMware Ubuntu中部署与测试模型

【2026必看】临沂销售增长咨询，哪家公司最权威？

ScriptGen Modern Studio 剧本创作工作站：5分钟快速部署，零基础开启AI编剧之旅

PVE中使用SPICE功能遇到的10个高频率问题和解答方法

OpenClaw+Qwen3.5-9B智能爬虫：合规数据采集与结构化存储方案

沃虎电子｜千兆网络变压器选型实战：从PoE等级到PHY匹配，一站式解决工程师的三大难题

Pixel Mind Decoder 社区贡献指南：从使用到参与模型改进

Qwen-Image-Edit-2511局部重绘教程：精准修改图片任何区域

CLAP-htsat-fused方言识别效果：中国8大方言区测试