当前位置：首页 > article >正文

本地部署千问大模型

article 2026/3/17 13:13:51

下载千问大模型大家可以从魔搭社区平台下载各种版本的各种大模型尽量能在自己的电脑上运行所以这边下载1.5B的版本下载后的文件夹里的东西不要动即可环境准备在开始之前先统一环境。本文基于transformersPyTorch支持 CPU/GPU模型使用Qwen 系列本地模型情感分类只输出正面 / 负面 / 中立from transformers import AutoModelForCausalLM, AutoTokenizer import torch # 本地模型路径 model_name rE:\学习\大模型\qwen device cuda if torch.cuda.is_available() else cpu # 加载分词器与模型 tokenizer AutoTokenizer.from_pretrained(model_name, trust_remote_codeTrue) model AutoModelForCausalLM.from_pretrained( model_name, torch_dtypeauto, device_mapauto, trust_remote_codeTrue ).to(device) # 固定模板强制模型只输出结果 prompt_template 请仅输出以下文本的情感类别正面/负面/中立{text} input_text 这部电影真是太差劲我非常不喜欢 prompt_input prompt_template.format(textinput_text) # 编码输入 inputs tokenizer(prompt_input, return_tensorspt).to(device) # 生成配置确定性、短文本、无采样 output_sequences model.generate( inputs.input_ids, attention_maskinputs.attention_mask, max_new_tokens2, # 只生成1-2个字 do_sampleFalse, # 关闭采样 temperature0.0, # 完全确定性输出 pad_token_idtokenizer.eos_token_id ) # 解码并只提取新增结果 generated_text tokenizer.decode(output_sequences[0], skip_special_tokensTrue) result generated_text[len(prompt_input):].strip() print(情感分类结果, result) # 输出负面max_new_tokens2严格限制输出长度避免多余文字temperature0.0温度为 0保证每次输出一致固定 prompt明确告诉模型输出格式多轮对话模型能记住上下文Qwen 有官方对话模板不按格式写模型完全记不住上下文。正确方式使用apply_chat_template按role content组织对话。from transformers import AutoModelForCausalLM, AutoTokenizer import torch model_name_or_path rE:\学习\大模型\qwen tokenizer AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_codeTrue) model AutoModelForCausalLM.from_pretrained( model_name_or_path, torch_dtypeauto, device_mapauto, trust_remote_codeTrue ) # 历史对话必须是 role content 格式 history [ {role: user, content: 你好请问今天天气怎么样}, {role: assistant, content: 今天是晴天气温20到25度。}, {role: user, content: 那明天呢}, {role: assistant, content: 明天是晴天气温22到25度。}, {role: user, content: 那后天的天气呢} ] prompt tokenizer.apply_chat_template( history, tokenizeFalse, add_generation_promptTrue ) inputs tokenizer(prompt, return_tensorspt).to(model.device) output_sequences model.generate( inputs.input_ids, attention_maskinputs.attention_mask, max_new_tokens30, temperature0.1, top_p0.9, pad_token_idtokenizer.eos_token_id, do_sampleFalse ) response tokenizer.decode( output_sequences[0][len(inputs.input_ids[0]):], skip_special_tokensTrue ) print(模型回答, response)response tokenizer.decode(output_sequences[0][len(inputs.input_ids[0]):],skip_special_tokensTrue这个代码表示只解码新增内容这样就不会输出多余信息连续传入信息from transformers import AutoModelForCausalLM, AutoTokenizer model_name rE:\学习\大模型\qwen model AutoModelForCausalLM.from_pretrained(model_name) tokenizer AutoTokenizer.from_pretrained(model_name) conversation_history [] while True: user_input input(你: ) if user_input.lower() in [quit, exit]:# break # 将用户输入添加到对话历史 conversation_history.append(user_input) # 构建完整的输入文本 full_input_text \n.join(conversation_history) # 对输入文本进行编码 input_ids tokenizer(full_input_text, return_tensorspt) # 生成回答 output model.generate(input_ids.input_ids, max_length1000, attention_maskinput_ids.attention_mask) answer tokenizer.decode(output[0], skip_special_tokensTrue) # 提取回答中本次新增的部分 new_answer answer[len(full_input_text):] print(Qwen-2.5:, new_answer) # 将回答添加到对话历史 conversation_history.append(new_answer)信息抽取import json from rich import print from transformers import AutoTokenizer, AutoModelForCausalLM import torch # 定义抽取实体与属性 schema {商品: [产品, 品牌, 特点, 原价, 促销价, 销量], } IE_PATTERN {}\n\n提取上述句子中{}的实体并按照JSON格式输出不存在的信息用[原文中未提及]表示多值用,分隔。 # 少样本示例 ie_examples { 商品: [{ content: 2024 新款时尚运动鞋品牌 JKL舒适透气原价 599 元促销价 499 元月销量 2000 双。, answers: { 产品: [时尚运动鞋], 品牌: [JKL], 特点: [舒适透气], 原价: [599元], 促销价: [499元], 销量: [2000双], } }] } # 初始化prompt历史 def init_prompts(): ie_pre_history [ (你需要完成信息抽取输出严格JSON不存在填[原文中未提及]。, 好的请输入。) ] for _type, example_list in ie_examples.items(): for example in example_list: sentence example[content] prop_str , .join(schema[_type]) prompt_sent IE_PATTERN.format(sentence, f{_type}({prop_str})) ie_pre_history.append((prompt_sent, json.dumps(example[answers], ensure_asciiFalse))) return {ie_pre_history: ie_pre_history} # 按轮次拼接prompt def build_prompt(query, history): prompt for i, (q, a) in enumerate(history): prompt f[Round {i1}]\n问{q}\n答{a}\n\n prompt f[Round {len(history)1}]\n问{query}\n答 return prompt # 推理函数 def inference(sentences, custom_settings): for sent in sentences: prop_str , .join(schema[商品]) prompt_sent IE_PATTERN.format(sent, f商品({prop_str})) full_input build_prompt(prompt_sent, custom_settings[ie_pre_history]) inputs tokenizer(full_input, return_tensorspt).to(cuda) outputs model.generate(**inputs, max_new_tokens512, pad_token_idtokenizer.eos_token_id) res tokenizer.decode(outputs[0][len(inputs.input_ids[0]):], skip_special_tokensTrue) print(抽取结果\n, res) if __name__ __main__: model_path rE:\学习\大模型\qwen tokenizer AutoTokenizer.from_pretrained(model_path, trust_remote_codeTrue) model AutoModelForCausalLM.from_pretrained(model_path, trust_remote_codeTrue).cuda() model.eval() # 测试文本 test_sentences [ 2024 潮流双肩包品牌 PQR材质耐磨定价399元优惠后349元周销量800个。, 2024 智能手表品牌华为功能强大续航强售价1299元优惠价999元。 ] custom_settings init_prompts() inference(test_sentences, custom_settings)注意最后是以JSON格式输出

本地部署千问大模型

相关文章：

本地部署千问大模型

C# 基于OpenCv的视觉工作流-章34-投影向量

Using Vulkan -- Queues

无人机高空工程车辆识别高清工程车辆识别高清车辆识别高清铲车压路机识别无人机矿场行人识别深度学习yolo第10558期

MySQL的安装和卸载组件

告别手动截图！Python+SCPI让示波器自动采集数据

【力扣-42. 接雨水】Python笔记

鸿蒙中应用的权限：申请授权（三）

私有知识库问答合规失效真相：当Dify RAG遇上《金融消费者权益保护实施办法》，这2类元数据缺失=自动违规

环境变量解密：从基础概念到云原生实践

遗传算法实战：从编码到优化的全流程解析

零基础玩转LobeChat：一键部署开源聊天机器人，支持语音和多模态

文墨共鸣模型深度解析：卷积神经网络在文本特征提取中的角色

从勒索病毒到流量分析：一次完整的Solar应急响应实战复盘

智慧校园管理系统平台选型指南：如何评估未来 3-5 年扩展性

Message Pack 协议深度解析与实战指南

Colab免费GPU+Unsloth：快速微调大模型，打造专属智能助手

低代码≠低安全，Dify集成必须做的4项合规检查，错过将面临等保2.0一票否决！

企业安全必看：如何检测和修复深信服NGAF防火墙文件读取漏洞

Granite-4.0-H-350M部署实战：Windows 11系统环境配置

解决OpenWRT在M93p上的Intel I217-LM网卡硬件挂起问题：驱动更新与offload关闭实战

C++ 核心概念全景解析+实战思维导图

【图文讲解】Excel如何筛选重复项？四种简单有效的筛选重复项方法

Clawdbot汉化版快速部署：Docker Compose一键启停+多实例隔离（微信/WhatsApp分环境）

华为路由器实战：OSPF NSSA区域配置避坑指南（附完整拓扑实验）

RK3588路由器实战：如何用netplan+hostapd搭建稳定无线AP（避坑指南）

RustFS性能调优实战：5个生产环境必改参数让你的存储集群起飞

从零到一：在云服务器上构建你的专属Audiobookshelf有声图书馆

Xinference惊艳效果：同一WebUI界面切换Qwen3-32B、GLM4-9B、Phi-3-mini对比演示

毕业设计Java实战：从零构建高内聚低耦合的Spring Boot项目架构