当前位置: 首页 > article >正文

Kimi-VL-A3B-Thinking开源可部署:提供ONNX导出路径与推理引擎适配

Kimi-VL-A3B-Thinking开源可部署提供ONNX导出路径与推理引擎适配1. 模型简介Kimi-VL-A3B-Thinking是一款高效的开源混合专家MoE视觉语言模型VLM具备以下核心特点参数高效仅激活语言解码器中的2.8B参数多模态能力支持图文对话、长上下文理解和高级推理高性能表现在多个基准测试中达到或超越GPT-4o-mini等前沿模型该模型采用创新的架构设计MoE语言模型原生分辨率视觉编码器MoonViTMLP投影器2. 快速部署指南2.1 环境准备确保您的系统满足以下要求Linux操作系统推荐Ubuntu 20.04NVIDIA GPU建议16GB显存Python 3.8CUDA 11.72.2 使用vLLM部署安装依赖pip install vllm chainlit torch transformers启动服务python -m vllm.entrypoints.api_server --model Kimi-VL-A3B-Thinking --tensor-parallel-size 12.3 验证部署状态使用以下命令检查服务是否正常运行cat /root/workspace/llm.log成功部署后日志应显示类似以下内容3. 前端调用实践3.1 使用Chainlit构建交互界面创建Chainlit应用文件app.pyimport chainlit as cl from transformers import AutoProcessor, AutoModelForCausalLM cl.on_chat_start async def on_chat_start(): processor AutoProcessor.from_pretrained(Kimi-VL-A3B-Thinking) model AutoModelForCausalLM.from_pretrained(Kimi-VL-A3B-Thinking) cl.user_session.set(model, model) cl.user_session.set(processor, processor) cl.on_message async def on_message(message: cl.Message): model cl.user_session.get(model) processor cl.user_session.get(processor) # 处理用户输入和图片 inputs processor(message.content, imagesmessage.elements, return_tensorspt) # 生成响应 outputs model.generate(**inputs) response processor.decode(outputs[0], skip_special_tokensTrue) await cl.Message(contentresponse).send()启动Chainlit服务chainlit run app.py3.2 交互示例打开Chainlit前端界面上传图片并提问图中店铺名称是什么模型将返回识别结果4. ONNX导出与推理优化4.1 导出为ONNX格式安装转换工具pip install onnx onnxruntime-gpu执行转换脚本from transformers import AutoModel import torch model AutoModel.from_pretrained(Kimi-VL-A3B-Thinking) dummy_input { input_ids: torch.randint(0, 100, (1, 128)), pixel_values: torch.rand(1, 3, 224, 224) } torch.onnx.export( model, (dummy_input,), kimi_vl_a3b.onnx, input_names[input_ids, pixel_values], output_names[output], dynamic_axes{ input_ids: {0: batch_size, 1: sequence_length}, pixel_values: {0: batch_size} } )4.2 推理引擎适配建议ONNX Runtime优化import onnxruntime as ort sess_options ort.SessionOptions() sess_options.graph_optimization_level ort.GraphOptimizationLevel.ORT_ENABLE_ALL sess_options.execution_mode ort.ExecutionMode.ORT_SEQUENTIAL session ort.InferenceSession( kimi_vl_a3b.onnx, sess_options, providers[CUDAExecutionProvider] )TensorRT加速trtexec --onnxkimi_vl_a3b.onnx --saveEnginekimi_vl_a3b.engine --fp165. 性能优化技巧5.1 批处理优化# 启用vLLM的连续批处理 from vllm import SamplingParams sampling_params SamplingParams(temperature0.7, top_p0.9) llm LLM(modelKimi-VL-A3B-Thinking, enable_batchingTrue)5.2 量化部署使用8-bit量化from transformers import BitsAndBytesConfig quant_config BitsAndBytesConfig( load_in_8bitTrue, llm_int8_threshold6.0 ) model AutoModelForCausalLM.from_pretrained( Kimi-VL-A3B-Thinking, quantization_configquant_config )6. 总结Kimi-VL-A3B-Thinking作为一款高效的多模态模型通过本文介绍的方法可以快速部署为生产级服务方便地集成到现有应用中通过ONNX导出实现跨平台推理利用各种优化技术提升性能实际使用中建议根据具体场景选择合适的部署方式快速原型开发直接使用vLLMChainlit方案生产环境考虑ONNX Runtime或TensorRT优化边缘设备使用量化版本降低资源消耗获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

相关文章:

Kimi-VL-A3B-Thinking开源可部署:提供ONNX导出路径与推理引擎适配

Kimi-VL-A3B-Thinking开源可部署:提供ONNX导出路径与推理引擎适配 1. 模型简介 Kimi-VL-A3B-Thinking是一款高效的开源混合专家(MoE)视觉语言模型(VLM),具备以下核心特点: 参数高效&#xff…...

如何用快马平台与jdk1.8特性十分钟搭建商品管理系统原型

今天想和大家分享一个快速搭建商品管理系统原型的经验。作为一个经常需要验证业务逻辑的后端开发,我发现用jdk1.8配合InsCode(快马)平台可以十分钟内完成从零到可运行的原型开发,特别适合敏捷开发场景。 为什么选择jdk1.8 企业级开发中jdk1.8仍然是主流选…...

利用快马平台实现vibe coding效率提升:快速生成可拖拽任务看板原型

最近在尝试一种叫做"vibe coding"的开发方式,追求那种心流状态下的高效编程体验。但说实话,每次从零开始搭建项目原型时,那些重复性的UI搭建工作总是会打断这种流畅感。于是我开始寻找能帮我快速生成基础原型的工具,最终…...

实战工业分拣:基于快马平台构建自适应openclaw配置系统

最近在做一个工业分拣的自动化项目,正好用到了openclaw机械爪的配置,整个过程挺有意思的,记录下实战经验。 项目背景 这个项目模拟的是工厂流水线上的智能分拣场景。传送带上会随机出现不同颜色和形状的物体,需要机械爪能自动识别…...

新手入门:在快马上手第一个web项目,用图表解读技术职级薪资数据

新手入门:在快马上手第一个web项目,用图表解读技术职级薪资数据 最近想学习前端开发,但一直找不到合适的入门项目。直到看到阿里P10薪资这个话题,突然觉得可以做个简单的数据可视化页面来练手。作为一个完全的新手,我…...

Layerdivider终极指南:3步完成专业PSD分层,大幅提升设计效率

Layerdivider终极指南:3步完成专业PSD分层,大幅提升设计效率 【免费下载链接】layerdivider A tool to divide a single illustration into a layered structure. 项目地址: https://gitcode.com/gh_mirrors/la/layerdivider 你是否曾经花费数小时…...

HybridCLR的底层原理

HybridCLR(原名huatuo)是一个为Unity IL2CPP后端设计的原生C#热更新解决方案。它通过扩展Unity的IL2CPP运行时,将其从纯AOT(提前编译)模式改造为 “AOT 解释器”混合运行时,从而原生支持动态加载.NET程序集…...

工业五官:04 电感、电容、光电、超声波:谁才是工厂最强“探测四兄弟”?

04 电感、电容、光电、超声波:谁才是工厂最强“探测四兄弟”? 今天聊位置和接近传感器——就是专门干“有没有东西”“靠没靠近”“到了没”这仨活儿的。工厂里,传送带上零件一过,机械手一抓,门一开一关,全靠这四兄弟瞪大眼睛盯着。它们不吹牛,不睡觉,比你家看门狗靠谱…...

基于单片机的汽车雨刷器装置

文章目录一、摘要二、系统设计总体思路三、系统方案设计四、效果图源码获取一、摘要 下雨天时道路十分模糊,能见度非常低,司机分散注意力去手动打开雨刷器开关会非常危险。据统计,全世界雨天行车的车祸事故有7%是因为司机手动打开…...

TiMem实战:构建有长期记忆的AI 学习助手,自动追踪薄弱点和学习进度

TiMem 实战:构建有长期记忆的 AI 学习助手,自动追踪薄弱点和学习进度 一、现有 AI 学习助手的结构性缺陷 当前市面上的 AI 学习工具(无论是 ChatGPT、Claude 还是各类 AI 教育产品)都有一个共同缺陷:无状态。每次会话结…...

三步实现Joy-Con模拟Xbox手柄:解决低成本游戏外设适配难题

三步实现Joy-Con模拟Xbox手柄:解决低成本游戏外设适配难题 【免费下载链接】XJoy 项目地址: https://gitcode.com/gh_mirrors/xjo/XJoy 在游戏世界中,拥有合适的控制器往往能带来截然不同的体验。然而,专用游戏手柄动辄数百元的价格让…...

科研论文翻译难题?试试MathTranslate的公式无损转换方案

科研论文翻译难题?试试MathTranslate的公式无损转换方案 【免费下载链接】MathTranslate translate scientific papers in latex, especially arxiv papers 项目地址: https://gitcode.com/gh_mirrors/ma/MathTranslate 学术研究中,英文文献阅读往…...

机器翻译大揭秘:电脑是如何学会“说人话”的?

📝 想获取更多技术干货?欢迎关注我的微信公众号【小布的学习手记】,第一时间获取最新文章和学习资源! 版权声明:本文同步发布于个人博客。欢迎交流与转载,但请务必注明出处。 你是否想过,当你按…...

终极指南:如何用Transmission Remote GUI实现跨平台BT下载远程管理

终极指南:如何用Transmission Remote GUI实现跨平台BT下载远程管理 【免费下载链接】transgui 🧲 A feature rich cross platform Transmission BitTorrent client. Faster and has more functionality than the built-in web GUI. 项目地址: https://…...

突破英雄联盟回放困境:ROFL播放器的全方位解决方案

突破英雄联盟回放困境:ROFL播放器的全方位解决方案 【免费下载链接】ROFL-Player (No longer supported) One stop shop utility for viewing League of Legends replays! 项目地址: https://gitcode.com/gh_mirrors/ro/ROFL-Player 当你想回顾上周那场惊心动…...

UnrealPakViewer:虚幻引擎资源分析与Pak文件解析工具指南

UnrealPakViewer:虚幻引擎资源分析与Pak文件解析工具指南 【免费下载链接】UnrealPakViewer 查看 UE4 Pak 文件的图形化工具,支持 UE4 pak/ucas 文件 项目地址: https://gitcode.com/gh_mirrors/un/UnrealPakViewer 作为虚幻引擎开发者&#xff0…...

SQL代码质量守护神:sql-lint实现数据库开发效率革命性突破

SQL代码质量守护神:sql-lint实现数据库开发效率革命性突破 【免费下载链接】sql-lint An SQL linter 项目地址: https://gitcode.com/gh_mirrors/sq/sql-lint 在现代数据库开发流程中,SQL代码的质量直接关系到系统稳定性与数据安全。据行业统计&a…...

跨设备移动计算的挑战与突破:Portable-VirtualBox实现系统随身化方案

跨设备移动计算的挑战与突破:Portable-VirtualBox实现系统随身化方案 【免费下载链接】Portable-VirtualBox Portable-VirtualBox is a free and open source software tool that lets you run any operating system from a usb stick without separate installatio…...

飞书机器人接入OpenClaw:千问3.5-35B-A3B-FP8实现群聊问答自动化

飞书机器人接入OpenClaw:千问3.5-35B-A3B-FP8实现群聊问答自动化 1. 为什么选择OpenClaw飞书千问3.5组合? 去年我在团队内部尝试用各种工具搭建智能问答系统时,发现三个核心痛点:一是公有云API调用成本高且数据要出域&#xff0…...

资源获取工具全流程指南:从问题诊断到高效下载实战

资源获取工具全流程指南:从问题诊断到高效下载实战 【免费下载链接】res-downloader 视频号、小程序、抖音、快手、小红书、直播流、m3u8、酷狗、QQ音乐等常见网络资源下载! 项目地址: https://gitcode.com/GitHub_Trending/re/res-downloader 问题发现&…...

黑丝空姐-造相Z-Turbo入门:Git版本控制下的模型项目管理

黑丝空姐-造相Z-Turbo入门:Git版本控制下的模型项目管理 你是不是也遇到过这种情况?团队里几个人一起调一个AI模型,今天你改了下提示词,明天他更新了模型参数,结果谁也不知道哪个版本的效果最好。或者,辛辛…...

mujoco无人机实战建模(二)

前言 我们先复习一下我们的建模顺序 1.全局环境搭建 2.资源准备 3.骨架构建 4.定义自由度(Joints)5.添加形状(Geoms)6添加约束与传动 7 添加动力 8 添加观测 如果有忘记的伙伴可以去看我的第一篇文章mujoco建模(一) 我们这篇文…...

掌握AI专著写作密码,优质工具介绍助你快速完成学术专著

学术专著创作难题与AI工具助力 写学术专著的挑战,除了“能够写出来”以外,还有“能够出版并获得认可”的难题。在出版行业中,学术专著的目标群体相对狭窄,出版社对选题的学术价值和作者的影响力有严格的要求,因此很多…...

3步解锁LunaTranslator:零基础也能掌握的视觉小说翻译解决方案

3步解锁LunaTranslator:零基础也能掌握的视觉小说翻译解决方案 【免费下载链接】LunaTranslator 视觉小说翻译器 / Visual Novel Translator 项目地址: https://gitcode.com/GitHub_Trending/lu/LunaTranslator 日语视觉小说语言障碍让你望而却步&#xff1f…...

番茄小说下载器:终极开源工具,轻松构建个人数字图书馆 [特殊字符]

番茄小说下载器:终极开源工具,轻松构建个人数字图书馆 📚 【免费下载链接】Tomato-Novel-Downloader 番茄小说下载器不精简版 项目地址: https://gitcode.com/gh_mirrors/to/Tomato-Novel-Downloader 还在为网络小说阅读体验差而烦恼吗…...

AI专著写作工具盘点,快速生成、润色,满足你的所有需求

学术专著创作:在深度与广度间寻求平衡及AI工具助力 撰写学术专著时,我们必须在“内容深度”与“覆盖广度”之间寻求一种理想的平衡,这也是许多研究者面临的一个挑战。从深度的角度来看,AI写专著需要具备扎实的学术基础&#xff0…...

HY-MT1.5-1.8B翻译模型应用场景:跨境电商、多语言客服、文档翻译

HY-MT1.5-1.8B翻译模型应用场景:跨境电商、多语言客服、文档翻译 1. 轻量级翻译模型的核心价值 在全球化商业环境中,语言障碍仍然是企业拓展国际市场的主要挑战之一。HY-MT1.5-1.8B作为一款专为实际业务场景优化的轻量级翻译模型,其"小…...

设计一个简单的图书借阅管理系统。

设计一个简单的图书借阅管理系统。系统初始包含若干本图书,每本图书的信息包括: 书号(字符串) 书名(字符串) 作者(字符串) 库存数量(整数) 另外,系…...

解决IDE性能瓶颈与代码补全效率问题:TabNine AI引擎架构优化与生产环境部署实践

解决IDE性能瓶颈与代码补全效率问题:TabNine AI引擎架构优化与生产环境部署实践 【免费下载链接】TabNine AI Code Completions 项目地址: https://gitcode.com/gh_mirrors/ta/TabNine TabNine是一款基于人工智能的全语言代码自动补全工具,通过深…...

TabNine终极指南:如何利用AI代码补全彻底改变你的开发体验

TabNine终极指南:如何利用AI代码补全彻底改变你的开发体验 【免费下载链接】TabNine AI Code Completions 项目地址: https://gitcode.com/gh_mirrors/ta/TabNine 在当今快节奏的软件开发世界中,效率是每个开发者追求的核心目标。TabNine作为一款…...