当前位置: 首页 > article >正文

ollama v0.20.4 正式发布!MLX 性能大幅提升 , Gemma4 闪光注意力全面启用

前言2026年4月9日本地大模型运行框架ollama正式推出v0.20.4 Latest稳定版本。本次更新围绕MLX硬件加速性能优化、Gemma4系列模型支持、前端代码规范、Safetensors模型创建流程、函数调用输出能力、MLX动态库兼容、集成测试体系搭建等多个核心维度展开共计8次提交、51个文件变更由4位贡献者共同完成整体新增2458行代码、删除215行代码在保持框架稳定性的同时进一步强化了对新型大模型、多硬件平台以及自定义模型部署的支持能力。本文将基于官方完整提交记录与文件变更明细对ollama v0.20.4的每一项更新进行逐点拆解覆盖核心功能优化、代码结构调整、兼容性修复、测试用例新增、底层库加载逻辑改进等全部内容不遗漏任何一处技术变更为开发者提供可直接参考的完整更新指南。一、ollama v0.20.4整体更新概览本次v0.20.4版本发布时间为2026年4月9日核心提交集中在4月7日与4月8日整体变更可划分为六大核心板块底层推理加速优化MLX框架M5性能提升、Gemma4闪光注意力启用与兼容修复模型创建流程重构实验性路径清理、Safetensors模型导入修复与逻辑简化前端UI代码规范整改未使用变量、常量声明、空捕获语句等语法问题修复接口能力扩展函数调用输出数组类型支持硬件兼容强化macOS Metal版本检测、旧GPU闪光注意力禁用、MLX库路径匹配优化测试体系完善新增图像生成集成测试、Safetensors解析单元测试、模型创建集成测试从代码改动规模来看本次更新以新增功能与兼容修复为主删除代码多为冗余逻辑与废弃路径整体架构更加精简高效同时大幅完善了测试覆盖保障自定义模型、多模态模型、Safetensors格式模型的运行稳定性。二、核心功能更新逐点解析一MLX框架性能优化M5性能提升与NAX技术应用本次更新首项核心优化针对MLX框架通过NAX技术实现M5硬件平台的推理性能提升。MLX作为苹果生态下的高性能数值计算框架是ollama在macOS平台实现GPU加速的核心依赖本次针对M5芯片的专项优化直接提升了本地大模型在苹果最新硬件上的推理速度、吞吐量与内存利用效率。该优化直接面向硬件底层计算调度通过NAX指令集与计算流水线优化减少推理过程中的冗余计算与内存拷贝在运行参数量更大的语言模型与多模态模型时能够显著降低首token生成延迟提升连续对话流畅度。该项改动属于底层推理引擎核心优化无需用户额外配置更新后即可自动生效。二Gemma4模型全面支持闪光注意力启用与兼容修复Gemma4作为新一代轻量级高性能大模型在ollama v0.20.4中获得完整支持核心更新包括两项正式启用闪光注意力Flash Attention闪光注意力是提升Transformer模型推理效率的关键技术能够大幅降低注意力计算的内存占用与计算耗时本次更新将Gemma4加入闪光注意力支持列表在GGML底层代码中完成配置注册使Gemma4模型在支持的GPU平台上自动开启闪光注意力加速。旧GPU平台闪光注意力兼容修复考虑到部分老旧显卡不兼容闪光注意力实现本次更新针对性添加了旧GPU禁用逻辑避免因硬件不兼容导致的推理崩溃、内存溢出或速度异常下降保障不同世代GPU用户都能稳定运行Gemma4模型。同时本次更新还补充了Gemma4相关缺失文件完善模型加载依赖解决了此前版本中Gemma4模型加载失败、配置缺失的问题实现从模型加载到推理运行的全流程稳定支持。三模型创建流程重构实验性路径清理与Safetensors修复ollama的模型创建功能是自定义模型部署的核心入口本次更新对create命令相关逻辑进行全面重构清理实验性路径简化代码结构删除冗余的实验性路径引用合并重复逻辑减少代码维护成本同时保留核心的Safetensors模型创建与图像生成模型创建能力仅通过–experimental flag进行功能管控保持接口简洁统一。修复从现有Safetensors创建模型的问题修复了在使用本地Safetensors格式模型文件创建ollama模型时的路径错误、文件读取异常问题支持直接从本地Safetensors权重目录导入模型配合Modelfile完成自定义配置大幅降低开源模型本地化部署门槛。远程模型创建限制明确在实验性模式下明确限制远程Safetensors模型创建仅支持本地服务器操作避免因网络传输、文件权限等问题导致模型创建失败提升使用确定性。四函数调用能力升级支持输出数组类型ollama的函数调用Function Call能力在v0.20.4中得到扩展新增对函数调用输出数组的支持。此前版本中函数调用返回结果多为单值对象难以满足批量数据返回、多结果返回场景本次更新后模型可直接返回数组格式的函数调用输出适配更复杂的工具调用、数据处理、多步骤推理业务场景提升框架在企业级应用中的实用性。该项改动位于responses模块直接扩展API响应结构前端与后端服务均可无缝对接新的返回格式无需额外适配改造。三、前端UI代码规范全面整改本次更新对app/ui前端代码进行系统性语法规范修复覆盖多个核心组件提升代码健壮性与可维护性Message.tsx组件优化移除JSON解析捕获语句中的无用异常变量将catch(e)简化为catch()消除未使用变量告警统一异常处理逻辑保持代码风格一致避免因语法告警导致构建失败。MessageList.tsx组件优化清理空捕获语句添加注释明确忽略逻辑消除lint工具对空catch的警告提升代码可读性。Badge.tsx与Button.tsx组件优化将可变变量let声明改为常量const声明符合前端代码最佳实践减少意外变量修改风险同时保持样式类计算逻辑不变不影响UI展示效果。本次前端整改全部为语法规范优化不改变任何交互逻辑与UI展示效果能够有效降低长期维护成本避免因代码规范问题导致的构建报错。四、底层硬件兼容与库加载逻辑强化一MLX动态库加载机制优化切换默认HTTP客户端简化MLX模块网络请求逻辑使用系统默认HTTP客户端减少第三方依赖提升网络请求稳定性避免因自定义客户端配置导致的连接异常。MLX库路径匹配规则优化在GPU设备发现逻辑中添加mlx_前缀过滤避免因路径匹配错误导致的MLX库加载失败精准识别mlx_开头的硬件加速库目录提升苹果芯片与NVIDIA GPU平台的库加载成功率。二macOS Metal版本兼容性检测新增macOS系统版本检测逻辑针对Metal加速库做严格兼容判断新增dynamic_darwin.go文件通过syscall读取macOS系统主版本号对mlx_metal_v4及以上版本进行限制仅在macOS 26及以上系统启用避免在低版本macOS上加载高版本Metal着色器导致渲染失败、推理崩溃非macOS平台直接跳过检测保持跨平台一致性该项优化解决了长期存在的旧版macOS运行MLX加速异常的问题提升跨系统版本兼容性。三统一MLX变体加载策略对mlx_*目录进行倒序排序加载优先加载高版本MLX库如mlx_metal_v4优先于mlx_metal_v3自动跳过不兼容硬件平台的变体实现硬件自适应加载无需用户手动指定库路径。五、Safetensors模块重构与测试体系完善一Safetensors解析模块独立重构将原位于x/imagegen/safetensors的extractor.go迁移至x/safetensors目录实现Safetensors解析能力独立化不再与图像生成模块强绑定支持语言模型、多模态模型统一使用Safetensors解析逻辑提升代码复用性。该模块提供完整的Safetensors文件读取、张量信息提取、原始数据读取、打包与解包能力核心功能包括读取Safetensors文件头解析张量名称、数据类型、形状、数据偏移提取指定张量原始数据支持F32、F16、U8等多种数据类型构建打包Safetensors格式数据支持多张量合并自动过滤__metadata__字段避免元数据干扰张量解析二新增大量集成测试与单元测试本次更新大幅扩充测试用例提升代码质量与稳定性新增create_imagegen_test.go107行实现图像生成模型完整集成测试覆盖模型下载、Modelfile创建、ollama create执行、图像生成、格式校验、模型删除全流程要求最低13GB显存支持验证Z-Image-Turbo等多模态模型的创建与推理能力。新增create_test.go350行实现Safetensors格式LLM模型集成测试以TinyLlama-1.1B为测试对象验证从HuggingFace下载模型、通过实验性模式创建ollama模型、模型信息查看、对话推理等全流程能力同时添加远程服务器跳过逻辑保障测试可靠性。新增extractor_test.go394行覆盖Safetensors解析模块全功能测试包括文件创建、张量读取、异常处理、循环读写校验、元数据过滤、多张量打包等场景保障解析逻辑零错误。测试体系的完善使ollama在自定义模型、多模态模型、Safetensors模型支持上具备更强的稳定性保障减少版本更新带来的兼容性问题。六、配置文件与辅助文件更新.github/workflows/release.yaml将macOS构建环境从macos-14-xlarge升级为macos-26-xlarge适配最新苹果硬件构建需求提升发布包兼容性。.gitignore新增integration/testdata/models/目录忽略规则避免测试模型文件被提交至仓库保持仓库整洁。七、ollama v0.20.4更新对开发者的实际价值硬件性能进一步释放MLX M5优化与Gemma4闪光注意力启用使苹果芯片用户获得更高推理速度老旧GPU也能稳定运行新型模型。自定义模型部署更简单Safetensors导入修复、实验性路径简化让开源模型一键转为ollama可用格式降低本地化部署成本。企业级应用能力增强函数调用数组输出支持适配复杂工具链与业务系统提升框架实用价值。跨平台兼容性大幅提升Metal版本检测、MLX库自适应加载解决不同系统、不同硬件的运行异常问题。代码质量与可维护性升级前端规范整改、模块重构、全面测试覆盖为后续版本迭代打下稳定基础。八、总结代码地址github.com/ollama/ollamaollama v0.20.4作为2026年4月的最新稳定版以“性能提升、模型适配、兼容强化、测试完善”为核心完成了从底层推理引擎、模型管理流程、前端代码规范到硬件兼容逻辑的全链路升级。8次提交、51个文件变更看似规模不大但每一处改动都精准解决实际使用痛点尤其是对Gemma4的完整支持、MLX硬件加速优化、Safetensors模型创建修复以及测试体系的全面搭建直接提升了ollama在本地大模型部署领域的竞争力。

相关文章:

ollama v0.20.4 正式发布!MLX 性能大幅提升 , Gemma4 闪光注意力全面启用

前言 2026年4月9日,本地大模型运行框架ollama正式推出v0.20.4 Latest稳定版本。本次更新围绕MLX硬件加速性能优化、Gemma4系列模型支持、前端代码规范、Safetensors模型创建流程、函数调用输出能力、MLX动态库兼容、集成测试体系搭建等多个核心维度展开,…...

2026-04-10:连接非零数字并乘以其数字和Ⅱ。用go语言,对每个查询区间 [l, r],按以下步骤处理字符串中的连续片段 s[l..r]: 1.在该子串中按从左到右的顺序,把所有“非零”字符数字

2026-04-10:连接非零数字并乘以其数字和Ⅱ。用go语言,对每个查询区间 [l, r],按以下步骤处理字符串中的连续片段 s[l…r]: 1.在该子串中按从左到右的顺序,把所有“非零”字符数字依次拼接成一个新整数 x;如…...

ESP32驱动A7608SA-H LTE Cat.1模组全栈固件库

1. 项目概述Modem-a7608sa-library是一个专为 ESP32 平台深度优化的开源固件库,面向 SIMCom A7608SA-H LTE Cat.1 模组提供全栈式驱动支持。该模组采用 LCC 封装,集成 LTE-FDD 频段(B1/B3/B5/B8/B20/B28)、GSM/GPRS(90…...

OpenClaw学习助手:Qwen3.5-9B生成Anki记忆卡片与错题集

OpenClaw学习助手:Qwen3.5-9B生成Anki记忆卡片与错题集 1. 为什么需要AI驱动的学习助手? 作为一名经常需要记忆大量知识点的学生,我一直在寻找更高效的学习方法。传统的手工制作Anki卡片不仅耗时耗力,而且很难保证知识点的系统性…...

实时行情系统设计:从协议选择到高可用架构,再到数据源选型睬

一、核心问题及解决方案(按踩坑频率排序) 问题 1:误删他人持有锁——最基础也最易犯的漏洞 成因:释放锁时未做身份校验,直接执行 DEL 命令删除键。典型场景:服务 A 持有锁后,业务逻辑耗时超过锁…...

【GraalVM静态镜像内存优化终极指南】:20年JVM专家亲授3大内存压缩技法,启动速度提升87%的私密实践

第一章:GraalVM静态镜像内存优化快速接入全景概览GraalVM 静态镜像(Native Image)通过提前编译(AOT)将 Java 应用编译为独立、无 JVM 依赖的原生可执行文件,在启动速度与内存占用方面具备显著优势。然而&am…...

大模型“入侵”广告推荐

引言:一次失败的“All in LLM”实验去年,某头部信息流平台进行了一次激进的实验:尝试用一个大语言模型(LLM)完全替换其精排层的深度模型。核心逻辑是:既然LLM能理解一切,那么理解用户和内容&…...

OpenClaw二次开发:基于Qwen3-14B扩展自定义自动化协议

OpenClaw二次开发:基于Qwen3-14B扩展自定义自动化协议 1. 为什么需要自定义协议 去年夏天,当我尝试用OpenClaw控制实验室的智能家居设备时,发现现有的指令集无法满足红外遥控和Zigbee设备联动的需求。官方提供的标准协议主要针对办公场景的…...

2025届毕业生推荐的降AI率助手解析与推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在内容创作这个范畴里,要降低AIGC也就是人工智能生成内容的那种明显特征&#xf…...

HSA:FcRn中和抗体筛选化学发光检测试剂盒:FcRn-lgG半衰期延长工程化抗体筛选

新生儿Fc受体(FcRn)是一种由FCGRT基因编码的Fcγ受体与β2-微球蛋白(B2M)组成的异源二聚体蛋白。FcRn在超过25种组织中表达,脾脏和肠道中水平最高,其核心功能是结合并保护单体免疫球蛋白G(IgG&a…...

高性能客服系统技术内幕:通过 SpinWait 自旋等待结构体提升高频消息分发性能舶

1. 智能软件工程的范式转移:从库集成到原生框架演进 在生成式人工智能(Generative AI)从单纯的文本生成向具备自主规划与执行能力的“代理化(Agentic)”系统跨越的过程中,.NET 生态系统正在经历一场自该平台…...

科研人福音!PaperOrchestra 把实验日志变投稿论文,文献综述图表全包

AI能替你写论文了?谷歌这个多智能体框架,从实验记录直接生成投稿级论文!研究背景 做AI研究的人都懂那种痛苦:实验跑完了,数据也有了,但把这些东西整理成一篇像样的论文,往往比做实验本身还费劲。…...

节能模式:OpenClaw+Qwen3.5-9B定时任务CPU优化方案

节能模式:OpenClawQwen3.5-9B定时任务CPU优化方案 1. 为什么需要关注OpenClaw的能耗问题 去年冬天,我的MacBook Pro风扇突然在凌晨三点狂转,把我从睡梦中惊醒。排查后发现是OpenClaw正在执行夜间数据抓取任务,Qwen3.5-9B模型的全…...

AI最强模型发布却说太危险不能公开:这次不是演习

Anthropic刚刚发布了一个AI模型,然后说:太危险,不能让你用 :2026年4月7日,Anthropic发布了一个叫Claude Mythos Preview的新模型。它能自主发现数千个零日漏洞,覆盖所有主流操作系统。它能在未经专项安全训练的情况下&…...

SQL中如何使用窗口函数实现Top N推荐系统

用 ROW_NUMBER() 配合 PARTITION BY user_id 获取每个用户的 Top N 推荐最稳妥,RANK() 和 DENSE_RANK() 因处理重复分数会导致条数不可控,如并列第1时 RANK() 跳至第3,易使 WHERE rn ≤ N 漏取或超取。窗口函数怎么写才能拿到每个用户的Top N…...

腾讯后端开发面经:一面 3 道算法压 30 分钟,二面开始全是场景题

腾讯后端开发面经:一面 3 道算法压 30 分钟,二面开始全是场景题 腾讯后端的面试,压强来得很快。 很多公司的节奏是:先聊项目,再问八股,最后来一道算法题。 腾讯不是。 这次整理到的一份真实面经里&#…...

JavaScript中WebWorker实现多线程计算避开主线程

Web Worker 是 JavaScript 实现多线程计算的核心机制,通过独立线程执行耗时逻辑(如大数据处理、加密解密等),避免阻塞主线程;需单独 JS 文件编写纯计算逻辑,用 postMessage 通信,仅支持结构化克…...

% 的人都用错了!Playwright vs Chrome DevTools MCP到底该怎么选?惩

一、环境准备 Free Spire.Doc for Python 是免费 Python 文档处理库,无需依赖 Microsoft Word,支持 Word 文档的创建、编辑、转换等操作,其中内置的 Markdown 解析能力,能高效实现 Markdown 到 Doc/Docx 格式的转换,且…...

医疗数据报表无数据问题完整排查复盘

一、场景与问题说明本次问题发生在医疗数据中台病案相关报表开发中,具体场景为:超声门诊科室相关的业务报表,在展示检查项目名称、执行医生这两个关键字段时,完全无数据展示,前端页面一片空白,客户直接反馈…...

大模型这么强,为啥还用YOLO和NLP?

你有没有想过一个问题 GPT-4o能看图说话,Claude能分析图表,Gemini能识别视频里的每一帧。大模型的视觉能力已经强到离谱了,NLP更是不在话下。 那为什么工业界还在用YOLO做目标检测?还在用BERT做文本分类? 是不懂&#…...

【GUI-Agent】阶跃星辰 GUI-MCP 解读---()---HITL(Human In The Loop)鬃

插件化架构 v3 版本最大的变化是引入了模块化插件系统。此前版本中集成在核心包里的原生功能,现在被拆分成独立的插件。 每个插件都是一个独立的 Composer 包,包含 Swift 和 Kotlin 代码、权限清单以及原生依赖。开发者只需安装实际用到的插件&#xff0…...

第九章:Vite API 参考手册

第九章:Vite API 参考手册 9.1 核心 API createServer 创建 Vite 开发服务器 import { createServer } from viteconst server await createServer({configFile: false,root: __dirname,server: { port: 3000 } })await server.listen() console.log(服务器启动在,…...

汽车质量体系_1

从逻辑关系看,ISO9000是最底层的通用质量管理框架,定义了质量管理的基本术语和原则,适用于所有组织。IATF16949在ISO9001的基础上,针对汽车行业的特殊性,提出了更具体的质量管理要求,覆盖从设计、生产到服务…...

营销自动化数据驱动 - 多源数据 OLAP 架构演进们

1. 流图:数据的河流 如果把传统的堆叠面积图想象成一块块整齐堆叠的积木,那么流图就像一条蜿蜒流淌的河流,河道的宽窄变化自然流畅,波峰波谷过渡平滑。 它特别适合展示多个类别数据随时间的变化趋势,尤其是当你想强调整…...

C#/.NET/.NET Core优秀项目和框架2026年3月简报

前言 公众号每月定期推广和分享的C#/.NET/.NET Core优秀项目和框架(每周至少会推荐两个优秀的项目和框架当然节假日除外),公众号推文中有项目和框架的详细介绍、功能特点、使用方式以及部分功能截图等(打不开或者打开GitHub很慢的…...

30分钟掌握OpenClaw:千问3.5-9B新手训练营

30分钟掌握OpenClaw:千问3.5-9B新手训练营 1. 为什么选择OpenClaw千问3.5-9B组合 去年我在尝试自动化处理日常工作报告时,发现市面上的RPA工具要么太笨重,要么需要复杂的编程知识。直到遇到OpenClaw这个开源框架,配合千问3.5-9B…...

三菱PLC搭配雅马哈四轴机械手在线检测收料案例解析:融合CAD电气图纸、CClink与串口通讯...

三菱plc搭配四轴雅马哈机械手在线检测收料案例程序。 (包涵CAD电气图纸,plc程序,人机界面,机器人程序,BOM表)程序中应用到CClink通讯,232串口通讯,数据采集伺服定位控制。这项目有点…...

Linux内核中的网络协议栈详解

Linux内核中的网络协议栈详解 引言 网络协议栈是Linux内核中负责处理网络通信的核心组件,它实现了从物理层到应用层的完整网络协议,为应用程序提供了可靠的网络通信服务。Linux内核的网络协议栈支持多种协议,包括TCP/IP、UDP、ICMP等&#xf…...

分享一个网络智能运维系统

项目简介 网络智能运维系统是一款面向网络设备的一体化智能运维管理平台,旨在帮助企业 IT 运维团队高效、自动化地完成网络设备的日常巡检、配置备份、批量操作及定时任务调度等核心工作。系统支持多品牌设备(华为、H3C、思科、锐捷、Juniper、MikroTik …...

深度排查:Hyper-V 已关但 VirtualBox 仍报错的完整解决方案

一、先确认核心状态:是否真的完全关闭了 Hyper-V 1. 用命令验证 Hyper-V 状态 以管理员身份打开终端,执行以下命令,确认所有相关服务都已禁用: bcdedit /enum | findstr hypervisorlaunchtype你已经确认是 Off,再执行&…...