当前位置：首页 > article >正文

手把手教你用Ollama在海光K100-AI上跑大模型（含完整驱动安装指南）

article 2026/3/19 3:18:36

手把手教你用Ollama在海光K100-AI上跑大模型含完整驱动安装指南在国产化技术浪潮中海光DCUDeep Computing Unit作为自主可控的加速计算平台正逐渐成为AI开发者的新选择。本文将带你从零开始在海光K100-AI上部署Ollama大模型推理框架涵盖驱动安装、环境配置到模型运行的完整流程。无论你是想体验国产硬件的大模型性能还是需要在特定环境中部署AI服务这篇指南都能提供实用参考。1. 海光K100-AI环境准备1.1 硬件与系统要求在开始前请确保你的设备满足以下基本条件硬件配置海光K100-AI加速卡至少1张x86_64架构服务器建议内存≥64GB存储空间≥100GB用于模型和依赖操作系统Ubuntu 20.04/22.04 LTS推荐CentOS 7.9/8.4需注意内核版本兼容性提示使用uname -r确认内核版本建议保持系统更新至最新稳定版1.2 基础依赖安装根据系统类型选择对应命令Ubuntu系统sudo apt update sudo apt install -y \ gcc g cmake automake \ libelf-dev libdrm-amdgpu1 \ libtinfo5 pciutils libdrm-dev \ linux-headers-$(uname -r) \ linux-modules-extra-$(uname -r)CentOS系统sudo yum install -y \ rpm-build gcc-c cmake automake \ elfutils-libelf-devel libdrm libdrm-devel \ pciutils kernel-devel-$(uname -r) \ kernel-modules-extra-$(uname -r)安装完成后建议重启系统以确保内核模块加载正常。2. DCU驱动安装与验证2.1 驱动获取与安装从海光官方渠道获取最新驱动通常为.run格式执行以下命令完成安装chmod x rock-dkms*.run sudo ./rock-dkms*.run sudo systemctl restart hymgr注意若系统提示vbios需要升级必须重启服务器才能生效2.2 驱动状态检查安装成功后使用以下命令验证hy-smi # 查看DCU设备状态 rocminfo | grep gfx # 确认设备架构版本正常输出应包含类似信息Name: K100-AI GFX Version: gfx928 Memory: 32768 MB若遇到驱动问题可尝试重新加载内核模块sudo modprobe -r amdgpu sudo modprobe amdgpu3. 容器化环境配置3.1 准备DCU专用Docker海光提供了预配置的PyTorch镜像包含完整的DCU支持docker pull image.sourcefind.cn:5000/dcu/admin/base/pytorch:2.3.0-py3.10-dtk24.04.3-ubuntu20.04启动容器时需要特殊参数启用DCU支持docker run --shm-size 500g \ --networkhost \ --privileged \ --device/dev/kfd \ --device/dev/dri \ --group-add video \ --cap-addSYS_PTRACE \ --security-opt seccompunconfined \ -v /opt/hyhal:/opt/hyhal:ro \ -v $(pwd):/workspace \ -it IMAGE_ID bash关键参数说明参数作用--device/dev/kfd启用KFD设备接口--group-add video授予视频设备访问权限--shm-size 500g设置共享内存大小3.2 容器内环境验证进入容器后执行以下测试python3 -c import torch; print(torch.cuda.is_available()) # 应返回True rocminfo # 检查DCU设备识别情况4. Ollama编译与部署4.1 源码获取与准备git clone -b 0.5.7 http://developer.sourcefind.cn/codes/OpenDAS/ollama.git --depth1 cd ollama安装指定版本的Go语言环境wget https://go.dev/dl/go1.23.4.linux-amd64.tar.gz sudo tar -C /usr/local -xzf go1.23.4.linux-amd64.tar.gz export PATH$PATH:/usr/local/go/bin提示国内用户可设置Go代理加速下载go env -w GOPROXYhttps://goproxy.cn,direct4.2 编译Ollama设置必要的环境变量后开始编译export LIBRARY_PATH/opt/dtk/lib:$LIBRARY_PATH make -j $(nproc) go build .编译成功后当前目录会生成ollama可执行文件。4.3 服务端配置启动服务前需设置设备参数export HSA_OVERRIDE_GFX_VERSION9.2.8 # K100-AI对应值 export ROCR_VISIBLE_DEVICES0 # 使用第一张DCU卡 ./ollama serve常见设备对应值设备型号GFX版本Z100L9.0.6K1009.2.6K100-AI9.2.85. 模型运行与优化5.1 基础模型运行新建终端进入容器执行交互命令./ollama run deepseek-r1:671b常用管理命令ollama ps查看资源占用ollama list显示已下载模型ollama pull model下载新模型5.2 多卡并行配置若要使用多张DCU卡修改环境变量export ROCR_VISIBLE_DEVICES0,1,2,3 # 使用前4张卡在模型运行命令中添加并行参数./ollama run --parallel 4 deepseek-r1:671b5.3 性能调优建议内存优化增加Docker共享内存大小--shm-size设置OMP_NUM_THREADS为物理核心数计算优化export HCC_AMDGPU_TARGETgfx928 export HIP_VISIBLE_DEVICES$ROCR_VISIBLE_DEVICES模型量化优先使用4-bit量化版本模型考虑使用--quantize q4_0参数6. 常见问题排查驱动加载失败检查/var/log/hymgr.log日志确认内核头文件版本与运行内核一致模型运行卡顿hy-smi -l # 监控DCU利用率 top -H -p $(pgrep ollama) # 查看线程状态容器内设备不可见确认docker run参数正确检查/dev/dri设备权限编译错误确保LIBRARY_PATH包含DCU库路径检查Go版本是否为1.23.4实际部署中发现海光K100-AI在运行70亿参数模型时推理速度能达到约15 tokens/sFP16精度显存占用控制在24GB以内。相比同级别GPU在特定模型上展现出不错的性价比优势。

手把手教你用Ollama在海光K100-AI上跑大模型（含完整驱动安装指南）

相关文章：

手把手教你用Ollama在海光K100-AI上跑大模型（含完整驱动安装指南）

Word论文排版避坑指南：从页边距到Visio插图的10个实用技巧

语义通信避坑指南：当你的Deep Learning模型遇到动态数据环境怎么办？

5分钟搞定！AI股票分析师镜像开箱即用，输入代码即出分析报告

STC8A8K64D4 vs STC15：老司机带你选型，升级到8位机‘性能小钢炮’的5个理由

别再让FormData坑你了！Minio前端直传的正确姿势（SpringBoot + Axios实战）

保姆级教程：用WinToGo在移动硬盘上安装Windows系统（支持MacBook）

为什么MAX22201能省掉检测电阻？深度解析H桥驱动芯片的电流检测黑科技

Keystone vs TrustZone全面对比：为什么RISC-V的TEE方案更适合物联网安全？

InternLM2-Chat-1.8B模型API接口封装与调试：使用Postman进行测试

Windows 平台下，通过 ESP32 JTAG 接口实现固件烧录与调试

QT 5.15环境下QGC 4.4源码编译与疑难排错指南

【ICCV 2025】MaskAttn-UNet：低分辨率分割新突破，即插即用模块助力精准识别

Three——优化glb模型加载性能的DRACOLoader实践

QT-学生成绩管理系统：从零到一构建桌面端数据库应用

高精度与快速幂实战：从信息学奥赛真题解析2^N的高效计算

InstructPix2Pix人像美化实战：去瑕疵、美白牙齿、换发型

STM32红外避障模块实战：从轮询到中断的避障策略优化

基于n8n构建企业级智能客服RAG知识库：实战架构与避坑指南

Lychee模型微服务架构设计：高可用部署方案

Transformer架构深度解析：丹青幻境绘制注意力机制动态图

Ubuntu 22.04 下 ORBSLAM3 的完整部署与 RGB-D TUM 数据集实战评测

基于Whisper与Python的音频处理：实现简易说话人区分系统

黑丝空姐-造相Z-Turbo性能优化：利用LSTM思想改进生成序列连贯性

R语言实战：从ceRNA网络构建到核心调控模块挖掘

KMS_VL_ALL_AIO：一键激活Windows与Office的全能解决方案

Copilot认证后强制使用GPT-4o模型的底层逻辑与开发者应对策略

深岩银河存档编辑器全面掌控专业指南：从入门到精通的游戏数据管理艺术

深度学习项目训练环境实战案例：在预装环境中完成图像分类模型微调与剪枝

SAP ABAP实战：如何优雅地实现动态ListBox（含避坑指南）