当前位置: 首页 > news >正文

【AI系统】昇腾推理引擎 MindIE

昇腾推理引擎 MindIE

本文将介绍华为昇腾推理引擎 MindIE 的详细内容,包括其基本介绍、关键功能特性以及不同组件的详细描述。

本文内容将深入探讨 MindIE 的三个主要组件:MindIE-Service、MindIE-Torch 和 MindIE-RT,以及它们在服务化部署、大模型推理和推理运行时方面的功能特性和应用场景。通过本节的介绍,读者将对 MindIE 有一个全面的了解,包括其如何支持 AI 业务的高效运行和模型的快速部署。

MindIE 基本介绍

MindIE(Mind Inference Engine,昇腾推理引擎)是华为昇腾针对 AI 全场景业务的推理加速套件。通过分层开放 AI 能力,支撑用户多样化的 AI 业务需求,使能百模千态,释放昇腾硬件设备算力。支持多种主流 AI 框架,提供多层次编程接口,帮助用户快速构建基于昇腾平台的推理业务。

业界标准 RPC 接口高效对接业务层,支持 Triton 和 TGI 等主流推理服务框架,实现小时级应用部署。提供针对 LLM(transformer)和文生图(SD 模型)的加速参考代码和预置模型,开箱性能业界领先。少量代码实现训练向推理平滑迁移,昇腾训推同构小时级模型迁移,以及 GPU 模型向昇腾 2 人周高效迁移。

昇腾推理引擎支持请求并发调度和模型多实例并发调度,支持多种异步下发,多流水执行,实现高效的推理加速。支持从 PyTorch 和昇思对接从训练模型转换推理模型的过程,支持多种推理服务框架和兼容接口。提供基于昇腾架构亲和加速技术,覆盖推理全流程的图转换、组网、编译、推理执行、调试调优接口。

已发布 MindIE Service、MindIE Torch、MindIE RT 三个组件。

MindIE-Service

MindIE-Service 针对通用模型的推理服务化场景,实现开放、可扩展的推理服务化平台架构,支持对接业界主流推理框架接口,满足大语言模型、文生图等多类型模型的高性能推理需求。

MindIE-Server 作为推理服务端,提供模型服务化能力;MindIE-Client 提供服务客户端标准 API,简化用户服务调用。MindIE-Service 向下调用了 MindIE-LLM 组件能力。

MindIE-Torch

MindIE-Torch 是针对 Pytorch 框架模型的推理加速插件。Pytorch 框架上训练的模型利用 MindIE-Torch 提供的简易 C++/Python 接口,少量代码即可完成模型迁移,实现高性能推理。MindIE-Torch 向下调用了 MindIE-RT 组件能力。

MindIE-RT

MindIE-RT 是面向昇腾 AI 处理器的推理加速引擎,提供模型推理迁移相关开发接口及工具,能够将不同的 AI 框架(PyTorch、ONNX 等)上完成训练的算法模型统一为计算图表示,具备多粒度模型优化、整图下发以及推理部署等功能。集成 Transfomer 高性能算子加速库 ATB,提供基础高性能算子,和高效的算子组合技术(Graph)便于模型加速。

关键功能特性

服务化部署

MindIE-Service 是面向通用模型的推理服务化场景,实现开放、可扩展的推理服务化平台架构,支持对接业界主流推理框架接口,满足大语言模型、文生图等多类型模型的高性能推理需求。它的组件包括 MindIE-Server、MindIE-Client、Benchmark 评测工具等,一方面通过对接昇腾的推理加速引擎带来大模型在昇腾环境中的性能提升,另一方面,通过接入现有的主流推理框架生态,逐渐以性能和易用性牵引存量生态的用户向全自研推理服务化平台迁移。

支持的特性:

  • 支持大模型服务化快速部署。

  • 提供了标准的昇腾服务化接口,兼容 Triton/OpenAI/TGI/vLLM 等第三方框架接口。

  • 支持 Continuous Batching,PagedAttention。

  • 支持基于 Transformer 推理加速库(Ascend Transformer Boost)的模型接入,继承其加速能力,包括融合加速算子、量化等特性。

大模型推理

提供大模型推理能力,支持大模型业务全流程,逐级能力开放,使能大模型客户需求定制化。

  1. Pytorch 模型迁移

对接主流 Pytorch 框架,实现训练到推理的平滑迁移,提供通用的图优化并行推理能力,提供用户深度定制优化能力。MindIE-Torch 是推理引擎组件中针对 Pytorch 框架模型的推理加速插件。Pytorch 框架上训练的模型利用 MindIE-Torch 提供的简易 C++/Python 接口,少量代码即可完成模型迁移,实现高性能推理。

  1. MindIE-Torch TorchScript 支持以下功能特性
  • 支持 TorchScript 模型的编译优化,生成可直接在昇腾 NPU 设备加速推理的 TorchScript 模型。

  • 支持静态输入和动态输入,动态输入分为动态 Dims 和 ShapeRange 两种模式。

  • 编译优化时支持混合精度、FP32 以及 FP16 精度策略。

  • 支持用户自定义 converter 和自定义 pass。

  • 支持异步推理和异步数据拷贝。

  • 支持与 torch_npu 配套使用,算子可 fallback 到 torch_npu 执行。

  • 支持多语言 API(C++、Python)。

  1. MindIE-Torch ExportedProgram 支持以下功能特性:
  • 支持 ExportedProgram 的编译优化,生成可直接在昇腾 NPU 设备加速推理的 nn.Module 模型。

  • 支持静态输入和动态 ShapeRange 输入。

  • 编译优化时支持混合精度、FP32、FP16 精度策略。

  • 支持异步推理和异步数据拷贝。

  • 支持 Python API。

推理运行时

集成推理应用接口及 Transformer 加速库,提供推理迁移相关开发接口及工具,提供通用优化及并行推理能力》。MindIE-RT(Mind Inference Engine RT,昇腾推理引擎运行时)是针对昇腾 AI 处理器的推理加速引擎,提供 AI 模型推理场景下的商业化部署能力,能够将不同的 AI 框架上完成训练的算法模型统一为计算图表示,具备多粒度模型优化、整图下发以及推理部署等功能。

MindIE-RT 集成昇腾高性能算子加速库 ATB,为实现基于 Transformer 的神经网络推理加速引擎库,库中包含了各类 Transformer 类模型的高度优化模块,如 Encoder 和 Decoder 部分。

MindIE-RT 专注于为用户提供快速迁移、稳定精度以及极致性能的推理服务,让用户能够脱离底层硬件细节和不同平台框架的差异,专注于推理业务本身,实现高效的模型部署开发。并且专门针对大模型下的 Transformer 架构,提高 Transformer 模型性能,提供了基础的高性能的算子,高效的算子组合技术(Graph),方便模型加速。目前 MindIE-RT 已实现动态输入推理,解析框架模型等功能特性。

  1. MindIE-RT 支持以下功能特性
  • 支持多语言 API(C++, Python):详情参见 C++编程模型和 Python 编程模型。

  • 提供 parser,支持直接导入 AI 框架 ONNX 模型,详情参见解析框架模型。

  • 支持 Transformer 算子加速库,集成基础高性能算子,详情可见 ATB 高性能加速库使用。

  • 支持丰富的编译时优化方法和运行时优化方法,用户可以在昇腾 AI 处理器上占用较少的内存,部署更高性能的推理业务,提供的优化方法如:精度优化和常量折叠。

  1. 应用场景

MindIE-RT 是基于昇腾 AI 处理器的部署推理引擎,适用于通过 NPU、GPU、CPU 等设备训练的算法模型,为其提供极简易用且灵活的接口,实现算法从训练到推理的快速迁移。目前 MindIE-RT 的快速迁移能力已支持以下业务场景:

  • 计算机视觉。

  • 自然语言处理。

  • 推荐、检索。

  • 大模型对话。

如果您想了解更多AI知识,与AI专业人士交流,请立即访问昇腾社区官方网站https://www.hiascend.com/或者深入研读《AI系统:原理与架构》一书,这里汇聚了海量的AI学习资源和实践课程,为您的AI技术成长提供强劲动力。不仅如此,您还有机会投身于全国昇腾AI创新大赛和昇腾AI开发者创享日等盛事,发现AI世界的无限奥秘~

相关文章:

【AI系统】昇腾推理引擎 MindIE

昇腾推理引擎 MindIE 本文将介绍华为昇腾推理引擎 MindIE 的详细内容,包括其基本介绍、关键功能特性以及不同组件的详细描述。 本文内容将深入探讨 MindIE 的三个主要组件:MindIE-Service、MindIE-Torch 和 MindIE-RT,以及它们在服务化部署…...

美畅物联丨智能监控,高效运维:视频汇聚平台在储能领域的实践探索

在当今全球能源格局不断变化的大背景下,对清洁能源的需求正以惊人的速度增长。储能项目作为平衡能源供需、提升能源利用效率的关键环节,其规模和复杂度也在不断攀升。在储能项目的运营管理过程中,安全监控、设备运维以及数据管理等方面面临着…...

[SSL: UNSAFE_LEGACY_RENEGOTIATION_DISABLED]

使用requess库访问https网址时,返回 (Caused by SSLError(SSLError(1, [SSL: UNSAFE_LEGACY_RENEGOTIATION_DISABLED] unsafe legacy renegotiation disabled (_ssl.c:1147)))) 原因可能是服务器的认证方式版本太低然后requests抛弃了这种认证方式 参考&#xff…...

12.2深度学习_视觉处理CNN_池化层、卷积知识

3.池化层 3.1 概述 池化层 (Pooling) 降低维度, 缩减模型大小,提高计算速度. 即: 主要对卷积层学习到的特征图进行下采样(SubSampling)处理。 池化层主要有两种: 最大池化 max pooling 最大池化是从每个局部区域中选择最大值作为池化后的值…...

Kafka 常见面试题深度解析

一、基础概念 1. 请简要介绍 Kafka 的基本架构。 Kafka 主要由生产者(Producer)、消费者(Consumer)、代理(Broker)、主题(Topic)和分区(Partition)等组成。…...

LVS默认的工作模式支持哪些负载均衡算法?

LVS默认的工作模式支持哪些负载均衡算法? LVS(Linux Virtual Server)默认支持多种负载均衡算法,这些算法在不同的场景下具有各自的优势。以下是 LVS 默认支持的负载均衡算法及其特点: 1. 轮询调度(Round Robin Sched…...

洛谷P2670扫雷游戏(Java)

三.P2670 [NOIP2015 普及组] 扫雷游戏 题目背景 NOIP2015 普及组 T2 题目描述 扫雷游戏是一款十分经典的单机小游戏。在 n 行 m列的雷区中有一些格子含有地雷(称之为地雷格),其他格子不含地雷(称之为非地雷格)。玩…...

【算法】【优选算法】位运算(下)

目录 一、:⾯试题 01.01.判定字符是否唯⼀1.1 位图1.2 hash思路1.3 暴力枚举 二、268.丢失的数字2.1 位运算,异或2.2 数学求和 三、371.两整数之和四、137.只出现⼀次的数字 II五、⾯试题 17.19.消失的两个数字 一、:⾯试题 01.01.判定字符是…...

前端性能优化篇:防抖和节流

参考:JS问题:项目中如何区分使用防抖或节流? 面试官:什么是防抖和节流?有什么区别?如何实现? 1 为什么要用到防抖和节流 当函数绑定一些持续触发的事件如:浏览器的resize、scroll…...

同为科技(TOWE)柔性定制化PDU插座

随着科技的进步,越来越多的精密电子设备,成为工作生活密不可分的工具。 电子电气设备的用电环境也变得更为复杂,所以安全稳定的供电是电子电气设备的生命线。 插座插排作为电子电气设备最后十米范围内供配电最终核心部分,便捷、安…...

【云原生系列】云计算中的负载均衡是什么,有什么用

云计算里有一个非常重要的概念叫“负载均衡”,如果你经常听到这个词但还不太明白具体是怎么回事,这篇文章可以给你一些思路。负载均衡简单来说就是“分担压力”,确保访问量被合理地分配到各个服务器上,让系统高效且稳定地运行。 …...

工业—使用Flink处理Kafka中的数据_ChangeRecord2

使用 Flink 消费 Kafka 中 ChangeRecord 主题的数据,每隔 1 分钟输出最近 3 分钟的预警次数最多的 设备,将结果存入Redis 中, key 值为 “warning_last3min_everymin_out” , value 值为 “ 窗口结束时间,设备id” &am…...

【Java-数据结构篇】Java 中栈和队列:构建程序逻辑的关键数据结构基石

我的个人主页 我的专栏:Java-数据结构,希望能帮助到大家!!!点赞❤ 收藏❤ 一、引言 1. 栈与队列在编程中的角色定位 栈和队列作为两种基本的数据结构,在众多编程场景中都有着独特的地位。它们为数据的有序…...

工业—使用Flink处理Kafka中的数据_ProduceRecord1

1 、 使用 Flink 消费 Kafka 中 ProduceRecord 主题的数据,统计在已经检验的产品中,各设备每 5 分钟 生产产品总数,将结果存入Redis 中, key 值为 “totalproduce” , value 值为 “ 设备 id ,最近五分钟生…...

探索CSS版心布局:构建现代网页的黄金比例

探索CSS版心布局:构建现代网页的黄金比例 在网页设计中,版心(或称为内容区域)是页面的核心部分,通常用于放置主要内容。使用CSS3的新特性,可以创建更加灵活和响应式的版心布局。本文将详细介绍如何使用CSS…...

华为NPU服务器昇腾Ascend 910B2部署通义千问Qwen2.5——基于mindie镜像一路试错版(三)

文章目录 前言纯模型推理启动服务后面干什么?这可咋整啊?愁死了!总结前言 这是咱这个系列的第三个文章了。 毕竟,这是我好几天摸索出的经验,能帮助各位在几个小时内领会,我觉得也算是我的功劳一件了。 所以,一是希望大家耐心看下去,耐心操作下去;而是恳请各位多多关…...

详解Java数据库编程之JDBC

目录 首先创建一个Java项目 在Maven中央仓库下载mysql connector的jar包 针对MySQL版本5 针对MySQL版本8 下载之后,在IDEA中创建的项目中建立一个lib目录,然后把刚刚下载好的jar包拷贝进去,然后右键刚刚添加的jar包,点击‘添…...

基于MFC实现的人机对战五子棋游戏

基于MFC实现的人机对战五子棋游戏 1、引言 此报告将详细介绍本次课程设计的动机、设计思路及编写技术的详细过程,展现我所学过的C知识以及我通过本次课程设计所学到例如MFC等知识。在文档最后我也会记录我所编写过程遇到的问题以及解决方案。 1.1 背景 五子棋是…...

AIGC 时代的文学:变革与坚守

目录 一.AIGC 带来的文学变革 1.创作方式的改变 2.阅读体验的升级 3.文学市场的重塑 二.文学在 AIGC 时代的坚守 1.人类情感的表达 2.文学的艺术性 3.文学的社会责任 三.AIGC 与人类作家的共生之路 1.相互学习 2.合作创作 3.共同发展 另: 总结 随着人…...

InfluxDB 集成 Grafana

将InfluxDB集成到Grafana进行详细配置通常包括以下几个步骤:安装与配置InfluxDB、安装与配置Grafana、在Grafana中添加InfluxDB数据源以及创建和配置仪表板。以下是一个详细的配置指南: 一、安装与配置InfluxDB 下载与安装: 从InfluxDB的官…...

树莓派超全系列教程文档--(62)使用rpicam-app通过网络流式传输视频

使用rpicam-app通过网络流式传输视频 使用 rpicam-app 通过网络流式传输视频UDPTCPRTSPlibavGStreamerRTPlibcamerasrc GStreamer 元素 文章来源: http://raspberry.dns8844.cn/documentation 原文网址 使用 rpicam-app 通过网络流式传输视频 本节介绍来自 rpica…...

《Qt C++ 与 OpenCV:解锁视频播放程序设计的奥秘》

引言:探索视频播放程序设计之旅 在当今数字化时代,多媒体应用已渗透到我们生活的方方面面,从日常的视频娱乐到专业的视频监控、视频会议系统,视频播放程序作为多媒体应用的核心组成部分,扮演着至关重要的角色。无论是在个人电脑、移动设备还是智能电视等平台上,用户都期望…...

《用户共鸣指数(E)驱动品牌大模型种草:如何抢占大模型搜索结果情感高地》

在注意力分散、内容高度同质化的时代,情感连接已成为品牌破圈的关键通道。我们在服务大量品牌客户的过程中发现,消费者对内容的“有感”程度,正日益成为影响品牌传播效率与转化率的核心变量。在生成式AI驱动的内容生成与推荐环境中&#xff0…...

工程地质软件市场:发展现状、趋势与策略建议

一、引言 在工程建设领域,准确把握地质条件是确保项目顺利推进和安全运营的关键。工程地质软件作为处理、分析、模拟和展示工程地质数据的重要工具,正发挥着日益重要的作用。它凭借强大的数据处理能力、三维建模功能、空间分析工具和可视化展示手段&…...

Frozen-Flask :将 Flask 应用“冻结”为静态文件

Frozen-Flask 是一个用于将 Flask 应用“冻结”为静态文件的 Python 扩展。它的核心用途是:将一个 Flask Web 应用生成成纯静态 HTML 文件,从而可以部署到静态网站托管服务上,如 GitHub Pages、Netlify 或任何支持静态文件的网站服务器。 &am…...

06 Deep learning神经网络编程基础 激活函数 --吴恩达

深度学习激活函数详解 一、核心作用 引入非线性:使神经网络可学习复杂模式控制输出范围:如Sigmoid将输出限制在(0,1)梯度传递:影响反向传播的稳定性二、常见类型及数学表达 Sigmoid σ ( x ) = 1 1 +...

vue3+vite项目中使用.env文件环境变量方法

vue3vite项目中使用.env文件环境变量方法 .env文件作用命名规则常用的配置项示例使用方法注意事项在vite.config.js文件中读取环境变量方法 .env文件作用 .env 文件用于定义环境变量,这些变量可以在项目中通过 import.meta.env 进行访问。Vite 会自动加载这些环境变…...

区块链技术概述

区块链技术是一种去中心化、分布式账本技术,通过密码学、共识机制和智能合约等核心组件,实现数据不可篡改、透明可追溯的系统。 一、核心技术 1. 去中心化 特点:数据存储在网络中的多个节点(计算机),而非…...

智能职业发展系统:AI驱动的职业规划平台技术解析

智能职业发展系统:AI驱动的职业规划平台技术解析 引言:数字时代的职业革命 在当今瞬息万变的就业市场中,传统的职业规划方法已无法满足个人和企业的需求。据统计,全球每年有超过2亿人面临职业转型困境,而企业也因此遭…...

向量几何的二元性:叉乘模长与内积投影的深层联系

在数学与物理的空间世界中,向量运算构成了理解几何结构的基石。叉乘(外积)与点积(内积)作为向量代数的两大支柱,表面上呈现出截然不同的几何意义与代数形式,却在深层次上揭示了向量间相互作用的…...