LLM推理部署(六):TogetherAI推出世界上LLM最快推理引擎,性能超过vLLM和TGI三倍
LLM能有多快?答案在于LLM推理的最新突破。
TogetherAI声称,他们在CUDA上构建了世界上最快的LLM推理引擎,该引擎运行在NVIDIA Tensor Core GPU上。Together推理引擎可以支持100多个开源大模型,比如Llama-2,并在Llama-2–70B-Chat上每秒生成117个tokens,在Llama2–13B-Chat中每秒生成171个tokens。
文本将从以下几点进行介绍:
- Together推理引擎技术;
- 使用Python API进行LLM推理;
- 与LangChain的集成;
- 管理聊天历史记录

一、TogetherAI推动LLM推理的极限
TogetherAI新的LLM推理引擎性能超过vLLM和TGI,如下图所示:

定价合理,Llama-2–13b Chat不仅比GPT 3.5 Turbo便宜6倍,而且速度快1.85倍。

TogetherAI推理引擎的方法结合了以下三个关键技术:
FlashAttention-2:可以提高LLM的训练和微调速度4倍以上,并在NVIDIA A100s上实现了72%的模型FLOP利用率。这一点很重要,因为传统的注意力计算受内存带宽限制,通常会进行大量内存交换。Flash Attention重组矩阵运算以减少内存交换,使模型速度翻倍或更多;
Flash-Decoding:加快推理过程中的注意力计算,对超长序列,生成速度可以提高8倍。对输入序列中的多个tokens通过重新组织句子计算可以批处理注意力计算。对短Prompt影响很小,但对于较长的序列(例如,10ktokens),性能可能会翻倍;
Medusa:在LLM的最后隐藏状态之上添加多个头来预测下一个token,然后使用模型来验证这个预测的token,推理速度可以提高2倍。
让我们看看TogetherAI在实践中是如何工作的。
二、TogetherAI如何使用
登录TogetherAI(https://www.together.ai/)并注册即可获得25美元的免费积分。
TogetherAI提供了使用LLM的各种功能,可以在左侧导航窗格中看到其中的一些功能。

可以在“设置”中找到您的API密钥和帐单信息。

可以在UI上测试不同的功能,但我们真正想要的是通过API访问。
2.1 设置环境
让我们从设置虚拟环境开始:
mkdir togetherai-serving && cd togetherai-servingpython3 -m venv togetherai-serving-envsource togetherai-serving-env/bin/activatepip3 install ipykernel jupyterpip3 install python-dotenvpip3 install --upgrade togetherpip3 install langchain huggingface_hub# Optionally, fire up VSCode or your favorite IDE and let's get rolling!code .
创建.env文件并添加TogetherAI API密钥:
TOGETHER_API_KEY=<Your API Key>
和导入所需的库:
import osimport timeimport jsonimport loggingfrom datetime import datetimeimport togetherfrom langchain.llms.base import LLMfrom langchain import PromptTemplate, LLMChainfrom dotenv import load_dotenv # The dotenv library's load_dotenv function reads a .env file to load environment variables into the process environment. This is a common method to handle configuration settings securely.# Load env variablesload_dotenv()# Set up logginglogging.basicConfig(level=logging.INFO)
2.2 了解TogetherAI Python API
我们现在可以查看一下TogetherAI支持的模型,并选择一个来使用:
model_list = together.Models.list()print(f"There are {len(model_list)} models to choose from!")[model['name'] for model in model_list][:20]
总共支持103个模型,下面查看前20个模型
There are 103 models to choose from!['Austism/chronos-hermes-13b','EleutherAI/llemma_7b','EleutherAI/pythia-12b-v0','EleutherAI/pythia-1b-v0','EleutherAI/pythia-2.8b-v0','EleutherAI/pythia-6.9b','Gryphe/MythoMax-L2-13b','HuggingFaceH4/starchat-alpha','NousResearch/Nous-Hermes-13b','NousResearch/Nous-Hermes-Llama2-13b','NousResearch/Nous-Hermes-Llama2-70b','NousResearch/Nous-Hermes-llama-2-7b','NumbersStation/nsql-llama-2-7B','Open-Orca/Mistral-7B-OpenOrca','OpenAssistant/oasst-sft-4-pythia-12b-epoch-3.5','OpenAssistant/stablelm-7b-sft-v7-epoch-3','Phind/Phind-CodeLlama-34B-Python-v1','Phind/Phind-CodeLlama-34B-v2','SG161222/Realistic_Vision_V3.0_VAE','WizardLM/WizardCoder-15B-V1.0']
让我们使用“togethercomputer/lama-2–7b chat”来生成一个回复:
prompt = "<human>: What do you think about Large Language Models?\n<bot>:"model = "togethercomputer/llama-2-7b-chat"output = together.Complete.create(prompt = prompt,model = model,max_tokens = 256,temperature = 0.8,top_k = 60,top_p = 0.6,repetition_penalty = 1.1,stop = ['<human>', '\n\n'])print(json.dumps(output, indent = 4))
花了2秒才得到完整的答案,以下是输出:
{"id": "8268eed93d23b903-AMS","status": "finished","prompt": ["<human>: What do you think about Large Language Models?\n<bot>:"],"model": "togethercomputer/llama-2-7b-chat","model_owner": "","tags": {},"num_returns": 1,"args": {"model": "togethercomputer/llama-2-7b-chat","prompt": "<human>: What do you think about Large Language Models?\n<bot>:","top_p": 0.6,"top_k": 60,"temperature": 0.8,"max_tokens": 256,"stop": ["<human>","\n\n"],"repetition_penalty": 1.1,"logprobs": null},"subjobs": [],"output": {"result_type": "language-model-inference","choices": [{"text": "Large language models, such as transformer-based models like BERT and RoBERTa, have been instrumental in achieving state-of-the-art results in a wide range of natural language processing (NLP) tasks. These models are trained on large amounts of text data and have the ability to learn complex patterns and relationships in language.\n\n"}]}}
以下是如何获得生成的响应:
print(output['output']['choices'][0]['text'])# Large language models, such as transformer-based models like BERT and# RoBERTa, have been instrumental in achieving state-of-the-art results# in a wide range of natural language processing (NLP) tasks. These models# are trained on large amounts of text data and have the ability to learn# complex patterns and relationships in language.
还可以使用流:
for token in together.Complete.create_streaming(prompt=prompt):print(token, end="", flush=True)
现在,我们来看看LangChain集成。
三、TogetherAI与LangChain的集成
为了在LangChain中使用TogetherAI,我们必须扩展基本LLM抽象类。
这里有一个创建自定义LLM包装器的示例代码(https://python.langchain.com/docs/modules/model_io/llms/custom_llm),但我们将通过类型验证、异常处理和日志记录使其变得更好。
class TogetherLLM(LLM):"""Together LLM integration.Attributes:model (str): Model endpoint to use.together_api_key (str): Together API key.temperature (float): Sampling temperature to use.max_tokens (int): Maximum number of tokens to generate."""model: str = "togethercomputer/llama-2-7b-chat"together_api_key: str = os.environ["TOGETHER_API_KEY"]temperature: float = 0.7max_tokens: int = 512@propertydef _llm_type(self) -> str:"""Return type of LLM."""return "together"def _call(self, prompt: str, **kwargs: Any) -> str:"""Call to Together endpoint."""try:logging.info("Making API call to Together endpoint.")return self._make_api_call(prompt)except Exception as e:logging.error(f"Error in TogetherLLM _call: {e}", exc_info=True)raisedef _make_api_call(self, prompt: str) -> str:"""Make the API call to the Together endpoint."""together.api_key = self.together_api_keyoutput = together.Complete.create(prompt,model=self.model,max_tokens=self.max_tokens,temperature=self.temperature,)logging.info("API call successful.")return output['output']['choices'][0]['text']
langchain.lms.base模块通过提供比直接实现_generate方法用户更友好的界面来简化与LLM的交互。
类langchain.lms.base.LLM是LLM的一个抽象基类,这意味着它为其他类提供了一个模板,但并不意味着它自己被实例化。它旨在通过在内部处理LLM的复杂性,为LLM的工作提供一个更简单的界面,允许用户更容易地与这些模型交互。
__call__方法允许像函数一样调用类,它检查缓存并在给定提示下运行LLM。
我们现在可以创建TogetherLLM的类实例:
llm = TogetherLLM(model = model,max_tokens = 256,temperature = 0.8)
然后创建LLM链:
prompt_template = "You are a friendly bot, answer the following question: {question}"prompt = PromptTemplate(input_variables=["question"], template=prompt_template)chat = LLMChain(llm=llm, prompt=prompt)
让我们开始对话:
chat("Can AI take over developer jobs?")
INFO:root:Making API call to Together endpoint.INFO:root:API call successful.{'question': 'Can AI take over developer jobs?','text': '\n\nNo, AI will not take over developer jobs. AI can assistdevelopers in various ways, such as automating repetitive tasks, generatingcode, or analyzing data, but it will not replace human developers.Developers are needed to design, build, and maintain complex software systems,which require creativity, critical thinking, and problem-solving skillsthat AI systems do not possess. Additionally, the field of softwaredevelopment is constantly evolving, and new technologies and techniquesare constantly being developed, which requires developers to stayup-to-date and adapt to new challenges.'}
让我们看看还能做些什么。
四、管理聊天历史记录
单轮聊天是可以,但这是一个聊天模型,我们来学习一下如何管理聊天历史,以实现更连贯和上下文感知的互动。
以下是LangChain文档中的一个简单图表,显示了流程:

然而,不想使用LangChain的抽象,而是想重新实现LLMChain类,让用户更好地debug代码。
from typing import Listclass LLMChain:def __init__(self, llm, prompt):self.llm = llmself.prompt = promptself.history: List[str] = [] # Initialize an empty list to keep track of the conversation historydef add_to_history(self, user_input: str, bot_response: str):self.history.append(f"<human>: {user_input}")self.history.append(f"<bot>: {bot_response}")def generate_prompt(self, question: str) -> str:history_str = "\n".join(self.history) # Convert the history list into a single stringreturn f"{history_str}\n<human>: {question}\n<bot>:"def ask(self, question: str) -> str:full_prompt = self.generate_prompt(question)response = self.llm._call(full_prompt) # Assuming _call method handles the actual API callself.add_to_history(question, response)return response
在这个实现中,我们每次调用ask方法时,会话历史都会更新为最新的交换。generate_prompt方法构造一个包含此历史记录的新Prompt来维护会话的上下文。
通过以下实例看一些如何使用:
# Usagellm = TogetherLLM(model = model,max_tokens = 256,temperature = 0.8)prompt_template = "You are a friendly bot, answer the following question: {question}"prompt = PromptTemplate(input_variables=["question"], template=prompt_template)chat = LLMChain(llm=llm, prompt=prompt)# Example interactionresponse = chat.ask("What is the weather like today?")print(response) # Bot's response# The next call to chat.ask will include the previous interaction in the promptresponse = chat.ask("How can I enjoy such a weather?")print(response)
你可能已经注意到,随着聊天历史的增长,很难管理模型的上下文窗口,有几种策略可以处理它,后面会继续分享,敬请期待。
参考文献:
[1] https://medium.com/@datadrifters/the-worlds-fastest-llm-inference-engine-3x-faster-than-vllm-and-tgi-a2ed9e33c55f?source=email-c63e4493b83d-1702407845871-digest.reader--a2ed9e33c55f----2-98------------------775b79bd_d6f0_4703_a101_7e17ca89ae00-1
[2] https://www.together.ai/blog/together-inference-engine-v1
相关文章:
LLM推理部署(六):TogetherAI推出世界上LLM最快推理引擎,性能超过vLLM和TGI三倍
LLM能有多快?答案在于LLM推理的最新突破。 TogetherAI声称,他们在CUDA上构建了世界上最快的LLM推理引擎,该引擎运行在NVIDIA Tensor Core GPU上。Together推理引擎可以支持100多个开源大模型,比如Llama-2,并在Llama-2–…...
Unity | 渡鸦避难所-2 | 搭建场景并添加碰撞器
1 规范项目结构 上期中在导入一系列的商店资源包后,Assets 目录已经变的混乱不堪 开发过程中,随着资源不断更新,遵循一定的项目结构和设计规范是非常必要的。这可以增加项目的可读性、维护性、扩展性以及提高团队协作效率 这里先做下简单的…...
展望2024年供应链安全
2023年是开展供应链安全,尤其是开源治理如火如荼的一年,开源治理是供应链安全最重要的一个方面,所以我们从开源治理谈起。我们先回顾一下2023的开源治理情况。我们从信通院《2023年中国企业开源治理全景观察》发布的信息。信通院调研了来自七…...
React 列表页实现
一、介绍 列表页是常用的功能,从后端获取列表数据,刷新到页面上。开发列表页需要考虑以下技术要点:1.如何翻页;2.如何进行内容搜索;3.何时进行页面刷新。 二、使用教程 1.user-service 根据用户id获取用户列表,返回…...
【程序人生】还记得当初自己为什么选择计算机?
✏️ 初识计算机: 还记得人生中第一次接触计算机编程是在高中,第一门编程语言是Python(很可惜由于条件限制的原因,当时没能坚持学下去......现在想来有点后悔,没能坚持,唉......)。但是…...
9-tornado-Template优化方法、个人信息案例、tornado中ORM的使用(peewee的使用、peewee_async)、WTForms的使用
在很多情况下,前端模板中在很多页面有都重复的内容可以使用,比如页头、页尾、甚至中间的内容都有可能重复。这时,为了提高开发效率,我们就可以考虑在共同的部分提取出来, 主要方法有如下: 1. 模板继承 2. U…...
IDEA中.java .class .jar的含义与联系
当使用IntelliJ IDEA这样的集成开发环境进行Java编程时,通常涉及.java源代码文件、.class编译后的字节码文件以及.jar可执行的Java存档文件。 1. .java 文件: 1.这些文件包含了Java源代码,以文本形式编写。它们通常位于项目中的源代码目录中…...
北斗三号短报文森林消防应急通信及天通野外图传综合方案
森林火灾突发性强、破坏性大、危险性高,是全球发生最频繁、处置最困难、危害最严重的自然灾害之一,是生态文明建设成果和森林资源安全的最大威胁,甚至可能引发生态灾难和社会危机。我国总体上是一个缺林少绿、生态脆弱的国家,是一…...
js Array.every()的使用
2023.12.13今天我学习了如何使用Array.every()的使用,这个方法是用于检测数组中所有存在的元素。 比如我们需要判断这个数组里面的全部元素是否都包含张三,可以这样写: let demo [{id: 1, name: 张三}, {id: 2, name: 张三五}, {id: 3, name…...
前端编码中快速填充内容--乱数假文
写前端页面的时候,如果要快速插入图片,可以使用 https://picsum.photos/ 详见笔者这篇博文: 工具网站:随机生成图片的网站-CSDN博客 可是,如果要快速填充文字内容该怎么做呢? 以前,我们都是…...
数据结构二维数组计算题,以行为主?以列为主?
1.假设以行序为主序存储二维数组Aarray[1..100,1..100],设每个数据元素占2个存储单元,基地址为10,则LOC[5,5]( )。 A.808 B.818 C.1010 D&…...
springboot(ssm电影院订票信息管理系统 影院购票系统Java系统
springboot(ssm电影院订票信息管理系统 影院购票系统Java系统 开发语言:Java 框架:ssm/springboot vue JDK版本:JDK1.8(或11) 服务器:tomcat 数据库:mysql 5.7(或8.0࿰…...
AI 问答-供应链管理-相关概念:SCM、SRM、MDM、DMS、ERP、OBS、CRM、WMS...
一、供应链管理是什么 供应链管理:理解供应链管理_snowli的博客-CSDN博客 二、SCM 供应链管理 SCM全称为“Supply Chain Management”,即供应链管理。 SCM是企业管理范畴中一个非常重要的概念,指的是企业与供应商、生产商、分销商等各方之…...
初学vue3与ts:vue3选项式api获取当前路由地址
vue2的获取方法 this.$route.pathvue3选项式api获取方法 import { useRouter } from vue-router; const router useRouter(); console.log(router) console.log(router.currentRoute.value.path)...
2023最新大模型实验室解决方案
人工智能是引领未来的新兴战略性技术,是驱动新一轮科技革命和产业变革的重要力量。近年来,人工智能相关技术持续演进,产业化和商业化进程不断提速,正在加快与千行百业深度融合。 大模型实验室架构图 大模型实验室建设内容 一、课…...
leetcode707.设计链表
题目描述 你可以选择使用单链表或者双链表,设计并实现自己的链表。 单链表中的节点应该具备两个属性:val 和 next 。val 是当前节点的值,next 是指向下一个节点的指针/引用。 如果是双向链表,则还需要属性 prev 以指示链表中的…...
【K8s】Kubernetes CRD 介绍(控制器)
文章目录 CRD 概述1. 操作CRD1.1 创建 CRD1.2 操作 CRD 2. 其他笔记2.1 Kubectl 发现机制2.2 校验 CR2.3 简称和属性 3. 架构设计3.1 控制器概览 参考 CRD 概述 CR(Custom Resource)其实就是在 Kubernetes 中定义一个自己的资源类型,是一个具…...
Python 小程序之PDF文档加解密
PDF文档的加密和解密 文章目录 PDF文档的加密和解密前言一、总体构思二、使用到的库三、PDF文档的加密1.用户输入模块2.打开并读取文档数据3.遍历保存数据到新文档4.新文档进行加密5.新文档命名生成路径6.保存新加密的文档 四、PDF文档的解密1.用户输入模块2.前提准备2.文件解密…...
使用python脚本一个简单的搭建ansible集群
1.环境说明: 角色主机名ip地址控制主机server192.168.174.150受控主机/被管节点client1192.168.174.151受控主机/被管节点client2192.168.174.152 2.安装python和pip包 yum install -y epel-release yum install -y python python-pip 3.pip安装依赖库 pip in…...
【价值几十万的仿抖音直播电商系统源码共享】
当下,传统的图文电商模式已经走向没落,以抖音为首的直播电商模式备受用户追捧,它具有实时直播和强互动的特点,是传统电商所不具备的优势。而且,当前正是直播电商的红利期,很多主播和品牌商都通过直播电商业…...
【kafka】Golang实现分布式Masscan任务调度系统
要求: 输出两个程序,一个命令行程序(命令行参数用flag)和一个服务端程序。 命令行程序支持通过命令行参数配置下发IP或IP段、端口、扫描带宽,然后将消息推送到kafka里面。 服务端程序: 从kafka消费者接收…...
HTML 列表、表格、表单
1 列表标签 作用:布局内容排列整齐的区域 列表分类:无序列表、有序列表、定义列表。 例如: 1.1 无序列表 标签:ul 嵌套 li,ul是无序列表,li是列表条目。 注意事项: ul 标签里面只能包裹 li…...
WEB3全栈开发——面试专业技能点P2智能合约开发(Solidity)
一、Solidity合约开发 下面是 Solidity 合约开发 的概念、代码示例及讲解,适合用作学习或写简历项目背景说明。 🧠 一、概念简介:Solidity 合约开发 Solidity 是一种专门为 以太坊(Ethereum)平台编写智能合约的高级编…...
HTML前端开发:JavaScript 常用事件详解
作为前端开发的核心,JavaScript 事件是用户与网页交互的基础。以下是常见事件的详细说明和用法示例: 1. onclick - 点击事件 当元素被单击时触发(左键点击) button.onclick function() {alert("按钮被点击了!&…...
JDK 17 新特性
#JDK 17 新特性 /**************** 文本块 *****************/ python/scala中早就支持,不稀奇 String json “”" { “name”: “Java”, “version”: 17 } “”"; /**************** Switch 语句 -> 表达式 *****************/ 挺好的ÿ…...
Spring AI与Spring Modulith核心技术解析
Spring AI核心架构解析 Spring AI(https://spring.io/projects/spring-ai)作为Spring生态中的AI集成框架,其核心设计理念是通过模块化架构降低AI应用的开发复杂度。与Python生态中的LangChain/LlamaIndex等工具类似,但特别为多语…...
C# 求圆面积的程序(Program to find area of a circle)
给定半径r,求圆的面积。圆的面积应精确到小数点后5位。 例子: 输入:r 5 输出:78.53982 解释:由于面积 PI * r * r 3.14159265358979323846 * 5 * 5 78.53982,因为我们只保留小数点后 5 位数字。 输…...
Android第十三次面试总结(四大 组件基础)
Activity生命周期和四大启动模式详解 一、Activity 生命周期 Activity 的生命周期由一系列回调方法组成,用于管理其创建、可见性、焦点和销毁过程。以下是核心方法及其调用时机: onCreate() 调用时机:Activity 首次创建时调用。…...
es6+和css3新增的特性有哪些
一:ECMAScript 新特性(ES6) ES6 (2015) - 革命性更新 1,记住的方法,从一个方法里面用到了哪些技术 1,let /const块级作用域声明2,**默认参数**:函数参数可以设置默认值。3&#x…...
云安全与网络安全:核心区别与协同作用解析
在数字化转型的浪潮中,云安全与网络安全作为信息安全的两大支柱,常被混淆但本质不同。本文将从概念、责任分工、技术手段、威胁类型等维度深入解析两者的差异,并探讨它们的协同作用。 一、核心区别 定义与范围 网络安全:聚焦于保…...
