chatGLM或chatgpt:什么是tokens以及如何计算tokens长度?
token是什么?
简单的来说tokens就是大语言模型输入的向量数据,它是从原始的文本转化而来。
比如
输入:here is a text demo
tokens为:[64790, 64792, 985, 323, 260, 2254, 16948]
解码:将tokens转化为文本
[‘[gMASK]’, ‘sop’, ‘▁here’, ‘▁is’, ‘▁a’, ‘▁text’, ‘▁demo’]
如何计算tokens数量
由于没有任何的公开的 Zhipu AI token计算工具,因此,我使用了 chatglm3-6b 这个开源模型的 tokenizer进行加载。这种计算方式仅能作为参考,尚且不能认定是最终的 API token 计算方式。具体的计价方式以官方文档为主。
示例源码
import warnings
warnings.filterwarnings('ignore')
import os
from transformers import AutoTokenizertokenizer = AutoTokenizer.from_pretrained("chatglm3-6b", trust_remote_code=True, encode_special_tokens=True)def count_encode(inputs: str = ""):encoded_input = tokenizer.encode(inputs)num_tokens = len(encoded_input)r相关文章:
chatGLM或chatgpt:什么是tokens以及如何计算tokens长度?
token是什么? 简单的来说tokens就是大语言模型输入的向量数据,它是从原始的文本转化而来。 比如 输入:here is a text demo tokens为:[64790, 64792, 985, 323, 260, 2254, 16948] 解码:将tokens转化为文本 [‘[gMASK]’, ‘sop’, ‘▁here’, ‘▁is’, ‘▁a’, ‘▁…...
springcloudalibaba版本发布说明
版本发布说明 | https://sca.aliyun.com 2.2.x 分支 适配 Spring Boot 为 2.4,Spring Cloud Hoxton 版本及以下的 Spring Cloud Alibaba 版本按从新到旧排列如下表(最新版本用*标记): Spring Cloud Alibaba VersionSpring Cloud…...
Obsidian/Typora设置图床
在obsidian中默认图片是保存在本地的,但是在要导出文档上传到网上时,由于图片保存在本地,会出现无法加载图片的问题。 这里引用的一段话: 这里使用picgo-core和gitee实现图床功能, 参考1: Ubuntu下PicGO配…...
【RAG论文】RAG中半结构化数据的解析和向量化方法
论文简介 论文题目: 《A Method for Parsing and Vectorization of Semi-structured Data used in Retrieval Augmented Generation》 论文链接: https://arxiv.org/abs/2405.03989 代码: https://github.com/linancn/TianGong-AI-Unstructure/tree/m…...
git提交代码异常报错error:bad signature 0x00000000
报错信息 error:bad signature 0x00000000 异常原因 git 提交过程中异常关机或重启,造成当前项目工程中的.git/index 文件损坏,无法提交 解决步骤 删除.git/index文件 rm -f .git/index 重启git git reset...
【FFmpeg】调用ffmpeg库进行RTMP推流和拉流
【FFmpeg】调用ffmpeg库实现RTMP推流 1.FFmpeg编译2.RTMP服务器搭建3.调用FFmpeg库实现RTMP推流和拉流3.1 基本框架3.2 实现代码3.3 测试3.3.1 推流3.3.2 拉流 参考:雷霄骅博士, 调用ffmpeg库进行RTMP推流 示例工程 【FFmpeg】调用FFmpeg库实现264软编 【FFmpeg】…...
Multisim 14 常见电子仪器的使用和Multisim的使用
multisim multisim,即电子电路仿真设计软件。Multisim是美国国家仪器(NI)有限公司推出的以Windows为基础的仿真工具,适用于板级的模拟/数字电路板的设计工作。它包含了电路原理图的图形输入、电路硬件描述语言输入方式࿰…...
【2024高校网络安全管理运维赛】巨细记录!
2024高校网络安全管理运维赛 文章目录 2024高校网络安全管理运维赛MISC签到考点:动态图片分帧提取 easyshell考点:流量分析 冰蝎3.0 Webphpsql考点:sql万能钥匙 fileit考点:xml注入 外带 Cryptosecretbit考点:代码阅读…...
Nuxt.js实战:Vue.js的服务器端渲染框架
创建Nuxt.js项目 首先,确保你已经安装了Node.js和yarn或npm。然后,通过命令行创建一个新的Nuxt.js项目: yarn create nuxt-app my-nuxt-project cd my-nuxt-project在创建过程中,你可以选择是否需要UI框架、预处理器等选项&…...
提高Rust安装与更新的速度
一、背景 因为rust安装过程中,默认的下载服务器为crates.io,这是一个国外的服务器,国内用户使用时,下载与更新的速度非常慢,因此,我们需要使用一个国内的服务器来提高下载与更新的速度。 本文推荐使用字节…...
【linux软件基础知识】内核代码中的就绪队列简化示例
在内核代码中,就绪队列通常使用允许高效插入和删除进程的数据结构来表示。 用于表示就绪队列的一种常见数据结构是链表。 以下是如何使用链表在内核代码中表示就绪队列的简化示例: struct task_struct {// Process control block (PCB) fields// ...struct task_struct *nex…...
《C++学习笔记---初阶篇6》---string类 上
目录 1. 为什么要学习string类 1.1 C语言中的字符串 2. 标准库中的string类 2.1 string类(了解) 2.2 string类的常用接口说明 2.2.1. string类对象的常见构造 2.2.2. string类对象的容量操作 2.2.3.再次探讨reserve与resize 2.2.4.string类对象的访问及遍历操作 2.2.5…...
mysql中的页和行
页 行即表中的真实行,‘行式数据库’的由来 虽然MySQL的数据文件(例如.ibd文件)中的数据页在物理上是通过链表连接的,但是在逻辑上,MySQL使用B树来组织和访问数据。 行:主要是dynamic类型...
Vim常用快捷键
这个是我的草稿本记录一下防止丢失,以后有时间进行整理 0 或功能键[Home]这是数字『 0 』:移动到这一行的最前面字符处 (常用)$ 或功能键[End]移动到这一行的最后面字符处(常用)G移动到这个档案的最后一行(常用)nGn 为数字。移动到这个档案的第 n 行。例…...
力扣题目汇总分析 利用树形DP解决问题
树里 任意两个节点之间的问题。而不是根节点到叶子节点的问题或者是父节点到子节点的问题。通通一个套路,即利用543的解题思路。 543.二叉树的直径 分析 明确:二叉树的 直径 是指树中任意两个节点之间最长路径的 长度。两个节点之间的最长路径是他们之…...
GO语言核心30讲 实战与应用 (第二部分)
原站地址:Go语言核心36讲_Golang_Go语言-极客时间 一、sync.WaitGroup和sync.Once 1. sync.WaitGroup 比通道更加适合实现一对多的 goroutine 协作流程。 2. WaitGroup类型有三个指针方法:Wait、Add和Done,以及内部有一个计数器。 (1) Wa…...
linux设置挂载指定的usb,自动挂载
一、设置指定的USB 在Linux系统中,如果您只想让系统挂载特定的USB设备,而忽略其他的USB设备,可以通过创建自定义的udev规则来实现。以下是设置系统只能挂载指定USB设备的基本步骤: 确定USB设备的属性: 首先࿰…...
简站WordPress主题
简站WordPress主题是一种专为建立网站而设计的WordPress模板,它旨在简化网站建设过程,使得用户能够更容易地创建和管理自己的网站。简站WordPress主题具有以下特点: 易用性:简站WordPress主题被设计为简单易用,适合各…...
is和==的关系
Python中is和的关系 is判断两个变量是不是指的是同一个内存地址,也就是通过id()函数判断 判断两个变量的值是不是相同 a [1, 2, 3, 4] b [1, 2, 3, 4] print(id(a)) # 2298268712768 print(id(b)) # 2298269716992 print(a is b) # False print(a b) # Tr…...
璩静是为了薅百度羊毛
关注卢松松,会经常给你分享一些我的经验和观点。 百度副总裁璩静离职了,网传她的年薪是1500万,而璩静在4月24日注册了一个文化传媒公司,大家都认为璩静是在为离职做准备。但松松我认为不是。 我认为:璩静成立新公司是…...
告别环境冲突!用Miniconda3在Windows上为不同Python项目创建独立开发环境(保姆级图文)
告别Python环境冲突:Miniconda3在Windows下的高效开发环境管理实战 刚接手新项目的Python开发者小王遇到了一个典型问题:本地运行良好的Django 3.2项目,在同事电脑上却频频报错。经过排查,发现是Python环境版本不一致导致的依赖冲…...
【爱她就为她买龙虾】Open Claw 搭建使用全图文流程
❤️核心亮点❤️ 零代码门槛|全程可视化|无需手动配置环境|内置完整依赖|28 万 Tokens 额度 ༺♥༻下载地址 https://xiake.yun/api/download/package/16?promoCodeIV8E496E2F7A 🤍前言 2026 年热门的「数字员工…...
从高斯-克吕格到UTM:在QGIS里搞定国内卫星影像与地形图的坐标匹配
从高斯-克吕格到UTM:在QGIS里搞定国内卫星影像与地形图的坐标匹配 当你在QGIS中加载了从不同来源获取的卫星影像和地形图时,是否遇到过这样的困扰:明明应该是同一区域的数据,却在软件中显示得南辕北辙?这种"影像对…...
云原生安全扫描:保护容器化应用的安全
云原生安全扫描:保护容器化应用的安全 引言 在云原生环境中,安全扫描是保障应用安全的重要手段。通过安全扫描,我们可以发现容器镜像和代码中的安全漏洞。 今天就来分享一下云原生安全扫描的最佳实践。 安全扫描类型 镜像扫描 扫描容器镜像中…...
终极指南:如何在Windows电脑上免模拟器安装安卓APK文件
终极指南:如何在Windows电脑上免模拟器安装安卓APK文件 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer APK安装器是Windows用户的游戏规则改变者࿰…...
Sora之后的真相:2026年真正落地的8款工业级AI视频引擎,含API吞吐量、帧间PSNR均值与商用SLA承诺明细
更多请点击: https://intelliparadigm.com 第一章:Sora之后的真相:2026年真正落地的8款工业级AI视频引擎,含API吞吐量、帧间PSNR均值与商用SLA承诺明细 Sora发布两年后,工业界已摒弃“演示即产品”的幻觉。截至2026年…...
Avidemux:开源视频剪辑神器,5分钟学会专业级视频处理
Avidemux:开源视频剪辑神器,5分钟学会专业级视频处理 【免费下载链接】avidemux2 Avidemux2, simple video editor 项目地址: https://gitcode.com/gh_mirrors/avi/avidemux2 你知道吗?在开源视频编辑领域,有一款轻量级但功…...
R3nzSkin国服换肤工具:免费解锁英雄联盟全皮肤完整指南
R3nzSkin国服换肤工具:免费解锁英雄联盟全皮肤完整指南 【免费下载链接】R3nzSkin-For-China-Server Skin changer for League of Legends (LOL) 项目地址: https://gitcode.com/gh_mirrors/r3/R3nzSkin-For-China-Server 想要在英雄联盟国服中免费体验所有皮…...
告别手动填表!用Python脚本5分钟搞定DSSAT模型批量模拟(附源码)
Python自动化DSSAT模型:从Excel到批量模拟的高效科研实践 在农业科研和气候情景分析中,DSSAT模型作为全球主流的作物生长模拟工具,其价值早已被广泛认可。但真正使用过它的研究者都深有体会:当面对数十种管理方案、上百个气象场景…...
SEO老鸟私藏技巧:用Google搜索命令“免费”做竞品分析和内容审计
SEO高手实战:用Google搜索命令低成本破解竞品策略 在预算有限的情况下,如何像专业SEO团队一样获取竞品的关键数据?当价值上万元的SEO工具遥不可及时,Google搜索命令的组合拳能帮你打开一扇免费的分析窗口。这不是简单的运算符罗列…...
