当前位置: 首页 > news >正文

LangChain上使用huggingface的embedding模型(如jina-embeddings-v3)

一、背景知识

embedding将文本映射到稠密的向量空间中,方便存储和查询。
huggingface的embedding榜单
这里结合自己的应用场景,选择1b以下的embedding模型,综合考量下选择arkohut/jina-embeddings-v3
模型链接

下载
在这里插入图片描述
使用模型卡片提供的命令,用cmd下载(强烈建议使用SSH命令下载!!!!用http容易报错)
在这里插入图片描述
需要使用魔法上网才能下载。如果超时的话,也可以选择手动下载。注意下载后的文件名应该和网站上提供的一样。
在这里插入图片描述

二、jina功能

论文地址:
jina-embeddings-v3: Multilingual Embeddings With Task LoRA
在这里插入图片描述
它的创新点主要有:
1.支持的文本长度高达8192 tokens
2.可以进行Task-specific的embedding
3.检索失败时可以合成数据
4.用上了最新的技术,提高了性能

三、LangChain上部署

model_name = "E:\jina-embeddings-v3"
model_kwargs = {'device': 'cpu','trust_remote_code':True}
encode_kwargs = {'normalize_embeddings': False}
hf = HuggingFaceEmbeddings(model_name=model_name,model_kwargs=model_kwargs,encode_kwargs=encode_kwargs
)

完整代码可见
我的实战博客

相关文章:

LangChain上使用huggingface的embedding模型(如jina-embeddings-v3)

一、背景知识 embedding将文本映射到稠密的向量空间中,方便存储和查询。 huggingface的embedding榜单 这里结合自己的应用场景,选择1b以下的embedding模型,综合考量下选择arkohut/jina-embeddings-v3 模型链接 下载 使用模型卡片提供的命令…...

对象优化及右值引用优化(一)

对象优化及右值引用优化 对象的函数调用时机 class Test { public:Test(int val 0) :val_(val) {cout << "Test::Test" << endl;}~Test(){cout << "Test::~Test" << endl;}Test(const Test& test){cout << "Tes…...

江西省技能培训平台(逆向破解登录国密SM2)

江西省技能培训平台(逆向破解登录) 登录破解(国密sm2加密方式) 请求接口 https://api.cloud.wozhipei.com/auth/user/v1/login 使用身份证和密码登录发现有password加密&#xff0c;好开始逆向js 全局搜索发现使用国密SM2进行加密 模拟算法 js 使用js进行模拟算法 <…...

用万用表测量三极管:【判断是NPN\PNP+3极性】

三极管种类分2种&#xff0c;一种NPN型三极管&#xff0c;另外一种为PNP三极管。三极管由2个PN结组成。因此&#xff0c;我们可以将三极管看作由2个二极管组成。通过下图可以知道&#xff0c;三极管的公共端为B极&#xff08;基极&#xff09;。 1&#xff1a;测量方法 用万用…...

StableDiffusion系列教程 | 什么是SD?SD能做什么?有哪些应用场景?

随着人工智能技术的飞速发展&#xff0c;人工智能应用已经渗透到我们生活方方面面。在众多AI技术中&#xff0c;Stable Diffusion&#xff08;简称SD&#xff09;作为一种先进的图像生成技术&#xff0c;正逐渐成为创意产业的新宠。在本系列的首篇文章中&#xff0c;我们将一起…...

AutoCAD的Dwg版本代号、R版本参数值以及二次开发时VS、.NET版本关系

Dwg的AC版本代号 出处&#xff1a;https://www.autodesk.com.cn/support/technical/article/caas/sfdcarticles/sfdcarticles/CHS/drawing-version-codes-for-autocad.html 以下是AutoCAD图形的不同版本代号&#xff1a; MC0.0 - DWG Release 1.1 AC1.2 - DWG R1.2 AC1.4 - DW…...

解密可观测行业中的语义规范 — 代码世界中的“语言艺术”

可观测行业中的语义规范 语义规范可以说在我们生活中无处不在&#xff0c;它为某种语言或文化中的单词和短语提供了一致的意义&#xff0c;以促进更清晰的交流。 而在计算机世界中&#xff0c;语义规范也同样甚至更加关键&#xff0c;因为屏幕上的文本缺乏更丰富的对话环境—…...

esp32 ap httpsever 控制led

功能&#xff1a;浏览器/open 开 led /close 关led 如不关&#xff0c;则亮灯10秒自动关闭 已买220v 转5V电源&#xff0c;5V固态继电器&#xff0c;开始组装无线开关。 代替家里华为的hlink灯泡&#xff0c;此灯必须要连入网络才能控制开和关&#xff0c;经常时灵时不…...

告别复杂判断!Python中实现函数重载的终极技巧

引言 说到函数重载&#xff0c;学过 Java 的同学应该不陌生&#xff0c;最常用的地方应该就是打印 log 了&#xff0c;对于不同的参数&#xff0c;调用的是不同的重载函数。那么 Python 如何实现函数重载呢&#xff1f; 重载概念 函数重载是指在同一作用域内&#xff0c;允许…...

Clang-Format:让你的代码整齐划一,格式不再烦恼

在现代软件开发中&#xff0c;代码规范和一致性对团队协作和代码质量至关重要。如何保持代码风格一致&#xff0c;避免手动格式化的繁琐操作&#xff1f;clang-format 是一款强大而灵活的代码格式化工具&#xff0c;它为开发者提供了高效的解决方案。本文将详细介绍 clang-form…...

【jvm】Full GC

目录 1. 说明2. 触发条件3. 优化4. 注意事项 1. 说明 1.Full GC&#xff08;Full Garbage Collection&#xff09;是Java垃圾回收过程中最重要且最昂贵的一种操作。2.Full GC涉及对整个堆内存&#xff08;包括年轻代和老年代&#xff09;的垃圾回收。3.当Full GC发生时&#x…...

【Python】实战:请使用面向对象的思想,设计自定义类,描述出租车和家用轿车的信息

# 定义汽车基类 class Car:def __init__(self, model, license_plate):self.model model # 车型self.license_plate license_plate # 车牌def start(self):print(f"{self.model} ({self.license_plate}) 启动了。")def stop(self):print(f"{self.model} ({s…...

互联网摸鱼日报(2024-11-07)

互联网摸鱼日报(2024-11-07) 36氪新闻 阿华田再现颓势 中国旅游景区上市公司&#xff0c;三季度财报好看吗&#xff1f; 电动化浪潮下&#xff0c;消费者彻底放弃百年品牌BBA&#xff1f; 估值114亿&#xff0c;海尔系独角兽终止IPO 又一知名品牌门店全关&#xff0c;高端…...

requests库

GET请求 基本实例import requestsresponse requests.get(https://www.httpbin.org/get) print(response.text)params参数import requests data {"name":"Bileton","age":"21" } response requests.get(https://www.httpbin.org/ge…...

大数据之多级缓存方案

多级缓存介绍&#xff1f;多级缓存优缺点&#xff0c;应用场景&#xff1f;多级缓存架构&#xff1f; 多级缓存介绍 多级缓存方案是一种优化手段&#xff0c;通过在多个级别上存储数据来提高应用程序的性能和响应速度。以下是对多级缓存方案的详细解析&#xff1a; 一、多级缓…...

QCon演讲实录|徐广治:边缘云原生操作系统的设计与思考

10月18日&#xff0c;在 QCon 全球软件开发大会 2024&#xff08;上海站&#xff09;&#xff0c;火山引擎边缘云资深架构师徐广治围绕火山引擎边缘计算产品背后的算力底座 - 边缘云原生操作系统&#xff0c;探讨如何实现算力服务的混合部署和跨区域弹性调度&#xff0c;以及在…...

web第二次作业

代码如下 <!DOCTYPE html> <html> <head> <!-- 设置页面的字符编码为utf-8&#xff0c;确保能正确显示各种字符 --> <meta charset"utf-8"> <title></title> <style> /* 全局样式设置 */ *{ …...

大模型技术讲解:大模型参数微调(大模型微调)

转自 秋色稻田公众号 这篇文章讲讲大模型的参数微调&#xff0c;参数微调&#xff08;Fine-tuning&#xff09;是一种机器学习技术&#xff0c;用于调整大型预训练模型的参数&#xff0c;以大模型适应特定应用场景。这种方法通常用于自然语言处理&#xff08;NLP&#xff09;…...

测试自动化如何和业务流程结合?

测试自动化框架固然重要&#xff0c;但是最终自动化的目的都是为了业务服务的。 那测试自动化如何对业务流程产生积极影响&#xff1f; 业务流程的重要性 测试自动化项目并非孤立存在&#xff0c;其生命周期与被测试的应用程序紧密相关。项目的价值在于被整个开发团队所使用&a…...

Python进阶之IO操作

文章目录 一、文件的读取二、文件内容的写入三、之操作文件夹四、StringIO与BytesIO 一、文件的读取 在python里面&#xff0c;可以使用open函数来打开文件&#xff0c;具体语法如下&#xff1a; open(filename, mode)filename&#xff1a;文件名&#xff0c;一般包括该文件所…...

[ICLR 2022]How Much Can CLIP Benefit Vision-and-Language Tasks?

论文网址&#xff1a;pdf 英文是纯手打的&#xff01;论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和语法错误&#xff0c;若有发现欢迎评论指正&#xff01;文章偏向于笔记&#xff0c;谨慎食用 目录 1. 心得 2. 论文逐段精读 2.1. Abstract 2…...

【论文笔记】若干矿井粉尘检测算法概述

总的来说&#xff0c;传统机器学习、传统机器学习与深度学习的结合、LSTM等算法所需要的数据集来源于矿井传感器测量的粉尘浓度&#xff0c;通过建立回归模型来预测未来矿井的粉尘浓度。传统机器学习算法性能易受数据中极端值的影响。YOLO等计算机视觉算法所需要的数据集来源于…...

docker 部署发现spring.profiles.active 问题

报错&#xff1a; org.springframework.boot.context.config.InvalidConfigDataPropertyException: Property spring.profiles.active imported from location class path resource [application-test.yml] is invalid in a profile specific resource [origin: class path re…...

初探Service服务发现机制

1.Service简介 Service是将运行在一组Pod上的应用程序发布为网络服务的抽象方法。 主要功能&#xff1a;服务发现和负载均衡。 Service类型的包括ClusterIP类型、NodePort类型、LoadBalancer类型、ExternalName类型 2.Endpoints简介 Endpoints是一种Kubernetes资源&#xf…...

算法:模拟

1.替换所有的问号 1576. 替换所有的问号 - 力扣&#xff08;LeetCode&#xff09; ​遍历字符串​&#xff1a;通过外层循环逐一检查每个字符。​遇到 ? 时处理​&#xff1a; 内层循环遍历小写字母&#xff08;a 到 z&#xff09;。对每个字母检查是否满足&#xff1a; ​与…...

CRMEB 中 PHP 短信扩展开发:涵盖一号通、阿里云、腾讯云、创蓝

目前已有一号通短信、阿里云短信、腾讯云短信扩展 扩展入口文件 文件目录 crmeb\services\sms\Sms.php 默认驱动类型为&#xff1a;一号通 namespace crmeb\services\sms;use crmeb\basic\BaseManager; use crmeb\services\AccessTokenServeService; use crmeb\services\sms\…...

Python+ZeroMQ实战:智能车辆状态监控与模拟模式自动切换

目录 关键点 技术实现1 技术实现2 摘要&#xff1a; 本文将介绍如何利用Python和ZeroMQ消息队列构建一个智能车辆状态监控系统。系统能够根据时间策略自动切换驾驶模式&#xff08;自动驾驶、人工驾驶、远程驾驶、主动安全&#xff09;&#xff0c;并通过实时消息推送更新车…...

深入浅出WebGL:在浏览器中解锁3D世界的魔法钥匙

WebGL&#xff1a;在浏览器中解锁3D世界的魔法钥匙 引言&#xff1a;网页的边界正在消失 在数字化浪潮的推动下&#xff0c;网页早已不再是静态信息的展示窗口。如今&#xff0c;我们可以在浏览器中体验逼真的3D游戏、交互式数据可视化、虚拟实验室&#xff0c;甚至沉浸式的V…...

【51单片机】4. 模块化编程与LCD1602Debug

1. 什么是模块化编程 传统编程会将所有函数放在main.c中&#xff0c;如果使用的模块多&#xff0c;一个文件内会有很多代码&#xff0c;不利于组织和管理 模块化编程则是将各个模块的代码放在不同的.c文件里&#xff0c;在.h文件里提供外部可调用函数声明&#xff0c;其他.c文…...

字符串哈希+KMP

P10468 兔子与兔子 #include<bits/stdc.h> using namespace std; typedef unsigned long long ull; const int N 1000010; ull a[N], pw[N]; int n; ull gethash(int l, int r){return a[r] - a[l - 1] * pw[r - l 1]; } signed main(){ios::sync_with_stdio(false), …...