LangChain上使用huggingface的embedding模型(如jina-embeddings-v3)
一、背景知识
embedding将文本映射到稠密的向量空间中,方便存储和查询。
huggingface的embedding榜单
这里结合自己的应用场景,选择1b以下的embedding模型,综合考量下选择arkohut/jina-embeddings-v3
模型链接
下载

使用模型卡片提供的命令,用cmd下载(强烈建议使用SSH命令下载!!!!用http容易报错)

需要使用魔法上网才能下载。如果超时的话,也可以选择手动下载。注意下载后的文件名应该和网站上提供的一样。

二、jina功能
论文地址:
jina-embeddings-v3: Multilingual Embeddings With Task LoRA

它的创新点主要有:
1.支持的文本长度高达8192 tokens
2.可以进行Task-specific的embedding
3.检索失败时可以合成数据
4.用上了最新的技术,提高了性能
三、LangChain上部署
model_name = "E:\jina-embeddings-v3"
model_kwargs = {'device': 'cpu','trust_remote_code':True}
encode_kwargs = {'normalize_embeddings': False}
hf = HuggingFaceEmbeddings(model_name=model_name,model_kwargs=model_kwargs,encode_kwargs=encode_kwargs
)
完整代码可见
我的实战博客
相关文章:
LangChain上使用huggingface的embedding模型(如jina-embeddings-v3)
一、背景知识 embedding将文本映射到稠密的向量空间中,方便存储和查询。 huggingface的embedding榜单 这里结合自己的应用场景,选择1b以下的embedding模型,综合考量下选择arkohut/jina-embeddings-v3 模型链接 下载 使用模型卡片提供的命令…...
对象优化及右值引用优化(一)
对象优化及右值引用优化 对象的函数调用时机 class Test { public:Test(int val 0) :val_(val) {cout << "Test::Test" << endl;}~Test(){cout << "Test::~Test" << endl;}Test(const Test& test){cout << "Tes…...
江西省技能培训平台(逆向破解登录国密SM2)
江西省技能培训平台(逆向破解登录) 登录破解(国密sm2加密方式) 请求接口 https://api.cloud.wozhipei.com/auth/user/v1/login 使用身份证和密码登录发现有password加密,好开始逆向js 全局搜索发现使用国密SM2进行加密 模拟算法 js 使用js进行模拟算法 <…...
用万用表测量三极管:【判断是NPN\PNP+3极性】
三极管种类分2种,一种NPN型三极管,另外一种为PNP三极管。三极管由2个PN结组成。因此,我们可以将三极管看作由2个二极管组成。通过下图可以知道,三极管的公共端为B极(基极)。 1:测量方法 用万用…...
StableDiffusion系列教程 | 什么是SD?SD能做什么?有哪些应用场景?
随着人工智能技术的飞速发展,人工智能应用已经渗透到我们生活方方面面。在众多AI技术中,Stable Diffusion(简称SD)作为一种先进的图像生成技术,正逐渐成为创意产业的新宠。在本系列的首篇文章中,我们将一起…...
AutoCAD的Dwg版本代号、R版本参数值以及二次开发时VS、.NET版本关系
Dwg的AC版本代号 出处:https://www.autodesk.com.cn/support/technical/article/caas/sfdcarticles/sfdcarticles/CHS/drawing-version-codes-for-autocad.html 以下是AutoCAD图形的不同版本代号: MC0.0 - DWG Release 1.1 AC1.2 - DWG R1.2 AC1.4 - DW…...
解密可观测行业中的语义规范 — 代码世界中的“语言艺术”
可观测行业中的语义规范 语义规范可以说在我们生活中无处不在,它为某种语言或文化中的单词和短语提供了一致的意义,以促进更清晰的交流。 而在计算机世界中,语义规范也同样甚至更加关键,因为屏幕上的文本缺乏更丰富的对话环境—…...
esp32 ap httpsever 控制led
功能:浏览器/open 开 led /close 关led 如不关,则亮灯10秒自动关闭 已买220v 转5V电源,5V固态继电器,开始组装无线开关。 代替家里华为的hlink灯泡,此灯必须要连入网络才能控制开和关,经常时灵时不…...
告别复杂判断!Python中实现函数重载的终极技巧
引言 说到函数重载,学过 Java 的同学应该不陌生,最常用的地方应该就是打印 log 了,对于不同的参数,调用的是不同的重载函数。那么 Python 如何实现函数重载呢? 重载概念 函数重载是指在同一作用域内,允许…...
Clang-Format:让你的代码整齐划一,格式不再烦恼
在现代软件开发中,代码规范和一致性对团队协作和代码质量至关重要。如何保持代码风格一致,避免手动格式化的繁琐操作?clang-format 是一款强大而灵活的代码格式化工具,它为开发者提供了高效的解决方案。本文将详细介绍 clang-form…...
【jvm】Full GC
目录 1. 说明2. 触发条件3. 优化4. 注意事项 1. 说明 1.Full GC(Full Garbage Collection)是Java垃圾回收过程中最重要且最昂贵的一种操作。2.Full GC涉及对整个堆内存(包括年轻代和老年代)的垃圾回收。3.当Full GC发生时&#x…...
【Python】实战:请使用面向对象的思想,设计自定义类,描述出租车和家用轿车的信息
# 定义汽车基类 class Car:def __init__(self, model, license_plate):self.model model # 车型self.license_plate license_plate # 车牌def start(self):print(f"{self.model} ({self.license_plate}) 启动了。")def stop(self):print(f"{self.model} ({s…...
互联网摸鱼日报(2024-11-07)
互联网摸鱼日报(2024-11-07) 36氪新闻 阿华田再现颓势 中国旅游景区上市公司,三季度财报好看吗? 电动化浪潮下,消费者彻底放弃百年品牌BBA? 估值114亿,海尔系独角兽终止IPO 又一知名品牌门店全关,高端…...
requests库
GET请求 基本实例import requestsresponse requests.get(https://www.httpbin.org/get) print(response.text)params参数import requests data {"name":"Bileton","age":"21" } response requests.get(https://www.httpbin.org/ge…...
大数据之多级缓存方案
多级缓存介绍?多级缓存优缺点,应用场景?多级缓存架构? 多级缓存介绍 多级缓存方案是一种优化手段,通过在多个级别上存储数据来提高应用程序的性能和响应速度。以下是对多级缓存方案的详细解析: 一、多级缓…...
QCon演讲实录|徐广治:边缘云原生操作系统的设计与思考
10月18日,在 QCon 全球软件开发大会 2024(上海站),火山引擎边缘云资深架构师徐广治围绕火山引擎边缘计算产品背后的算力底座 - 边缘云原生操作系统,探讨如何实现算力服务的混合部署和跨区域弹性调度,以及在…...
web第二次作业
代码如下 <!DOCTYPE html> <html> <head> <!-- 设置页面的字符编码为utf-8,确保能正确显示各种字符 --> <meta charset"utf-8"> <title></title> <style> /* 全局样式设置 */ *{ …...
大模型技术讲解:大模型参数微调(大模型微调)
转自 秋色稻田公众号 这篇文章讲讲大模型的参数微调,参数微调(Fine-tuning)是一种机器学习技术,用于调整大型预训练模型的参数,以大模型适应特定应用场景。这种方法通常用于自然语言处理(NLP)…...
测试自动化如何和业务流程结合?
测试自动化框架固然重要,但是最终自动化的目的都是为了业务服务的。 那测试自动化如何对业务流程产生积极影响? 业务流程的重要性 测试自动化项目并非孤立存在,其生命周期与被测试的应用程序紧密相关。项目的价值在于被整个开发团队所使用&a…...
Python进阶之IO操作
文章目录 一、文件的读取二、文件内容的写入三、之操作文件夹四、StringIO与BytesIO 一、文件的读取 在python里面,可以使用open函数来打开文件,具体语法如下: open(filename, mode)filename:文件名,一般包括该文件所…...
Micro Debug:Arduino极简嵌入式调试库
1. 项目概述Micro Debug 是一个专为 Arduino 平台设计的极简式嵌入式调试库,其核心设计哲学是“零依赖、零开销、零侵入”——不引入任何额外的硬件资源占用(如额外串口、定时器或DMA通道),不增加运行时调度负担(无任务…...
实践指南:借助LLaMa-Factory高效定制你的专属LLaMa3
1. 为什么选择LLaMa-Factory微调LLaMa3? 第一次尝试微调大语言模型时,我花了整整三天时间在环境配置上。从CUDA版本冲突到PyTorch依赖问题,各种报错让人崩溃。直到发现LLaMa-Factory这个"微调瑞士军刀",才明白原来大模型…...
35 岁前端被优化?我用 AI 转型全栈的完整路径
上周,我 35 岁的前端朋友老张被 HR 叫进会议室,聊了 20 分钟,拿了 N1 走人。 他的技术栈没问题,Vue3TS 都会,项目经验也够。问题在于:他做的所有工作,一个应届生 AI 工具都能搞定。这不是危言耸…...
低成本自动化方案:OpenClaw+GLM-4.7-Flash替代Zapier实现跨平台触发
低成本自动化方案:OpenClawGLM-4.7-Flash替代Zapier实现跨平台触发 1. 为什么选择本地AI替代SaaS自动化工具 三年前我开始使用Zapier自动化处理工作流时,每月29美元的订阅费看起来物有所值。但随着任务复杂度增加,去年我的账单悄然涨到了89…...
Spring Cloud Hystrix 详细示-元一软件
Hystrix 是 Spring Cloud 中实现服务熔断、降级、隔离的核心组件,用于解决微服务架构中的雪崩效应,核心是快速失败、优雅降级、自动恢复。以下从环境搭建、基础使用、高级配置、Feign 整合、监控5 个维度提供完整示例。一、项目环境准备1. 依赖引入&…...
OpenClaw+QwQ-32B客服模拟:电商问答自动化测试
OpenClawQwQ-32B客服模拟:电商问答自动化测试 1. 为什么需要自动化客服测试 去年双十一前,我们团队遇到了一个棘手问题:每次大促前,客服团队都要手动测试上百个产品页面的问答话术。人工测试不仅耗时耗力,还经常遗漏…...
别再只用箱线图了!用Python的PtitPrince库5分钟搞定雨云图,数据分布一目了然
数据可视化新选择:用PtitPrince打造专业级雨云图 在数据分析的世界里,可视化工具的选择往往决定了我们能否准确传达数据背后的故事。传统箱线图虽然简洁,却隐藏了太多细节;提琴图展示了分布形态,却丢失了原始数据点。这…...
C++ 内存管理的黄金法则
C 内存管理的黄金法则:高效编程的核心准则 在C的世界里,内存管理是开发者必须直面的挑战。从手动分配释放到智能指针的引入,C提供了灵活的控制权,但也要求程序员严格遵守规则以避免内存泄漏、野指针等问题。"谁分配…...
腾讯云GPU服务器上,手把手教你5分钟搞定Isaac Sim 5.0环境(附VNC黑屏自救指南)
腾讯云GPU服务器5分钟极速部署Isaac Sim 5.0全攻略 在机器人仿真与AI训练领域,NVIDIA Isaac Sim已成为行业标杆工具。但许多开发者在云端部署时,往往耗费数小时甚至数天时间卡在环境配置环节。本文将基于腾讯云GPU服务器,分享一套经过实战验证…...
FastAPI CSP哈希:nonce与sha256的终极安全防护指南
FastAPI CSP哈希:nonce与sha256的终极安全防护指南 【免费下载链接】fastapi FastAPI framework, high performance, easy to learn, fast to code, ready for production 项目地址: https://gitcode.com/GitHub_Trending/fa/fastapi FastAPI作为一款高性能、…...
