当前位置: 首页 > article >正文

开源可部署|embeddinggemma-300m + Ollama构建私有化语义搜索服务

开源可部署embeddinggemma-300m Ollama构建私有化语义搜索服务1. 引言为什么需要私有化语义搜索在日常工作和学习中我们经常需要从大量文档中快速找到相关信息。传统的关键词搜索往往不够智能无法理解语义层面的相似性。比如搜索苹果你可能既想找水果的信息又想找科技公司的内容传统搜索很难区分这两种意图。EmbeddingGemma-300m Ollama的组合提供了一个完美的解决方案在本地搭建一个能理解语义的智能搜索服务。这个方案最大的优势是完全私有化你的数据不需要上传到任何第三方服务器既安全又高效。本文将带你从零开始一步步搭建属于自己的语义搜索服务。无需深厚的技术背景只要跟着步骤操作30分钟内就能拥有一个堪比商业产品的智能搜索系统。2. 环境准备与Ollama部署2.1 安装OllamaOllama是一个强大的本地模型运行框架让大模型部署变得异常简单。根据你的操作系统选择安装方式Windows系统安装# 访问Ollama官网下载安装包 # 或使用winget命令安装 winget install Ollama.OllamamacOS系统安装# 使用Homebrew安装 brew install ollamaLinux系统安装# 使用curl一键安装 curl -fsSL https://ollama.com/install.sh | sh安装完成后启动Ollama服务ollama serve2.2 拉取EmbeddingGemma-300m模型EmbeddingGemma-300m是谷歌推出的轻量级嵌入模型专门为文本向量化设计。虽然只有3亿参数但在语义理解方面表现出色。拉取模型命令ollama pull embeddinggemma:300m这个过程会自动下载模型文件根据网络情况可能需要几分钟时间。下载完成后你可以验证模型是否成功拉取ollama list应该能看到embeddinggemma:300m在模型列表中。3. 搭建语义搜索服务3.1 基础搜索功能实现现在我们来创建一个简单的Python脚本实现基本的语义搜索功能import ollama import numpy as np from sklearn.metrics.pairwise import cosine_similarity class SemanticSearch: def __init__(self): self.documents [] self.embeddings [] def add_document(self, text): 添加文档并生成嵌入向量 response ollama.embeddings(modelembeddinggemma:300m, prompttext) embedding response[embedding] self.documents.append(text) self.embeddings.append(embedding) def search(self, query, top_k5): 语义搜索 # 生成查询词的嵌入向量 response ollama.embeddings(modelembeddinggemma:300m, promptquery) query_embedding np.array(response[embedding]).reshape(1, -1) # 计算余弦相似度 similarities cosine_similarity(query_embedding, self.embeddings)[0] # 获取最相似的结果 results [] for idx in similarities.argsort()[-top_k:][::-1]: results.append({ document: self.documents[idx], similarity: float(similarities[idx]) }) return results # 使用示例 search_engine SemanticSearch() search_engine.add_document(苹果公司是一家美国科技公司主要生产iPhone和Mac电脑) search_engine.add_document(苹果是一种常见的水果富含维生素和营养成分) search_engine.add_document(谷歌是一家专注于搜索引擎和人工智能技术的公司) results search_engine.search(水果苹果, top_k3) for result in results: print(f相似度: {result[similarity]:.3f} - {result[document]})3.2 批量处理优化当需要处理大量文档时我们可以优化处理流程def batch_process_documents(documents, batch_size10): 批量处理文档生成嵌入向量 search_engine SemanticSearch() for i in range(0, len(documents), batch_size): batch documents[i:ibatch_size] print(f处理批次 {i//batch_size 1}/{(len(documents)-1)//batch_size 1}) for doc in batch: search_engine.add_document(doc) return search_engine # 示例从文件读取文档 def load_documents_from_file(file_path): 从文本文件加载文档 with open(file_path, r, encodingutf-8) as f: content f.read() # 简单按段落分割实际可根据需要调整 documents [para for para in content.split(\n\n) if para.strip()] return documents # 使用示例 documents load_documents_from_file(knowledge_base.txt) search_engine batch_process_documents(documents)4. 构建Web搜索界面4.1 使用Gradio创建简单界面Gradio是一个快速构建机器学习界面的库非常适合演示用途import gradio as gr # 初始化搜索引擎 search_engine SemanticSearch() def init_search_engine(docs_text): 初始化搜索引擎 global search_engine documents [doc.strip() for doc in docs_text.split(\n) if doc.strip()] search_engine batch_process_documents(documents) return f成功加载 {len(documents)} 个文档 def perform_search(query): 执行搜索并返回结果 results search_engine.search(query, top_k5) output 搜索结果\n\n for i, result in enumerate(results, 1): output f{i}. 相似度: {result[similarity]:.3f}\n output f 内容: {result[document][:100]}...\n\n return output # 创建界面 with gr.Blocks(title语义搜索服务) as demo: gr.Markdown(# 私有化语义搜索服务) with gr.Row(): with gr.Column(scale1): docs_input gr.Textbox( label输入文档每行一个文档, lines10, placeholder在此输入需要建立索引的文档... ) init_btn gr.Button(初始化搜索引擎) init_status gr.Textbox(label初始化状态) with gr.Column(scale2): query_input gr.Textbox( label搜索查询, placeholder输入您要搜索的内容... ) search_btn gr.Button(搜索) results_output gr.Textbox(label搜索结果, lines10) init_btn.click(init_search_engine, inputsdocs_input, outputsinit_status) search_btn.click(perform_search, inputsquery_input, outputsresults_output) # 启动服务 if __name__ __main__: demo.launch(server_name0.0.0.0, server_port7860)4.2 高级界面功能增强为了让搜索界面更加实用我们可以添加一些高级功能def enhanced_search_interface(): 增强版搜索界面 with gr.Blocks(title高级语义搜索, themegr.themes.Soft()) as demo: gr.Markdown( # 高级语义搜索平台 基于EmbeddingGemma-300m构建的私有化搜索服务 ) with gr.Tab(文档管理): with gr.Row(): doc_upload gr.File(label上传文档文件, file_types[.txt, .md]) doc_text gr.Textbox(label或直接输入文档, lines10) with gr.Row(): init_btn gr.Button( 建立搜索索引, variantprimary) clear_btn gr.Button(️ 清空索引) status gr.Textbox(label状态信息) with gr.Tab(搜索): with gr.Row(): query gr.Textbox(label搜索词, placeholder输入您要查找的内容...) similarity_threshold gr.Slider(0, 1, value0.5, label相似度阈值) search_btn gr.Button( 开始搜索, variantprimary) results gr.Dataframe( label搜索结果, headers[相似度, 文档内容], datatype[number, str] ) # 连接功能 def process_uploaded_file(file): if file: with open(file.name, r, encodingutf-8) as f: content f.read() return content return def update_results(query, threshold): results_data search_engine.search(query, top_k10) filtered [ [f{r[similarity]:.3f}, r[document][:200] ...] for r in results_data if r[similarity] threshold ] return filtered doc_upload.change(process_uploaded_file, inputsdoc_upload, outputsdoc_text) search_btn.click(update_results, inputs[query, similarity_threshold], outputsresults) return demo5. 实际应用案例5.1 企业知识库搜索很多公司都有大量的内部文档、技术手册、会议记录等。使用这个语义搜索系统可以快速搭建一个企业内部知识库class EnterpriseKnowledgeBase: def __init__(self): self.search_engine SemanticSearch() self.document_metadata {} # 存储文档元数据 def add_document_with_meta(self, text, title, category, tags[]): 添加带元数据的文档 doc_id len(self.documents) self.search_engine.add_document(text) self.document_metadata[doc_id] { title: title, category: category, tags: tags, content_preview: text[:100] ... if len(text) 100 else text } def advanced_search(self, query, categoryNone, min_similarity0.3): 高级搜索功能 results self.search_engine.search(query, top_k20) filtered_results [] for result in results: doc_id self.documents.index(result[document]) metadata self.document_metadata.get(doc_id, {}) # 分类过滤 if category and metadata.get(category) ! category: continue # 相似度过滤 if result[similarity] min_similarity: continue filtered_results.append({ similarity: result[similarity], title: metadata.get(title, 无标题), category: metadata.get(category, 未分类), preview: metadata.get(content_preview, ), full_content: result[document] }) return filtered_results5.2 学术文献检索研究人员可以使用这个系统来管理论文库def setup_research_paper_system(): 学术论文检索系统 kb EnterpriseKnowledgeBase() # 模拟添加一些论文 papers [ { title: 深度学习在自然语言处理中的应用, content: 本文探讨了深度学习技术在NLP领域的最新进展..., category: 人工智能, tags: [深度学习, NLP, 神经网络] }, { title: 量子计算的基础原理, content: 量子计算利用量子力学特性实现计算..., category: 量子计算, tags: [量子, 计算, 物理] } ] for paper in papers: kb.add_document_with_meta( paper[content], titlepaper[title], categorypaper[category], tagspaper[tags] ) return kb # 使用示例 research_db setup_research_paper_system() results research_db.advanced_search(机器学习, category人工智能)6. 性能优化与扩展6.1 向量索引优化当文档数量很大时直接计算余弦相似度会比较慢。我们可以使用专门的向量数据库# 可选使用FAISS进行高效相似度搜索 try: import faiss HAS_FAISS True except ImportError: HAS_FAISS False class OptimizedSemanticSearch(SemanticSearch): def __init__(self): super().__init__() self.faiss_index None def build_index(self): 构建FAISS索引加速搜索 if not HAS_FAISS or len(self.embeddings) 0: return dimension len(self.embeddings[0]) self.faiss_index faiss.IndexFlatIP(dimension) # 内积索引等价于余弦相似度 # 归一化向量因为FAISS使用内积需要归一化后余弦相似度内积 embeddings_np np.array(self.embeddings).astype(float32) faiss.normalize_L2(embeddings_np) self.faiss_index.add(embeddings_np) def fast_search(self, query, top_k5): 使用FAISS加速搜索 if self.faiss_index is None or len(self.embeddings) 0: return self.search(query, top_k) # 生成查询向量并归一化 response ollama.embeddings(modelembeddinggemma:300m, promptquery) query_embedding np.array(response[embedding]).astype(float32).reshape(1, -1) faiss.normalize_L2(query_embedding) # 搜索 similarities, indices self.faiss_index.search(query_embedding, top_k) results [] for i, idx in enumerate(indices[0]): if idx 0: # FAISS可能返回-1表示无效结果 results.append({ document: self.documents[idx], similarity: float(similarities[0][i]) }) return results6.2 缓存机制为了提升性能我们可以添加缓存机制from functools import lru_cache import hashlib class CachedSemanticSearch(OptimizedSemanticSearch): def __init__(self, cache_size1000): super().__init__() self.cache_size cache_size lru_cache(maxsize1000) def get_embedding_cached(self, text): 带缓存的嵌入生成 return ollama.embeddings(modelembeddinggemma:300m, prompttext)[embedding] def add_document(self, text): 重写添加文档方法使用缓存 embedding self.get_embedding_cached(text) self.documents.append(text) self.embeddings.append(embedding) def search(self, query, top_k5): 重写搜索方法使用缓存 query_embedding self.get_embedding_cached(query) # ... 其余代码与父类相同7. 总结与下一步建议通过本文的指导你已经成功搭建了一个完整的私有化语义搜索服务。这个系统基于EmbeddingGemma-300m和Ollama具备以下优势主要优势完全私有化部署数据不出本地语义理解能力强超越关键词搜索部署简单30分钟即可上手资源消耗低普通电脑也能运行实际应用场景企业知识库管理学术文献检索个人文档搜索代码库搜索法律条文查询下一步改进建议扩展多语言支持EmbeddingGemma支持100多种语言可以尝试构建多语言搜索系统集成现有系统将搜索服务集成到公司现有的Wiki或文档管理系统中添加用户反馈实现点击反馈机制让系统能够从用户行为中学习优化尝试更大模型如果需要更精准的结果可以尝试更大的嵌入模型添加访问控制为企业应用添加权限管理功能这个语义搜索系统只是一个起点你可以根据具体需求不断扩展和优化。无论是个人使用还是企业部署都能显著提升信息检索的效率和准确性。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

相关文章:

开源可部署|embeddinggemma-300m + Ollama构建私有化语义搜索服务

开源可部署|embeddinggemma-300m Ollama构建私有化语义搜索服务 1. 引言:为什么需要私有化语义搜索 在日常工作和学习中,我们经常需要从大量文档中快速找到相关信息。传统的关键词搜索往往不够智能,无法理解语义层面的相似性。…...

如何通过 USB 和无线方式将 iPad 照片传输到Mac

您想将大量照片从 iPad 传输到Mac吗?如果是这样,您可能想知道最好的方法是什么。无论是使用 USB 电缆还是 WiFi 连接,都有多种方法可以将图像从 iPad 移动到Mac 。这篇文章将展示如何通过 USB 和无线方式将 iPad 照片传输到Mac 。现在让我们开…...

服务化技术API网关路由策略与限流熔断的实现机制

随着微服务架构的普及,服务化技术中的API网关成为系统流量的关键入口。它不仅负责请求的路由与转发,还需应对高并发场景下的限流与熔断挑战。本文将深入探讨API网关的核心实现机制,帮助开发者构建高可用、高性能的分布式系统。路由策略的动态…...

UML用例图中的三种关系

在 UML 用例图中,用例(Use Case)之间的关系主要有以下三种: 1. 包含 (Include) —— “必须包含” 当多个用例中包含重复的步骤时,可以把这些公共步骤提取出来,作为一个独立的“被包含用例”。 特点&#x…...

传说不灭,只是悄悄换了主角:字节跳动在AI浪潮中杀出的血路

目录一、数据说话:字节到底有多猛二、三次"杀出来":头条→抖音→AI2.1 第一次:2012年,推荐算法撕开信息分发2.2 第二次:2016年,抖音切走腾讯的命根子2.3 第三次:2025年,利…...

收藏!掌握 Harness Engineering,让 AI 在你的工作环境中稳定输出(小白程序员必备)

文章探讨了 Harness Engineering 的概念,即通过搭建适合 AI 工作的环境来提高 AI 的效率和稳定性。作者以 OpenAI、Anthropic 和 Karpathy 等公司的实践为例,说明了如何通过设计环境、明确意图和构建反馈回路来让 AI 稳定输出。文章强调,在 A…...

边缘AI推理加速全链路拆解,从Docker镜像瘦身到GPU直通部署——K3s+Docker混合栈最佳实践

第一章:边缘AI推理加速全链路概览 边缘AI推理加速并非单一技术点的优化,而是一条横跨模型设计、编译部署、硬件适配与运行时调度的端到端技术链路。该链路从云端模型训练完成后的轻量化处理开始,贯穿模型转换、算子融合、内存布局重排、量化校…...

揭秘Java静态编译内存暴增之谜:从SubstrateVM GC日志到HeapSnapshot源码逐行剖析(含3个致命内存泄漏POC)

第一章:Java静态编译内存暴增现象全景透视 Java 静态编译(如通过 GraalVM Native Image)在构建轻量级、启动极快的原生可执行文件方面展现出巨大潜力,但实践中频繁出现内存占用陡升甚至编译失败的现象,尤其在中大型 Sp…...

从零构建专属PE:手把手教你定制纯净高效的Windows维护镜像

1. 为什么需要定制专属PE系统 每次重装系统或者修复电脑故障时,你是不是也遇到过这样的烦恼?网上下载的PE工具要么捆绑了各种推广软件,要么偷偷植入后门程序,甚至有些还会修改浏览器主页。作为一个经常帮朋友修电脑的老手&#x…...

告别Arduino IDE!用VS Code + CMake玩转ESP32开发,保姆级环境配置避坑指南

告别Arduino IDE!用VS Code CMake玩转ESP32开发,保姆级环境配置避坑指南 第一次接触ESP32开发时,大多数人都会从Arduino IDE开始。它简单易用,点几下按钮就能让LED闪烁起来。但当你尝试构建更复杂的项目时,Arduino的…...

Linux 时间同步服务:Chrony 深度笔记

Linux 时间同步服务:Chrony 深度笔记 NTP 时间服务器与 Chrony 的关系 1. 什么是 NTP 时间服务器 NTP(Network Time Protocol,网络时间协议)是用于在网络中(通常是互联网或局域网)同步计算机时钟的一种标准…...

实测!用DiskGenius和Boot-Repair搞定移动硬盘Ubuntu启动难题(附最新软件版本)

移动硬盘Ubuntu系统全兼容实战:从分区原理到多机启动修复 当你想把Ubuntu系统装进移动硬盘实现随身携带时,可能会遇到一个尴尬问题——在自己电脑上安装顺利,换台机器却无法启动。这背后涉及UEFI引导机制、分区表类型和ESP分区位置等多个技术…...

边缘计算中大语言模型量化技术解析与实践

1. 边缘大语言模型量化技术现状与挑战在边缘计算场景部署大语言模型(LLM)面临的核心矛盾是:模型参数量呈指数级增长与边缘设备有限计算资源之间的冲突。以LLaMA3.1-70B为例,其FP16格式的原始权重需要140GB存储空间,远超…...

自定义AppBar在Flutter中的应用

在Flutter开发中,AppBar是我们常用到的组件之一。通常情况下,我们直接使用Scaffold的appBar属性来设置应用的顶部导航栏。然而,当我们需要自定义AppBar时,可能会遇到一些类型问题。本文将通过一个实际案例,展示如何解决在Flutter中自定义AppBar时可能遇到的类型错误。 背…...

Renesas RZ/T2H工业MPU:异构架构与实时控制解析

1. Renesas RZ/T2H工业级MPU深度解析 Renesas RZ/T2H作为RZ/T2系列中最强大的实时微处理器,专为工业自动化领域设计。这款芯片采用了独特的异构架构,将四核Cortex-A55应用处理器与双核Cortex-R52实时控制器集成在同一硅片上,为工业设备提供了…...

Flutter BLoC模式中的全局状态管理

在Flutter应用开发中,状态管理是核心问题之一。BLoC(Business Logic Component)模式是处理状态管理的一种有效方法。它通过将业务逻辑从视图层中分离出来,提高了代码的可维护性和可测试性。本文将通过一个实际的TODO应用案例,介绍如何使用BLoC模式实现全局状态管理,避免在…...

手把手教你用FUSB302芯片给单片机实现PD快充(附完整C代码)

从零构建PD快充系统:FUSB302芯片实战指南 1. PD协议与FUSB302芯片基础解析 在现代电子设备快速迭代的今天,电源管理技术正经历着革命性的变化。USB Power Delivery(PD)协议作为当前最先进的快充标准之一,已经广泛应用于…...

R语言corrplot包的进阶使用技巧

在数据分析和可视化领域,R语言凭借其强大的包生态系统成为首选工具之一。其中,corrplot包以其直观的相关系数矩阵图而备受数据科学家青睐。然而,在使用过程中,我们常常会遇到一些看似细小但影响可视化效果的问题,比如相关系数的小数位数显示不完整。本文将结合实际案例,探…...

Edge浏览器油猴插件安装与脚本管理保姆级教程(含离线备份与迁移指南)

Edge浏览器油猴插件全场景管理指南:从安装到跨设备无缝迁移 油猴插件(Tampermonkey)作为浏览器脚本管理的瑞士军刀,早已成为效率工具爱好者的标配。但大多数教程止步于基础安装,对于多设备同步、离线环境部署、脚本批…...

Win11Debloat:三步完成Windows 11终极系统优化与隐私保护指南

Win11Debloat:三步完成Windows 11终极系统优化与隐私保护指南 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to declutter…...

【万字】抛开 RAG 谈蒸馏.skill,大概率是形式主义

上周我拜访了前老板,他们应该是国内做 AI 应用最深的一批公司,相应着整个团队对 AI 的应用及理解都很到位,于是乎我问了他一个问题: 老板你觉得什么是 AI 原生团队/应用,对应着团队的组织结构会有什么变化吗&#xff1…...

ROS开发效率翻倍:告别屏幕切换,用SSH+VSCode远程连接ROS小车并调试Rviz

ROS开发效率革命:VSCodeSSH全链路远程调试实战 想象一下这样的场景:你正在调试一台ROS移动机器人,左手是SSH终端窗口,右手是本地IDE编辑器,中间还要不断切换Rviz可视化界面——这种碎片化的工作流是否让你效率低下&…...

从攻击者视角看防御:一次对老旧JBoss服务的“体检”实战记录(附检测脚本)

企业安全实战:老旧JBoss服务漏洞检测与应急响应指南 发现公司内网遗留的JBoss服务器时,安全团队往往会心头一紧。这些"古董级"应用服务就像定时炸弹,可能因为长期无人维护而存在严重安全漏洞。本文将带您模拟一次完整的安全体检过程…...

如何检测失效的SQL视图_检查依赖对象的完整性

...

Scroll Reverser:终极指南!解决macOS多设备滚动方向混乱的免费神器

Scroll Reverser:终极指南!解决macOS多设备滚动方向混乱的免费神器 【免费下载链接】Scroll-Reverser Per-device scrolling prefs on macOS. 项目地址: https://gitcode.com/gh_mirrors/sc/Scroll-Reverser 你是否在Mac上同时使用触控板和鼠标时…...

别再重装系统了!手把手教你在一台X86电脑上同时拥有UOS和麒麟V10(保姆级分区指南)

国产操作系统双系统实战:UOS与麒麟V10共存的终极分区方案 每次切换操作系统都要重装系统?对于需要在UOS和麒麟V10之间频繁切换的开发者来说,这简直是噩梦。本文将彻底解决这个痛点,通过精心设计的双系统方案,让你在一台…...

QtScrcpy:电脑玩手游神器!3分钟实现安卓投屏+键鼠映射

QtScrcpy:电脑玩手游神器!3分钟实现安卓投屏键鼠映射 【免费下载链接】QtScrcpy Android real-time display control software 项目地址: https://gitcode.com/GitHub_Trending/qt/QtScrcpy 想在电脑大屏幕上畅玩手游吗?想用键盘鼠标获…...

从MTBF到泊松分布:构建硬盘可靠性评估与预测的实战指南

1. 硬盘可靠性评估的基础指标 当你管理着成千上万块硬盘的数据中心时,最怕听到的就是"硬盘坏了"这四个字。作为从业多年的运维工程师,我深知硬盘故障带来的不仅是数据丢失风险,更是真金白银的损失。要有效预防这些问题,…...

Altium Designer实战:PCB安全间距规则设置保姆级教程(含工艺边、V-CUT避坑)

Altium Designer实战:PCB安全间距规则设置保姆级教程(含工艺边、V-CUT避坑) 在PCB设计领域,安全间距设置是确保电路板可靠性和可制造性的关键环节。作为一名长期使用Altium Designer(以下简称AD)的工程师&a…...

区块链共识算法详解

区块链共识算法详解 区块链技术的核心在于其去中心化的特性,而共识算法则是确保分布式网络中所有节点达成一致的关键机制。无论是比特币的工作量证明(PoW),还是以太坊转向的权益证明(PoS),共识…...