当前位置: 首页 > article >正文

llama-index 数据清洗示例、数据清洗等

文章目录示例数据清洗常见的需要清洗的数据数据清洗知识llama的一小块功能主文章内容太多了拆出来单独说下。示例环境还基于之前的环境。1、新建python文件clean_demo.py代码importosfromllama_index.coreimportDocument,VectorStoreIndex,Settingsfromllama_index.core.ingestionimportIngestionPipelinefromllama_index.core.node_parserimportSentenceSplitter# 引入阿里云百炼fromllama_index.embeddings.dashscopeimportDashScopeEmbeddingfromllama_index.llms.dashscopeimportDashScope# --- 1. 配置 ---API_KEYos.getenv(DASHSCOPE_API_KEY,sk-你的KEY)Settings.llmDashScope(model_nameqwen-plus,api_keyAPI_KEY)Settings.embed_modelDashScopeEmbedding(model_nametext-embedding-v2,api_keyAPI_KEY)# --- 2. 数据 ---raw_texts[LlamaIndex 是一个强大的框架。,LlamaIndex 是一个强大的框架。,# 重复阿里云百炼提供了很好的模型服务。,这是一条垃圾广告买鞋加微信...,# 垃圾数据RAG 技术可以增强大模型的知识库。]documents[Document(textt,metadata{source:tech_docif广告notintelsespam})fortinraw_texts]# --- 3. 流水线与清洗 ---pipelineIngestionPipeline(transformations[# 调大 chunk_size 避免警告SentenceSplitter(chunk_size128,chunk_overlap10),])nodespipeline.run(documentsdocuments)# 【核心修改】物理清洗直接用 Python 列表推导式剔除垃圾数据# 这里我们只保留 source 为 tech_doc 的节点彻底扔掉 spamclean_nodes[nodefornodeinnodesifnode.metadata.get(source)tech_doc]print(f 清洗后节点数量:{len(clean_nodes)})print(✅ 垃圾数据已被物理移除不会进入索引。)# --- 4. 构建索引 ---# 直接传入干净的数据索引里根本就没有垃圾数据查询时自然也就查不到indexVectorStoreIndex(nodesclean_nodes)# --- 5. 查询 (最简单的写法) ---query_engineindex.as_query_engine(similarity_top_k5)# 直接查询不需要传任何 filtersresponsequery_engine.query(LlamaIndex 是什么)print(\n--- 回答 ---)print(response)# 验证来源print(f\n--- 来源验证 (应该只有 tech_doc) ---)fornodeinresponse.source_nodes:print(f- 来源:{node.metadata.get(source)}| 内容:{node.text})输出结果 清洗后节点数量:4✅ 垃圾数据已被物理移除不会进入索引。 --- 回答 --- LlamaIndex 是一个强大的框架。 --- 来源验证(应该只有 tech_doc)--- - 来源: tech_doc|内容: LlamaIndex 是一个强大的框架。 - 来源: tech_doc|内容: LlamaIndex 是一个强大的框架。 - 来源: tech_doc|内容: 阿里云百炼提供了很好的模型服务。 - 来源: tech_doc|内容: RAG 技术可以增强大模型的知识库。解读数据清洗为什么要数据清洗?因为大模型是垃圾进垃圾出如果数据质量不高再好的大模型也分析不出正确的结论。常见的需要清洗的数据缺失值 (Missing Data)表现数据集中某些字段是空的NULL、NaN、空字符串。成因用户未填写、系统采集故障、人工录入遗漏等。重复值 (Duplicate Data)表现同一条记录出现了多次。成因系统多次提交、多数据源合并未去重、人工重复录入。异常值 (Outliers)表现数值明显偏离正常范围如年龄200岁、订单金额为负数。成因录入错误、系统故障或者是真实的极端情况如双11的大额订单。不一致数据 (Inconsistent Data)表现格式、单位、编码不统一。例子日期有的用“2023-01-01”有的用“2023/1/1”性别有的用“男/女”有的用“1/0”。spam数据spam是什么意思呢?垃圾邮件、以及二战时的罐头午餐肉也是这个词总之spam就是表示垃圾的意思。

相关文章:

llama-index 数据清洗示例、数据清洗等

文章目录示例数据清洗常见的需要清洗的数据数据清洗知识llama的一小块功能,主文章内容太多了,拆出来单独说下。示例 环境还基于之前的环境。 1、新建python文件clean_demo.py,代码: import os from llama_index.core import Do…...

基于OpenCASCADE7.4+OSG3.6.3+Qt5.12.7的多文档初级CAD/CAE...

基于opencascade7.4osg3.6.3qt5.12.7的多文档初级Cad/cae平台,支持十几种格式文件,包括step,igs,stl,obj,3ds,osg等,支持视角切换,显示模式切换,仿Cad命令注册机制,装配体显示,模型高…...

三极管信号滤波原理与工程实践

1. 三极管在信号滤波中的独特应用作为一名嵌入式硬件工程师,我经常需要处理各种传感器信号。最近在无刷电机驱动项目中,遇到了霍尔信号毛刺干扰的问题。传统教科书上总是强调三极管的放大作用,但实际工程中,我发现三极管在信号滤波…...

快马平台十分钟速建:openclaw机器人抓取参数可视化配置原型

最近在做一个机器人抓取控制的项目,需要快速搭建一个openclaw的参数配置界面。作为一个前端开发经验不多的工程师,我惊喜地发现InsCode(快马)平台可以帮我快速实现这个需求。下面分享下我的实现过程。 首先明确需求 这个配置工具需要实现五个核心功能&a…...

基于Maxwell的750W内转子伺服电机设计:14极12槽优化方案解析

基于maxwwell设计的经典750W,3000RPM 内转子 私服电机,14极12槽,外径76 轴向长度56.7 ,转矩1Nm,直流母线12V,辅助槽优化了齿槽转矩,特色是转子加工方便,永磁同步电机(PMSM BLDC&…...

【手把手教学】使用stitch 生成ui图,导入figma,再用codebuddy生成工程代码

目录 一.stich使用 1.1 关键词生成 1.2 生成ui图 1.3 导出figma​编辑 二. codebuddy使用 ​编辑2.1打开figma ​编辑 2.2 复制ui到设计面板 2.3生成工程代码 三. 结语 一.stich使用 stich官网地址 Google Stitch 是 Google Labs 推出的、基于 Gemini 大模型驱动的A…...

Java继承详解:从基础到实战,吃透面向对象核心特性

哈喽,各位Java学习者!今天咱们深入拆解面向对象编程(OOP)的三大核心特性之一——继承。作为Java开发的基础重点,继承不仅能帮我们实现代码复用、简化开发,更是后续理解多态、抽象类、接口的关键前提。不管你…...

QModMaster:5分钟掌握免费开源ModBus调试工具终极指南

QModMaster:5分钟掌握免费开源ModBus调试工具终极指南 【免费下载链接】qModbusMaster 项目地址: https://gitcode.com/gh_mirrors/qm/qModbusMaster 你是否在为工业设备调试而烦恼?面对复杂的ModBus通信协议,商业软件价格昂贵&#…...

告别预烘焙!在UE材质编辑器中实时生成FlowMap和法线贴图(附节点图)

实时材质魔法:UE引擎中FlowMap与法线贴图的动态生成技术 在游戏开发与动态视觉创作领域,材质表现的真实感与动态效果一直是技术美术师们追求的核心目标。传统工作流中,FlowMap(流场图)和法线贴图的生成往往依赖于外部软…...

AI辅助架构设计:让快马平台智能规划trae状态管理方案

用AI辅助设计trae状态管理方案:以博客后台系统为例 最近在开发一个博客后台管理系统时,遇到了状态管理的难题。系统需要处理文章列表、编辑草稿、用户评论和系统设置等多种数据,如何合理组织这些状态让我头疼不已。幸运的是,在In…...

群晖更换RAID类型无需重建服务,保持Volume磁盘盘符不变

我的环境:DSM型号:DS3617xs(黑群晖)系统版本:DSM 7.1.1-42962 Update 6硬盘数据库更新时间:2026-01-23更改前磁盘序号(btrfs):Raid1(volume1)&…...

K8s中pod的创建与销毁

刚开始学习,整了一下流程图1.pod的创建2.pod的销毁有不对的地方,大家共同探讨...

seo规则中的内容创作有哪些注意事项

SEO规则中的内容创作有哪些注意事项 在当今互联网时代,搜索引擎优化(SEO)已成为网站流量和曝光度提升的关键手段。其中,内容创作是SEO的核心要素之一。仅仅创作大量内容并不能保证网站的高排名和高流量。要想在百度等搜索引擎上取…...

在wsl中利用快马平台五分钟搭建flask博客后端原型

最近在Windows系统下折腾WSL(Windows Subsystem for Linux)时,发现结合InsCode(快马)平台可以快速搭建项目原型,特别适合需要Linux环境特性的开发验证。就拿搭建一个Flask博客后端来说,传统方式从零开始配置环境、编写…...

WSL+VSCode+Jupyter+R配置总结(2026年)

题记:网上相关的资料很多了,现阶段跟随AI也能少走很多弯路,但体验下来依旧有些细节没有被很好的提及,故写本文一方面作为自己的备忘录,一方面希望帮助更多像我一样的新手。 用了上述的配置跑了scanpy一年多了&#xf…...

告别重复编码:用Copaw结合快马平台,自动化生成你的常用工具模块

作为一名经常需要整理会议纪要的开发者,我一直在寻找能提升效率的工具。最近尝试用Copaw结合InsCode(快马)平台做了一个会议纪要自动生成器,效果出乎意料地好。整个过程几乎没写代码,却实现了核心功能,分享下具体实现思路&#xf…...

从 14 万美元支付事故看:AI 写的代码过了所有测试,为什么活不过生产?

我审计过的一家科技公司,曾因一段 AI 生成的异步支付处理代码,遭遇了一场灾难性的生产事故。这段代码完美通过了所有自动化检查、单元测试与集成测试,标注着「All checks passed」被顺利合并到生产环境,最终却触发了竞态条件与重复…...

FastAPI + SQLite:从基础CRUD到安全并发的实战指南

核心摘要本文将带你超越FastAPI SQLite的基础CRUD搭建,聚焦于安全防护(认证、授权、输入验证)与并发处理(数据库连接池、异步优化)两大实战痛点。你会获得一套可直接复用的项目骨架,并理解其背后的设计逻辑…...

MySQL

我目前正在学习SQL语句,我所了解到的MySQL其实是一堆服务器,在下载服务器的时候,可以选择下载一些客户端,MySQL会自带一些客户端,像类似于终端的小黑框,还有什么bench;我还是喜欢外观好看的客户端 !我学SQL语句目前学到了数据类型,有数值型的,字符型的,二进制型的,值得一提的是…...

OpenCore Legacy Patcher终极指南:让老旧Mac焕发新生的完整方案

OpenCore Legacy Patcher终极指南:让老旧Mac焕发新生的完整方案 【免费下载链接】OpenCore-Legacy-Patcher Experience macOS just like before 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher OpenCore Legacy Patcher&#xf…...

N_m3u8DL-CLI-SimpleG:Windows平台最简M3U8视频下载工具完全指南

N_m3u8DL-CLI-SimpleG:Windows平台最简M3U8视频下载工具完全指南 【免费下载链接】N_m3u8DL-CLI-SimpleG N_m3u8DL-CLIs simple GUI 项目地址: https://gitcode.com/gh_mirrors/nm3/N_m3u8DL-CLI-SimpleG 如果你正在寻找一款简单易用的M3U8视频下载工具&…...

一步步教你:星图平台部署Qwen3-VL:30B完整流程,Clawdbot飞书集成实战

一步步教你:星图平台部署Qwen3-VL:30B完整流程,Clawdbot飞书集成实战 想象一下这个场景:你的团队在飞书群里讨论产品设计,有人发了一张UI截图问“这个按钮位置是不是太靠下了?”;财务同事上传了一张发票照…...

Python智能内存回收实战:3种GC策略对比+4个生产级调优参数配置(附压测数据)

第一章:Python智能体内存管理策略生产环境部署在高并发、长生命周期的Python智能体服务中,内存管理直接影响系统稳定性与响应延迟。默认的CPython引用计数循环垃圾回收(GC)机制在动态对象频繁创建销毁的场景下易引发内存抖动和不可…...

如何用GPU加速的MediaPipe TouchDesigner插件实现实时视觉交互

如何用GPU加速的MediaPipe TouchDesigner插件实现实时视觉交互 【免费下载链接】mediapipe-touchdesigner GPU Accelerated MediaPipe Plugin for TouchDesigner 项目地址: https://gitcode.com/gh_mirrors/me/mediapipe-touchdesigner MediaPipe TouchDesigner插件是一…...

实战派指南:用MaPLe思路优化你的CLIP下游任务,附关键配置与避坑建议

实战派指南:用MaPLe思路优化你的CLIP下游任务,附关键配置与避坑建议 当CLIP遇上业务场景,90%的开发者都会遇到相同的问题:模型在新类别上的表现总是不尽如人意。上周团队用默认参数跑跨模态检索任务时,基类准确率82%的…...

大模型RL算法梳理:从全量词元到部分词元的路径演化

一、 引言:大模型强化学习算法的演化格局 近年来,以 OpenAI 的 o1 系列、DeepSeek 的 R1,以及 Qwen 系列模型为代表,大语言模型在数学证明、代码生成等长链路推理任务中展现出更强的稳定性与推理深度。 在这一背景下,面…...

ARP 协议超详细讲解

前言网络设备有数据要发送给另一台网络设备时,必须要知道对方的网络层地址(即IP地址)。IP地址由网络层来提供,但是仅有IP地址是不够的,IP数据报文必须封装成帧才能通过数据链路进行发送。数据帧必须要包含目的MAC地址&…...

Spring AI 流式输出底层原理解析

在 AI 应用开发中,流式输出早已成为提升用户体验的核心能力——像 ChatGPT 那样的打字机式实时回复,既能避免用户长时间干等,又能解决长连接超时问题,是 AI 产品的必备特性。 一、流式输出的两种技术,不是对立而是“底…...

【个人推荐】一些好用的录音转写工具

因为助教课备课的缘故,需要录制讲座的音频以整理知识点。一次讲座的音频内容很长,即使3x速快进播放依然很耗费时间,因此录音转写的需求浮现了出来。于是闲暇之余探索了下市面上的录音转写工具,浅浅记录下体验。 下面主要推荐三款…...

Ollama在Apple Silicon上预览,性能大提升

2026年3月30日,Ollama开启在Apple silicon上的预览,由苹果MLX框架支持,解锁新性能,加速繁重工作,还在多方面有显著改进。MLX驱动,性能飞升基于Apple silicon的Ollama构建在MLX框架上,利用统一内…...