当前位置: 首页 > article >正文

2.2 本地文件读取

本章学习目标知道CSV、Excel、JSON三种文件分别怎么读、会遇到什么常见问题理解每种文件格式的“坑”在哪里以及如何向AI描述解决方案学会用“人话”告诉AI你要做什么让AI生成代码不需要记住任何函数名或参数只需要知道“有什么问题”和“怎么描述”一、核心理念你不需要记住代码在AI Agent时代文件读取的代码不需要你亲手写。你需要做的是三件事知道有什么格式CSV、Excel、JSON每种的特点和坑知道有什么参数编码、分隔符、跳过行数、Sheet名 —— 不需要记住拼写知道“有这个东西”就行会描述需求用自然语言告诉AI你想做什么打个比方你不需要知道汽车发动机怎么工作但你需要知道“车没油了要去加油站”、“轮胎没气了要打气”。同样你不需要记住pd.read_csv(encodingutf-8)但你需要知道“中文乱码时告诉AI换个编码”。二、CSV文件读取2.1 CSV在什么场景用场景为什么用CSV从数据库导出数据做分析数据库导出功能通常默认CSV格式从Kaggle等平台下载数据集竞赛数据集几乎都是CSV在团队间传递数据通用格式任何人任何工具都能打开存储清洗后的干净数据体积小、读写快、没有格式污染2.2 读取CSV时可能遇到的问题CSV看起来简单但实际读取时经常会遇到三个“坑”问题现象原因怎么告诉AI中文乱码看到ä½ å¥½这样的乱码文件编码和读取时用的编码不一致“读取这个CSV时中文乱码了帮我换GBK编码试试”首列丢了0手机号13800138000前面的0没了手机号被当成数字处理了“把用户ID列和手机号列当成字符串读取不要转成数字”列数对不齐某一行比其他行多出几列数据内容里本身就含有逗号“这个CSV用逗号分隔但数据里有逗号帮我处理一下”2.3 核心参数只需要知道“有这些参数”参数名它是干嘛的什么时候用怎么跟AI说encoding指定文件编码出现中文乱码时“编码换成GBK / utf-8”sep指定分隔符文件不是用逗号分隔的比如用Tab“这个文件用的是竖线分隔不是逗号”dtype指定某列的数据类型手机号、用户ID不能变成数字“把手机号列当成字符串读”nrows只读前N行文件太大先看一眼结构“先读前100行看看数据长什么样”chunksize分块读取文件太大内存装不下“这个文件有2GB帮我分块读取每次处理1万行”2.4 如何向AI描述CSV读取需求提示词模板你的需求你应该这样告诉AI正常读取一个CSV“帮我用Python读取这个data.csv文件显示前5行”中文乱码“读取这个CSV时中文显示乱码帮我用GBK编码重新读”手机号丢了前导0“读取CSV时把手机号列当成字符串类型不要转成数字”文件太大先看看结构“这个CSV有500MB先只读前1000行让我看看结构”文件太大内存装不下“这个CSV有5GB内存只有8GB帮我分块读取每块处理完后只保留需要的列”三、Excel文件读取3.1 Excel在什么场景用场景为什么用Excel业务部门给你的报表业务人员熟悉Excel能做简单计算和图表包含多张Sheet的数据一份Excel里可能有“用户表”、“订单表”等多个Sheet需要保留格式的报告给别人看的时候颜色字体都需要保留数据量不大10万行以内Excel能打开操作流畅3.2 读取Excel时可能遇到的问题Excel文件比CSV复杂得多因为它是给人看的不是给机器读的。常见问题问题现象原因怎么告诉AI多个Sheet不知道数据在哪个Sheet业务人员习惯把相关数据放不同Sheet“读取这个Excel的第二个SheetSheet名叫‘销售明细’”合并单元格读取后很多格子是空的Excel里合并了单元格好看但数据是不完整的“合并单元格帮我向下填充空的地方填成上面的值”前几行不是数据第1-3行是标题、Logo、空行报表模板不是从第一行开始的“跳过前3行第4行是列名”数字存成了文本无法求和、计算从别的系统导出时格式没转“把金额列转成数字类型”3.3 如何处理这些问题的思路问题一多个SheetExcel文件就像一本书Sheet就像书的章节。你需要告诉AI“我要读第几章”。应对方式没指定读取第一个Sheet默认知道Sheet名“读取Sheet名叫‘订单明细’的那个”知道顺序“读取第2个Sheet”问题二合并单元格Excel里为了好看经常会合并单元格比如部门姓名销售额销售部张三100↑李四200↑王五150“↑”表示空实际应该是“销售部”填充到下面所有行。应对方式告诉AI“把合并单元格向下填充让空的地方自动填成上面非空的值”。问题三前几行不是数据业务人员给的Excel经常长这样第1行【公司Logo】 第2行2024年销售报表 第3行空行 第4行部门 | 姓名 | 销售额 ← 这才是真正的列名 第5行销售部 | 张三 | 100应对方式告诉AI“跳过前3行用第4行作为列名”。3.4 如何向AI描述Excel读取需求提示词模板你的需求你应该这样告诉AI正常读取“帮我读取这个orders.xlsx文件显示前5行”指定Sheet“读取Excel的第2个SheetSheet名叫‘2024年数据’”有合并单元格“这个Excel有合并单元格读取后帮我向下填充空值”前几行不是数据“跳过前2行空行和第3行说明第4行才是真正的列名”只读某几列“只读Excel里的A、C、E三列其他不要”多个Sheet一起读“把Excel里所有Sheet都读进来每个Sheet存成一个DataFrame”四、JSON文件读取4.1 JSON在什么场景用场景为什么用JSON调用Web API获取数据几乎所有互联网API都返回JSON格式读取服务器日志很多日志系统每行存一个JSON对象处理嵌套/层级数据JSON天生支持“一对多”的嵌套结构移动App和服务器的通信轻量、易解析4.2 理解“嵌套结构”——JSON最难但最重要的概念先看CSV/Excel能表达的平面表格user_idnameorder_idamount1001张三9001199.51001张三9002350.01002李四900389.0注意张三的名字重复出现了两次因为他有两个订单。再看JSON的表达方式嵌套[{user_id:1001,name:张三,orders:[{order_id:9001,amount:199.5},{order_id:9002,amount:350.0}]},{user_id:1002,name:李四,orders:[{order_id:9003,amount:89.0}]}]区别在哪里维度CSV/ExcelJSON结构平面行×列嵌套可以一层套一层重复信息张三的姓名重复2遍张三的姓名只写1遍表达“一对多”需要多行用嵌套数组天然表达机器读取友好✅✅人类直接看懂✅嵌套多了有点费眼4.3 什么时候需要“展开”嵌套结构JSON的嵌套结构对于分析工具如Excel、Python的pandas来说是不友好的。分析工具喜欢的是“平面表格”——就是一张方方正正的矩阵每一行是一条记录每一列是一个字段。所以当你拿到一个嵌套的JSON想分析里面的数据时你需要做一件事把嵌套“展开”Flatten成平面表格。展开前嵌套用户A → 订单1、订单2、订单3 用户B → 订单4 用户C → 订单5、订单6展开后平面用户A | 订单1 用户A | 订单2 用户A | 订单3 用户B | 订单4 用户C | 订单5 用户C | 订单6一句话理解展开就是把“一个用户有多个订单”拆成“一行一个订单”用户的重复信息如姓名、城市在每个订单行里都带上。4.4 JSON中常见的嵌套模式嵌套模式长什么样怎么告诉AI单层嵌套用户信息外面包一层里面是订单列表“把orders数组展开每个订单变成一行保留用户的user_id和name”多层嵌套用户 → 订单 → 商品订单里还有商品列表“展开到商品级别每个商品一行带上用户和订单的信息”元数据数据{status: success, data: [...]}“只取data里面的数组展开status作为标记保留”5.5 如何向AI描述JSON读取需求提示词模板你的需求你应该这样告诉AI读取简单JSON每行一个对象“读取这个data.json文件它每行是一个JSON对象”展开嵌套的订单数据“这个JSON里每个用户有多个订单帮我展开成平面表格每个订单一行用户信息重复带上”API返回的数据“调用这个API返回了JSON取出data字段里的数组把它转成表格”多层嵌套“JSON里用户→订单→商品有三层嵌套帮我展开到商品级别每个商品一行”只取部分字段“读取这个JSON只保留user_id、name、和orders里的amount字段”五、实战三种文件的“向AI描述”对照表你的场景文件类型你告诉AI的话从Kaggle下载的数据CSV“读取这个CSV显示前10行看看有什么字段”CSV打开是乱码CSV“中文乱码了用GBK编码重新读”业务给的月度报表Excel“读取这个Excel它有合并单元格帮我向下填充”Excel有多张SheetExcel“读取这个Excel的Sheet2Sheet名叫‘客户明细’”调用天气APIJSON“调用天气API返回的JSON把它转成表格”用户画像APIJSON嵌套“JSON里每个用户有多个标签帮我展开每个标签一行”2GB的超大CSVCSV“文件太大内存装不下帮我分块读取每块1万行”六、本章总结你只需要记住这三件事文件类型核心坑怎么告诉AICSV中文乱码、数字前丢0、分隔符不是逗号“换编码”、“转成字符串”、“分隔符是竖线”Excel多Sheet、合并单元格、前几行不是数据“读Sheet2”、“合并单元格向下填充”、“跳过前3行”JSON嵌套结构、需要展开“JSON里有嵌套数组帮我展开成平面表格”核心心法你不需要记住pd.read_csv(encodinggbk, dtype{phone: str})—— 你只需要知道“中文乱码换编码”、“手机号按文本读”。告诉AI它会生成正确的代码。思考题从业务同事那里拿到一个CSV打开后中文全是乱码。你怀疑是编码问题。你会怎么告诉AI一个Excel文件打开后发现第1-2行是公司Logo和标题第3行是列名从第4行开始是数据而且A列有合并单元格。你会怎么告诉AI去读取调用一个电商API返回的JSON结构是外层有status和datadata里面是一个数组每个元素是一个订单每个订单里有order_id和products商品列表。你想分析每个商品的情况。你会怎么告诉AI一个CSV文件有2GB你的电脑只有8GB内存。直接读取会内存不足。你会怎么告诉AI解决这个问题下一节预告2.3 数据库读取 —— 公司的数据在MySQL里怎么告诉AI去连接、查询、取数

相关文章:

2.2 本地文件读取

本章学习目标: 知道CSV、Excel、JSON三种文件分别怎么读、会遇到什么常见问题理解每种文件格式的“坑”在哪里,以及如何向AI描述解决方案学会用“人话”告诉AI你要做什么,让AI生成代码不需要记住任何函数名或参数,只需要知道“有什…...

云雾栖茶山,在云顶山读懂一片茶叶的蜕变旅程

位于福建省安溪县西坪镇的云顶山茶园,是一处融合了茶叶种植与传统制茶工艺的生态旅游区。该区域海拔约800米,常年云雾缭绕,土壤富含矿物质,为茶树生长提供了适宜的自然条件。景区以乌龙茶种植为核心,围绕“从叶片到茶杯…...

革命性AI图像生成工具Fooocus:让创意触手可及的完整解决方案

革命性AI图像生成工具Fooocus:让创意触手可及的完整解决方案 【免费下载链接】Fooocus Focus on prompting and generating 项目地址: https://gitcode.com/GitHub_Trending/fo/Fooocus 你是否曾经被复杂的AI绘画工具吓退?Fooocus正是为你打造的解…...

Superpower ChatGPT:浏览器扩展如何重塑AI对话管理与提示词工作流

1. 项目概述:Superpower ChatGPT,一个浏览器扩展的深度剖析如果你和我一样,每天都要和ChatGPT打上几个小时的交道,那你肯定也经历过这样的抓狂时刻:想找三天前那段关于Python代码优化的对话,却要在历史记录…...

如何解决Funannotate数据库安装失败:从403错误到完整部署的实战指南

如何解决Funannotate数据库安装失败:从403错误到完整部署的实战指南 【免费下载链接】funannotate Eukaryotic Genome Annotation Pipeline 项目地址: https://gitcode.com/gh_mirrors/fu/funannotate Funannotate是真核基因组注释的强大工具,但在…...

5月12日直播 | CANN Bench:为昇腾算子评测立起一把统一的尺子

CANN Bench:为昇腾算子评测立起一把统一的尺子 当 Coding Agent 一次写出几十个算子已成为常态,"什么算优质算子"变成了一个单一维度无法评估准确的问题:能不能过编译只是入场券,精度是否经得起验证、换个 shape 换个 d…...

零成本搭建OpenAI API代理:基于Cloudflare Workers的稳定访问方案

1. 项目概述与核心价值 最近在折腾AI应用开发的朋友,估计都绕不开一个头疼的问题:OpenAI的官方API接口在国内网络环境下访问起来不太稳定,时不时就给你来个连接超时或者直接被墙。我自己在做一些个人项目和小工具时,也经常被这个问…...

WindowResizer:轻松掌控Windows窗口的终极解决方案

WindowResizer:轻松掌控Windows窗口的终极解决方案 【免费下载链接】WindowResizer 一个可以强制调整应用程序窗口大小的工具 项目地址: https://gitcode.com/gh_mirrors/wi/WindowResizer 还在为Windows应用程序窗口尺寸无法调整而烦恼吗?Window…...

如何实现微信聊天记录永久保存:WeChatMsg完整备份终极指南

如何实现微信聊天记录永久保存:WeChatMsg完整备份终极指南 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/we/W…...

淘宝要接入AI购物助手:以后买东西,可能不是搜索,而是“让AI帮你挑”

最近AI圈有一个很值得关注的新热点。据路透社5月10日报道,阿里巴巴正准备把通义千问Qwen接入淘宝,让用户可以通过和AI聊天的方式浏览、比较和购买商品,而不是像以前那样自己一个个翻商品列表。报道还提到,Qwen应用将接入淘宝和天猫…...

5个简单步骤实现iOS虚拟定位:iFakeLocation终极解决方案

5个简单步骤实现iOS虚拟定位:iFakeLocation终极解决方案 【免费下载链接】iFakeLocation Simulate locations on iOS devices on Windows, Mac and Ubuntu. 项目地址: https://gitcode.com/gh_mirrors/if/iFakeLocation 你是否曾经需要在不同城市测试应用的位…...

量子噪声对机器学习模型的影响与缓解策略

1. 量子噪声与机器学习模型的复杂关系量子计算领域近年来最令人兴奋的进展之一,就是量子机器学习(QML)的兴起。作为一名长期跟踪量子计算发展的从业者,我亲眼见证了量子算法在机器学习任务中展现出的惊人潜力。然而,在…...

公考备考提分真相:从学员视角解析粉笔讲练测评闭环教学体系

引言在公务员考试备考赛道中,无数考生都面临同一个核心困惑:花费时间和金钱报名培训机构,究竟能不能实现有效提分?不少备考者有过备考失利的经历,也踩过传统公考培训的诸多坑。很多传统课程老师讲课条理清晰、内容丰富…...

超净实验室建设公司厂家:如何根据需求选择方案|中南实验室建设

在半导体制造、地质微量元素分析、生物制药等高精度领域,实验环境的洁净度直接影响数据可靠性与产品良率。超净实验室作为核心基础设施,其建设需融合空气动力学、材料科学、自动化控制等多学科技术。 一、超净实验室建设公司厂家的设计规划:…...

这家头部智能家居品牌是如何让全渠道电商闭环运营落地?

在电商渠道愈发多元的当下,让很多企业陷入 “数据多却用不好” 的困境。这不是个别现象,而是绝大多数全渠道电商企业正在经历的“成长烦恼”。今天,我们用一个真实案例,带您看看如何用一套系统,彻底告别这些噩梦。这家…...

基于RAG与向量数据库的智能知识库构建实战指南

1. 项目概述:一个开源的深度知识库构建与问答引擎最近在折腾一个挺有意思的开源项目,叫deepwiki-open。简单来说,它就是一个帮你把一堆文档(比如公司内部Wiki、产品手册、技术文档)变成一个能“听懂人话”并“对答如流…...

VisualCppRedist AIO:一站式解决Windows应用程序运行库缺失难题

VisualCppRedist AIO:一站式解决Windows应用程序运行库缺失难题 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 在Windows系统中,你是否经…...

字节投2000亿、DeepSeek募500亿:国产AI算力军备竞赛进入“核弹级“对决

一、一条被低估的新闻2026年5月,当大多数人还在关注GPT-5.5的幻觉率降了多少个百分点时,中国AI产业发生了一件更具战略意义的大事——字节跳动宣布2026年AI基础设施资本支出超2000亿元,几乎同时,DeepSeek传出拟募资最高500亿元&am…...

工业视觉杂散物检测系统方案设计

构建一套完整可靠的工业视觉检测系统,核心在于将其无缝嵌入到现有的装配流程中。下面是一个从系统架构部署、执行标准、再到具体模块技术选型的完整实施方案,希望能帮你构建一套精准且高效的检测闭环。 🏗️ 系统总体架构 一个完整的检测系统…...

喜马拉雅音频本地化实战:绕过xm格式,直接获取mp3文件的两种方法对比

喜马拉雅音频本地化实战:两种高效获取MP3文件的技术方案深度评测 作为国内领先的音频分享平台,喜马拉雅拥有海量优质内容,但其特有的XM格式却给用户跨平台使用带来了困扰。许多技术爱好者尝试过各种转换工具,却发现市面上几乎没有…...

数字永生:将意识上传云端的技术与伦理极限

——一个软件测试从业者的技术解构与风险分析各位同行,当你看到“数字永生”这四个字时,脑海里浮现的是什么?是马斯克口中2045年即将实现的意识上传,还是《黑镜》里那些被困在虚拟牢笼中的数字灵魂?作为一个每天与需求…...

技术奇点之后,人类程序员的历史角色

当人工智能越过技术奇点,代码生成、测试用例设计乃至系统运维都将发生质变。本文从软件测试从业者的视角出发,系统探讨人类程序员在奇点之后可能扮演的六种核心角色:系统守护者、需求翻译官、质量伦理法官、人机交互设计师、持续学习组织者与…...

ICC II里做CTS,除了点‘clock_opt’,这些隐藏选项你真的都配好了吗?

ICC II时钟树综合实战:CTS隐藏选项配置全解析与QoR调优指南 在超大规模集成电路设计中,时钟树综合(CTS)的质量直接影响芯片性能、功耗和面积三大关键指标。当项目进展到后期阶段,工程师常会遇到这样的困境:…...

星际软件开发:为火星殖民地编写第一批代码

一、引言:当测试左移到大气层之外2041年,第一批火星殖民者即将启程。他们携带的不仅是氧气和速食,还有一座预装在密封舱里的微型数据中心。在这片红色荒漠上,代码将比氧气更早醒来——生命维持系统的控制逻辑、通讯中继的协议栈、…...

学术合规性危机预警:Perplexity生成内容如何精准适配Chicago第17版?,一文锁定98.7%高校期刊投稿要求

更多请点击: https://intelliparadigm.com 第一章:学术合规性危机预警:Perplexity生成内容如何精准适配Chicago第17版? 随着AI辅助写作工具在人文社科领域的深度渗透,Perplexity等生成式平台输出的引文、脚注与参考文…...

网络安全事件报告:从SolarWinds事件看全球合规挑战与应对策略

1. 事件回顾:SolarWinds事件为何成为安全领域的“分水岭”如果你在网络安全或IT运维领域工作,2020年底曝光的SolarWinds供应链攻击事件,绝对是一个绕不开的里程碑。它不像一次简单的数据泄露,更像是一场精心策划、潜伏已久的“数字…...

GitHub 74.2k Star的Redis,开发者必备的内存数据库

文章目录GitHub 74.2k Star的Redis,开发者必备的内存数据库核心能力覆盖多数开发场景实际使用建议GitHub 74.2k Star的Redis,开发者必备的内存数据库 Redis是GitHub上的热门开源项目,Star数达到74223,是很多开发者日常工作中常用…...

从零到一:Brigadier如何重塑Mac Boot Camp驱动部署体验

从零到一:Brigadier如何重塑Mac Boot Camp驱动部署体验 【免费下载链接】brigadier Fetch and install Boot Camp ESDs with ease. 项目地址: https://gitcode.com/gh_mirrors/bri/brigadier 在Mac上安装Windows系统曾是一个令人望而生畏的技术挑战&#xff…...

利用Google可编程搜索引擎API实现免费高效的Python搜索自动化

1. 项目概述:一个被低估的搜索利器 如果你经常需要从Google上批量、自动化地获取搜索结果,并且对搜索结果的质量、速度和稳定性有要求,那你一定遇到过官方API的种种限制,或者对第三方付费服务望而却步。今天要聊的这个项目 chhan…...

企业微信消息发送踩坑实录:.NET Core下处理AccessToken过期与消息安全的最佳实践

企业微信消息发送实战:.NET Core中的AccessToken管理与消息安全策略 当企业微信API集成到生产环境时,开发者常会遇到两个看似简单却暗藏玄机的问题:AccessToken突然失效导致消息发送失败,以及敏感信息传输时的安全风险。本文将分享…...