CSV数据分析智能工具(基于OpenAI API和streamlit)
utils.py:
from langchain_openai import ChatOpenAI
from langchain_experimental.agents.agent_toolkits import create_csv_agent
import jsonPROMPT_TEMPLATE = """你是一位数据分析助手,你的回应内容取决于用户的请求内容。1. 对于文字回答的问题,按照这样的格式回答:{"answer": "<你的答案写在这里>"}例如:{"answer": "订单量最高的产品ID是!MNWC3-067"}2. 如果用户需要一个表格,按照这样的格式回答:{"table": {"columns": ["column1", "column2", ...], "data": [[value1, value2, ...],[value1, value2, ...],...]}}3. 如果用户的请求适合返回条形图,按照这样的格式回答:{"bar": {"columns": ["A", "B", "C", ...], "data": [34, 21, 91, ...]}}4. 如果用户的请求适合返回折线图,按照这样的格式回答:{"line": {"columns": ["A", "B", "C", ...], "data": [34, 21, 91, ...]}}5. 如果用户的请求适合返回散点图,按照这样的格式回答:{"scatter": {"columns": ["A", "B", "C", ...], "data": [34, 21, 91, ...]}}注意:我们只支持三种类型的图表:"bar", "line" 和 "scatter"。请将所有输出作为JSON字符串返回。请注意要将"columns"列表和数据列表中的所有字符串都用双引号包围。例如:{"columns": ["Products", "Orders"], "data": [["32085Lip", 245], ["76439Eye", 178]]}你要处理的用户请求如下:"""def dataframe_agent(api_key, uploaded_file, query):model = ChatOpenAI(model="gpt-4",api_key=api_key,base_url="https://api.gptsapi.net/v1",temperature=0)# path 复制文件到本地,得到路径file_content = uploaded_file.getvalue() #.read()改成.getvalue(),就能读了print(file_content)print(type(file_content))print(type(file_content))file_path = "temp.csv"with open(file_path,"wb") as fwb:fwb.write(file_content)# agent执行器agent_executor = create_csv_agent(llm=model,path=file_path,allow_dangerous_code=True,agent_executor_kwargs={"handle_parsing_errors": True},verbose=True)# 输入 = 我们补充的提示 + 用户输入prompt = PROMPT_TEMPLATE + queryresult = agent_executor.invoke({"input": prompt})# result_dict = json.loads(result["output"]) #实际输出的内容是output键对应的值,然后把它解析成字典,方便前端使用# return result_dicttry : result_dict = json.loads(result["output"]) #实际输出的内容是output键对应的值,然后把它解析成字典,方便前端使用finally : print(result["output"])return result_dict# # 自定义一个类来模拟 UploadedFile 对象
# class CustomUploadedFile:
# def __init__(self, name, type, data):
# self.name = name
# self.type = type
# self.data = data
# self.size = len(data)# def read(self):
# return self.data# # 自定义一个函数将文件路径转换为类似 UploadedFile 的对象
# def file_path_to_uploaded_file(file_path):
# with open(file_path, 'rb') as f:
# file_content = f.read()
# file_name = file_path.split("/")[-1] # 获取文件名
# file_type = "text/csv" # 假设是 CSV 文件,可根据实际情况修改
# return CustomUploadedFile(file_name, file_type, file_content)# # 示例文件路径
# file_path = "test_data.csv"# # 转换为 UploadedFile 对象
# uploaded_file = file_path_to_uploaded_file(file_path)# import os
# import pandas as pd# print(dataframe_agent(os.getenv("OPENAI_API_KEY"),uploaded_file,"数据里score的范围是什么"))
main.py:
import streamlit as st
from utils import dataframe_agent
import pandas as pd
import osdef create_chart(input_data, chart_type):# 检查"data"字段是否存在且非空if "data" not in input_data or not input_data["data"]:st.error("没有提供有效的数据来创建图表")returndata = input_data["data"]# 如果数据看起来像是一维的(即单列数据)if all(isinstance(i, (int, float)) for i in data):df = pd.DataFrame(data, columns=input_data["columns"])else:# 假设数据是二维的(多列数据)df = pd.DataFrame(data, columns=input_data["columns"])if chart_type == "line":st.line_chart(df)elif chart_type == "bar":st.bar_chart(df)# 可以添加更多图表类型的支持else:st.error(f"不支持的图表类型: {chart_type}")st.title("CSV数据分析智能工具")with st.sidebar:api_key = st.text_input("请输入你的OpenAI API密钥", type="password") st.markdown("[获取OpenAI API密钥](https://2233.ai/api)")# 上传文件csv_file = st.file_uploader("请上传你的csv格式数据文件:", type="csv")# 展示部分文件数据
if csv_file:df = pd.read_csv(csv_file)with st.expander("原始数据"):st.dataframe(df)query = st.text_area("请输入你关于以上表格的问题,或数据提取请求,或可视化请求(支持散点图、折线图、条形图):", disabled=not csv_file)button = st.button("生成回答")if button:if not api_key:st.info("请先输入OpenAI API密钥")st.stop()if not query:st.info("请输入您的问题")st.stop()with st.spinner("AI正在思考中,请稍等···"):result_dict = dataframe_agent(api_key=api_key, uploaded_file=csv_file, query=query)if "answer" in result_dict:st.write(result_dict["answer"])if "table" in result_dict:columns = result_dict["table"]["columns"]data = result_dict["table"]["data"]df_result = pd.DataFrame(data, columns=columns)st.table(df_result)if "bar" in result_dict:create_chart(result_dict["bar"], "bar")if "line" in result_dict:create_chart(result_dict["line"], "line")if "scatter" in result_dict:create_chart(result_dict["scatter"], "scatter")
1、由于对于不同的响应内容,前端展示不同
比如:直接输出字符串答案,或者绘制表格、条形图、散点图、折线图等。
所以要设计提示词,引导ai对不同内容进行区分。
一个办法是,规定响应的答案格式是字典,里面的键值表示了是什么样的内容(比如answer对应字符串内容,table表示表格,bar条形图,line折线图,scatter散点图),
易于后续分类讨论解析。
注意:仔细检查prompt有没有格式错误,或者中英文标点符号错误
2、
json.loads
是 Python 标准库json
模块中的一个重要函数,主要用于将 JSON 格式的字符串解析为 Python 对象。
3、
从你给出的错误信息可知,在调用
create_csv_agent
或者create_pandas_dataframe_agent
时,程序抛出了ValueError
异常。错误原因:
create_pandas_dataframe_agent
这类代理会依赖 Python REPL(交互式解释器)工具来执行任意代码,这存在安全风险。为了防止潜在的安全问题,在使用此功能前,你必须明确表示同意使用,也就是要把allow_dangerous_code
参数设置为True
。
4、把file_content = uploaded_file.read()改成file_content = uploaded_file.getvalue()
因为前端里有一句df=pd.read_csv(csv_file),会让读指针移到文件末尾,所以再用read读就是空。
补充:
关闭文件后,文件指针并不会回到最开始的位置,文件对象也不再处于可用状态,无法直接获取其指针位置信息。
当你调用文件对象的
close()
方法关闭文件时,系统会释放与该文件相关的资源,包括文件描述符等。此时,文件对象在内存中的状态被改变,不再维护之前的文件指针位置。如果后续你想要再次读取文件内容,需要重新打开文件,而重新打开文件时,文件指针默认会位于文件开头(除非你使用特定的模式打开文件,例如以追加模式'a'
或'a+'
打开文件,文件指针会位于文件末尾 )。
5、
相关文章:

CSV数据分析智能工具(基于OpenAI API和streamlit)
utils.py: from langchain_openai import ChatOpenAI from langchain_experimental.agents.agent_toolkits import create_csv_agent import jsonPROMPT_TEMPLATE """你是一位数据分析助手,你的回应内容取决于用户的请求内容。1. 对于文…...

移除元素-双指针(下标)
题目 给你一个数组 nums 和一个值 val,你需要 原地 移除所有数值等于 val 的元素。元素的顺序可能发生改变。然后返回 nums 中与 val 不同的元素的数量。 假设 nums 中不等于 val 的元素数量为 k,要通过此题,您需要执行以下操作:…...

蓝桥杯备赛题目练习(一)
目录 一. 口算练习题 代码如下 代码解读(简略重点): 代码解读(详细): 二. 小乐乐改数字 代码(1):当做整数读取 代码(2):当做字符…...

FortiOS 存在身份验证绕过导致命令执行漏洞(CVE-2024-55591)
免责声明: 本文旨在提供有关特定漏洞的深入信息,帮助用户充分了解潜在的安全风险。发布此信息的目的在于提升网络安全意识和推动技术进步,未经授权访问系统、网络或应用程序,可能会导致法律责任或严重后果。因此,作者不对读者基于本文内容所采取的任何行为承担责任。读者在…...

【多线程】线程池核心数到底如何配置?
🥰🥰🥰来都来了,不妨点个关注叭! 👉博客主页:欢迎各位大佬!👈 文章目录 1. 前置回顾2. 动态线程池2.1 JMX 的介绍2.1.1 MBeans 介绍 2.2 使用 JMX jconsole 实现动态修改线程池2.2.…...

Windows图形界面(GUI)-QT-C/C++ - Qt Combo Box
公开视频 -> 链接点击跳转公开课程博客首页 -> 链接点击跳转博客主页 目录 一、概述 1.1 基本概念 1.2 应用场景对比 二、核心属性详解 2.1 行为控制 2.2 显示配置 三、数据操作与访问 3.1 基础数据管理 3.2 高级数据访问 四、用户交互处理 4.1 信号处…...

开源AI智能名片2 + 1链动模式S2B2C商城小程序:内容价值创造与传播新引擎
摘要:本文聚焦于信息爆炸时代下,内容价值的创造与传播。随着用户角色的转变,其在内容生产与传播中的价值日益凸显。同时,深入探讨开源AI智能名片2 1链动模式S2B2C商城小程序这一创新商业模式,如何借助用户创造内容并传…...

python读取excel工具:openpyxl | AI应用开发
python读取excel工具:openpyxl | AI应用开发 openpyxl 是一个 Python 库,专门用于读写 Excel 2010 xlsx/xlsm/xltx/xltm 文件。它是处理 Excel 文件的强大工具,可以让你在不需要安装 Excel 软件的情况下,对 Excel 文件进行创建、…...

堆的基本概念
1.1 堆的基本概念 虚拟机所在目录 E:\ctf\pwn-self 进入虚拟机的pwndocker环境 holyeyesubuntu:~$ pwd /home/holyeyes holyeyesubuntu:~$ sudo ./1run.sh IDA分析 int __fastcall main(int argc, const char **argv, const char **envp) { void *v4; // [rsp20h] [rbp-1…...

Android车机DIY开发之软件篇(九) NXP AutomotiveOS编译
Android车机DIY开发之软件篇(十一) NXP AutomotiveOS编译 Google 在汽车上也提供了用于汽车的 Google 汽车服务(GAS,Google Automotive Service),包含有 Google 地图、应用市场、Google 汽车助理等等。Google 汽车服务同样没有开…...

嵌入式工程师必学(143):模拟信号链基础
概述: 我们每天使用的许多电子设备,以及我们赖以生存的电子设备,如果不使用电子工程师设计的实际输入信号,就无法运行。 模拟信号链由四个主要元件组成:传感器、放大器、滤波器和模数转换器 (ADC)。这些传感器用于检测、调节模拟信号并将其转换为适合由微控制器或其他数…...

《LLM大语言模型深度探索与实践:构建智能应用的新范式,融合代理与数据库的高级整合》
文章目录 Langchain的定义Langchain的组成三个核心组件实现整个核心组成部分 为什么要使用LangchainLangchain的底层原理Langchain实战操作LangSmithLangChain调用LLM安装openAI库-国内镜像源代码运行结果小结 使用Langchain的提示模板部署Langchain程序安装langserve代码请求格…...

e2studio开发RA2E1(5)----GPIO输入检测
e2studio开发RA2E1.5--GPIO输入检测 概述视频教学样品申请硬件准备参考程序源码下载新建工程工程模板保存工程路径芯片配置工程模板选择时钟设置GPIO口配置按键口配置按键口&Led配置R_IOPORT_PortRead()函数原型R_IOPORT_PinRead()函数原型代码 概述 本篇文章主要介绍如何…...

Spring @Lazy:延迟初始化,为应用减负
在Spring框架中,Lazy注解的作用非常直观,它就是用来告诉Spring容器:“嘿,这个Bean嘛,先别急着创建和初始化,等到真正需要用到的时候再弄吧!” 默认情况下,Spring容器在启动时会立即创…...

将OneDrive上的文件定期备份到移动硬盘
背景: 我在oneDrive上存了很多文件,分布在多个文件夹中,也有套了好几层文件夹的情况。我希望每隔一段时间,将oneDrive上的所有文件向移动硬盘上拷贝一份,但是我只想将距离上一次向移动硬盘拷贝的文件相比,发…...

从0开始,来看看怎么去linux排查Java程序故障
一,前提准备 最基本前提:你需要有liunx环境,如果没有请参考其它文献在自己得到local建立一个虚拟机去进行测试。 有了虚拟机之后,你还需要安装jdk和配置环境变量 1. 安装JDK(以OpenJDK 17为例) 下载JDK…...

DeepSeek-V3:开源多模态大模型的突破与未来
目录 引言 一、DeepSeek-V3 的概述 1.1 什么是 DeepSeek-V3? 1.2 DeepSeek-V3 的定位 二、DeepSeek-V3 的核心特性 2.1 多模态能力 2.2 开源与可扩展性 2.3 高性能与高效训练 2.4 多语言支持 2.5 安全与伦理 三、DeepSeek-V3 的技术架构 3.1 模型架构 3…...

Deep Sleep 96小时:一场没有硝烟的科技保卫战
2025年1月28日凌晨3点,当大多数人还沉浸在梦乡时,一场没有硝烟的战争悄然打响。代号“Deep Sleep”的服务器突遭海量数据洪流冲击,警报声响彻机房,一场针对中国关键信息基础设施的网络攻击来势汹汹! 面对美国发起的这场…...

Redis地理散列GeoHash
GeoHash是一种用于地理位置编码的算法,将二维的地理坐标(纬度和经度)转换为一维的字符串表示,从而实现对地理位置的高效存储和查询。Redis作为一个内存数据库,提供了对GeoHash的支持,使得地理位置相关的数据…...

JAVA安全—反射机制攻击链类对象成员变量方法构造方法
前言 还是JAVA安全,哎,真的讲不完,太多啦。 今天主要是讲一下JAVA中的反射机制,因为反序列化的利用基本都是要用到这个反射机制,还有一些攻击链条的构造,也会用到,所以就讲一下。 什么是反射…...

专业学习|一文了解并实操自适应大邻域搜索(讲解代码)
一、自适应大邻域搜索概念介绍 自适应大邻域搜索(Adaptive Large Neighborhood Search,ALNS)是一种用于解决组合优化问题的元启发式算法。以下是关于它的详细介绍: -自适应大领域搜索的核心思想是:破坏解、修复解、动…...

9. k8s二进制集群之kube-controller-manager部署
同样在部署主机上创建证书请求文件(为之后的证书生成做准备)根据上面的证书文件创建证书(结果会在当前目录下产生kube-controller-manager证书)创建kube-controller-manager服务配置文件创建kube-controller-manager服务启动文件同步kube-controller-manager证书到对应mast…...

轮转数组-三次逆置
题目 给定一个整数数组 nums,将数组中的元素向右轮转 k 个位置,其中 k 是非负数。 void rotate(int* nums, int numsSize, int k){}示例: 输入: nums [1,2,3,4,5,6,7], k 3 输出: [5,6,7,1,2,3,4] 解释: 向右轮转 1 步: [7,1,2,3,4,5,6] …...

3 卷积神经网络CNN
1 Image Classification (Neuron Version) – 1.1 Observation 1 1.2 Observation 2 如果不同的receptive field需要相同功能的neuron,可以使这些neuron共享参数 1.3 Benefit of Convolutional Layer 2 Image Classification (Filter Version) 不用担心filter大小…...

穷举vs暴搜vs深搜vs回溯vs剪枝系列一>黄金矿工
目录 决策树:代码设计代码: 决策树: 代码设计 代码: class Solution {boolean[][] vis;int ret,m,n;public int getMaximumGold(int[][] grid) {m grid.length;n grid[0].length;vis new boolean[m][n]; for(int i 0; i <…...

java基础1(黑马)
一、初识Java 1.Java背景知识 1)Java是美国SUN公司在1995年推出的一门计算机高级编程语言。 2)Java早期名称为OAK,后来才改为Java。 3)Java之父:詹姆斯高斯林。 4)2009年,SUN公司被Oracle公…...

ES6 对象扩展:对象简写,对象属性 表达式,扩展运算符 ...,Object.assign,Object.is,用法和应用场景
1. 对象属性简写 1.1 基本语法 // 传统写法 const name John; const age 25; const user {name: name,age: age };// ES6 简写语法 const user {name,age };1.2 实际应用场景 // 1. 函数返回对象 function createUser(name, age, email) {return {name,age,email}; }// …...

2025 持续防范 GitHub 投毒,通过 Sharp4SuoExplorer 分析 Visual Studio 隐藏文件
在2024年底的网络安全事件中,某提权工具被发现植入后门,攻击者利用 .suo 文件作为隐蔽的攻击方式。由于 .suo 文件是 Visual Studio 项目的隐藏配置文件,通常不为安全研究人员所关注,因此为攻击者提供了潜在的攻击渠道。 初步调查…...

PCB走线宽度与过流能力参考
我们PCB走线,线宽与允许通过电流的大小是什么样的?几个因素 1、允许的温升:如果能够允许的铜线升高的温度越高,那么允许通过的电流自然也就越高 2、走线的线宽:线越宽 ,导线横截面积越大,电阻…...

电商项目-分布式事务(四)基于消息队列实现分布式事务
基于消息队列实现分布式事务,实现消息最终一致性 如何基于消息队列实现分布式事务? 通过消息队列实现分布式事务的话,可以保证当前数据的最终一致性。实现思路:将大的分布式事务,进行拆分,拆分成若干个小…...