当前位置: 首页 > news >正文

构建一个数据分析Agent:提升分析效率的实践

在上一篇文章中,我们讨论了如何构建一个智能客服Agent。今天,我想分享另一个实际项目:如何构建一个数据分析Agent。这个项目源于我们一个金融客户的真实需求 - 提升数据分析效率,加快决策速度。

从分析师的痛点说起

记得和分析师团队交流时的场景:

小张:每天要分析这么多数据,真的很耗时
小李:是啊,而且经常要写各种分析报告
我:主要在哪些环节比较耗时?
小张:数据清洗、指标计算、图表生成这些都很繁琐
我:这些正好可以用AI Agent来协助

经过需求分析,我们确定了几个核心功能:

  1. 智能数据清洗
  2. 自动特征分析
  3. 可视化生成
  4. 报告撰写

技术方案设计

首先是整体架构:

from typing import List, Dict, Any, Optional
from enum import Enum
from pydantic import BaseModel
import pandas as pd
import numpy as npclass AnalysisTask(Enum):CLEAN = "clean"ANALYZE = "analyze"VISUALIZE = "visualize"REPORT = "report"class DataContext(BaseModel):data_path: strtask_type: AnalysisTaskrequirements: Dict[str, Any]history: List[Dict[str, Any]]class DataAnalyst:def __init__(self,config: Dict[str, Any]):# 1. 初始化分析模型self.analysis_model = AnalysisLLM(model="gpt-4",temperature=0.1,context_length=8000)# 2. 初始化工具集self.tools = {"cleaner": DataCleaner(),"analyzer": DataAnalyzer(),"visualizer": DataVisualizer(),"reporter": ReportGenerator()}# 3. 初始化数据存储self.data_store = DataStore(cache_dir="./cache",max_size_gb=10)async def process_task(self,context: DataContext) -> Dict[str, Any]:# 1. 加载数据data = await self._load_data(context.data_path)# 2. 理解需求requirements = await self._understand_requirements(context.requirements)# 3. 生成分析方案plan = await self._generate_plan(data,requirements)# 4. 执行分析result = await self._execute_analysis(data,plan)return resultasync def _understand_requirements(self,requirements: Dict[str, Any]) -> Dict[str, Any]:# 1. 提取分析目标objectives = await self.analysis_model.extract_objectives(requirements)# 2. 识别关键指标metrics = await self._identify_metrics(objectives)# 3. 确定分析方法methods = await self._select_methods(objectives,metrics)return {"objectives": objectives,"metrics": metrics,"methods": methods}

数据清洗功能

首先实现数据清洗功能:

class DataCleaner:def __init__(self,model: AnalysisLLM):self.model = modelasync def clean_data(self,data: pd.DataFrame) -> Dict[str, Any]:# 1. 数据概览profile = await self._profile_data(data)# 2. 识别问题issues = await self._identify_issues(data,profile)# 3. 执行清洗cleaned_data = await self._perform_cleaning(data,issues)return {"cleaned_data": cleaned_data,"profile": profile,"issues": issues}async def _identify_issues(self,data: pd.DataFrame,profile: Dict[str, Any]) -> List[Dict[str, Any]]:issues = []# 1. 检查缺失值missing = await self._check_missing_values(data)issues.extend(missing)# 2. 检查异常值outliers = await self._detect_outliers(data)issues.extend(outliers)# 3. 检查数据类型type_issues = await self._check_data_types(data)issues.extend(type_issues)return issuesasync def _perform_cleaning(self,data: pd.DataFrame,issues: List[Dict[str, Any]]) -> pd.DataFrame:cleaned = data.copy()for issue in issues:# 1. 处理缺失值if issue["type"] == "missing":cleaned = await self._handle_missing(cleaned,issue)# 2. 处理异常值elif issue["type"] == "outlier":cleaned = await self._handle_outlier(cleaned,issue)# 3. 处理类型问题elif issue["type"] == "type":cleaned = await self._handle_type(cleaned,issue)return cleaned

特征分析功能

接下来是特征分析功能:

class DataAnalyzer:def __init__(self,model: AnalysisLLM):self.model = modelasync def analyze_features(self,data: pd.DataFrame,requirements: Dict[str, Any]) -> Dict[str, Any]:# 1. 统计分析stats = await self._statistical_analysis(data)# 2. 特征相关性correlations = await self._correlation_analysis(data)# 3. 时间趋势trends = await self._trend_analysis(data)return {"statistics": stats,"correlations": correlations,"trends": trends}async def _statistical_analysis(self,data: pd.DataFrame) -> Dict[str, Any]:stats = {}# 1. 基础统计量basic_stats = await self._calculate_basic_stats(data)stats["basic"] = basic_stats# 2. 分布分析distribution = await self._analyze_distribution(data)stats["distribution"] = distribution# 3. 分组统计groupby = await self._group_statistics(data)stats["groupby"] = groupbyreturn statsasync def _correlation_analysis(self,data: pd.DataFrame) -> Dict[str, Any]:# 1. 计算相关系数corr_matrix = await self._calculate_correlations(data)# 2. 特征重要性importance = await self._feature_importance(data)# 3. 共线性检测collinearity = await self._check_collinearity(data)return {"correlation_matrix": corr_matrix,"feature_importance": importance,"collinearity": collinearity}

可视化功能

再来实现可视化功能:

class DataVisualizer:def __init__(self,model: AnalysisLLM):self.model = modelasync def create_visualizations(self,data: pd.DataFrame,analysis: Dict[str, Any]) -> Dict[str, Any]:# 1. 选择图表类型chart_types = await self._select_charts(data,analysis)# 2. 生成图表charts = await self._generate_charts(data,chart_types)# 3. 优化展示optimized = await self._optimize_display(charts)return {"charts": charts,"layout": optimized}async def _select_charts(self,data: pd.DataFrame,analysis: Dict[str, Any]) -> List[Dict[str, Any]]:charts = []# 1. 分布图表distribution_charts = await self._distribution_charts(data,analysis)charts.extend(distribution_charts)# 2. 关系图表relationship_charts = await self._relationship_charts(data,analysis)charts.extend(relationship_charts)# 3. 趋势图表trend_charts = await self._trend_charts(data,analysis)charts.extend(trend_charts)return chartsasync def _generate_charts(self,data: pd.DataFrame,chart_types: List[Dict[str, Any]]) -> List[Dict[str, Any]]:charts = []for chart_type in chart_types:# 1. 准备数据plot_data = await self._prepare_plot_data(data,chart_type)# 2. 设置样式style = await self._set_chart_style(chart_type)# 3. 生成图表chart = await self._plot_chart(plot_data,chart_type,style)charts.append({"type": chart_type,"data": plot_data,"style": style,"chart": chart})return charts

报告生成功能

最后是报告生成功能:

class ReportGenerator:def __init__(self,model: AnalysisLLM):self.model = modelasync def generate_report(self,data: pd.DataFrame,analysis: Dict[str, Any],visualizations: Dict[str, Any]) -> Dict[str, Any]:# 1. 提取要点key_points = await self._extract_key_points(analysis)# 2. 生成结构structure = await self._create_structure(key_points)# 3. 撰写内容content = await self._write_content(structure,analysis,visualizations)return {"key_points": key_points,"structure": structure,"content": content}async def _extract_key_points(self,analysis: Dict[str, Any]) -> List[Dict[str, Any]]:points = []# 1. 统计发现statistical_points = await self._extract_statistical_points(analysis["statistics"])points.extend(statistical_points)# 2. 相关性发现correlation_points = await self._extract_correlation_points(analysis["correlations"])points.extend(correlation_points)# 3. 趋势发现trend_points = await self._extract_trend_points(analysis["trends"])points.extend(trend_points)return pointsasync def _write_content(self,structure: Dict[str, Any],analysis: Dict[str, Any],visualizations: Dict[str, Any]) -> Dict[str, str]:content = {}# 1. 写摘要content["summary"] = await self._write_summary(structure,analysis)# 2. 写主体content["body"] = await self._write_body(structure,analysis,visualizations)# 3. 写结论content["conclusion"] = await self._write_conclusion(structure,analysis)return content

实际效果

经过两个月的使用,这个数据分析Agent带来了显著的效率提升:

  1. 时间节省

    • 数据清洗时间减少70%
    • 分析流程加快50%
    • 报告生成效率提升60%
  2. 质量提升

    • 分析更全面
    • 图表更专业
    • 报告更规范
  3. 能力扩展

    • 支持更多数据源
    • 分析方法更丰富
    • 可视化更灵活

实践心得

在开发这个数据分析Agent的过程中,我总结了几点经验:

  1. 需求导向

    • 理解分析目标
    • 把握重点指标
    • 注重实用性
  2. 方法系统

    • 分析方法要系统
    • 工具选择要合理
    • 流程设计要清晰
  3. 结果可用

    • 结论要有洞见
    • 图表要易理解
    • 报告要实用

写在最后

一个好的数据分析Agent不仅要会算数据,更要懂业务含义,能够帮助用户发现数据背后的价值。它就像一个经验丰富的数据分析师,在合适的时候给出恰当的分析建议。

在下一篇文章中,我会讲解如何开发一个文档助手Agent。如果你对数据分析Agent的开发有什么想法,欢迎在评论区交流。

相关文章:

构建一个数据分析Agent:提升分析效率的实践

在上一篇文章中,我们讨论了如何构建一个智能客服Agent。今天,我想分享另一个实际项目:如何构建一个数据分析Agent。这个项目源于我们一个金融客户的真实需求 - 提升数据分析效率,加快决策速度。 从分析师的痛点说起 记得和分析师团队交流时的场景: 小张&#xff…...

在K8S中,如何把某个worker节点设置为不可调度?

在Kubernetes中,如果你想要把一个worker节点设置为不可调度,意味着你不想让Kubernetes调度器在这个节点上调度新的Pod。这通常用于维护或升级节点,或者当节点遇到硬件故障或性能问题时,要将某个worker节点设置为不可调度。 方法1…...

硬件电路基础

目录 1. 电学基础 1.1 原子 1.2 电压 1.3 电流 1.电流方向: 正极->负极,正电荷定向移动方向为电流方向,与电子定向移动方向相反。 2.电荷(这里表示负电荷)运动方向: 与电流方向相反 1.4 测电压的时候 2. 地线…...

5 前端系统开发:Vue2、Vue3框架(上):Vue入门式开发和Ajax技术

文章目录 前言一、Vue框架(简化DOM操作的一个前端框架):基础入门1 Vue基本概念2 快速入门:创建Vue实例,初始化渲染(1)创建一个入门Vue实例(2)插值表达式:{{表…...

阿里 Java 岗个人面经分享(技术三面 + 技术 HR 面):Java 基础 +Spring+JVM+ 并发编程 + 算法 + 缓存

技术一面 20 分钟 1、自我介绍 说了很多遍了,很流畅捡重点介绍完。 2、问我数据结构算法好不好 挺好的(其实心还是有点虚,不过最近刷了很多题也只能壮着胆子充胖子了) 3、找到单链表的三等分点,如果单链表是有环的…...

vue2-给data动态添加属性

vue2-给data动态添加属性 1. 问题的来源 在VUe2中(VUE3中使用了proxy,及时动态添加也能实现响应式),如果我们动态给data添加一个属性,会发现视图没有同步更新举个例子我们通过v-for遍历data中的一个属性list&#xf…...

Linux 文件和目录

Linux 文件和目录 文章目录 Linux 文件和目录Linux 目录Linux 目录配置的依据 --FHS目录树文件属性文件的分类一般权限 UGO特殊权限 suid\sgid\sticky隐藏属性 ATTR文件访问控制列表 ACL文件相关的命令权限的修改 chmod chown chgrp umaskchmodchgrpumask相关文档 /etc/profile…...

【大数据技术】本机DataGrip远程连接虚拟机MySQL/Hive

本机DataGrip远程连接虚拟机MySQL/Hive datagrip-2024.3.4VMware Workstation Pro 16CentOS-Stream-10-latest-x86_64-dvd1.iso写在前面 本文主要介绍如何使用本机的DataGrip连接虚拟机的MySQL数据库和Hive数据库,提高编程效率。 安装DataGrip 请按照以下步骤安装DataGrip软…...

Leetcode 3440. Reschedule Meetings for Maximum Free Time II

Leetcode 3440. Reschedule Meetings for Maximum Free Time II 1. 解题思路2. 代码实现 题目链接:3440. Reschedule Meetings for Maximum Free Time II 1. 解题思路 这一题某种意义上来说甚至是上一题Leetcode 3439的简化版本(关于这一题的解答可以…...

专门记录台式电脑常见问题

1、蓝屏死机,检查内存硬盘和cpu 2、拆内存条,用橡皮擦金手指 3、放主板静电,扣主板电池 4、系统时间不正确,主板电池没电 5、开机键坏了 6、电脑主机的风扇转,正常通电运行,但显示器没信号。看键盘的num键&…...

[操作系统] 进程终止

在计算机操作系统中,进程(Process)是程序在运行中的实例,而进程的生命周期始于创建,终于终止。进程终止不仅仅意味着程序执行结束,还涉及资源的回收、状态的传递、以及可能的错误处理。在 Linux 和 Unix 系…...

[x86 ubuntu22.04]进入S4失败

目录 1 问题描述 2 解决过程 2.1 查看内核日志 2.2 新建一个交换分区 2.3 指定交换分区的位置 1 问题描述 CPU:G6900E OS:ubuntu22.04 Kernel:6.8.0-49-generic 使用“echo disk > /sys/power/state”命令进入 S4,但是无法…...

12.外观模式(Facade Pattern)

定义 外观模式(Facade Pattern) 是一种结构型设计模式,它通过为复杂的子系统提供一个统一的接口,使得子系统的使用更加简化。外观模式通常隐藏了复杂的内部子系统,使得客户端可以通过一个简单的接口与这些子系统进行交…...

ES6 入门教程:箭头函数、解构赋值及其他新特性详解

ES6 入门教程:箭头函数、解构赋值及其他新特性详解 ES6 入门教程:箭头函数、解构赋值及其他新特性详解引言什么是 ES6?箭头函数(Arrow Functions)1. 基本语法2. 常见特点(1)没有自己的 this 上下…...

win编译openssl

一、perl执行脚本 1、安装perl脚本 perl安装 2、配置perl脚本 perl Configure VC-WIN32 no-asm no-shared --prefixE:\openssl-x.x.x\install二、编译openssl 1、使用vs工具编译nmake 如果使用命令行nmake编译会提示“无法打开包括文件: “limits.h”“ 等错误信息 所以…...

51单片机看门狗系统

在 STC89C52 单片机中,看门狗控制寄存器的固定地址为 0xE1。此地址由芯片厂商在硬件设计时确定,但是它在头文件中并未给出,因此在使用看门狗系统时需要声明下这个特殊功能寄存器 sfr WDT_CONTR 0xE1; 本案将用一个小灯的工作状况来展示看门…...

探索 paraphrase-MiniLM-L6-v2 模型在自然语言处理中的应用

在自然语言处理(NLP)领域,将文本数据转换为机器学习模型可以处理的格式是至关重要的。近年来,sentence-transformers 库因其在文本嵌入方面的卓越表现而受到广泛关注。本文将深入探讨 paraphrase-MiniLM-L6-v2 模型,这…...

2025最新软件测试面试大全(附答案+文档)

🍅 点击文末小卡片 ,免费获取软件测试全套资料,资料在手,涨薪更快 1、问:你在测试中发现了一个bug,但是开发经理认为这不是一个bug,你应该怎样解决? 首先,将问题提交到缺陷管理库里…...

Java语法进阶

目录: Object类、常用APICollection、泛型List、Set、数据结构、CollectionsMap与斗地主案例异常、线程线程、同步等待与唤醒案例、线程池、Lambda表达式File类、递归字节流、字符流缓冲流、转换流、序列化流、Files网络编程 十二、函数式接口Stream流、方法引用 一…...

UNI-MOL: A UNIVERSAL 3D MOLECULAR REPRESENTATION LEARNING FRAMEWORK

UNI-MOL: A UNIVERSAL 3D MOLECULAR REPRESENTATION LEARNING FRAMEWORK Neurips23 推荐指数:#paper/⭐⭐⭐#​(工作量不小) 动机 在大多数分子表征学习方法中,分子被视为 1D 顺序标记或2D 拓扑图,这限制了它们为下游任务整合…...

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目:3442. 奇偶频次间的最大差值 I 思路 :哈希,时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况,哈希表这里用数组即可实现。 C版本: class Solution { public:int maxDifference(string s) {int a[26]…...

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…...

rknn优化教程(二)

文章目录 1. 前述2. 三方库的封装2.1 xrepo中的库2.2 xrepo之外的库2.2.1 opencv2.2.2 rknnrt2.2.3 spdlog 3. rknn_engine库 1. 前述 OK,开始写第二篇的内容了。这篇博客主要能写一下: 如何给一些三方库按照xmake方式进行封装,供调用如何按…...

Golang 面试经典题:map 的 key 可以是什么类型?哪些不可以?

Golang 面试经典题:map 的 key 可以是什么类型?哪些不可以? 在 Golang 的面试中,map 类型的使用是一个常见的考点,其中对 key 类型的合法性 是一道常被提及的基础却很容易被忽视的问题。本文将带你深入理解 Golang 中…...

在 Nginx Stream 层“改写”MQTT ngx_stream_mqtt_filter_module

1、为什么要修改 CONNECT 报文? 多租户隔离:自动为接入设备追加租户前缀,后端按 ClientID 拆分队列。零代码鉴权:将入站用户名替换为 OAuth Access-Token,后端 Broker 统一校验。灰度发布:根据 IP/地理位写…...

基础测试工具使用经验

背景 vtune,perf, nsight system等基础测试工具,都是用过的,但是没有记录,都逐渐忘了。所以写这篇博客总结记录一下,只要以后发现新的用法,就记得来编辑补充一下 perf 比较基础的用法: 先改这…...

解决本地部署 SmolVLM2 大语言模型运行 flash-attn 报错

出现的问题 安装 flash-attn 会一直卡在 build 那一步或者运行报错 解决办法 是因为你安装的 flash-attn 版本没有对应上,所以报错,到 https://github.com/Dao-AILab/flash-attention/releases 下载对应版本,cu、torch、cp 的版本一定要对…...

关于 WASM:1. WASM 基础原理

一、WASM 简介 1.1 WebAssembly 是什么? WebAssembly(WASM) 是一种能在现代浏览器中高效运行的二进制指令格式,它不是传统的编程语言,而是一种 低级字节码格式,可由高级语言(如 C、C、Rust&am…...

大学生职业发展与就业创业指导教学评价

这里是引用 作为软工2203/2204班的学生,我们非常感谢您在《大学生职业发展与就业创业指导》课程中的悉心教导。这门课程对我们即将面临实习和就业的工科学生来说至关重要,而您认真负责的教学态度,让课程的每一部分都充满了实用价值。 尤其让我…...

【HarmonyOS 5 开发速记】如何获取用户信息(头像/昵称/手机号)

1.获取 authorizationCode: 2.利用 authorizationCode 获取 accessToken:文档中心 3.获取手机:文档中心 4.获取昵称头像:文档中心 首先创建 request 若要获取手机号,scope必填 phone,permissions 必填 …...