关于AI数据分析可行性的初步评估
一、结论:可在部分环节嵌入,无法直接处理大量数据
1.非本地部署的AI应用处理非机密文件没问题,内部文件要注意数据安全风险。
2.AI(指高规格大模型)十分适合探索性研究分析,对复杂报告无法全流程执行,主要应用于快速搭建分析框架辅助人工分析,例如:提供背景需求→生成分析大纲(人工修订)→根据大纲统计各维度数据(人工执行:提供统计模板→生成统计脚本/AI执行:直接统计源数据需注意验证)→数据解读(人工修订)。
3.AI不完全适合固定模版的统计分析,对复杂模板的生成稳定性不足,大模型对同一指令的多次输出都会有偏差,在复杂的清洗环节有一定可行性,无法全流程执行。对简单模板的生成算力消耗高、性价比对于传统自动化程序而言不高,但在非本地化部署、非自主开发的情况下,某些场景使用各大模型商的产品或许能达到不错的效果。
4.目前体验有潜力的适合非技术人员使用的工具是WPS AI,对标OFFICE 365+Copilot?非广告,先说结论:难以适应实战(= 。=),优点是集成对WPS接口的调用,可直接操作文档和表格,相比各网页版大模型上传EXCEL后进行问答分析,或输出公式、脚本,省去了间接学习操作和复制粘贴的步骤。缺点是还比较弱智。
5.大模型分析(含清洗、统计、解读)表格数据主要有三种模式,一是提供方法教学(模拟专家,只教不做),自己再去用别的工具来实现(比如教你用Excel和Python)。二是用大模型的原生能力(直接做),本质是把数据降维,类似转换文本向量,相当于长文档总结,但因大模型幻觉、未在垂直领域微调、源数据未清洗等,不能保障分析质量,且对用户的prompt工程能力要求也较高。三是自动执行脚本(Agent,集成其他工具的工作流),类似WPS AI,理解用户需求后生成清洗、统计和可视化脚本,在底层调用插件(解释器)执行代码,再将结果返回页面展示,好处是数据清洗和统计是准确的,大模型主要负责设计分析思路和对统计结果进行解读。个人可按情况选用,企业级开发应按Agent方向。

二、数据分析流程替代率预估
分析大纲设计(30%至60%,AI提供分析思路、制定报告大纲,但初级分析师不主动思考可能会过于依赖AI)
→采集(3%至10%,绝大部分结构化数据还是需要定制爬虫程序,但如“近十年XX产业重点企业清单”这类需求可用AI联网搜索,或者是去收集需要爬的目标网站)
→清洗(5%至30%,规则较模糊、传统程序处理精度不高的用AI效果会好一点,例如:对大段口水话描述文本进行分类、提取)
→统计(10%至30%,适合非技术人员使用,对具备技术基础的分析人员而言,清洗质量高的数据用python统计有显著的速度优势)
→分析解读(10%至30%,对已经统计好的数据进行解读,表述上优于初级分析师,对源数据直接分析也可提供总结框架)
→各类交付形式(10%至30%,稳定输出有难度,还需人力修正,若需求方对格式模板无严格要求就比较好用)
三、主要难题
1.基于数据安全,理论上不应将内部业务数据上传给非本地AI进行分析。
解决方向:(非要上传的话)脱敏用密文表示分析对象,上传AI分析输出后再转换回来?更复杂的体系,如结合隐私计算有一定技术门槛。或勇敢相信各大模型商的安全协议?
2.个人现有条件下本地部署大模型性能表现不及官方API。
解决方向:emmm调优?分析师不必在这上面硬磕,交给研发团队吧,让老板买服务器吧。
3.简单的模拟数据处理效果尚可,暂无法适应复杂的真实分析任务,审核成本高,计算精度、输出稳定性、流程可验证性不足,长期使用可能哪天出错了也发现不了,因为AI最擅长的就是一本正经的胡说八道。把AI比作实习生,它可能要很久才能转正(随着技术进步也可能很快),总是不能放心直接使用它输出的东西。
解决方向:长期试验调优。
四、WPS AI数据分析体验案例
AI表格助手:理解需求后通过自动生成执行js宏来直接操作表格,更方便快捷,适合清洗和格式整理。
AI数据分析:理解需求后通过自动生成执行python来间接操作表格,衔接不够流畅,只能做清洗和统计,不利于格式整理。

上述功能均需拆解分析流程,通过多轮指令逐步引导AI执行才能有较好效果,“一句话指令”分析不够智能。指定细节和等待响应的时间成本较高,对精通Excel和Python的分析师而言比较鸡肋,但这种模式还算是未来可期吧。测试示例如下:


相关文章:
关于AI数据分析可行性的初步评估
一、结论:可在部分环节嵌入,无法直接处理大量数据 1.非本地部署的AI应用处理非机密文件没问题,内部文件要注意数据安全风险。 2.AI(指高规格大模型)十分适合探索性研究分析,对复杂报告无法全流程执行&…...
回归预测 | Matlab实现GWO-BP-Adaboost基于灰狼算法优化BP神经网络结合Adaboost思想的回归预测
回归预测 | Matlab实现GWO-BP-Adaboost基于灰狼算法优化BP神经网络结合Adaboost思想的回归预测 目录 回归预测 | Matlab实现GWO-BP-Adaboost基于灰狼算法优化BP神经网络结合Adaboost思想的回归预测回归效果基本介绍GWO-BP-Adaboost:基于灰狼算法优化BP神经网络结合Adaboost思想…...
ARM Cortex-M 内存映射详解:如何基于寄存器直接读写 寄存器映射方式编码程序 直接操作硬件寄存器来控制 MCU
ARM Cortex-M 的系统映射空间 在 STM32 等 ARM Cortex-M 系列 MCU 中,内存地址空间按照 存储功能 进行了严格划分,包括 Flash(程序存储)、RAM(数据存储)、外设寄存器(GPIO、UART、SPI 等&am…...
深度学习实战车辆目标跟踪与计数
本文采用YOLOv8作为核心算法框架,结合PyQt5构建用户界面,使用Python3进行开发。YOLOv8以其高效的实时检测能力,在多个目标检测任务中展现出卓越性能。本研究针对车辆目标数据集进行训练和优化,该数据集包含丰富的车辆目标图像样本…...
django中视图作用和视图功能 以及用法
在 Django REST Framework(DRF)中,视图(View)是处理 HTTP 请求并返回响应的核心组件。DRF 提供了多种视图类,适用于不同的场景和需求。以下是 DRF 中常见的视图类及其作用、使用方法的详细说明: 一、DRF 视图的分类 DRF 的视图可以分为以下几类: 基于函数的视图(Func…...
【每日学点HarmonyOS Next知识】输入框自动获取焦点、JS桥实现方式、Popup设置全屏蒙版、鼠标事件适配、Web跨域
1、HarmonyOS TextInput或TextArea如何自动获取焦点? 可以使用 focusControl.requestFocus 对需要获取焦点的组件设置焦点,具体可以参考文档: https://developer.huawei.com/consumer/cn/doc/harmonyos-references-V5/ts-universal-attribut…...
【学习思维模型】
学习思维模型 一、理解类模型二、记忆类模型三、解决问题类模型四、结构化学习模型五、效率与习惯类模型六、高阶思维模型七、实践建议八、新增学习思维模型**1. 波利亚问题解决四步法****2. 主动回忆(Active Recall)****3. 鱼骨图(因果图/Ishikawa Diagram)****4. MECE原则…...
MyBatis-Plus分页控件使用及使用过程发现的一个坑
最近维护一个旧项目的时候,出现了一个BUG,经排查后发现是Mybatis-plus分页控件使用的时候需要注意的一个问题,故在本地使用MybatisPlus模拟出现了一下这个问题。 首先,先说一下MyBatis-Plus的使用: 1)引入…...
STM32的APB1和APB2的区别
STM32微控制器中的APB1和APB2的区别 STM32微控制器中的APB1和APB2是两种不同的外设总线,主要区别在于时钟速度、连接的外设以及用途。以下是它们的详细对比: 1. 时钟速度 APB1 (Advanced Peripheral Bus 1): 低速总线,时钟频率通常为系统时钟…...
JS一些小知识点
一、|| 运算符 plain this.ctx.body { type: type || 0, // ||在此处用法用于默认值填充,判断是否传参或该值是否存在,如果不存在就使用||后买你的值作为默认值 code: code || 0, msg: msg || SUCCESS, data: data || {}, ...others }; 二、trim() 方…...
手写Tomcat:实现基本功能
首先,Tomcat是一个软件,所有的项目都能在Tomcat上加载运行,Tomcat最核心的就是Servlet集合,本身就是HashMap。Tomcat需要支持Servlet,所以有servlet底层的资源:HttpServlet抽象类、HttpRequest和HttpRespon…...
C#变量与变量作用域详解
一、变量基础 1. 声明与初始化 声明语法:<数据类型> <变量名>(如 int age; string name)初始化要求: 1、 类或结构体中的字段变量(全局变量)无需显式初始化,默认值…...
SV学习笔记——数组、队列
一、定宽数组 定宽数组是静态变量,编译时便已经确定其大小,其可以分为压缩定宽数组和非压缩定宽数组:压缩数组是定义在类型后面,名字前面;非压缩数组定义在名字后面。Bit [7:0][3:0] name; bit[7:0] name [3:0]; 1.1定宽数组声明 数组的声…...
API调试工具的无解困境:白名单、动态IP与平台设计问题
引言 你是否曾经在开发中遇到过这样的尴尬情形:你打开了平台的API调试工具,准备一番操作,结果却发现根本无法连接到平台?别急,问题出在调试工具本身。今天我们要吐槽的就是那些神奇的开放平台API调试工具,…...
Git清理本地残留的、但已经在服务器上被删除的分支
要筛选出已经被服务器删除的本地分支,并在本地删除这些分支,可以按照以下步骤进行操作: 步骤 1: 获取远程分支信息,确保本地的远程分支信息是最新的: git fetch -p步骤 2: 列出本地分支和远程分支: git …...
HTTPS实现内容加密的逻辑
加密过程 使用非对称加密,网站生成公钥和私钥浏览器获取到网站公钥(通过验证和解析CA证书),随即生成一串字符串,然后使用公钥加密,发送给网站。网站用私钥将加密内容解析,然后使用这串字符串对…...
使用vue3.0+electron搭建桌面应用并打包exe
使用vue3.0electron搭建桌面应用并打包exe_如何使用electron将vue3vite开发完的项目打包成exe应用程序-CSDN博客...
JSAR 基础 1.2.1 基础概念_空间小程序
JSAR 基础 1.2.1 基础概念_空间小程序 空间空间自由度可嵌入空间空间小程序 最新的技术进展表明,官网之前的文档准备废除了,基于xsml的开发将退出历史舞台,three.js和普通web结合的技术将成为主导。所以后续学习请移步three.js学习路径&#…...
mysql练习
创建数据库db_ck,再创建表t_hero,将四大名著中的主要人物都插入这个表中,将实现过程中sql提交上上来 1、创建数据库db_ck mysql> create database db_ck; 2、创建表t_hero mysql> use db_ck Database changed mysql> create table …...
2025年2月平价旗舰手机性能对比
1、荣耀Magic7 点评:缺席潜望式长焦,3X直立长焦体验还行。兼顾性能、游戏、屏幕、影像、续航、快充等诸多方面,且外围配置比较齐全。 2、vivo x200 点评:潜望式长焦相机,拍照效果好,30W无线充电着实鸡肋&a…...
高频面试之3Zookeeper
高频面试之3Zookeeper 文章目录 高频面试之3Zookeeper3.1 常用命令3.2 选举机制3.3 Zookeeper符合法则中哪两个?3.4 Zookeeper脑裂3.5 Zookeeper用来干嘛了 3.1 常用命令 ls、get、create、delete、deleteall3.2 选举机制 半数机制(过半机制࿰…...
蓝牙 BLE 扫描面试题大全(2):进阶面试题与实战演练
前文覆盖了 BLE 扫描的基础概念与经典问题蓝牙 BLE 扫描面试题大全(1):从基础到实战的深度解析-CSDN博客,但实际面试中,企业更关注候选人对复杂场景的应对能力(如多设备并发扫描、低功耗与高发现率的平衡)和前沿技术的…...
Nginx server_name 配置说明
Nginx 是一个高性能的反向代理和负载均衡服务器,其核心配置之一是 server 块中的 server_name 指令。server_name 决定了 Nginx 如何根据客户端请求的 Host 头匹配对应的虚拟主机(Virtual Host)。 1. 简介 Nginx 使用 server_name 指令来确定…...
如何为服务器生成TLS证书
TLS(Transport Layer Security)证书是确保网络通信安全的重要手段,它通过加密技术保护传输的数据不被窃听和篡改。在服务器上配置TLS证书,可以使用户通过HTTPS协议安全地访问您的网站。本文将详细介绍如何在服务器上生成一个TLS证…...
css3笔记 (1) 自用
outline: none 用于移除元素获得焦点时默认的轮廓线 broder:0 用于移除边框 font-size:0 用于设置字体不显示 list-style: none 消除<li> 标签默认样式 margin: xx auto 版心居中 width:100% 通栏 vertical-align 作用于行内元素 / 表格单元格ÿ…...
网站指纹识别
网站指纹识别 网站的最基本组成:服务器(操作系统)、中间件(web容器)、脚本语言、数据厍 为什么要了解这些?举个例子:发现了一个文件读取漏洞,我们需要读/etc/passwd,如…...
R语言速释制剂QBD解决方案之三
本文是《Quality by Design for ANDAs: An Example for Immediate-Release Dosage Forms》第一个处方的R语言解决方案。 第一个处方研究评估原料药粒径分布、MCC/Lactose比例、崩解剂用量对制剂CQAs的影响。 第二处方研究用于理解颗粒外加硬脂酸镁和滑石粉对片剂质量和可生产…...
使用Spring AI和MCP协议构建图片搜索服务
目录 使用Spring AI和MCP协议构建图片搜索服务 引言 技术栈概览 项目架构设计 架构图 服务端开发 1. 创建Spring Boot项目 2. 实现图片搜索工具 3. 配置传输模式 Stdio模式(本地调用) SSE模式(远程调用) 4. 注册工具提…...
力扣热题100 k个一组反转链表题解
题目: 代码: func reverseKGroup(head *ListNode, k int) *ListNode {cur : headfor i : 0; i < k; i {if cur nil {return head}cur cur.Next}newHead : reverse(head, cur)head.Next reverseKGroup(cur, k)return newHead }func reverse(start, end *ListNode) *ListN…...
逻辑回归暴力训练预测金融欺诈
简述 「使用逻辑回归暴力预测金融欺诈,并不断增加特征维度持续测试」的做法,体现了一种逐步建模与迭代验证的实验思路,在金融欺诈检测中非常有价值,本文作为一篇回顾性记录了早年间公司给某行做反欺诈预测用到的技术和思路。百度…...
