关于AI数据分析可行性的初步评估
一、结论:可在部分环节嵌入,无法直接处理大量数据
1.非本地部署的AI应用处理非机密文件没问题,内部文件要注意数据安全风险。
2.AI(指高规格大模型)十分适合探索性研究分析,对复杂报告无法全流程执行,主要应用于快速搭建分析框架辅助人工分析,例如:提供背景需求→生成分析大纲(人工修订)→根据大纲统计各维度数据(人工执行:提供统计模板→生成统计脚本/AI执行:直接统计源数据需注意验证)→数据解读(人工修订)。
3.AI不完全适合固定模版的统计分析,对复杂模板的生成稳定性不足,大模型对同一指令的多次输出都会有偏差,在复杂的清洗环节有一定可行性,无法全流程执行。对简单模板的生成算力消耗高、性价比对于传统自动化程序而言不高,但在非本地化部署、非自主开发的情况下,某些场景使用各大模型商的产品或许能达到不错的效果。
4.目前体验有潜力的适合非技术人员使用的工具是WPS AI,对标OFFICE 365+Copilot?非广告,先说结论:难以适应实战(= 。=),优点是集成对WPS接口的调用,可直接操作文档和表格,相比各网页版大模型上传EXCEL后进行问答分析,或输出公式、脚本,省去了间接学习操作和复制粘贴的步骤。缺点是还比较弱智。
5.大模型分析(含清洗、统计、解读)表格数据主要有三种模式,一是提供方法教学(模拟专家,只教不做),自己再去用别的工具来实现(比如教你用Excel和Python)。二是用大模型的原生能力(直接做),本质是把数据降维,类似转换文本向量,相当于长文档总结,但因大模型幻觉、未在垂直领域微调、源数据未清洗等,不能保障分析质量,且对用户的prompt工程能力要求也较高。三是自动执行脚本(Agent,集成其他工具的工作流),类似WPS AI,理解用户需求后生成清洗、统计和可视化脚本,在底层调用插件(解释器)执行代码,再将结果返回页面展示,好处是数据清洗和统计是准确的,大模型主要负责设计分析思路和对统计结果进行解读。个人可按情况选用,企业级开发应按Agent方向。

二、数据分析流程替代率预估
分析大纲设计(30%至60%,AI提供分析思路、制定报告大纲,但初级分析师不主动思考可能会过于依赖AI)
→采集(3%至10%,绝大部分结构化数据还是需要定制爬虫程序,但如“近十年XX产业重点企业清单”这类需求可用AI联网搜索,或者是去收集需要爬的目标网站)
→清洗(5%至30%,规则较模糊、传统程序处理精度不高的用AI效果会好一点,例如:对大段口水话描述文本进行分类、提取)
→统计(10%至30%,适合非技术人员使用,对具备技术基础的分析人员而言,清洗质量高的数据用python统计有显著的速度优势)
→分析解读(10%至30%,对已经统计好的数据进行解读,表述上优于初级分析师,对源数据直接分析也可提供总结框架)
→各类交付形式(10%至30%,稳定输出有难度,还需人力修正,若需求方对格式模板无严格要求就比较好用)
三、主要难题
1.基于数据安全,理论上不应将内部业务数据上传给非本地AI进行分析。
解决方向:(非要上传的话)脱敏用密文表示分析对象,上传AI分析输出后再转换回来?更复杂的体系,如结合隐私计算有一定技术门槛。或勇敢相信各大模型商的安全协议?
2.个人现有条件下本地部署大模型性能表现不及官方API。
解决方向:emmm调优?分析师不必在这上面硬磕,交给研发团队吧,让老板买服务器吧。
3.简单的模拟数据处理效果尚可,暂无法适应复杂的真实分析任务,审核成本高,计算精度、输出稳定性、流程可验证性不足,长期使用可能哪天出错了也发现不了,因为AI最擅长的就是一本正经的胡说八道。把AI比作实习生,它可能要很久才能转正(随着技术进步也可能很快),总是不能放心直接使用它输出的东西。
解决方向:长期试验调优。
四、WPS AI数据分析体验案例
AI表格助手:理解需求后通过自动生成执行js宏来直接操作表格,更方便快捷,适合清洗和格式整理。
AI数据分析:理解需求后通过自动生成执行python来间接操作表格,衔接不够流畅,只能做清洗和统计,不利于格式整理。

上述功能均需拆解分析流程,通过多轮指令逐步引导AI执行才能有较好效果,“一句话指令”分析不够智能。指定细节和等待响应的时间成本较高,对精通Excel和Python的分析师而言比较鸡肋,但这种模式还算是未来可期吧。测试示例如下:


相关文章:
关于AI数据分析可行性的初步评估
一、结论:可在部分环节嵌入,无法直接处理大量数据 1.非本地部署的AI应用处理非机密文件没问题,内部文件要注意数据安全风险。 2.AI(指高规格大模型)十分适合探索性研究分析,对复杂报告无法全流程执行&…...
回归预测 | Matlab实现GWO-BP-Adaboost基于灰狼算法优化BP神经网络结合Adaboost思想的回归预测
回归预测 | Matlab实现GWO-BP-Adaboost基于灰狼算法优化BP神经网络结合Adaboost思想的回归预测 目录 回归预测 | Matlab实现GWO-BP-Adaboost基于灰狼算法优化BP神经网络结合Adaboost思想的回归预测回归效果基本介绍GWO-BP-Adaboost:基于灰狼算法优化BP神经网络结合Adaboost思想…...
ARM Cortex-M 内存映射详解:如何基于寄存器直接读写 寄存器映射方式编码程序 直接操作硬件寄存器来控制 MCU
ARM Cortex-M 的系统映射空间 在 STM32 等 ARM Cortex-M 系列 MCU 中,内存地址空间按照 存储功能 进行了严格划分,包括 Flash(程序存储)、RAM(数据存储)、外设寄存器(GPIO、UART、SPI 等&am…...
深度学习实战车辆目标跟踪与计数
本文采用YOLOv8作为核心算法框架,结合PyQt5构建用户界面,使用Python3进行开发。YOLOv8以其高效的实时检测能力,在多个目标检测任务中展现出卓越性能。本研究针对车辆目标数据集进行训练和优化,该数据集包含丰富的车辆目标图像样本…...
django中视图作用和视图功能 以及用法
在 Django REST Framework(DRF)中,视图(View)是处理 HTTP 请求并返回响应的核心组件。DRF 提供了多种视图类,适用于不同的场景和需求。以下是 DRF 中常见的视图类及其作用、使用方法的详细说明: 一、DRF 视图的分类 DRF 的视图可以分为以下几类: 基于函数的视图(Func…...
【每日学点HarmonyOS Next知识】输入框自动获取焦点、JS桥实现方式、Popup设置全屏蒙版、鼠标事件适配、Web跨域
1、HarmonyOS TextInput或TextArea如何自动获取焦点? 可以使用 focusControl.requestFocus 对需要获取焦点的组件设置焦点,具体可以参考文档: https://developer.huawei.com/consumer/cn/doc/harmonyos-references-V5/ts-universal-attribut…...
【学习思维模型】
学习思维模型 一、理解类模型二、记忆类模型三、解决问题类模型四、结构化学习模型五、效率与习惯类模型六、高阶思维模型七、实践建议八、新增学习思维模型**1. 波利亚问题解决四步法****2. 主动回忆(Active Recall)****3. 鱼骨图(因果图/Ishikawa Diagram)****4. MECE原则…...
MyBatis-Plus分页控件使用及使用过程发现的一个坑
最近维护一个旧项目的时候,出现了一个BUG,经排查后发现是Mybatis-plus分页控件使用的时候需要注意的一个问题,故在本地使用MybatisPlus模拟出现了一下这个问题。 首先,先说一下MyBatis-Plus的使用: 1)引入…...
STM32的APB1和APB2的区别
STM32微控制器中的APB1和APB2的区别 STM32微控制器中的APB1和APB2是两种不同的外设总线,主要区别在于时钟速度、连接的外设以及用途。以下是它们的详细对比: 1. 时钟速度 APB1 (Advanced Peripheral Bus 1): 低速总线,时钟频率通常为系统时钟…...
JS一些小知识点
一、|| 运算符 plain this.ctx.body { type: type || 0, // ||在此处用法用于默认值填充,判断是否传参或该值是否存在,如果不存在就使用||后买你的值作为默认值 code: code || 0, msg: msg || SUCCESS, data: data || {}, ...others }; 二、trim() 方…...
手写Tomcat:实现基本功能
首先,Tomcat是一个软件,所有的项目都能在Tomcat上加载运行,Tomcat最核心的就是Servlet集合,本身就是HashMap。Tomcat需要支持Servlet,所以有servlet底层的资源:HttpServlet抽象类、HttpRequest和HttpRespon…...
C#变量与变量作用域详解
一、变量基础 1. 声明与初始化 声明语法:<数据类型> <变量名>(如 int age; string name)初始化要求: 1、 类或结构体中的字段变量(全局变量)无需显式初始化,默认值…...
SV学习笔记——数组、队列
一、定宽数组 定宽数组是静态变量,编译时便已经确定其大小,其可以分为压缩定宽数组和非压缩定宽数组:压缩数组是定义在类型后面,名字前面;非压缩数组定义在名字后面。Bit [7:0][3:0] name; bit[7:0] name [3:0]; 1.1定宽数组声明 数组的声…...
API调试工具的无解困境:白名单、动态IP与平台设计问题
引言 你是否曾经在开发中遇到过这样的尴尬情形:你打开了平台的API调试工具,准备一番操作,结果却发现根本无法连接到平台?别急,问题出在调试工具本身。今天我们要吐槽的就是那些神奇的开放平台API调试工具,…...
Git清理本地残留的、但已经在服务器上被删除的分支
要筛选出已经被服务器删除的本地分支,并在本地删除这些分支,可以按照以下步骤进行操作: 步骤 1: 获取远程分支信息,确保本地的远程分支信息是最新的: git fetch -p步骤 2: 列出本地分支和远程分支: git …...
HTTPS实现内容加密的逻辑
加密过程 使用非对称加密,网站生成公钥和私钥浏览器获取到网站公钥(通过验证和解析CA证书),随即生成一串字符串,然后使用公钥加密,发送给网站。网站用私钥将加密内容解析,然后使用这串字符串对…...
使用vue3.0+electron搭建桌面应用并打包exe
使用vue3.0electron搭建桌面应用并打包exe_如何使用electron将vue3vite开发完的项目打包成exe应用程序-CSDN博客...
JSAR 基础 1.2.1 基础概念_空间小程序
JSAR 基础 1.2.1 基础概念_空间小程序 空间空间自由度可嵌入空间空间小程序 最新的技术进展表明,官网之前的文档准备废除了,基于xsml的开发将退出历史舞台,three.js和普通web结合的技术将成为主导。所以后续学习请移步three.js学习路径&#…...
mysql练习
创建数据库db_ck,再创建表t_hero,将四大名著中的主要人物都插入这个表中,将实现过程中sql提交上上来 1、创建数据库db_ck mysql> create database db_ck; 2、创建表t_hero mysql> use db_ck Database changed mysql> create table …...
2025年2月平价旗舰手机性能对比
1、荣耀Magic7 点评:缺席潜望式长焦,3X直立长焦体验还行。兼顾性能、游戏、屏幕、影像、续航、快充等诸多方面,且外围配置比较齐全。 2、vivo x200 点评:潜望式长焦相机,拍照效果好,30W无线充电着实鸡肋&a…...
在rocky linux 9.5上在线安装 docker
前面是指南,后面是日志 sudo dnf config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo sudo dnf install docker-ce docker-ce-cli containerd.io -y docker version sudo systemctl start docker sudo systemctl status docker …...
uni-app学习笔记二十二---使用vite.config.js全局导入常用依赖
在前面的练习中,每个页面需要使用ref,onShow等生命周期钩子函数时都需要像下面这样导入 import {onMounted, ref} from "vue" 如果不想每个页面都导入,需要使用node.js命令npm安装unplugin-auto-import npm install unplugin-au…...
关于iview组件中使用 table , 绑定序号分页后序号从1开始的解决方案
问题描述:iview使用table 中type: "index",分页之后 ,索引还是从1开始,试过绑定后台返回数据的id, 这种方法可行,就是后台返回数据的每个页面id都不完全是按照从1开始的升序,因此百度了下,找到了…...
srs linux
下载编译运行 git clone https:///ossrs/srs.git ./configure --h265on make 编译完成后即可启动SRS # 启动 ./objs/srs -c conf/srs.conf # 查看日志 tail -n 30 -f ./objs/srs.log 开放端口 默认RTMP接收推流端口是1935,SRS管理页面端口是8080,可…...
基于Docker Compose部署Java微服务项目
一. 创建根项目 根项目(父项目)主要用于依赖管理 一些需要注意的点: 打包方式需要为 pom<modules>里需要注册子模块不要引入maven的打包插件,否则打包时会出问题 <?xml version"1.0" encoding"UTF-8…...
《基于Apache Flink的流处理》笔记
思维导图 1-3 章 4-7章 8-11 章 参考资料 源码: https://github.com/streaming-with-flink 博客 https://flink.apache.org/bloghttps://www.ververica.com/blog 聚会及会议 https://flink-forward.orghttps://www.meetup.com/topics/apache-flink https://n…...
全面解析各类VPN技术:GRE、IPsec、L2TP、SSL与MPLS VPN对比
目录 引言 VPN技术概述 GRE VPN 3.1 GRE封装结构 3.2 GRE的应用场景 GRE over IPsec 4.1 GRE over IPsec封装结构 4.2 为什么使用GRE over IPsec? IPsec VPN 5.1 IPsec传输模式(Transport Mode) 5.2 IPsec隧道模式(Tunne…...
AI,如何重构理解、匹配与决策?
AI 时代,我们如何理解消费? 作者|王彬 封面|Unplash 人们通过信息理解世界。 曾几何时,PC 与移动互联网重塑了人们的购物路径:信息变得唾手可得,商品决策变得高度依赖内容。 但 AI 时代的来…...
面向无人机海岸带生态系统监测的语义分割基准数据集
描述:海岸带生态系统的监测是维护生态平衡和可持续发展的重要任务。语义分割技术在遥感影像中的应用为海岸带生态系统的精准监测提供了有效手段。然而,目前该领域仍面临一个挑战,即缺乏公开的专门面向海岸带生态系统的语义分割基准数据集。受…...
MySQL 知识小结(一)
一、my.cnf配置详解 我们知道安装MySQL有两种方式来安装咱们的MySQL数据库,分别是二进制安装编译数据库或者使用三方yum来进行安装,第三方yum的安装相对于二进制压缩包的安装更快捷,但是文件存放起来数据比较冗余,用二进制能够更好管理咱们M…...
