关于AI数据分析可行性的初步评估
一、结论:可在部分环节嵌入,无法直接处理大量数据
1.非本地部署的AI应用处理非机密文件没问题,内部文件要注意数据安全风险。
2.AI(指高规格大模型)十分适合探索性研究分析,对复杂报告无法全流程执行,主要应用于快速搭建分析框架辅助人工分析,例如:提供背景需求→生成分析大纲(人工修订)→根据大纲统计各维度数据(人工执行:提供统计模板→生成统计脚本/AI执行:直接统计源数据需注意验证)→数据解读(人工修订)。
3.AI不完全适合固定模版的统计分析,对复杂模板的生成稳定性不足,大模型对同一指令的多次输出都会有偏差,在复杂的清洗环节有一定可行性,无法全流程执行。对简单模板的生成算力消耗高、性价比对于传统自动化程序而言不高,但在非本地化部署、非自主开发的情况下,某些场景使用各大模型商的产品或许能达到不错的效果。
4.目前体验有潜力的适合非技术人员使用的工具是WPS AI,对标OFFICE 365+Copilot?非广告,先说结论:难以适应实战(= 。=),优点是集成对WPS接口的调用,可直接操作文档和表格,相比各网页版大模型上传EXCEL后进行问答分析,或输出公式、脚本,省去了间接学习操作和复制粘贴的步骤。缺点是还比较弱智。
5.大模型分析(含清洗、统计、解读)表格数据主要有三种模式,一是提供方法教学(模拟专家,只教不做),自己再去用别的工具来实现(比如教你用Excel和Python)。二是用大模型的原生能力(直接做),本质是把数据降维,类似转换文本向量,相当于长文档总结,但因大模型幻觉、未在垂直领域微调、源数据未清洗等,不能保障分析质量,且对用户的prompt工程能力要求也较高。三是自动执行脚本(Agent,集成其他工具的工作流),类似WPS AI,理解用户需求后生成清洗、统计和可视化脚本,在底层调用插件(解释器)执行代码,再将结果返回页面展示,好处是数据清洗和统计是准确的,大模型主要负责设计分析思路和对统计结果进行解读。个人可按情况选用,企业级开发应按Agent方向。

二、数据分析流程替代率预估
分析大纲设计(30%至60%,AI提供分析思路、制定报告大纲,但初级分析师不主动思考可能会过于依赖AI)
→采集(3%至10%,绝大部分结构化数据还是需要定制爬虫程序,但如“近十年XX产业重点企业清单”这类需求可用AI联网搜索,或者是去收集需要爬的目标网站)
→清洗(5%至30%,规则较模糊、传统程序处理精度不高的用AI效果会好一点,例如:对大段口水话描述文本进行分类、提取)
→统计(10%至30%,适合非技术人员使用,对具备技术基础的分析人员而言,清洗质量高的数据用python统计有显著的速度优势)
→分析解读(10%至30%,对已经统计好的数据进行解读,表述上优于初级分析师,对源数据直接分析也可提供总结框架)
→各类交付形式(10%至30%,稳定输出有难度,还需人力修正,若需求方对格式模板无严格要求就比较好用)
三、主要难题
1.基于数据安全,理论上不应将内部业务数据上传给非本地AI进行分析。
解决方向:(非要上传的话)脱敏用密文表示分析对象,上传AI分析输出后再转换回来?更复杂的体系,如结合隐私计算有一定技术门槛。或勇敢相信各大模型商的安全协议?
2.个人现有条件下本地部署大模型性能表现不及官方API。
解决方向:emmm调优?分析师不必在这上面硬磕,交给研发团队吧,让老板买服务器吧。
3.简单的模拟数据处理效果尚可,暂无法适应复杂的真实分析任务,审核成本高,计算精度、输出稳定性、流程可验证性不足,长期使用可能哪天出错了也发现不了,因为AI最擅长的就是一本正经的胡说八道。把AI比作实习生,它可能要很久才能转正(随着技术进步也可能很快),总是不能放心直接使用它输出的东西。
解决方向:长期试验调优。
四、WPS AI数据分析体验案例
AI表格助手:理解需求后通过自动生成执行js宏来直接操作表格,更方便快捷,适合清洗和格式整理。
AI数据分析:理解需求后通过自动生成执行python来间接操作表格,衔接不够流畅,只能做清洗和统计,不利于格式整理。

上述功能均需拆解分析流程,通过多轮指令逐步引导AI执行才能有较好效果,“一句话指令”分析不够智能。指定细节和等待响应的时间成本较高,对精通Excel和Python的分析师而言比较鸡肋,但这种模式还算是未来可期吧。测试示例如下:


相关文章:
关于AI数据分析可行性的初步评估
一、结论:可在部分环节嵌入,无法直接处理大量数据 1.非本地部署的AI应用处理非机密文件没问题,内部文件要注意数据安全风险。 2.AI(指高规格大模型)十分适合探索性研究分析,对复杂报告无法全流程执行&…...
编程考古-Borland历史:《.EXE Interview》对Anders Hejlsberg关于Delphi的采访内容(中)
为了纪念Delphi在2002年2月14日发布的25周年(2020.2.12),这里有一段由.EXE杂志编辑Will Watts于1995年对Delphi首席架构师Anders Hejlsberg进行的采访记录。在这次采访中,Anders讨论了Delphi的设计与发展,以及即将到来的针对Windows 95的32位版本。 Q. 编译器引擎本身是用…...
SQL 窗口函数之lead() over(partition by ) 和 lag() over(partition by )
lag() over() 与 lead() over() 函数是跟偏移量相关的两个分析函数,通过这两个函数可以在一次查询中取出同一字段的前 N 行的数据 (lag) 和后 N 行的数据 (lead) 作为独立的列, 从而更方便地进行进行数据过滤。这种操作可以代替表的自联接,并且 LAG 和 L…...
【基础知识】回头看Maven基础
背景 项目过程中,对于Maven的pom.xml文件,很多时候,我通过各种参考、仿写,最终做出想要的效果。 但实际心里有些迷糊,不清楚具体哪个基础的配置所实现的效果。 今天,特意回过头来,了解Maven的基…...
Manus+Ollama实现本地大模型部署和应用测试
这几天Manus即DeepSeek后又突然火爆,我也进行了跟踪测试,特记录一下分享给大家,目前来看,Manus的确是一个可以进行任务分解的自动化解决方案,将其他AI需要多次繁杂的迭代对话做了较大的改进,相当于用户抛出…...
labelimg标注的xml标签转换为yolo格式标签
本文不生产技术,只做技术的搬运工!!! 前言 在yolo训练时,我们需要对图像进行标注,而使用labelimg标注时如果直接选择输出yolo格式的数据集,则原始数据的很多信息无法被保存,因此一版…...
【Python 数据结构 9.树】
我装作漠视一切,其实我在乎的太多,但我知道抓得越紧越容易失去 —— 25.3.6 一、树的基本概念 1.树的定义 树是n个结点的有限集合,n0时为空树。当n大于0的时候,满足如下两个条件: ① 有且仅有一个特定的结点ÿ…...
LLM 学习(二 完结 Multi-Head Attention、Encoder、Decoder)
文章目录 LLM 学习(二 完结 Multi-Head Attention、Encoder、Decoder)Self-Attention (自注意力机制)结构多头注意力 EncoderAdd & Norm 层Feed Forward 层 EncoderDecoder的第一个Multi-Head AttentionMasked 操作Teacher Fo…...
计算机网络软考
1.物理层 1.两个主机之间发送数据的过程 自上而下的封装数据,自下而上的解封装数据,实现数据的传输 2.数据、信号、码元 码元就是数字通信里用来表示信息的基本信号单元。比如在二进制中,用高电平代表 “1”、低电平代表 “0”,…...
从高资源到低资源语言的全覆盖:Manus AI的数据革命与迁移学习策略
在全球化语境下,多语言手写识别的最大挑战并非技术本身的复杂性,而是语言资源的极度不均衡——英语、中文等高资源语言拥有海量标注数据,而藏语、斯瓦希里语等低资源语言往往仅有零星样本。Manus AI通过数据生态构建与知识迁移技术,打破了这一资源垄断,实现了从高资源到低…...
《白帽子讲 Web 安全》之身份认证
目录 引言 一、概述 二、密码安全性 三、认证方式 (一)HTTP 认证 (二)表单登录 (三)客户端证书 (四)一次性密码(OTP) (五)多因…...
VBA 数据库同一表的当前行与其他行的主键重复判断实现方案
目的,判断是否主键重复,不重复则登录新数据,重复则不登录。 定义类型: DataRecord tableName 表名 rowNumber 行号 columnName 列名 data 数据 想要实现的代码逻辑如下: 模拟数据库的登录过程。假设…...
FreeRTOS第17篇:FreeRTOS链表实现细节05_MiniListItem_t:FreeRTOS内存优化
文/指尖动听知识库-星愿 文章为付费内容,商业行为,禁止私自转载及抄袭,违者必究!!! 文章专栏:深入FreeRTOS内核:从原理到实战的嵌入式开发指南 1 为什么需要迷你列表项? 在嵌入式系统中,内存资源极其宝贵。FreeRTOS为满足不同场景需求,设计了标准列表项(ListItem_…...
2025最新群智能优化算法:山羊优化算法(Goat Optimization Algorithm, GOA)求解23个经典函数测试集,MATLAB
一、山羊优化算法 山羊优化算法(Goat Optimization Algorithm, GOA)是2025年提出的一种新型生物启发式元启发式算法,灵感来源于山羊在恶劣和资源有限环境中的适应性行为。该算法旨在通过模拟山羊的觅食策略、移动模式和躲避寄生虫的能力&…...
网络基础(一)【网络发展/认识协议/网络 VS 系统/以太网通信原理/重谈协议/网络中的地址管理】
网络基础(一) 1. 网络的发展2. 认识协议3. 网络 VS 系统4. 以太网通信原理5. 重谈协议6. 网络中的地址管理 1. 网络的发展 最开始时,计算机之间相互独立。 但是为了协作完成一些任务,就产生了计算机之间相互通讯的需求,…...
支付宝当面付java,php,sdk下载
SDK & Demo 获取 - 支付宝文档中心 开放平台服务端 SDK 为了帮助开发者调用开放接口,支付宝提供了开放平台服务端 SDK,包含 Java、PHP、NodeJS、Python 和 .NET 等语言版本,DEMO 中封装了签名 & 验签、HTTP 接口请求等基础功能。 详…...
学习threejs,Animation、Core、CustomBlendingEquation、Renderer常量汇总
👨⚕️ 主页: gis分享者 👨⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️Animation常量汇总1.1.1 循…...
常用无功功率算法的C语言实现(二)
0 前言 尽管数字延迟法和积分移相法在不间断采样的无功功率计算中得到了广泛应用,但它们仍存在一些固有缺陷。 对于数字延迟法而言,其需要额外存储至少1/4周期的采样点,在高采样频率的场景下,这对存储资源的需求不可忽视。而积分移相法虽然避免了额外的存储开销,但为了抑制…...
易基因特异性R-loop检测整体研究方案
大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。 01.技术简述 R-loop是由DNA:RNA 杂交体和被置换的单链DNA组成的三链核酸结构,广泛参与基因转录、表观遗传调控及DNA修复等关键生物学过程。异常的R-loop积累会导致基因组不稳…...
装饰器模式--RequestWrapper、请求流request无法被重复读取
目录 前言一、场景二、原因分析三、解决四、更多 前言 曾经遇见这么一段代码,能看出来是把request又重新包装了一下,核心信息都不会改变 后面了解到这叫 装饰器模式(Decorator Pattern) :也称为包装模式(Wrapper Pat…...
STM32-I2C通信协议
目录 一:什么是I2C通信协议 二:I2C通信 三:I2C时序图 四:面试常见问题 一:什么是I2C通信协议 I2C(Inter-Integrated Circuit)协议是一种串口通信协议,用于在集成电路之间传输数…...
Unity开发——CanvasGroup组件介绍和应用
CanvasGroup是Unity中用于控制UI的透明度、交互性和渲染顺序的组件。 一、常用属性的解释 1、alpha:控制UI的透明度 类型:float,0.0 ~1.0, 其中 0.0 完全透明,1.0 完全不透明。 通过调整alpha值可以实现UI的淡入淡…...
头歌作业-mysql数据库系统(全部)
每个作业只包含重要的建表代码,需要先进入数据库,创建基本的数据库之后才能使用下述命令创建表结构 MySql数据库-初识MySql 第一关:创建数据库 create database MyDb;第二关:创建表 create table t_emp(id int,name varchar(32…...
DeepSeek开启AI办公新模式,WPS/Office集成DeepSeek-R1本地大模型!
从央视到地方媒体,已有多家媒体机构推出AI主播,最近杭州文化广播电视集团的《杭州新闻联播》节目,使用AI主持人进行新闻播报,且做到了0失误率,可见AI正在逐渐取代部分行业和一些重复性的工作,这一现象引发很…...
mitt 依赖库详解
一、概述 mitt 是一个极其轻量级的 JavaScript 事件发射器库,实现了发布-订阅模式。该模式允许对象间松散耦合,一个对象(发布者)可以发布事件,而其他对象(订阅者)可以监听这些事件并作出响应。…...
C语言100天练习题【记录本】
C语言经典100题(手把手 编程) 可以在哔哩哔哩找到(url:C语言经典100题(手把手 编程)_哔哩哔哩_bilibili) 已解决的天数:一,二,五,六,八…...
DeepSeek【部署 03】客户端应用ChatBox、AnythingLLM及OpenWebUI部署使用详细步骤
DeepSeek客户端应用 1.ChatBox2.AnythingLLM3.OpenWebUI4.总结 客户端软件提供可视化的模型及参数配置,人性化的对话窗口及文件上传功能,大大降低了大模型的使用门槛。 1.ChatBox Chatbox AI 是一款 AI 客户端应用和智能助手,支持众多先进的…...
Python图形编程之EasyGUI: msgbox的用法
1 EasyGUI: msgbox的用法 1.1 基础用法:只显示信息 示例代码: from easygui import * msgbox("Hello, world!")效果: 1.2 扩展用法1:设置标题 示例代码: from easygui import * msgbox("Hello, …...
计算机底层知识一——从编程语言到可执行程序
好久没写博客了,近段时间事情比较杂,最近终于有时间回归了。其余代码写久了就会遇到许多奇奇怪怪的问题,这些问题绕不开许多底层知识,比如缺少动态依赖库、idea编译失败等等,虽然通过百度等搜索引擎,亦或是…...
中性点直接接地电网接地故障Simulink仿真
1.模型简介 本仿真模型基于MATLAB/Simulink(版本MATLAB 2017Ra)软件。建议采用matlab2017 Ra及以上版本打开。(若需要其他版本可联系代为转换) 2.系统仿真图: 3.中性点直接接地电网接地故障基本概念(本仿…...
