当前位置: 首页 > news >正文

数据驱动(Data-Driven)和以数据为中心(Data-Centric)的区别

一、什么是数据驱动?

数据驱动(Data-Driven)是在管理科学领域经常提到的名词。数据驱动决策(Data-Driven Decision Making,简称DDD)是一种方法论,即在决策过程中主要依赖于数据分析和解释,而不是依赖于直觉或个人经验。它是相对于传统的经验驱动、直觉驱动或者偏见驱动的决策来讲的。

Case1:数据驱动的案例

Netflix公司通过收集和分析用户的观看习惯,评分,搜索和其他行为数据,开发出高度个性化的推荐算法,以提高用户体验并增加用户观看时间。这种数据驱动的方法也被应用于决定哪些电影和电视节目应该被购买或制作。例如,它的原创剧集"纸牌屋"(House of Cards)就是基于大量用户数据分析的结果决定制作的。

我们拿到数据,经过数据预处理,然后用来训练模型,利用模型进行决策,这就是数据驱动的决策。可以说,目前的机器学习方法和深度学习方法大都是这个形式。但是早期的机器学习方法就是经验驱动的偏多了。经验驱动模型的设计和开发基于专家的经验知识,目的是将特定领域的专家知识和推理过程编码到计算机程序中。这些系统利用了人工智能中的知识表示和知识推理技术,特别是规则基础的推理,来模仿人类专家的决策过程。如早期的专家系统:

Case2:经验驱动的下象棋模型

比如我们想创建一个会下象棋的模型,这个模型就需要在博弈中决策每一步的棋子走法。经验驱动的模型是这样设计的,首先把每个棋子的规则写进模型,如“马走日,象飞田”等,然后找几个下象棋的高手,然后把这些高手的下棋套路写进模型,如对方“当头炮”,那模型就要“把马跳”,把高手的每一步应对策略当做规则写进模型里。

 同样的案例,数据驱动的决策模型就不依赖专家规则:

Case3:数据驱动的下象棋模型

我收集大量的博弈数据,构建象棋数据集,比如根据几百年来的棋谱和高手博弈的数百万场棋局中的每一步走法创建一个如下的数据集:

Xy
兵1兵2...
(4,5)(4,5)(4,5)(-1,-1)兵1向右移动1格
(4,6)(4,5)(4,5)(-1,-1).....

不需要告诉模型“马走日,象飞田”这些基本规则,只需要把数据输入到模型(如逻辑回归,当然这个模型很垃圾)中进行训练,就可以得到一个会下象棋的决策模型。

二、什么是以数据为中心?

在上面的Case3中提到,我们得到数据后,使用逻辑回归来拟合这个分类模型,由于逻辑回归的算法很简单,效果很差,所以大家就会琢磨更多更复杂更厉害的算法来拟合这些数据,比如深度学习算法,慢慢的,随着技术的发展,模型能力越来越好。直到2017年,谷歌提出Attention is All you Need,从此来到了Transformer一统天下的地步,直到现在(2024.05),还没有产生可以挑战Transformer模型架构的新架构出现,尤其是大语言模型诞生后,Transformer架构的能力给予人们巨大的震撼。

由此可见,随着技术的发展,算法的复杂性已经不再是限制模型能力的瓶颈。之前人们卷算法、卷模型的时代,可以称作“Model-Centric”,人们的重点关注对象是模型。而现在,模型已经不是限制人工智能的主要方面,所以有人提出了“Data-Centric”以数据为中心的人工智能,Data-Centric的意思不是说不关注模型,而是说把模型和数据看的一样重要,毕竟AI领域有句俗语“Garbage in garbage out”——垃圾进,垃圾出。意思是垃圾的数据进去,无论模型多NB,出来的还是垃圾的模型,大不了是个过拟合的垃圾模型。

尤其是ChatGPT的训练路径,可以看出在数据集上的大量人力标注和筛选,保证高质量的数据。

数据降噪、数据去偏、数据增强、数据平衡、数据配比、数据课程这些方法都属于Data-Centric的范畴,目前发展还处于初步阶段。


参考文献

什么是数据驱动?到底如何驱动?数据驱动的内涵、方法、案例、优势和特征分析

专家系统简要介绍 - 乔胤博的文章 - 知乎
https://zhuanlan.zhihu.com/p/381896056

目前以数据为中心(Data-centric)的人工智能发展如何? - 知乎
https://www.zhihu.com/question/521096166

Data-Centric AI思考和实践 - 北冥有歌的文章 - 知乎
https://zhuanlan.zhihu.com/p/593692636

2023年后,AI 还有什么研究方向有前景? - 一堆废纸的回答 - 知乎
https://www.zhihu.com/question/591140366/answer/2961915932

相关文章:

数据驱动(Data-Driven)和以数据为中心(Data-Centric)的区别

一、什么是数据驱动? 数据驱动(Data-Driven)是在管理科学领域经常提到的名词。数据驱动决策(Data-Driven Decision Making,简称DDD)是一种方法论,即在决策过程中主要依赖于数据分析和解释&…...

aosp14的分屏接口ISplitScreen接口获取方式更新-学员疑问答疑

背景: 有学员朋友在学习马哥的分屏pip自由窗口专题时候,做相关分屏做小桌面项目时候,因为原来课程版本是基于android 13进行的讲解的,但是现在公司已经开始逐渐进行相关的android 14的适配了,但是android 14这块相比a…...

定积分求解过程是否变限问题 以及当换元时注意事项

目录 定积分求解过程是否变限问题 文字理解: 实例理解: 易错点和易混点: 1:定积分中的换元指什么? 2: 不定积分中第一类换元法和第二类换元法的本质和区别 3: df(x) ----> df(x)这…...

保研机试算法训练个人记录笔记(七)

输入格式: 在第1 行给出不超过10^5 的正整数N, 即参赛}人数。随后N 行,每行给出一位参赛者的 信息和成绩,包括其所代表的学校的编号(从1 开始连续编号)及其比赛成绩(百分制)&#xf…...

【MySQL精通之路】SQL优化(1)-查询优化(23)-避免全表扫描

当MySQL使用全表扫描来解析查询时,EXPLAIN的输出在type列中显示ALL。 这种情况通常发生在以下情况下: 该表非常小,因此执行全表扫描比查找关键字更快。这对于少于10行且行长较短的表来说很常见。 对于索引列,ON或WHERE子句中没有…...

【Linux】写时拷贝技术COW (copy-on-write)

文章目录 Linux写时拷贝技术(copy-on-write)进程的概念进程的定义进程和程序的区别PCB的内部构成 程序是如何被加载变成进程的?写时复制(Copy-On-Write, COW)写时复制机制的原理写时拷贝的场景 fork与COWvfork与fork Linux写时拷贝技术(copy-…...

用python使用主成分分析数据

import pandas as pd #导入处理二维表格的库 import numpy as np #导入数值计算的库 from sklearn.preprocessing import StandardScaler #导入数据标准化模块 import matplotlib.pyplot as plt #导入画图的包 from sklearn.decomposition import PCA #导入主成…...

用WPS将多张图片生成一个pdf文档,注意参数设置

目录 1 新建一个docx格式的文档 2 向文档中插入图片 3 设置页边距 4 设置图片大小 5 导出为pdf格式 需要把十几张图片合并为一个pdf文件,本以为很简单,迅速从网上找到两个号称免费的在线工具,结果浪费了好几分钟时间,发现需要…...

virtual box ubuntu20 全屏展示

virtual box 虚拟机 ubuntu20 系统 全屏展示 ubuntu20.04 视图-自动调整窗口大小 视图-自动调整显示尺寸 系统黑屏解决 ##设备-安装增强功能 ##进入终端 ##终端打不开,解决方案-传送门ubuntu Open in Terminal打不开终端解决方案-CSDN博客 ##点击cd盘按钮进入文…...

react中的数据驱动视图,useState()的使用

前端开发如今有一个很重要的思想就是数据驱动视图,数据发生变化使ui发生变化,比如一个变量count,为0显示三个按钮,为1显示一个按钮,为2显示两个按钮。这就是一个简单的数据驱动视图。 import { useState } from reactf…...

金融数据库,实时行情,股票财务数据在线查询

jvQuant在线SQL 文档(current)接入 测试 查询 #股票代码股票简称最新价(元)2024-05-21股东总户数(户)截至2024-05-21上市板块是否ST股票区间涨跌幅(%)2024-05-15-2024-05-21市盈率(TTM)(倍)2024-05-21营业收入(元)截至2024-03-31总市值(元)2024-05-21量比2024-05-21利润率(%…...

开源模型应用落地-LangSmith试炼-入门初体验-数据集评估(三)

一、前言 LangSmith是一个用于构建生产级 LLM 应用程序的平台,它提供了调试、测试、评估和监控基于任何 LLM 框架构建的链和智能代理的功能,并能与LangChain无缝集成。通过使用LangSmith帮助开发者深入了解模型在不同场景下的表现,让开发者能…...

设计模式 15 Decorator Pattern 装饰器模式

设计模式 15 Decorator Pattern 装饰器模式 1.定义 Decorator Pattern 装饰器模式是一种结构型设计模式,它允许在运行时给对象添加新的行为或职责,而无需修改对象的源代码。这种模式通过创建一个包装对象,也称为装饰器,来包裹原…...

cuda11.8安装torch2.0.1

pip install torch2.0.1 torchvision0.15.2 torchaudio2.0.2 --index-url https://download.pytorch.org/whl/cu118...

新手困 ViewModel与Activting的databinding2个对象 区别

在Android开发中,ViewModel与Activity的Binding并不是同一个概念,它们分别指的是不同的功能和用途。 ViewModel: ViewModel是一个为UI界面提供数据的类,它负责管理Activity或Fragment的数据。ViewModel类持有数据的引用,即使配置…...

Cocos Creator 声音播放与管理详解

Cocos Creator 是一款非常流行的游戏开发引擎,它提供了丰富的功能和工具,让开发者可以轻松构建出高质量的游戏。在游戏开发中,声音是一个非常重要的元素,可以为游戏增添氛围和趣味性。在本文中,我们将详细介绍Cocos Cr…...

今日早报 每日精选15条新闻简报 每天一分钟 知晓天下事 5月26日,星期日

每天一分钟,知晓天下事! 2024年5月26日 星期日 农历四月十九 1、 医保局:支持将符合条件的村卫生室纳入医保定点,方便农村居民就医。 2、 网传养老金储备严重不足?央视辟谣:这笔钱二十多年来从未动用过&a…...

IDEA快速生成类注释和方法注释的方法

1.生成类、接口、枚举、注解等文件的注释,不仅仅是class 2.生成方法注释的 可在方法上方空行输入/** 按enter键快速生成。生成的样式如下: PS:生成的返回值带一堆英文文字说明,感觉没必要 如果想生成比较全面的方法注释,如作者&…...

[集群聊天服务器]----(七)业务模块之一对一聊天、添加好友函数、好友类以及离线消息类

接着[集群聊天服务器]----(六)业务模块之用户注册、登录、退出以及客户端异常退出函数中对于业务模块的用户注册、登录、退出以及客户端异常退出函数的剖析,现在我们对点对点聊天以及添加好友的实现进行剖析。 点对点聊天 当客户端输入msgidONE_CHAT_MSG时&#x…...

java中使用jedis连接redis

4.java中使用jedis连接redis...

工业安全零事故的智能守护者:一体化AI智能安防平台

前言: 通过AI视觉技术,为船厂提供全面的安全监控解决方案,涵盖交通违规检测、起重机轨道安全、非法入侵检测、盗窃防范、安全规范执行监控等多个方面,能够实现对应负责人反馈机制,并最终实现数据的统计报表。提升船厂…...

3.3.1_1 检错编码(奇偶校验码)

从这节课开始,我们会探讨数据链路层的差错控制功能,差错控制功能的主要目标是要发现并且解决一个帧内部的位错误,我们需要使用特殊的编码技术去发现帧内部的位错误,当我们发现位错误之后,通常来说有两种解决方案。第一…...

定时器任务——若依源码分析

分析util包下面的工具类schedule utils: ScheduleUtils 是若依中用于与 Quartz 框架交互的工具类,封装了定时任务的 创建、更新、暂停、删除等核心逻辑。 createScheduleJob createScheduleJob 用于将任务注册到 Quartz,先构建任务的 JobD…...

IT供电系统绝缘监测及故障定位解决方案

随着新能源的快速发展,光伏电站、储能系统及充电设备已广泛应用于现代能源网络。在光伏领域,IT供电系统凭借其持续供电性好、安全性高等优势成为光伏首选,但在长期运行中,例如老化、潮湿、隐裂、机械损伤等问题会影响光伏板绝缘层…...

图表类系列各种样式PPT模版分享

图标图表系列PPT模版,柱状图PPT模版,线状图PPT模版,折线图PPT模版,饼状图PPT模版,雷达图PPT模版,树状图PPT模版 图表类系列各种样式PPT模版分享:图表系列PPT模板https://pan.quark.cn/s/20d40aa…...

蓝桥杯3498 01串的熵

问题描述 对于一个长度为 23333333的 01 串, 如果其信息熵为 11625907.5798&#xff0c; 且 0 出现次数比 1 少, 那么这个 01 串中 0 出现了多少次? #include<iostream> #include<cmath> using namespace std;int n 23333333;int main() {//枚举 0 出现的次数//因…...

网站指纹识别

网站指纹识别 网站的最基本组成&#xff1a;服务器&#xff08;操作系统&#xff09;、中间件&#xff08;web容器&#xff09;、脚本语言、数据厍 为什么要了解这些&#xff1f;举个例子&#xff1a;发现了一个文件读取漏洞&#xff0c;我们需要读/etc/passwd&#xff0c;如…...

深度学习水论文:mamba+图像增强

&#x1f9c0;当前视觉领域对高效长序列建模需求激增&#xff0c;对Mamba图像增强这方向的研究自然也逐渐火热。原因在于其高效长程建模&#xff0c;以及动态计算优势&#xff0c;在图像质量提升和细节恢复方面有难以替代的作用。 &#x1f9c0;因此短时间内&#xff0c;就有不…...

Mysql8 忘记密码重置,以及问题解决

1.使用免密登录 找到配置MySQL文件&#xff0c;我的文件路径是/etc/mysql/my.cnf&#xff0c;有的人的是/etc/mysql/mysql.cnf 在里最后加入 skip-grant-tables重启MySQL服务 service mysql restartShutting down MySQL… SUCCESS! Starting MySQL… SUCCESS! 重启成功 2.登…...

jmeter聚合报告中参数详解

sample、average、min、max、90%line、95%line,99%line、Error错误率、吞吐量Thoughput、KB/sec每秒传输的数据量 sample&#xff08;样本数&#xff09; 表示测试中发送的请求数量&#xff0c;即测试执行了多少次请求。 单位&#xff0c;以个或者次数表示。 示例&#xff1a;…...