当前位置: 首页 > news >正文

数据挖掘知识规整与心得体会

一.大数据的特点:

        数据多,类型多,更新快,更新内容多。

二.分类(classification)与混淆矩阵(confusion matrix)

        这里的分类说的是二分类问题,比如说把人分为好人和坏人,即非黑即白。混淆矩阵就是将Actual value和predicted value进行统一整理,其实就是记录模型的准确程度,比如说我们可以规定Actual是好人,Predicted也是好人,那么矩阵值为0.Actual是好人,Predicted是坏人为1.Actual是坏人,Predicted是坏人,值为2等等。这样可以清晰的看到,模型在什么地方出现了偏差。比如说,我们要区分男女,那我们模型规定身高高于一米二的全是男人,那混淆矩阵中肯定会出现很多Actual为女人,Predicted是男人,值为2的情况,那我们就能很清楚的知道,我们要把身高提高了,因为很多女生其实也是很高的。并且classification是一个supervised learning过程,就是从训练资料中学到或建立一个模式或者是函数,并依此模式推测新的实例。

三.聚类(clustering)

         聚类是一种unsupervised learning过程,比如研究超市商品购物组合,用了聚合函数后我们发现牛奶面包黄油可以归为一类(subset),但整个过程中的这些subset都不是我们预先给模型的,都是模型自己发现的,所以是一种unsupervised过程。

四.回归(regression)

        回归其实属于聚类的一种结果,就比如说我们在二维图像上有很多点,最后我们通过clustering我们发现其实有三组点,那我们不能跟小学生似的,对这些点直接画圈,而是通过回归,将其整合成三条曲线,以三个函数表达这三个subset。另外这里引进一个overfitting的概念,过学习,就是在聚类的regression过程中,如何找一条切合的曲线呢,最简单的就是直接把所有点穿起来,肯定准确,但是这条曲线的表达是很复杂的,并且不能泛化,通俗来讲就是,我们自己都不知道曲线接下来会往哪里弯曲,完全取决于新加进来的点,这样显然是不对的。另外在classification也就是supervised learning中,体现在特征的过多选取中,就比如我们要实现人脸识别,我们的特征连他每根头发的摆放位置都包含,头发位置对于人脸识别并不是重要特征,并且储存量巨大,且极难泛化,明显属于过拟合现象。

五.可视化

        一是可以用于拿到数据之后直接对整体进行可视化,也就是通过我们的人眼直接对数据进行大体的分析。二是可以用于将结果呈现给大众。

六.问卷的隐私调查

        例如调查人群当中有多少人吸大麻,我们可以将同一批人群分为两组。一共两个问题,第一个问题是你吸大麻吗?第二个问题是你不吸大麻吗?选其一回答,回答True or False。然后一组直接选其一回答True or False得到p*(true)和p*(false)。另一组问你会回答第一个问题还是第二个问题得到p(回答第一个问题的概率)。那么人群中抽大麻的概率为p(True)的话。就有p*(true) = p * p(true) + (1 - p) (1 - p(true)),那么p(true) = (p*(True) + p - 1)/(2p - 1).

七.cloud computing(云计算)

        总体一句就是“Pay as you go”, 就比如我们平时购物的话,客流量会很少,但是当购物节的时候买东西的人就会很多,但是我们如果按顶流购置服务器的话,就会导致很大的浪费,所以产生了云服务器,也就是需要的时候我们再去租服务器。当然也有别的云服务,比如一些平台,我们平常不怎么使用,那么就是“platform as a service”。

八.survivalship bias

        这个例子就是说,一所军工厂想为飞机加装甲,找了个统计学家来,发现飞回来的飞机都是机翼与尾翼中弹,可能很多人直接就会给这两个地方加装甲,但是我们忽略的问题是击中其他位置的飞机是不是都飞不回来,其实飞回来的飞机没有中弹的地方是否才是最重要的位置呢?比如说油箱,驾驶舱等。这也就启示我们,不要被一些数据的表面现象所迷惑,要结合事实,比如要调查天猫集团商铺数量与每个商铺机器交易额的关系,那我们可能发现商铺数量越多,平均交易额会更大,但我们如果要从这个图看这个行业的发展状况,通常我们会忽略时间这个维度,可能我们看的60万商家,平均每天交易额是20w只是前年的数据,但今年的数据是只有10万商家,每天交易额是2000.也就让我们重视起bias问题,有效解决bias问题的方法就是结合现实来综合考虑。

九.数据清洗

        我们这里说的清洗一般就是去特征值,补数据,或者抽象出一个数据类型。就比如我们要找一块石头大概的密度,我们就可以把石头的形状以及颜色这些特征值去掉,然后只保留体积和质量,那就把一块石头抽象成了一个序对。然后是补数据,比如说人的体重很多人没有填,那我们可以做一个正态分布,对称轴是65kg,让数据显得更为自然。

相关文章:

数据挖掘知识规整与心得体会

一.大数据的特点: 数据多,类型多,更新快,更新内容多。 二.分类(classification)与混淆矩阵(confusion matrix) 这里的分类说的是二分类问题,比如说把人分为好人和坏人&a…...

修正一些formdesigner的一些bug与操作

之前集成了formdesigner表单设计器,但还是有些问题,所以进行一些bug修复与功能修正 一、之前组件布局的图标不见了 在main.js里增加下面一行 import /components/formdesigner/assets/iconfont/iconfont.js 效果如下: 二、选择列表没有数…...

前端网络安全

什么是同源策略同源指的是:协议、端口号、域名必须一致。他是浏览器的一个用于隔离潜在恶意文件的重要安全机制。限制了从同一个源加载的文档或脚本,与另一个源的资源进行交互。同源策略主要限制了三个方面:当前域下的js脚本不能够访问其他域…...

docker内存统计

在docker里top和在docker外top看内存都是没有变化的,但是用docker stats看mem uasge就一直在涨top命令和docker stats命令采集内存使用的方式不同所致。top命令采集的是当前进程的内存使用情况,而docker stats命令采集的是整个Docker容器的内存使用情况。…...

【IDEA】IDEA使用有道翻译引擎—详细配置步骤

目录 前言 步骤一:下载翻译工具Translate 步骤二:注册登录有道云平台 步骤三:配置有道翻译 前言 2022年10月 谷歌翻译已经不在中国了,所以IDEA配置谷歌翻译会出错。 步骤一:下载翻译工具Translate 打开idea设置set…...

js求解《初级算法》56.最长公共前缀

一、题目描述 编写一个函数来查找字符串数组中的最长公共前缀。如果不存在公共前缀,返回空字符串 ""。 输入:strs ["flower","flow","flight"] 输出:"fl" 输入:strs ["…...

嵌入式Linux(二十四)系统烧写

将uboot,linux kernel,.dtb,rootfs烧写到板子上的EMMC上,避免断网导致不能运行。 1. MfgTool工具介绍 一路解压之后,得到以下两项: ①Profiles文件夹:后续烧写文件放到这个文件夹。  其中关注…...

【ECNU】3496. 贪吃的 xjj 和贪心的 oxx(C++)

目录 题目 输入格式 输出格式 样例 提示 思路 代码 题目 单点时限: 2.0 sec 内存限制: 256 MB oxx 与 xjj 终于到了 Xiamen,他们第一件事就是去吃当地著名的特产椰子饼。 他们共买了 n 盒礼盒,第 i 盒含 ai 块椰子饼。oxx 与 xjj 约定让 oxx …...

【iOS】设置背景渐变色

drawRect函数 主要负责iOS的绘图操作,程序会自动调用此方法进行绘图。我在这个函数中绘制渐变背景色。 方法定义: -(void)drawRect:(CGRect)rect; 重写此方法,执行重绘任务-(void)setNeedsDisplay; 标记为需要重绘,异步调用dra…...

Scrapy框架(高效爬虫)

文章目录一、环境配置二、创建项目三、scrapy数据解析四、基于终端指令的持久化存储1、基于终端指令2、基于管道3、数据同时保存至本地及数据库4、基于spider爬取某网站各页面数据5、爬取本页和详情页信息(请求传参)6、图片数据爬取ImagesPipeline五、中…...

程序设计语言-软件设计(二十一)

数据结构与算法(二十)快速排序、堆排序(四)https://blog.csdn.net/ke1ying/article/details/129269655 这篇主要讲的是 编译与解释、文法、正规式、有限自动机、表达式、传值与传址、多种程序语言特点。 编译的过程 解释型 和 编译型 编译型过程&#…...

【小破站下载工具】Python tkinter 实现网站下载工具,所有数据一键获取

目录前言开发环境本次项目案例步骤先展示下完成品的效果界面导入模块先创建个窗口功能按键主要功能代码编写功能一功能二功能三前言 最近很多同学想问我,怎么把几个代码的功能集合到一起? 很简单,写一个界面就行了,想要哪个代码…...

C51---IO口状态翻转

1.example #include "reg52.h" #include "intrins.h" //main.c(11): error C264: intrinsic _nop_: declaration/activation error,?????????? sbit led1 P3^7;//????,??????? sbit key1 P2^1; sbit key2 P2^0; void Delay50ms()…...

2023年春【移动计算技术】文献精读(一)-1 ||| 附:【Markdow语法】向上取整 向下取整。

沉默着走了有 // 多遥远 // 抬起头 // 蓦然间 // 才发现 // 一直倒退 // 倒退到原点 // 倔强坚持 // 对抗时间 “在光芒万丈之前,我们都要欣然接受眼下的难堪和不易,接受一个人的孤独和偶然无助,认真做好眼前的每件事,你想要的都会有。”——毕淑敏 🎯作者主页:追光者♂…...

Java 包装类的二进制操作

Integer 位翻转 位翻转就是将二进制左边的位与右边的位进行互换,reverse 是按位进行互换, reverseBytes 是按 byte 进行互换。 public static int reverse(int i)public static int reverseBytes(int i)来看个例子: int a 0x12345678; S…...

CSS居中之 { left:50%; top:50%; transform:translate(-50%,-50%); }

CSS居中之 { left:50%; top:50%; transform:translate(-50%,-50%); } left:50%; top:50%; transform:translate(-50%,-50%); left:50%; top:50%; transform:translate(-50%,-50%);也可以写成: left:50%; top:50%; translate: -50% -50%; left:50%; top:50%; translate: -50%…...

AcWing 4868. 数字替换(DFS + 剪枝优化)

AcWing 4868. 数字替换(DFS 剪枝优化)一、问题二、思路三、代码一、问题 二、思路 题目中要求变换次数最小,其实第一印象应该是贪心,即我们每一次都去成各位中最大的那个数字。但是这个想法很容易推翻。因为你这次乘了一个最大的…...

【教学典型案例】01.redis只管存不管删除让失效时间删除的问题

目录一:背景介绍二:redis1)redis数据类型①String(字符串)②Hash(哈希)③List(列表)④Set(集合)2)缓存同步①设置有效期②同步双写③异步通知3&am…...

电话号码管理

电话号码管理 文章目录 电话号码管理综述链表结构initcreatedeleteallfreeANSI颜色转义颜色列表如下:字背景颜色范围:40--49 字颜色: 30--39输出特效格式控制:光标位置等的格式控制:Makefile顶层Makefilescripts Makefilesearch main init include display delete create all…...

Shell 教程

Shell 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。 Shell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。 Ken Thompson 的…...

三维GIS开发cesium智慧地铁教程(5)Cesium相机控制

一、环境搭建 <script src"../cesium1.99/Build/Cesium/Cesium.js"></script> <link rel"stylesheet" href"../cesium1.99/Build/Cesium/Widgets/widgets.css"> 关键配置点&#xff1a; 路径验证&#xff1a;确保相对路径.…...

练习(含atoi的模拟实现,自定义类型等练习)

一、结构体大小的计算及位段 &#xff08;结构体大小计算及位段 详解请看&#xff1a;自定义类型&#xff1a;结构体进阶-CSDN博客&#xff09; 1.在32位系统环境&#xff0c;编译选项为4字节对齐&#xff0c;那么sizeof(A)和sizeof(B)是多少&#xff1f; #pragma pack(4)st…...

【HarmonyOS 5.0】DevEco Testing:鸿蒙应用质量保障的终极武器

——全方位测试解决方案与代码实战 一、工具定位与核心能力 DevEco Testing是HarmonyOS官方推出的​​一体化测试平台​​&#xff0c;覆盖应用全生命周期测试需求&#xff0c;主要提供五大核心能力&#xff1a; ​​测试类型​​​​检测目标​​​​关键指标​​功能体验基…...

2021-03-15 iview一些问题

1.iview 在使用tree组件时&#xff0c;发现没有set类的方法&#xff0c;只有get&#xff0c;那么要改变tree值&#xff0c;只能遍历treeData&#xff0c;递归修改treeData的checked&#xff0c;发现无法更改&#xff0c;原因在于check模式下&#xff0c;子元素的勾选状态跟父节…...

BCS 2025|百度副总裁陈洋:智能体在安全领域的应用实践

6月5日&#xff0c;2025全球数字经济大会数字安全主论坛暨北京网络安全大会在国家会议中心隆重开幕。百度副总裁陈洋受邀出席&#xff0c;并作《智能体在安全领域的应用实践》主题演讲&#xff0c;分享了在智能体在安全领域的突破性实践。他指出&#xff0c;百度通过将安全能力…...

自然语言处理——循环神经网络

自然语言处理——循环神经网络 循环神经网络应用到基于机器学习的自然语言处理任务序列到类别同步的序列到序列模式异步的序列到序列模式 参数学习和长程依赖问题基于门控的循环神经网络门控循环单元&#xff08;GRU&#xff09;长短期记忆神经网络&#xff08;LSTM&#xff09…...

使用 SymPy 进行向量和矩阵的高级操作

在科学计算和工程领域&#xff0c;向量和矩阵操作是解决问题的核心技能之一。Python 的 SymPy 库提供了强大的符号计算功能&#xff0c;能够高效地处理向量和矩阵的各种操作。本文将深入探讨如何使用 SymPy 进行向量和矩阵的创建、合并以及维度拓展等操作&#xff0c;并通过具体…...

如何在网页里填写 PDF 表格?

有时候&#xff0c;你可能希望用户能在你的网站上填写 PDF 表单。然而&#xff0c;这件事并不简单&#xff0c;因为 PDF 并不是一种原生的网页格式。虽然浏览器可以显示 PDF 文件&#xff0c;但原生并不支持编辑或填写它们。更糟的是&#xff0c;如果你想收集表单数据&#xff…...

NXP S32K146 T-Box 携手 SD NAND(贴片式TF卡):驱动汽车智能革新的黄金组合

在汽车智能化的汹涌浪潮中&#xff0c;车辆不再仅仅是传统的交通工具&#xff0c;而是逐步演变为高度智能的移动终端。这一转变的核心支撑&#xff0c;来自于车内关键技术的深度融合与协同创新。车载远程信息处理盒&#xff08;T-Box&#xff09;方案&#xff1a;NXP S32K146 与…...

人工智能(大型语言模型 LLMs)对不同学科的影响以及由此产生的新学习方式

今天是关于AI如何在教学中增强学生的学习体验&#xff0c;我把重要信息标红了。人文学科的价值被低估了 ⬇️ 转型与必要性 人工智能正在深刻地改变教育&#xff0c;这并非炒作&#xff0c;而是已经发生的巨大变革。教育机构和教育者不能忽视它&#xff0c;试图简单地禁止学生使…...