DeepSeek基础之机器学习
文章目录
- 一、核心概念总结
- (一)机器学习基本定义
- (二)基本术语
- (三)假设空间
- (四)归纳偏好
- (五)“没有免费的午餐”定理(NFL 定理)
- 二、重点理解与思考
- (一)泛化能力的重要性
- (二)归纳偏好的影响
- (三)NFL 定理的启示
- 三、应用场景联想
- (一)电商推荐系统
- (二)医疗诊断
- 四、机器学习的基本流程
- (一)问题定义
- (二)数据收集与预处理
- (三)模型选择与训练
- (四)模型评估与优化
- (五)模型部署与应用
- 五、机器学习的挑战
- (一)数据质量
- (二)模型选择与优化
- (三)过拟合与欠拟合
- (四)可解释性
- 六、机器学习的未来发展方向
- (一)深度学习的进一步发展
- (二)强化学习的广泛应用
- (三)跨学科融合
- (四)伦理与可持续性
一、核心概念总结
(一)机器学习基本定义
机器学习致力于研究如何通过计算机模拟或实现人类的学习行为,以获取新的知识或技能,并不断改善自身性能。简单来说,就是让计算机从数据中自动学习规律,进而对未知数据进行预测和判断。
(二)基本术语
| 术语 | 定义 | 示例 |
|---|---|---|
| 数据集 | 一组记录的集合 | 包含多个学生成绩、身高、体重等信息的表格 |
| 示例/样本 | 数据集中的每条记录 | 表格中的每一行,代表一个学生的具体信息 |
| 属性/特征 | 反映事件或对象某方面表现或性质的事项 | 学生的成绩、身高、体重等 |
| 属性值 | 属性上的取值 | 成绩为 80 分,身高为 175cm |
| 属性空间/样本空间/输入空间 | 属性张成的空间 | 以成绩和身高为坐标轴构成的二维空间 |
| 特征向量 | 与示例对应的空间中的点 | 在上述二维空间中代表某个学生的坐标点 |
| 维数 | 描述示例的属性个数 | 如果用成绩、身高、体重三个属性描述学生,则维数为 3 |
| 学习/训练 | 从数据中学得模型的过程 | 使用学生的历史成绩数据训练一个预测成绩的模型 |
| 训练数据 | 训练过程中使用的数据 | 上述用于训练成绩预测模型的学生历史成绩数据 |
| 假设 | 学得模型对应的数据潜在规律 | 成绩预测模型所依据的数学公式或算法 |
| 标记 | 关于示例结果的信息 | 判断学生是否优秀的“是”或“否” |
| 样例 | 拥有标记信息的示例 | 带有“优秀”或“非优秀”标记的学生信息记录 |
| 分类 | 预测离散值的学习任务 | 判断邮件是垃圾邮件还是正常邮件 |
| 回归 | 预测连续值的学习任务 | 预测股票价格、房屋价格等 |
| 聚类 | 将训练样本分成若干簇的任务 | 将客户按照消费习惯分成不同的群体 |
| 监督学习 | 训练数据包含标记信息的学习 | 基于有标记的图像数据进行图像分类 |
| 无监督学习 | 训练数据不包含标记信息的学习 | 对无标记的文本数据进行聚类 |
| 泛化能力 | 模型适用于新样本的能力 | 一个成绩预测模型能准确预测未参与训练的学生的成绩 |
(三)假设空间
学习过程可看作在所有假设组成的空间中搜索与训练集匹配的假设的过程。假设空间的规模由属性的取值范围和特殊情况(如通配符、无合适情况)决定。例如,在判断西瓜是否为好瓜的问题中,考虑色泽、根蒂、敲声三个属性,每个属性有若干取值,再加上通配符和无好瓜的情况,就构成了一个特定规模的假设空间。
(四)归纳偏好
由于可能存在多个与训练集一致的假设,学习算法需要有归纳偏好来选择假设。归纳偏好体现了学习算法在假设空间中选择假设的启发式或“价值观”。常见的归纳偏好原则如“奥卡姆剃刀”,即选择最简单的假设,但在机器学习中,“简单”的定义并非总是清晰明确。
(五)“没有免费的午餐”定理(NFL 定理)
该定理表明,在所有问题出现机会相同或所有问题同等重要的前提下,无论学习算法有多聪明或笨拙,它们的期望性能是相同的。但在实际应用中,我们通常只关注特定的问题,所以 NFL 定理提醒我们,脱离具体问题讨论学习算法的优劣是没有意义的。
二、重点理解与思考
(一)泛化能力的重要性
泛化能力是衡量一个机器学习模型好坏的关键指标。一个只在训练数据上表现良好,但在新数据上表现不佳的模型是没有实际应用价值的。在实际应用中,我们往往无法获取所有的数据,因此模型需要能够从有限的训练数据中学习到普遍的规律,以应对未知的数据。为了提高模型的泛化能力,我们可以采用多种方法,如增加训练数据的多样性、进行正则化处理等。
(二)归纳偏好的影响
归纳偏好直接影响学习算法的性能。不同的归纳偏好会导致学习算法选择不同的假设,从而产生不同的模型。例如,在多项式回归中,如果我们的归纳偏好倾向于简单的模型,可能会选择低阶多项式;如果更注重对训练数据的拟合程度,可能会选择高阶多项式。因此,在选择学习算法和调整算法参数时,需要考虑归纳偏好与具体问题的匹配程度。
(三)NFL 定理的启示
NFL 定理让我们认识到,没有一种学习算法能够在所有问题上都表现最优。在实际应用中,我们需要根据具体问题的特点选择合适的学习算法。例如,对于图像识别问题,深度学习算法可能表现更好;对于一些简单的分类问题,决策树算法可能更合适。同时,我们也可以通过集成多种学习算法的方式,综合利用它们的优势,提高模型的性能。
三、应用场景联想
(一)电商推荐系统
在电商推荐系统中,数据集可以是用户的浏览记录、购买记录、评价信息等。属性包括商品的类别、价格、销量等。通过监督学习,利用这些数据训练一个推荐模型,预测用户可能感兴趣的商品。模型的泛化能力很重要,因为用户的行为和兴趣是不断变化的,模型需要能够适应新的用户和商品。同时,在选择学习算法和调整模型参数时,需要考虑归纳偏好,例如更倾向于推荐热门商品还是个性化商品。
(二)医疗诊断
在医疗诊断中,数据集可以是患者的病历、检查报告等。属性包括症状、体征、实验室检查结果等。分类任务可以是判断患者是否患有某种疾病,回归任务可以是预测疾病的严重程度。由于医疗数据的复杂性和多样性,模型需要有良好的泛化能力。同时,归纳偏好也需要谨慎选择,例如在诊断疾病时,需要平衡误诊率和漏诊率。
四、机器学习的基本流程
(一)问题定义
- 明确任务类型:首先要确定面临的是分类、回归、聚类等哪种类型的任务。例如在判断邮件是否为垃圾邮件的场景中,这就是一个分类任务;而预测房屋价格则属于回归任务。
- 确定输入输出:清晰界定模型的输入数据和期望得到的输出结果。以图像识别为例,输入是图像数据,输出是图像所属的类别。
(二)数据收集与预处理
- 数据清洗:去除数据中的噪声,例如错误的记录、异常值等;填补缺失值,可以采用均值、中位数、众数填补,或者使用更复杂的机器学习算法进行预测填补。
- 数据转换:进行归一化、标准化操作,使不同特征的数据具有相同的尺度,有助于模型的训练和收敛。例如,将特征值缩放到 [0, 1] 区间的归一化,或者使特征具有零均值和单位方差的标准化。
- 特征工程:进行特征选择,挑选出对模型预测最有帮助的特征,减少冗余信息;还可以进行特征构造,结合已有的特征创造出新的特征,以提高模型的表达能力。
(三)模型选择与训练
- 选择合适的算法:根据问题的类型和数据的特点,选择合适的机器学习算法,如决策树、神经网络、支持向量机等。例如对于简单的分类问题,决策树算法可能易于理解和实现;而对于复杂的图像和语音处理任务,神经网络通常表现更好。
- 使用训练数据训练模型:将预处理好的训练数据输入到选定的模型中,通过不断调整模型的参数,使模型能够尽可能准确地拟合训练数据。
(四)模型评估与优化
- 使用验证集评估模型性能:使用验证集来评估模型的性能,常用的评估指标包括准确率、召回率、F1 值、均方误差等。根据不同的任务和需求,选择合适的评估指标。
- 调整超参数,优化模型:超参数是在模型训练前需要手动设置的参数,如学习率、树的深度等。通过调整超参数,找到使模型性能最优的参数组合。
(五)模型部署与应用
- 将训练好的模型部署到实际应用中:将训练好的模型集成到实际的系统中,使其能够处理真实的数据。
- 持续监控模型性能,必要时重新训练:在实际应用中,持续监控模型的性能,当数据分布发生变化或者模型性能下降时,及时重新训练模型以保证其有效性。
五、机器学习的挑战
(一)数据质量
- 数据噪声:数据中存在错误或异常的值,会干扰模型的学习,导致模型性能下降。
- 缺失值:数据中某些属性的值缺失,可能会影响模型对数据的理解和分析。
- 不平衡数据:不同类别的样本数量差异较大,会使模型倾向于多数类,而忽略少数类,导致对少数类的预测性能较差。
(二)模型选择与优化
面对众多的机器学习算法,如何选择合适的算法来解决具体的问题是一个挑战。同时,每个算法都有许多超参数需要调整,如何找到最优的超参数组合也是一个难题。
(三)过拟合与欠拟合
- 过拟合:模型在训练集上表现很好,但在测试集上表现差,原因是模型过于复杂,学习到了训练数据中的噪声和细节,而没有学到数据的普遍规律。
- 欠拟合:模型在训练集上表现就不好,说明模型过于简单,无法捕捉到数据的复杂特征和规律。
(四)可解释性
复杂的模型,如深度学习模型,通常由大量的参数和复杂的网络结构组成,很难解释模型为什么做出这样的预测,这在一些对解释性要求较高的领域,如医疗、金融等,会限制模型的应用。
六、机器学习的未来发展方向
(一)深度学习的进一步发展
不断探索和开发更强大的模型架构,提高模型的性能和效率。例如,Transformer 架构在自然语言处理领域取得了巨大的成功,未来可能会有更多创新的架构出现。
(二)强化学习的广泛应用
强化学习在自动驾驶、智能决策等领域具有巨大的应用潜力。通过智能体与环境的交互和试错学习,找到最优的行为策略,未来将在更多的实际场景中得到应用。
(三)跨学科融合
机器学习将与生物学、物理学等其他领域进行更深入的融合,解决一些复杂的科学问题。例如,在生物学中,利用机器学习分析基因序列、蛋白质结构等;在物理学中,辅助进行实验数据分析和模型构建。
(四)伦理与可持续性
随着机器学习的广泛应用,需要关注其伦理问题和社会影响,如数据隐私、算法偏见、就业影响等。同时,也要考虑机器学习的可持续性,降低计算资源的消耗和对环境的影响。
相关文章:
DeepSeek基础之机器学习
文章目录 一、核心概念总结(一)机器学习基本定义(二)基本术语(三)假设空间(四)归纳偏好(五)“没有免费的午餐”定理(NFL 定理) 二、重…...
达梦有没有类似oerr的功能
在oracle 23ai的sqlplus中,直接看异常信息说明: 达梦没有此功能,但是可以造一个 cd /home/dmdba cat >err.sql<<eof set echo off set ver off set timing off set lineshow off set feedback off select * from V\$ERR_INFO wher…...
实战-网安
面试感受:网安公司前端实习 今天我有幸面试了一家网络安全公司的前端开发实习岗位,整个过程让我受益匪浅,也让我对未来的职业发展有了更清晰的认识。 首先,面试官非常专业且友好,整个面试氛围轻松但不失严谨。面试一开始,面试官简单介绍了公司背景和团队文化,让我对公…...
一文掌握Splash的详细使用
文章目录 1. 安装与启动 Splash1.1 使用 Docker 安装1.2 直接安装 2. 基本用法2.1 访问 Splash 界面2.2 使用 Splash 渲染页面2.3 使用 Lua 脚本 3. 高级用法3.1 处理 JavaScript3.2 截图与 PDF3.3 处理 AJAX 请求3.4 设置请求头3.5 处理 Cookies 4. 与 Scrapy 集成4.1 安装 Sc…...
从 Linux 服务器到前端到网关到后端业务逻辑的分析
前言 在现代 Web 应用程序的架构中,一个完整的请求处理流程涉及多个组件,涵盖了用户界面、服务器环境、网关层和后端业务逻辑。理解这一过程有助于优化系统性能、提高用户体验,并确保系统的可维护性和可扩展性。本文将详细分析从 Linux 服务…...
Java中的Stream API:从入门到实战
引言 在现代Java开发中,Stream API 是处理集合数据的强大工具。它不仅让代码更加简洁易读,还能通过并行处理提升性能。本文将带你从基础概念入手,逐步深入Stream API的使用,并通过实战案例展示其强大功能。 1. 什么是Stream API…...
【python随手记】——读取文本文件内容转换为json格式
文章目录 前言一、TXT文件转换为JSON数组1.txt文件内容2.python代码3.输出结果 二、TXT文件转换为JSON对象1.txt文件2.python代码3.输出结果 前言 场景:用于读取包含空格分隔数据的TXT文件,并将其转换为结构化JSON文件 一、TXT文件转换为JSON数组 1.tx…...
【蓝桥杯】第十五届省赛大学真题组真题解析
【蓝桥杯】第十五届省赛大学真题组真题解析 一、智能停车系统 1、知识点 (1)flex-wrap 控制子元素的换行方式 属性值有: no-wrap不换行wrap伸缩容器不够则自动往下换行wrap-reverse伸缩容器不够则自动往上换行 (2࿰…...
MybatisPlus-扩展功能-枚举处理器
在Mybatis里有一个叫TypeHandler的类型处理器,我们常见的PO当中的这些成员变量的数据类型,它都有对应的处理器,因此它就能自动实现这些Java数据类型与数据库类型的相互转换。 它里面还有一个叫EnumOrdinalTypeHandler的枚举处理器࿰…...
力扣2454. 下一个更大元素 IV
力扣2454. 下一个更大元素 IV 题目 题目解析及思路 题目要求对于每个数,找到右边比它大的第二个数,并记录在ans数组中 如果是右边第一个大的,就用一个递减栈即可,栈顶元素如果<当前元素则弹出 第二个大数就要利用弹出的栈顶…...
unity学习51:所有UI的父物体:canvas画布
目录 1 下载资源 1.1 在window / Asset store下下载一套免费的UI资源 1.2 下载,导入import 1.3 导入后在 project / Asset下面可以看到 2 画布canvas,UI的父物体 2.1 创建canvas 2.1.1 画布的下面是 event system是UI相关的事件系统 2.2 canvas…...
Ollama部署与常用命令
Ollama是一款开源工具,其目标是简化大语言模型在本地环境的部署和使用。它支持多种流行的开源大语言模型,如 Llama 2、Qwen2.5等。 通过Ollama,用户无需具备深厚的技术背景,就能在普通的消费级硬件上快速搭建一个强大的语言处理环…...
Visual Studio Code 远程开发方法
方法1 共享屏幕远程控制,如 to desk, 向日葵 ,像素太差,放弃 方法2 内网穿透 ssh 第二个方法又很麻烦,尤其是对于 windows 电脑,要使用 ssh 还需要额外安装杂七杂八的东西;并且内网穿透服务提供商提供的…...
C语言预编译
大家好,这里是小编的博客频道 小编的博客:就爱学编程 很高兴在CSDN这个大家庭与大家相识,希望能在这里与大家共同进步,共同收获更好的自己!!! 本文目录 引言正文一、预处理的作用与流程…...
汽车智能制造企业数字化转型SAP解决方案总结
一、项目实施概述 项目阶段划分: 蓝图设计阶段主数据管理方案各模块蓝图设计方案下一阶段工作计划 关键里程碑: 2022年6月6日:项目启动会2022年12月1日:系统上线 二、总体目标 通过SAP实施,构建研产供销协同、业财一…...
flowable-ui 的会签功能实现
场景:在进行智慧保时通开发时,有个协作合同入围功能,这个功能的流程图里有个评审小组,这个评审小组就需要进行会签操作,会签完成后,需要依据是否有不通过的情况选择下一步走的流程 思考步骤: 首…...
Spring Boot 与 MyBatis 数据库操作
一、核心原理 Spring Boot 的自动配置 通过 mybatis-spring-boot-starter 自动配置 DataSource(连接池)、SqlSessionFactory 和 SqlSessionTemplate。 扫描 Mapper 接口或指定包路径,生成动态代理实现类。 MyBatis 的核心组件 SqlSessionF…...
大连指令数据集的创建--数据收集与预处理_02
1.去哪儿爬虫 编程语言:Python爬虫框架:Selenium(用于浏览器自动化)解析库:BeautifulSoup(用于解析HTML) 2.爬虫策略 目标网站:去哪儿(https://travel.qunar.com/trav…...
vLLM专题(十四)-自动前缀缓存
一、介绍 自动前缀缓存(Automatic Prefix Caching,简称 APC)缓存现有查询的 KV 缓存,以便新查询如果与现有查询共享相同的前缀,可以直接重用 KV 缓存,从而跳过共享部分的计算。 注意 有关 vLLM 如何实现 APC 的技术细节,请参阅此处。 二、在 vLLM 中启用 APC 在 vLLM …...
STM32MP157A-FSMP1A单片机移植Linux系统SPI总线驱动
SPI总线驱动整体上与I2C总线驱动类型,差别主要在设备树和数据传输上,由于SPI是由4根线实现主从机的通信,在设备树上配置时需要对SPI进行设置。 原理图可知,数码管使用的SPI4对应了单片机上的PE11-->SPI4-NSS,PE12-->SPI4-S…...
linux-c 字节序问题--大小端
今天面试被问了一个网络字节系列的问题分享一下: 1.如何将Int转换成byte数组在网络上传输。 2.计算机世界里的大小端问题。 计算机世界里为什么有大小端 硬件设计因素 CPU 架构差异 不同的 CPU 架构在设计时,对于多字节数据在内存中的存储顺序…...
java医院多维度综合绩效考核源码,医院绩效管理系统,支持一键核算和批量操作,设有审核机制,允许数据修正
医院绩效考核管理系统,java医院绩效核算系统源码,采用多维度综合绩效考核的形式,针对院内实际情况分别对工作量、KPI指标、科研、教学、管理等进行全面考核。医院可结合实际需求,对考核方案中各维度进行灵活配置,对各维…...
C语言学习笔记-初阶(13)scanf介绍
当我们有了变量,我们需要给变量输入值就可以使用 scanf 函数,如果需要将变量的值输出在屏幕上的时候可以使用 printf 函数,下面看⼀个例子: #include <stdio.h> int main() {int score 0;printf("请输⼊成绩:")…...
Android MMKV集成指南
首先简单介绍一下MMKV当下Android Studio最版本及Gradle8.7 MMKV集成根据官方文档重新对mmkv重新包了一次(便于开发)总结首先简单介绍一下MMKV MMKV 是腾讯开源的一款专为移动端设计的高性能键值存储组件,旨在替代传统的 SharedPreferences 和 SQLite,尤其在频繁读写和数据…...
如何让传统制造企业从0到1实现数字化突破?
随着全球制造业不断向智能化、数字化转型,传统制造企业面临着前所未有的机遇与挑战。数字化转型不仅是技术的革新,更是管理、文化、业务流程等全方位的变革。从零开始,如何带领一家传统制造企业走向数字化突破,是许多企业领导者面…...
Centos7安装Python3.13
Centos7.5环境上安装Python3.13 # 安装依赖 yum install -y zlib zlib-devel openssl-devel sqlite-devel bzip2-devel libffi libffi-devel gcc gcc-c mkdir -p /opt/software cd /opt/software # openssl高版本安装 # 如果 Centos7 系统默认自带的 openssl 版本太低…...
C++之string类的模拟实现(超详细)
们学习东西,先学习如果使用它,然后再学习如何实现它 文章目录 目录 1. 命名空间以及头文件 2.string类的成员变量 3.string类的成员函数 3.1 构造函数 3.2 析构函数 3.3 拷贝构造函数 3.4 赋值运算符重载 3.5 c_str函数 3.6 size函数 3.7 clea…...
【HarmonyOS Next】鸿蒙应用公钥和证书MD5指纹的获取
【HarmonyOS Next】鸿蒙应用公钥和证书MD5指纹的获取 一、问题背景 政府的icp备案时,或者某些三方SDK以来的管理后台,都需要配置鸿蒙应用的公钥和证书MD5指纹 二、解决方案 专有名词解释: 华为AppGallery Connect简称 AGC平台࿰…...
【原创工具】同文件夹PDF文件合并 By怜渠客
【原创工具】同文件夹PDF文件合并 By怜渠客 原贴:可批量合并多个文件夹内的pdf工具 - 吾爱破解 - 52pojie.cn 他这个存在一些问题,并非是软件内自主实现的PDF合并,而是调用的pdftk这一工具,但楼主并没有提供pdftk,而…...
【红队利器】单文件一键结束火绒6.0
关于我们 4SecNet 团队专注于网络安全攻防研究,目前团队成员分布在国内多家顶级安全厂商的核心部门,包括安全研究领域、攻防实验室等,汇聚了行业内的顶尖技术力量。团队在病毒木马逆向分析、APT 追踪、破解技术、漏洞分析、红队工具开发等多个…...
