当前位置：首页 > news >正文

【大数据】机器学习-----最开始的引路

news 2026/6/1 5:18:07

以下是关于机器学习的一些基本信息，包括基本术语、假设空间、归纳偏好、发展历程、应用现状和代码示例：

一、基本术语

样本（Sample）：
- 也称为实例（Instance）或数据点（Data Point），是关于一个对象的描述，通常表示为一个特征向量。例如，对于一个水果分类问题，一个苹果的样本可以表示为 [红色，圆形，直径 7cm]。
特征（Feature）：
- 样本的属性，用于描述样本的某些方面。上述水果例子中的“红色”、“圆形”和“直径 7cm”都是特征。特征可以是离散的（如颜色）或连续的（如直径）。
标签（Label）：
- 样本的真实结果或类别，是我们希望预测的值。对于分类问题，它是类别标签，如“苹果”或“橙子”；对于回归问题，它是一个实数，如房价预测中的房价。
数据集（Dataset）：
- 一组样本的集合。通常分为训练集（Training Set）、验证集（Validation Set）和测试集（Test Set）。
- 训练集用于训练模型，验证集用于调整模型的超参数，测试集用于评估模型的性能。
模型（Model）：
- 机器学习算法学习得到的函数，用于对新样本进行预测。可以是线性模型（如 y = w0 + w1*x1 + w2*x2）、决策树、神经网络等。
训练（Training）：
- 让模型从训练集中学习的过程，通过调整模型的参数，使其在训练集上表现更好。

二、假设空间

定义：
- 是所有可能的假设（Hypothesis）的集合，假设是模型可能的函数形式。例如，对于线性回归问题，假设空间可以是所有可能的线性函数 y = w0 + w1*x1 + w2*x2 +...+ wn*xn，其中 w0, w1,..., wn 可以取不同的值。
大小和搜索：
- 假设空间的大小取决于模型的复杂度和特征的数量。在某些情况下，假设空间可能是无限大的，例如神经网络的假设空间非常大，因为有很多参数可以调整。
- 机器学习算法的任务是在假设空间中搜索一个或多个假设，使得在训练集上的性能最好。

三、归纳偏好

定义：
- 对于多个与训练集一致的假设，算法会偏好其中的某些假设，这种偏好称为归纳偏好。例如，在决策树算法中，偏好更简单的树（奥卡姆剃刀原则）。
重要性：
- 归纳偏好是机器学习算法的重要部分，因为在没有归纳偏好的情况下，算法在训练集上可能会有多个等效的假设，无法确定使用哪个。不同的归纳偏好会导致不同的模型，对新数据的预测也可能不同。

四、发展历程

早期阶段（20世纪50年代 - 80年代）：
- 以符号主义为主，开发了一些基于规则和逻辑的系统，如感知机（Perceptron），是最早的神经网络模型。但早期的神经网络受到计算能力和数据量的限制。
统计学习阶段（20世纪80年代 - 21世纪初）：
- 以支持向量机（SVM）、决策树（如ID3、C4.5、CART）、朴素贝叶斯等为代表，这些算法基于统计理论，在很多任务上取得了很好的性能。
深度学习阶段（21世纪初 - 现在）：
- 随着大数据和强大计算能力（GPU 等）的发展，深度学习兴起，以深度神经网络（如多层感知机、卷积神经网络 CNN、循环神经网络 RNN 及其变体 LSTM、GRU 等）为代表，在图像识别、语音识别、自然语言处理等领域取得了突破性进展。

五、应用现状

图像识别：
- 应用于人脸识别（如手机解锁、安防监控）、物体检测（如自动驾驶中的行人检测、交通标志识别）、医学图像分析（如肿瘤检测）等。
自然语言处理：
- 包括机器翻译、文本分类（如垃圾邮件过滤）、情感分析、问答系统（如智能客服）等。
推荐系统：
- 为用户推荐商品（如电商平台）、电影（如 Netflix）、音乐（如 Spotify）等，使用协同过滤、矩阵分解等技术。

六、代码示例（使用 Python 和 Scikit-learn 库进行简单的线性回归）

import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error# 创建一个简单的数据集
np.random.seed(42)
X = np.random.rand(100, 1)  # 特征矩阵，100 个样本，1 个特征
y = 2 + 3 * X + np.random.randn(100, 1)  # 真实函数为 y = 2 + 3x + 噪声# 划分数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建线性回归模型
model = LinearRegression()# 训练模型
model.fit(X_train, y_train)# 输出模型的系数
print(f"模型的系数: {model.coef_}")
print(f"模型的截距: {model.intercept_}")# 预测
y_pred = model.predict(X_test)# 计算均方误差
mse = mean_squared_error(y_test, y_pred)
print(f"均方误差: {mse}")# 使用模型进行新的预测
new_x = np.array([[0.5]])
prediction = model.predict(new_x)
print(f"对新样本 {new_x} 的预测值: {prediction}")

代码解释：

首先，使用 numpy 生成一个简单的数据集，其中 y 是 x 的线性函数加上一些噪声。
使用 train_test_split 函数将数据集划分为训练集和测试集。
创建一个 LinearRegression 模型。
使用 fit 方法训练模型。
输出模型的系数和截距。
使用 predict 方法进行预测，并计算预测结果与真实结果的均方误差。
最后，使用训练好的模型对新样本进行预测。

通过上述代码，可以对机器学习的基本流程有一个简单的认识，包括数据生成、模型创建、训练、评估和预测。在实际应用中，可以使用更复杂的数据集和不同的模型，根据具体任务选择合适的算法和技术。同时，需要注意调整超参数、防止过拟合和数据预处理等重要问题。

什么是过拟合？

过拟合（Overfitting）：

一、定义

过拟合是指机器学习模型在训练数据上表现得非常好，但在未见过的测试数据或新数据上表现不佳的现象。在这种情况下，模型过度地学习了训练数据中的噪声和细节，而没有很好地捕捉到数据中的一般规律，导致模型的泛化能力差。

二、产生原因

模型复杂度：
- 当模型的复杂度相对训练数据量过高时，模型有足够的能力去记住训练数据中的每一个细节，包括噪声。例如，在多项式回归中，使用非常高的多项式次数，可能会使曲线经过训练数据中的每一个点，但这样的曲线对于新的数据点预测效果很差。
- 对于决策树来说，如果允许树的深度很深，会导致每个叶子节点只包含少量的样本，可能会过度拟合训练数据中的噪声和异常值。
数据量：
- 训练数据量过少时，模型更容易记住训练数据而不是学习到数据中的一般规律。例如，在只有几个样本的数据集上训练一个复杂的深度学习模型，模型可能会过度拟合这些样本。
训练时间过长：
- 在一些迭代训练的算法中，如神经网络的训练，如果训练的轮数（epochs）过多，模型可能会开始过度拟合训练数据。

三、示例

假设我们有一个简单的分类任务，要将蓝色和红色的点分开。

正常拟合：

模型学习到了数据的一般规律，能够找到一条平滑的边界将蓝色和红色的点分开，在训练数据和新数据上都有较好的性能。

过拟合：

模型为了尽可能地将训练集中的每个点都正确分类，产生了一条非常复杂的边界，该边界可能会围绕着训练数据点曲折，对训练数据的拟合非常好，但对于新数据可能会出现很多误分类，因为它对训练数据中的噪声也进行了拟合。

四、解决方法

增加数据量：
- 更多的数据可以使模型学习到更一般的规律，减少对训练数据的过度依赖。可以通过数据增强（Data Augmentation）技术，在图像识别中，通过旋转、翻转、裁剪等方式增加图像数据的数量。
正则化：
- L1 和 L2 正则化：
  - 在损失函数中加入正则化项，如 L1 范数（||w||_1）或 L2 范数（||w||_2），使模型的参数不会过大。例如在岭回归（Ridge Regression）中使用 L2 正则化，在 Lasso 回归中使用 L1 正则化，通过惩罚较大的参数值，防止模型过度依赖某些特征，使其更具泛化能力。
- Dropout：
  - 主要用于神经网络，在训练过程中随机将一部分神经元的输出置为 0，防止神经元之间的协同适应，使模型不过度依赖某些神经元，提高泛化能力。
简化模型：
- 降低多项式次数：在多项式回归中，使用较低的多项式次数。
- 限制决策树的深度或叶子节点数量：在决策树算法中，通过剪枝（Pruning）技术，剪掉一些不必要的分支，降低模型的复杂度。
早停法（Early Stopping）：
- 在训练过程中，监控模型在验证集上的性能，当性能不再提升甚至下降时，停止训练，防止模型过度训练。

过拟合是机器学习中一个重要的问题，需要通过合理的模型选择、数据处理和训练策略来避免，以确保模型具有良好的泛化能力，能够在新的数据上取得较好的性能。在实践中，需要不断调整模型和训练参数，观察模型在验证集和测试集上的性能，避免过拟合问题。

在这里插入图片描述

【大数据】机器学习-----最开始的引路

以下是关于机器学习的一些基本信息，包括基本术语、假设空间、归纳偏好、发展历程、应用现状和代码示例： 一、基本术语样本（Sample）： 也称为实例（Instance）或数据点（Data Point&…...

编程日记 2025/1/14 6:09:07

【前端】自学基础算法 -- 21.图的广度优先搜索

图的广度优先搜索简介图的广度优先搜索，沿着图的宽度遍历图的节点，先访问离起始节点最近的节点，然后逐渐向外扩展。基本步骤： 选择一个起始节点作为当前节点。将当前节点加入队列。当队列不为空时，重复以下步骤…...

编程日记 2025/1/14 6:05:03

ChatGPT与Claude AI：两大生成式对话模型的比较分析

自ChatGPT推出以来，这款强大的AI聊天机器人迅速吸引了全球的关注。其出色的对话能力和多样化的应用场景，成为许多人初次体验基于大规模语言模型的潜力。然而，在这个快速发展的领域中，另一款AI也在悄然崭露头角，那就是由…...

编程日记 2025/1/14 6:04:02

1.border边框 *{box-sizing:border-box; } //使所有边框不再撑大盒子模型粗细 : border-width 样式 : border-style, 默认没边框 . solid 实线边框 dashed 虚线边框 dotted 点线边框颜色 : border-color div { width : 200px ; height : 200px ; border : …...

编程日记 2025/1/14 6:03:00

升级 CentOS 7.x 系统内核到 4.4 版本

问题描述在 CentOS 7.x 系统中，默认内核版本是 3.10.x，这个版本可能会带来一些与 Docker 和 Kubernetes 兼容性的问题，导致系统性能不稳定或功能异常。为了提高系统的稳定性和兼容性，建议升级到更高版本的内核，例如 …...

编程日记 2025/1/14 6:01:59

播放音频文件同步音频文本

播放音频同步音频文本对应单个文本高亮显示使用audio音频文件对应音频文本资源音频文本内容（Json） [{"end": 4875,"index": 0,"speaker": 0,"start": 30,"text": "70号二啊,","tex…...

编程日记 2025/1/14 6:00:52

springboot使用Easy Excel导出列表数据为Excel

springboot使用Easy Excel导出列表数据为Excel Easy Excel官网：https://easyexcel.opensource.alibaba.com/docs/current/quickstart/write 主要记录一下引入时候的pom，直接引入会依赖冲突解决方法： &l…...

编程日记 2025/1/14 5:59:51

day07_Spark SQL

文章目录 day07_Spark SQL课程笔记一、今日课程内容二、Spark SQL函数定义（掌握）1、窗口函数2、自定义函数背景2.1 回顾函数分类标准:SQL最开始是_内置函数&自定义函数_两种 2.2 自定义函数背景 3、Spark原生自定义UDF函数3.1 自定义函数流程&#x…...

编程日记 2025/1/14 5:58:50

高性能现代PHP全栈框架 Spiral

概述 Spiral Framework 诞生于现实世界的软件开发项目是一个现代 PHP 框架，旨在为更快、更清洁、更卓越的软件开发提供动力。特性高性能由于其设计以及复杂精密的应用服务器，Spiral Framework框架在不影响代码质量以及与常用库的兼容性的情况下&a…...

编程日记 2025/1/14 5:57:48

LeetCode - #182 Swift 实现找出重复的电子邮件

网罗开发 （小红书、快手、视频号同名） 大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、Harmony OS、Java、Python等…...

编程日记 2025/1/14 5:56:45

《解锁鸿蒙Next系统人工智能语音助手开发的关键步骤》

在当今数字化时代，鸿蒙Next系统与人工智能的融合为开发者带来了前所未有的机遇，开发一款人工智能语音助手应用更是备受关注。以下是在鸿蒙Next系统上开发人工智能语音助手应用的关键步骤： 环境搭建与权限申请安装开发工具：首先需…...

编程日记 2025/1/14 5:55:43

【Linux网络编程】数据链路层 | MAC帧 | ARP协议

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站 🌈个人主页： 南桥几晴秋 🌈C专栏： 南桥谈C 🌈C语言专栏： C语言学习系…...

编程日记 2025/1/14 5:53:41

《自动驾驶与机器人中的SLAM技术》ch7：基于 ESKF 的松耦合 LIO 系统

目录基于 ESKF 的松耦合 LIO 系统 1 坐标系说明 2 松耦合 LIO 系统的运动和观测方程 3 松耦合 LIO 系统的数据准备 3.1 CloudConvert 类 3.2 MessageSync 类 4 松耦合 LIO 系统的主要流程 4.1 IMU 静止初始化 4.2 ESKF 之运动过程——使用 IMU 预测 4.3 使用 IMU 预测位姿进…...

编程日记 2025/1/14 5:50:38

基于spingbott+html+Thymeleaf的24小时智能服务器监控平台设计与实现

博主介绍：硕士研究生，专注于信息化技术领域开发与管理，会使用java、标准c/c等开发语言，以及毕业项目实战✌ 从事基于java BS架构、CS架构、c/c 编程工作近16年，拥有近12年的管理工作经验，拥有较丰富的技术架…...

编程日记 2025/1/14 5:47:36

全栈面试（一）Basic/微服务

文章目录项目地址一、Basic InterviewQuestions1. tell me about yourself?2. tell me about a time when you had to solve a complex code problem?3. tell me a situation that you persuade someone at work?4. tell me a about a confict with a teammate and how you…...

编程日记 2025/1/14 5:45:34

python安装完成后可以进行的后续步骤和注意事项

安装Python3完成后，你可以开始使用它进行编程和开发。以下是一些安装完成后可以进行的后续步骤和注意事项： 验证安装检查Python版本： 打开“终端”应用程序。输入python3 --version，应该显示安装的Python3版本号。检查pip版本…...

编程日记 2025/1/14 5:41:30

[Qt] 窗口 | 菜单栏MenuBar

目录 QMainWindow 概述一、菜单栏 1、创建菜单栏 2、在菜单栏中添加菜单 3、创建菜单项 4、在菜单项之间添加分割线 5、添加快捷键 6、添加子菜单 7、添加图标综合示例 QMainWindow 概述 Qt 窗口是通过 QMainWindow 类来实现的。 QMainWindow 是一个为用户提供主…...

编程日记 2025/1/14 5:38:28

[读书日志]从零开始学习Chisel 第十三篇：Scala的隐式参数与隐式转换（敏捷硬件开发语言Chisel与数字系统设计）

10. 隐式转换与隐式参数假设编写了一个向量类MyVector，并且包含一些向量的基本操作。因为向量可以与标量做数乘运算，所以需要一个计算数乘的方法“*”，它应该接收一个类型为基本值类的参数，在向量对象myVec调用该方法时&#xf…...

编程日记 2025/1/14 5:36:26

CMake学习笔记（1）

1. CMake概述 CMake 是一个项目构建工具，并且是跨平台的。关于项目构建我们所熟知的还有Makefile（通过 make 命令进行项目的构建），大多是IDE软件都集成了make，比如：VS 的 nmake、linux 下的 GNU make、Qt …...

编程日记 2025/1/14 5:35:24

cursor+deepseek构建自己的AI编程助手

文章目录准备工作在Cursor中添加deepseek 准备工作下载安装Cursor （默认安装在C盘） 注册deepseek获取API key 在Cursor中添加deepseek 1、打开cursor，选择设置选择Model，添加deepseek-chat 注意这里去掉其他的勾选项&…...

编程日记 2025/1/14 5:32:21

Spring Cloud AWS 实战教程：构建高可用 SQS 消息队列应用 [特殊字符]

Spring Cloud AWS 实战教程：构建高可用 SQS 消息队列应用 🚀 【免费下载链接】spring-cloud-aws The New Home for Spring Cloud AWS 项目地址: https://gitcode.com/gh_mirrors/sp/spring-cloud-aws Spring Cloud AWS 是一个强大的开源框架&…...

编程新知 2026/5/26 4:32:22

信息系统项目管理师核心知识点精讲

一、项目整合管理（重点：项目章程与项目管理计划）知识点详解：项目整体管理是项目管理知识体系的核心，它确保项目各要素协调统一。在考试中，特别要掌握项目章程和项目管理计划的区别与联系。项目章程是项目的“出生证明”，由项目发起人发布。它正式授权项目，赋予项…...

编程新知 2026/5/26 3:01:50

OmenSuperHub：释放惠普游戏本性能的纯净开源控制中心

OmenSuperHub：释放惠普游戏本性能的纯净开源控制中心【免费下载链接】OmenSuperHub Control Omen laptop performance, fan speeds, and keyboard lighting, and unlock power limits. 项目地址: https://gitcode.com/gh_mirrors/om/OmenSuperHub 还在为官方…...

编程新知 2026/5/25 22:06:17

RevSSH反向SSH隧道：无公网IP设备的安全远程运维方案

1. 这不是又一个SSH封装工具——RevSSH解决的是“根本性连接悖论”你有没有遇到过这样的场景：一台部署在客户内网的嵌入式设备，没有公网IP，NAT穿透失败，防火墙策略死死锁住所有入向端口，连ICMP都被禁了；或者…...

编程新知 2026/5/25 21:47:59

同步带装配工艺要点与损伤防控策略

一、引言在工业精密传动系统中，盖茨同步带凭借高精度、高效率、无滑差的优势，成为自动化设备、精密机床、输送产线的核心传动部件。多数企业在运维中，普遍将同步带异常磨损、断齿、断带等故障归咎于工况恶劣或产品质量问题，却忽略…...

编程新知 2026/5/25 21:39:52

Taotoken的审计日志功能为企业API安全与合规管理提供支持

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度 Taotoken的审计日志功能为企业API安全与合规管理提供支持当企业决定将大模型能力集成到内部业务流程中时，IT管理员和安…...

编程新知 2026/5/25 21:21:36

紧急预警：DeepSeek代码生成中未公开的3类逻辑漂移现象（附自动化检测脚本+修复模板）

更多请点击： https://intelliparadigm.com 第一章：紧急预警：DeepSeek代码生成中未公开的3类逻辑漂移现象（附自动化检测脚本修复模板） 近期在多轮生产级代码审计中发现，DeepSeek-R1（v2.5&#x…...

编程新知 2026/5/25 20:38:10

NanaZip：现代Windows文件压缩问题的终极解决方案

NanaZip：现代Windows文件压缩问题的终极解决方案【免费下载链接】NanaZip The 7-Zip derivative intended for the modern Windows experience 项目地址: https://gitcode.com/gh_mirrors/na/NanaZip 还在为Windows文件压缩工具界面老旧、功能单一而烦恼吗&…...

编程新知 2026/5/25 20:22:05

Elden Ring帧率解锁终极指南：从60帧到144+的完整教程

Elden Ring帧率解锁终极指南：从60帧到144的完整教程【免费下载链接】EldenRingFpsUnlockAndMore A small utility to remove frame rate limit, change FOV, add widescreen support and more for Elden Ring 项目地址: https://gitcode.com/gh_mirrors/el/Elden…...

编程新知 2026/5/25 20:20:05

终极免费音乐解锁工具：打破平台枷锁，让音乐重获自由

终极免费音乐解锁工具：打破平台枷锁，让音乐重获自由【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库： 1. https://github.com/unlock-music/unlock-music ；2. https://git.unlock-music.dev/um/web 项目地…...

编程新知 2026/5/25 20:01:41