当前位置: 首页 > news >正文

0基础跟德姆(dom)一起学AI 机器学习01-机器学习概述

【知道】人工智能

- Artificial Intelligence  人工智能

- AI is the field that studies the synthesis and analysis of  computational agents that act intelligently 

- AI is to use computers to analog and instead of human brain

- 释义 - 仿智; 像人一样机器智能的综合与分析;机器模拟人类

- 释义:是一个系统,像人那样思考 像人那样理性思考  

- 释义:是一个系统,像人那样活动 像人那样合理系统

【知道】机器学习

- Machine Learning   释义:机器学习

- Field of study that gives computers the ability to learn without being explicitly programmed

- 释义:让机器自动学习,而不是基于规则的编程(不依赖特定规则编程)

- 人类识别车:根据车的特征归纳出车的规律;来了一个新的图片,判断预测是否是车

- 机器学习识别车: 从数据中获取规律;来了一个新的数据,产生一个新的预测

【知道】深度学习

深度学习(DL, Deep Learning) : ,也叫深度神经网络,大脑仿生,设计一层一层的神经元模拟万事万物

【知道】三者之间的关系

机器学习是实现人工智能的一种途径

深度学习是机器学习的一种方法

【了解】学习方式

【了解】基于规则的学习

•基于规则的预测 : 程序员根据经验利用手工的if-else方式进行预测

但是有好多问题, 无法明确的写下规则,此时我们无法使用规则学习的方式来解决这一类问题,比如:

- 图像和语音识别
- 自然语言处理

举例:我们尝试通过基于规则的学习方式让计算机识别大象,下图中的大象千差万别, 有的是实物,有的是雕塑,有的是画,我们无法通过创建一套规则的方式让计算机准确识别下面每一头大象, 此时我们需要一种新的方法来解决这类问题。

【了解】基于模型的学习

基于模型的学习就是通过编写机器学习算法,让机器自己学习从历史数据中获得经验、训练模型:

案例巩固

比如房价预测,数据如下图

* 我们可以使用一条直线尽可能多的通过这些点,不通过的点尽量分布在直线的两侧,利用这条直线所表示的线性关系,我们就可以预测房价。
* 直线可以写成y=ax+b,若a,b已知,我们就能够预测房价。机器学习中a,b称为 **参数** ,y=ax+b称为 **模型** 。通常a,b未知,是我们需要求解的量。

人工智能应用领域和发展史

**学习目标:**

1.了解机器学习的应用领域

2.了解机器学习的发展史

【了解】应用领域

用户分析:社交网络、影评、商品评论

搜素引擎:网页、图片、规频、新闻、学术、地图

信息推荐:新闻、商品、游戏、书籍

图片识别:人像、用品、劢物、交通工具

机器翻译、摘要生成 … …

生物信息学习 … … 多模态 AR/VR

【了解】发展史

1956年夏季,以麦卡赛、明斯基、罗切斯特和申农等为首的一批有远见卓识的年轻科学家在一起聚会,共同研究和探讨用机器模拟智能的一系列有关问题,并首次提出了“人工智能”这一术语,它标志着“人工智能”这门新兴学科的正式诞生。

> 1956 年被认为是人工智能元年

**1950-1970**
符号主义流派:专家系统占主导地位

1950:图灵设计国际象棋程序

1962:IBM Arthur Samuel 的跳棋程序战胜人类高手(人工智能第一次浪潮)

**1980-2000**

统计主义流派:主要用统计模型解决问题

1993:Vapnik提出SVM

1997:IBM 深蓝战胜卡斯帕罗夫(人工智能第二次浪潮)

**2010-2017**

神经网络、深度学习流派

2012:AlexNet深度学习的开山之作

2016:Google AlphaGO 战胜李世石(人工智能第三次浪潮)

**2017-至今**

大规模预训练模型

2017年,自然语言处理NLP的Transformer框架出现

2018年,Bert和GPT的出现

2022年,chatGPT的出现,进入到大规模模型AIGC发展的阶段

【知道】机器学习发展三要素

- 数据、算法、算力三要素相互作用,是AI发展的基石

1.  CPU:负责调度任务、计算任务等;主要适合I\O密集型的任务
2. GPU:更加适合矩阵运算;主要适合计算密集型任务
3. TPU:Tensor,专门针对神经网络训练设计一款处理器

【掌握】样本,特征,标签/目标值

样本(sample) :一行数据就是一个样本;多个样本组成数据集;有时一条样本被叫成一条记录

特征(feature) :一列数据一个特征,有时也被称为属性

标签/目标(label/target) :模型要预测的那一列数据。本场景是就业薪资

就业薪资 与 培训学科、作业考试、学历、工作经验、工作地点 5个特征有关系

特征如何理解(重点):特征是从数据中抽取出来的,对结果预测有用的信息  eg:房价预测、车图片识别

【掌握】数据集划分

数据集可划分两部分:训练集、测试集  比例:8 : 2,7 : 3 

训练集(training set) :用来训练模型(model)的数据集

测试集(testing set):用来测试模型的数据集

算法分类

【掌握】有监督学习

- 定义:输入数据是由输入特征值和目标值所组成,即输入的训练数据有标签的

- 数据集:需要人工标注数据

【掌握】分类

- 目标值(标签值)是不连续的

- 分类种类:二分类、多分类任务、

【掌握】回归

目标值(标签值)是连续的

【熟悉】无监督学习

- 定义:输入数据没有被标记,即样本数据类别未知,**没有标签**,根据样本间的相似性,对样本集聚类,以发现事物内部 结构及相互关系。

- 数据集:不需要标注数据

**无监督学习特点:**

 **1** 训练数据无标签

 2 根据样本间的相似性对样本集进行聚类,发现事物内部结构及相互关系

【了解】半监督学习

工作原理:

1 让专家标注少量数据,利用已经标记的数据(也就

  是带有类标签)训练出一个模型

2 再利用该模型去套用未标记的数据

3 通过询问领域专家分类结果与模型分类结果做对比,

   从而对模型做进一步改善和提高

半监督学习方式可大幅降低标记成本

【了解】强化学习

1 强化学习(Reinforcement Learning):机器学习的一个重要分支

2 应用场景:里程碑AlphaGo围棋、各类游戏、对抗比赛、无人驾驶场景

3 基本原理:基本原理:通过构建四个要素:agent,环境状态,行动,奖励,

 agent根据环境状态进行行动获得最多的累计奖励。。

小孩子学走路:

​    (1) 小孩就是 **agent**,他试图通过采取**行**(即行走)来操纵**环境**(地面),

​    (2) 并且从**一个状态转变到另一个状态**(即他走的每一步),

​    (3) 当他完成任务的子任务(即走了几步)时,孩子得到**奖励**(给巧克力吃),

​    (4) 并且当他不能走路时,就不会给巧克力。

总结

【知道】机器学习的建模流程

特征工程

【知道】特征工程

从数据集角度来看:    一列一列的数据为特征。

从模型训练角度来看: 对预测结果有用的属性为特征

特征工程是:利用专业背景知识和技巧处理数据,让机器学习算法效果最好。这个过程就是特征工程

Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering. ”

释义:特征工程是困难、耗时、需要专业知识。应用机器学习基础就是特征工程                             

【理解】数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

【理解】特征提取

从原始数据中提取与任务相关的特征,构成特征向量

对于文本、图片这种非行列形式的数据行列形式转换,

一旦转换成行列形式一列就是特征

【理解】特征预处理

特征对模型产生影响;因量纲问题,有些特征对模型影响大、有些影响小

将不同的单位的特征数据转换成同一个范围内

使训练数据中不同特征对模型产生较为一致的影响

【了解】特征降维

将原始数据的维度降低,叫做特征降维

会丢失部分信息。降维就需要保证数据的主要信息要保留下来

原始数据会发生变化,不需要了解数据本身是什么含义,它保留了最主要的信息

【了解】特征选择

原始数据特征很多,但是对任务相关是其中一个特征集合子集。

从特征中选择出一些重要特征(选择就需要根据一些指标来选择)

特征选择不会改变原来的数据

【了解】特征组合

把多个的特征合并成一个特征。

通过加法、乘法等方法将特征值合并


【掌握】模型拟合问题

拟合:用来表示模型对样本点的拟合情况

欠拟合:模型在训练集上表现很差、在测试集表现也很差

原因:模型过于简单

过拟合:模型在训练集上表现很好、在测试集表现很差

原因:模型太过于复杂、数据不纯、训练数据太少

泛化:模型在新数据集(非训练数据)上的表现好坏的能力

奥卡姆剃刀原则:给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取


【实操】机器学习开发环境

基于Python的 scikit-learn 库:

1. 简单高效的数据挖掘和数据分析工具
2. 可供大家使用,可在各种环境中重复使用
3. 建立在NumPy,SciPy和matplotlib上
4. 开源,可商业使用-获取BSD许可证

pip install scikit-learn

相关文章:

0基础跟德姆(dom)一起学AI 机器学习01-机器学习概述

【知道】人工智能 - Artificial Intelligence 人工智能 - AI is the field that studies the synthesis and analysis of computational agents that act intelligently - AI is to use computers to analog and instead of human brain - 释义 - 仿智; 像人…...

yakit使用教程(一,下载并进行基础配置)

一,yakit简介 YAKIT(Yet Another Knife for IT Security)是一款网络安全单兵工具,专为个人渗透测试员和安全研究人员设计。它整合了一系列实用的安全工具,例如密码破解工具、网络扫描器、漏洞利用工具等,帮…...

计算机毕业设计电影票购买网站 在线选票选座 场次订票统计 新闻留言搜索/springboot/javaWEB/J2EE/MYSQL数据库/vue前后分离小程序

系统功能 ‌在线选票选座‌:用户可浏览电影场次,选择座位并生成订单。‌场次订票统计‌:系统实时统计各场次订票情况,便于影院管理。‌新闻发布与留言‌:发布最新电影资讯,用户可留言互动。‌搜索功能‌&a…...

DES、3DES 算法及其应用与安全性分析

一、引言 1.1 研究背景 在当今数字化时代,信息安全至关重要。对称加密算法作为信息安全领域的重要组成部分,发挥着关键作用。DES(Data Encryption Standard)作为早期的对称加密算法,由美国国家标准局于 1977 年采纳为数据加密标准。随着计算机运算能力的不断增强,DES 算…...

TypeScript介绍和安装

TypeScript介绍 TypeScript是由微软开发的一种编程语言,它在JavaScript的基础上增加了静态类型检查。静态类型允许开发者在编写代码时指定变量和函数的类型,这样可以在编译时捕获潜在的错误,而不是等到运行时才发现问题。比如,你…...

NetworkPolicy访问控制

NetworkPolicy是Kubernetes中一种用于控制Pod之间以及Pod与外部网络之间流量的资源对象。它可以帮助你在 IP 地址或端口层面(OSI 第 3 层或第 4 层)控制网络流量。NetworkPolicy 资源使用标签选择 Pod,并定义选定 Pod 所允许的通信规则。它可…...

C++面向对象基础

目录 一.作用域限定符 1.名字空间 2.类内声明,类外定义 二.this指针 1 概念 2.功能 2.1 类内调用成员 2.2 区分重名的成员变量和局部变量 2.3链式调用 三.stastic关键字 1.静态局部变量 2 静态成员变量 3 静态成员函数 4 单例设计模式(了解…...

遥感图像变换检测实践上手(TensorRT+UNet)

目录 简介 分析PyTorch示例 onnx模型转engine 编写TensorRT推理代码 main.cpp测试代码 小结 简介 这里通过TensorRTUNet,在Linux下实现对遥感图像的变化检测,示例如下: 可以先拉去代码:RemoteChangeDetection 分析PyTorch示…...

Transformers 引擎,vLLM 引擎,Llama.cpp 引擎,SGLang 引擎,MLX 引擎

1. Transformers 引擎 开发者:Hugging Face主要功能:Transformers 库提供了对多种预训练语言模型的支持,包括 BERT、GPT、T5 等。用户可以轻松加载模型进行微调或推理。特性: 多任务支持:支持文本生成、文本分类、问答…...

牛顿迭代法求解x 的平方根

牛顿迭代法是一种可以用来快速求解函数零点的方法。 为了叙述方便,我们用 C C C表示待求出平方根的那个整数。显然, C C C的平方根就是函数 f ( x ) x c − C f(x)x^c-C f(x)xc−C 的零点。 牛顿迭代法的本质是借助泰勒级数,从初始值开始快…...

端口隔离配置的实验

端口隔离配置是一种网络安全技术,用于在网络设备中实现不同端口之间的流量隔离和控制。以下是对端口隔离配置的详细解析: 基本概念:端口隔离技术允许用户将不同的端口加入到隔离组中,从而实现这些端口之间的二层数据隔离。这种技…...

洛谷 P10456 The Pilots Brothers‘ refrigerator

[Problem Discription] \color{blue}{\texttt{[Problem Discription]}} [Problem Discription] 给定一个 4 4 4 \times 4 44 的网格,每个网格有 0 , 1 0,1 0,1 两种状态。求最少可以通过多少次操作使得整个网格全部变成 1 1 1。 每次操作你需要选定一个格点 …...

windows+vscode+arm-gcc+openocd+daplink开发arm单片机程序

windowsvscodearm-gccopenocddaplink开发arm单片机程序,脱离keil。目前发现的最佳解决方案是,使用vscodeembedded ide插件。 Embedded IDE官方教程文档...

Mysql梳理10——使用SQL99实现7中JOIN操作

10 使用SQL99实现7中JOIN操作 10.1 使用SQL99实现7中JOIN操作 本案例的数据库文件分享: 通过百度网盘分享的文件:atguigudb.sql 链接:https://pan.baidu.com/s/1iEAJIl0ne3Y07kHd8diMag?pwd2233 提取码:2233 # 正中图 SEL…...

24.9.27学习笔记

Xavier初始化,也称为Glorot初始化,是一种在训练深度神经网络时用于初始化网络权重的策略。它的核心思想是在网络的每一层保持前向传播和反向传播时的激活值和梯度的方差尽可能一致,以避免梯度消失或梯度爆炸的问题。这种方法特别适用于激活函…...

C++第3课——保留小数点、比较运算符、逻辑运算符、布尔类型以及if-else分支语句(含视频讲解)

文章目录 1、课程笔记2、课程视频 1、课程笔记 #include<iostream>//头文件 input output #include<cmath> //sqrt()所需的头文件 #include<iomanip>//setprecision(1)保留小数点位数所需的头文件 using namespace std; int main(){/*复习上节课内容1、…...

韩媒专访CertiK首席商务官:持续关注韩国市场,致力于解决Web3安全及合规问题

作为Web3.0头部安全公司&#xff0c;CertiK在KBW期间联合CertiK Ventures举办的活动引起了业界的广泛关注。CertiK一直以来与韩国地方政府保持着紧密合作关系&#xff0c;在合规领域提供强有力的支持。而近期重磅升级的CertiK Ventures可以更好地支持韩国本地的区块链项目。上述…...

计算机毕业设计之:宠物服务APP的设计与实现(源码+文档+讲解)

博主介绍&#xff1a; ✌我是阿龙&#xff0c;一名专注于Java技术领域的程序员&#xff0c;全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师&#xff0c;我在计算机毕业设计开发方面积累了丰富的经验。同时&#xff0c;我也是掘金、华为云、阿里云、InfoQ等平台…...

小柴冲刺软考中级嵌入式系统设计师系列二、嵌入式系统硬件基础知识(3)嵌入式系统的存储体系

目录 感悟 一、存储系统的层次结构 存储器系统 二、内存管理单元 三、RAM和ROM的种类与选型 1、RAM RAM分类 2、ROM ROM分类 四、高速缓存Cache 五、其他存储设备 flechazohttps://www.zhihu.com/people/jiu_sheng 小柴冲刺软考中级嵌入式系统设计师系列总目录https…...

Unity android 接USBCamera

目录 一、前提 1. unity打包android后&#xff0c;链接USB摄像头&#xff0c;需要USB权限。 二、流程 1.Unity导出android工程&#xff0c;Player配置如图&#xff1a; 2.导出android工程 3.在android工程中找到AndroidManifest.xml加入usb权限相关 <?xml version&quo…...

(八)前端,如此简单!---五组结构

js中有五个结构&#xff0c;共同构成了处理网络请求与响应的核心 API&#xff0c;覆盖从构建请求、管理元数据到解析数据的完整链路。 一、URL const url new URL(https://api.example.com/users?id123&name张三#section1)url.protocol // "https:" 协议 url.h…...

League Akari:英雄联盟终极智能助手完整使用指南

League Akari&#xff1a;英雄联盟终极智能助手完整使用指南 【免费下载链接】League-Toolkit 兴趣使然的、简单易用的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 你是否厌倦了在英雄联…...

计算机基础:从半导体到CPU指令执行全解析

1. 从半导体到逻辑门&#xff1a;计算机的物理基础 计算机的核心部件CPU本质上是由无数微小开关组成的精密电路&#xff0c;而这些开关的物理基础就是半导体材料。半导体之所以被称为"半导体"&#xff0c;是因为它的导电性介于导体和绝缘体之间。这种特性使得我们可以…...

告别手动敲命令:我是如何用云效流水线把Nacos集群部署效率提升10倍的

从手工到自动化&#xff1a;我的Nacos集群部署效率革命 记得第一次在ACK上手动部署Nacos集群的那个深夜&#xff0c;我对着满屏的kubectl命令和不断报错的终端&#xff0c;意识到这种重复劳动必须终结。当时完成一次完整的集群更新平均需要2小时&#xff0c;而现在通过云效流水…...

20世纪十大经典算法解析与应用

二十世纪十大经典算法解析1. 蒙特卡洛方法 (1946)由John von Neumann、Stan Ulam和Nick Metropolis在洛斯阿拉莫斯国家实验室提出。该方法通过随机采样解决确定性数学问题&#xff0c;其核心思想是&#xff1a;在单位正方形内随机撒点统计落在不规则图形内的点数比例该比例近似…...

Switch模拟器Ryujinx全攻略:从安装到优化的跨平台游戏体验

Switch模拟器Ryujinx全攻略&#xff1a;从安装到优化的跨平台游戏体验 【免费下载链接】Ryujinx 用 C# 编写的实验性 Nintendo Switch 模拟器 项目地址: https://gitcode.com/GitHub_Trending/ry/Ryujinx Switch模拟器Ryujinx是一款用C#编写的开源项目&#xff0c;它能让…...

Listary vs Everything:Windows文件搜索工具终极对比(附实战技巧)

Listary vs Everything&#xff1a;Windows文件搜索工具终极对比&#xff08;附实战技巧&#xff09; 在Windows生态中&#xff0c;高效的文件搜索工具一直是生产力提升的关键。Listary和Everything作为两款备受推崇的解决方案&#xff0c;各自拥有独特的优势和使用场景。本文将…...

LVGL下拉列表控件lv_dropdown实战:从基础配置到高级定制(附完整代码示例)

LVGL下拉列表控件lv_dropdown实战&#xff1a;从基础配置到高级定制&#xff08;附完整代码示例&#xff09; 在嵌入式UI开发领域&#xff0c;LVGL&#xff08;Light and Versatile Graphics Library&#xff09;凭借其轻量级和高度可定制的特性&#xff0c;已成为许多开发者的…...

Python 3.14 JIT动态优化实战(企业级成本控制白皮书)

第一章&#xff1a;Python 3.14 JIT编译器演进与企业级定位Python 3.14 引入了首个官方集成的、生产就绪的 JIT&#xff08;Just-In-Time&#xff09;编译器——PyJIT&#xff0c;标志着 CPython 从纯解释执行向混合执行模型的战略跃迁。该 JIT 并非替代现有字节码解释器&#…...

EverythingPowerToys正则表达式搜索:解锁精准文件匹配的强大功能

EverythingPowerToys正则表达式搜索&#xff1a;解锁精准文件匹配的强大功能 【免费下载链接】EverythingPowerToys Everything search plugin for PowerToys Run 项目地址: https://gitcode.com/gh_mirrors/ev/EverythingPowerToys EverythingPowerToys是一款专为Power…...