机器学习入门介绍
个人主页:在线OJ的阿川
大佬的支持和鼓励,将是我成长路上最大的动力 
阿川水平有限,如有错误,欢迎大佬指正 


目录
- 三大方向
- 机器学习产生的原因
- 机器如何学习
- 模型评价
- 应用层
- 适用条件
- 学习要弄清楚
- 数据什么样
- 研究哪些问题
- 如何分门别类
- 常见误区与局限
- 工具栏
- 四大必备工具
- Anaconda
- [Jupyter notebook](https://jupyter.org/)
- Numpy(重点)
- Matplotlib
机器学习
- 计算机 从数据中学习规律并改善自身进行预测的过程
三大方向

其中深度学习为重点
机器学习产生的原因
- 人与计算机理解方式不同
- 规律系统不够用
- 逻辑判断专家参与耗时耗力
机器如何学习

注意:我们期望机器在没有见过的数据集中表现良好,所以在训练中会采用28原则
- 80%的历史数据用来训练
- 20%的数据用来测试

模型评价
模型要进行模型评价

应用层
- 商品画像
- 用户画像
- 商品推荐
- 搜索算法
- 以画搜画
- 商品排序
- 人脸检测
- 活体检测
- 人脸识别
适用条件
- 问题存在某种模式
- 一般是人能够解决的,若人解决不了的,作为强人工智能领域
- 难以人工总结定义
- 有足够样本数据
- 小数据下会失效
学习要弄清楚
学习机器学习要弄清楚

数据什么样
- 常用的公开数据集
- 典型实例
- 如何使用数据
- 高维特征空间
- 结构化与非结构化数据
研究哪些问题
- 任务地图

-
分类任务(重点)
-
特征
- 已知样本特征
- 判断样本类别
- 二分类,多分类,多标签分类
-
二分类
-
多分类
-
多标签分类
- 标签间不互斥
- 概率和不为1
-
更多实例
-
-
回归任务(重点)
-
特征
- 用于预测
-
线性回归
-
多项式回归
- 一个因变量
- 一个或多个自变量
- 任何函数都可以用多项式逼近
-
逻辑回归
- 实际上是分类
- 细节很多,求法不同,导致在回归类
-
不管是分类还是回归,都属于监督学习
- 类别标记
- 直接反馈
无监督学习
- 无标准答案,去探索某种规律或结构
强化学习
- 研究环境与行动之间的互动,以获取最大化结果
如何分门别类
划分依据
-
监督学习
- 训练数据有标记
- 基础而重要
-
无监督学习
- 训练数据未有标记
- 聚类
- 降维
- 主成分分析
- K均值算法
- 密度聚类
- 最大期望算法
- 核方法
- 主成分分析
-
半监督学习
- 少量标记,大量无标记
-
强化学习
- 观测环境
- 估计状态
- 执行操作
- 获得回报或惩罚
-
批量学习
- 先训练再使用
- 需要大量的时间和计算资源
- 通常都是高线完成
-
在线学习
- 循序渐进
- 边学边用
-
基于实例的学习
-
基于模型的学习
常见误区与局限
-
数据越多越好吗
- 数据质量是关键
- 多不意味着准确
- 传统方法依然有用
-
模型真的可信吗
- 可解释性难题
- 深度学习是个黑盒子
- 深层学习有具优势
-
随机和确定性哪个更好
- 机器学习本质上是统计
- 确定性依然十分重要
- 随机与确定性间的平衡
-
小样本集怎么办
- 机器学习适合大数据
- 很多问题是天然小数据
- 小样本学习是机器学习的挑战
-
推理而不只是判断
- 机器学习尚在判断阶段
- 抽象思维和逻辑思维推理远未实现
- 数学依旧是汪洋大海
-
机器学习是机会
- 深度学习局限性凸显
- 本质上是几何空间变换
- 具体问题应具体分析
工具栏
四大必备工具

Anaconda

Jupyter notebook
- 基础使用
- 基础操作
- 快捷键
- markdown
- 基础操作
- 高级使用
- %%writefile
- %pycat
- %run
- %timeit
- %time
- %%timeit
- %%time
- %whos
- %lsmagic
- %magic
Numpy(重点)
-
基础知识
- 性能对比
-
数组创建
- 常用属性
- ndim\shape\size
- 常用属性
-
创建数组
- np.array()
- ones/ones_alike
- zeros/zeros_like
- full/full_like 指定数值
- empty/empty_like 实数组
- arange/linspace 等量数组
- random/rand/randint/randn/nomal/uniform/seed 随机数组
- reshape 改变形状
- help/? 查看文档
-
基础索引
-
数据合并与拆分
- 合并
- concatnade/vstack/hstack
- 拆分
- split/vsplit/hsplit
- 合并
-
矩阵运算
- 一元运算
- abs/sqrt/square/exp/log/ceil/floot/round/sincostan
- 二元运算
- dot/加速乘除/取余/幂运算
- 矩阵运算
- 加速乘除/dot/转查/逆矩阵/行列式
- 一元运算
-
统计运算
- min/max
- sum/mean/median/std/var
- ptp/percentile/cumsum/diff/prod
-
arg运算
- argmin/argmax/argsort/argpartition
-
补齐索引和布尔索引
Matplotlib
- 数据可视化基础
- 拆线
- 散点
- 绘制设置
好的,到此为止啦,祝您变得更强

| 道阻且长 行则将至 |
|---|
个人主页:在线OJ的阿川
大佬的支持和鼓励,将是我成长路上最大的动力 
相关文章:
机器学习入门介绍
各位大佬好 ,这里是阿川的博客 , 祝您变得更强 个人主页:在线OJ的阿川 大佬的支持和鼓励,将是我成长路上最大的动力 阿川水平有限,如有错误,欢迎大佬指正 目录 三大方向机器学习产生的原因机器如何学习…...
一文说通用户故事点数是什么?
一文说通用户故事点数是什么? 第26期:一文说通用户故事点数是什么? 用户故事点数是一种采用相对估算法进行估算的一种工具,一般采用斐波那契数列表征用户故事里说的大小,采用0 1 2 3 5 8 13这样的一些数字来表征用户…...
GAME101-Lecture07学习
前言 今天主要讲shading(着色)。在讲着色前,要先讲图形中三角形出现遮挡问题的方法(深度缓存或缓冲)。 先采样再模糊错误:对信号的频谱进行翻译(在这期间会有频谱的混叠)ÿ…...
【一步一步了解Java系列】:了解Java与C语言的运算符的“大同小异”
看到这句话的时候证明:此刻你我都在努力~ 加油陌生人~ 个人主页: Gu Gu Study 专栏:一步一步了解Java 喜欢的一句话: 常常会回顾努力的自己,所以要为自己的努…...
ICSE docker related research
ICSE 2024 Empirical Study of the Docker Smells Impact on the Image Size Docker 气味对镜像大小影响的实证研究 Docker 是一种广泛采用的打包和部署应用程序的工具,它利用 Dockerfile 来构建镜像。然而,创建最佳的 Dockerfile 可能具有挑战性&…...
【C++】学习笔记——多态_1
文章目录 十二、继承8. 继承和组合 十三、多态1. 多态的概念2. 多态的定义和实现虚函数重写的两个特殊情况override 和 final 3. 多态的原理1. 虚函数表 未完待续 十二、继承 8. 继承和组合 我们已经知道了什么是继承,那组合又是什么?下面这种情况就是…...
C++map容器关联式容器
Cmap 1. 关联式容器 vector、list、deque、forward_list(C11)等STL容器,其底层为线性序列的数据结构,里面存储的是元素本身,这样的容器被统称为序列式容器。而map、set是一种关联式容器,关联式容器也是用来存储数据的࿰…...
TS-抽象类和静态成员
目录 1,抽象类1,为什么需要抽象类2,抽象成员3,设计模式-模板模式 2,静态成员1,什么是静态成员2,设计模式-单例模式 1,抽象类 1,为什么需要抽象类 有时,某个…...
SharePoint 使用renderListDataAsStream方法查询list超过5000时的数据
问题: 当SharePoint List里的数据超过5000时,如果使用常用的rest api去获取数据,例如 await this.sp.web.lists.getByTitle(Document Library).rootFolder.files.select(*, listItemAllFields).expand(listItemAllFields).filter(listItemA…...
2024042001-计算机网络 - 物理层
计算机网络 - 物理层 计算机网络 - 物理层 通信方式带通调制 通信方式 根据信息在传输线上的传送方向,分为以下三种通信方式: 单工通信:单向传输半双工通信:双向交替传输全双工通信:双向同时传输 带通调制 模拟信号…...
通过java将数据导出为PDF,包扣合并单元格操作
最近项目中需要将查询出来的表格数据以PDF形式导出,并且表格的形式包含横向行与纵向列的单元格合并操作,导出的最终效果如图所示: 首先引入操作依赖 <!--导出pdf所需包--><dependency><groupId>com.itextpdf</groupId&…...
Java内存模式以及volatile关键字的使用
1.Java内存模型 (1)Java 内存模型(Java Memory Model,简称 JMM),它是一个抽象的概念,JMM是和多线程相关的,它是一组规范,描述了一组规则,定义了多线程对共享…...
每日5题Day3 - LeetCode 11 - 15
每一步向前都是向自己的梦想更近一步,坚持不懈,勇往直前! 第一题:11. 盛最多水的容器 - 力扣(LeetCode) class Solution {public int maxArea(int[] height) {//这道题比较特殊,因为两边是任意…...
路由器、交换机和网卡
大家使用VMware安装镜像之后,是不是都会考虑虚拟机的镜像系统怎么连上网的,它的连接方式是什么,它ip是什么? 路由器、交换机和网卡 1.路由器 一般有几个功能,第一个是网关、第二个是扩展有线网络端口、第三个是WiFi功…...
腾讯开源混元DiT文生图模型,消费级单卡可推理
节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。 针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。 总结链接…...
shell脚本基础(if/else结构)
命令是双向选择语句,当用户执行脚本时如果不满足if后的表达式也会执行else后的命令,所以有很好的交互性。其结构为: if expression1 then command … command else command … command fi vim ifelse_exam.sh #ifelse_exam.sh #!/bin/bashec…...
万字长文破解 AI 图片生成算法-Stable diffusion (第一篇)
想象一下:你闭上眼睛,脑海中构思一个场景,用简短的语言描述出来,然后“啪”的一声,一张栩栩如生的图片就出现在你眼前。这不再是科幻小说里才有的情节,而是Stable Diffusion——一种前沿的AI图片生成算法—…...
Linux---编辑器vim的认识与简单配置
前言 我们在自己的电脑上所用的编译软件,就拿vs2022来说,我们可以在上面写C/C语言、python、甚至java也可以在上面进行编译,这种既可以用来编辑、运行编译,又可以支持很多种语言的编译器是一种集成式开发环境,集众多于…...
lucene中Collector类、CollectorManager类区分和用法
我的lucene版本是9.10.0,请说明Collector类、CollectorManager类区分和用法,尽量详细点 在 Lucene 9.10.0 中,Collector 类和 CollectorManager 类都是用于搜索结果的收集和处理 Collector 类 Collector 类是一个接口,用于收集…...
Android之给Button上添加按压效果
一、配置stateListAnimator参数实现按压效果 1、按钮控件 <Buttonandroid:id"id/mBtnLogin"android:layout_width"match_parent"android:layout_height"48dp"android:background"drawable/shape_jfrb_login_button"android:state…...
Spring Boot 实现流式响应(兼容 2.7.x)
在实际开发中,我们可能会遇到一些流式数据处理的场景,比如接收来自上游接口的 Server-Sent Events(SSE) 或 流式 JSON 内容,并将其原样中转给前端页面或客户端。这种情况下,传统的 RestTemplate 缓存机制会…...
PHP和Node.js哪个更爽?
先说结论,rust完胜。 php:laravel,swoole,webman,最开始在苏宁的时候写了几年php,当时觉得php真的是世界上最好的语言,因为当初活在舒适圈里,不愿意跳出来,就好比当初活在…...
HTML 列表、表格、表单
1 列表标签 作用:布局内容排列整齐的区域 列表分类:无序列表、有序列表、定义列表。 例如: 1.1 无序列表 标签:ul 嵌套 li,ul是无序列表,li是列表条目。 注意事项: ul 标签里面只能包裹 li…...
土地利用/土地覆盖遥感解译与基于CLUE模型未来变化情景预测;从基础到高级,涵盖ArcGIS数据处理、ENVI遥感解译与CLUE模型情景模拟等
🔍 土地利用/土地覆盖数据是生态、环境和气象等诸多领域模型的关键输入参数。通过遥感影像解译技术,可以精准获取历史或当前任何一个区域的土地利用/土地覆盖情况。这些数据不仅能够用于评估区域生态环境的变化趋势,还能有效评价重大生态工程…...
IoT/HCIP实验-3/LiteOS操作系统内核实验(任务、内存、信号量、CMSIS..)
文章目录 概述HelloWorld 工程C/C配置编译器主配置Makefile脚本烧录器主配置运行结果程序调用栈 任务管理实验实验结果osal 系统适配层osal_task_create 其他实验实验源码内存管理实验互斥锁实验信号量实验 CMISIS接口实验还是得JlINKCMSIS 简介LiteOS->CMSIS任务间消息交互…...
手机平板能效生态设计指令EU 2023/1670标准解读
手机平板能效生态设计指令EU 2023/1670标准解读 以下是针对欧盟《手机和平板电脑生态设计法规》(EU) 2023/1670 的核心解读,综合法规核心要求、最新修正及企业合规要点: 一、法规背景与目标 生效与强制时间 发布于2023年8月31日(OJ公报&…...
SQL Server 触发器调用存储过程实现发送 HTTP 请求
文章目录 需求分析解决第 1 步:前置条件,启用 OLE 自动化方式 1:使用 SQL 实现启用 OLE 自动化方式 2:Sql Server 2005启动OLE自动化方式 3:Sql Server 2008启动OLE自动化第 2 步:创建存储过程第 3 步:创建触发器扩展 - 如何调试?第 1 步:登录 SQL Server 2008第 2 步…...
FTXUI::Dom 模块
DOM 模块定义了分层的 FTXUI::Element 树,可用于构建复杂的终端界面,支持响应终端尺寸变化。 namespace ftxui {...// 定义文档 定义布局盒子 Element document vbox({// 设置文本 设置加粗 设置文本颜色text("The window") | bold | color(…...
RushDB开源程序 是现代应用程序和 AI 的即时数据库。建立在 Neo4j 之上
一、软件介绍 文末提供程序和源码下载 RushDB 改变了您处理图形数据的方式 — 不需要 Schema,不需要复杂的查询,只需推送数据即可。 二、Key Features ✨ 主要特点 Instant Setup: Be productive in seconds, not days 即时设置 :在几秒钟…...
背包问题双雄:01 背包与完全背包详解(Java 实现)
一、背包问题概述 背包问题是动态规划领域的经典问题,其核心在于如何在有限容量的背包中选择物品,使得总价值最大化。根据物品选择规则的不同,主要分为两类: 01 背包:每件物品最多选 1 次(选或不选&#…...
