当前位置: 首页 > article >正文

吴恩达机器学习笔记(1)—引言

目录

一、欢迎

二、机器学习是什么

三、监督学习

四、无监督学习


一、欢迎

机器学习是当前信息技术领域中最令人兴奋的方向之一。在这门课程中,你不仅会学习机器学习的前沿知识,还将亲手实现相关算法,从而深入理解其内部机理。

事实上,机器学习已广泛渗透进我们的日常生活。例如,每次你使用 Google、Bing 进行搜索,或用 Facebook、Apple 的图像识别功能识别朋友,甚至邮箱中的垃圾邮件过滤器,背后都离不开机器学习算法的支持。这些算法让系统能够“学习”如何提供更好的服务。

机器学习之所以广受欢迎,是因为它不仅服务于人工智能领域,更已成为计算机的一种核心能力。我们以前可以手动编写程序来解决基础问题,比如寻找最短路径,但像网页搜索、图像识别、反垃圾邮件等复杂任务,则必须依靠机器自我学习来完成。

它在医疗、工程、计算生物学等多个行业中发挥着巨大作用。比如:

  • 数据挖掘:分析网页点击流数据,优化用户体验。

  • 医疗健康:通过分析电子病历,发现疾病模式。

  • 基因研究:处理大规模基因序列,探索生命奥秘。

  • 自动控制:如训练无人直升机自动飞行。

  • 手写识别:用于邮件自动分拣。

  • 自然语言处理与计算机视觉:提升语言和图像理解能力。

  • 个性化推荐系统:如 Amazon、Netflix、iTunes 的推荐功能。

此外,机器学习也被用来帮助我们理解人类学习本身和大脑的工作机制。它不仅推动 AI 梦想的实现,也是 IT 行业最受欢迎的技能之一。许多科技公司都在积极寻找掌握机器学习的人才,远远超出目前的供给。

二、机器学习是什么

虽然“机器学习”没有一个统一的定义,但有两个经典的描述:

  • Arthur Samuel(20世纪50年代)
    他将机器学习定义为“在没有明确设置的情况下,使计算机具有学习能力的研究领域”
    他创建了一个西洋棋程序,程序通过与自己对弈上万次,不断优化策略,最终下棋水平超过了他本人。

  • Tom Mitchell(卡内基梅隆大学)
    定义:一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P评判,程序在处理T时的性能有所提升
    例如:垃圾邮件过滤系统

    • 任务 T:识别垃圾邮件

    • 经验 E:观察是否把邮件标记为垃圾邮件

    • 性能度量 P:系统正确分类邮件的准确率

机器学习算法主要包括监督学习、无监督学习,以及其他类型如强化学习和推荐系统。

三、监督学习

监督学习指的就是给学习算法一个数据集,其中包含了“正确答案”,通过训练模型来学习已有数据中的规律,然后运用学习算法算出更多的“正确答案”。下面通过几个例子来理解它的核心思想。

例子1:预测房价(回归问题

这里有一份从俄勒冈州的波特兰市收集的房价数据,把这些数据画出来,如下图,横轴表示房子的面积(平方英尺),纵轴表示房价(千美元)。基于这组数据,如果有一套750平方英尺的房子,想知道这房子能卖多少钱?

可以应用学习算法,对数据进行拟合,比如用一条直线来拟合这些数据,由此看出房子可以卖大约15万美元;也可以用二次函数来拟合数据可能效果会更好,看出房子可以卖出接近20万美元。

这种任务就是回归问题,回归是指试图推测连续值的属性。 在这个例子中“正确答案”是房子的实际售价

例子2:通过查看病历来判断乳腺肿瘤是否为恶性(分类问题

假设有一组数据,横轴表示肿瘤的大小,纵轴是1或0,1代表恶性,0代表良性。有5个良性肿瘤样本,用蓝叉表示,有5个恶性肿瘤样本,用红叉表示。现在有个尺寸已知的乳腺肿瘤,能否估算出这个肿瘤是恶性还是良性的概率?

在机器学习的问题中,会有多个特征,比如除了肿瘤尺寸外,还知道患者年龄。如下图,横轴表示肿瘤的大小,纵轴表示患者年龄。数据集可能是蓝圈表示良性,红叉表示恶性。在给定的数据集上,学习算法可能用一条直线来分离,并以此来判断良性或恶性瘤。

在机器学习的算法中,往往会有更多特征,比如肿块密度、肿瘤细胞大小的一致性、肿瘤细胞形状的一致性等其它的特征。如何处理更多甚至无穷多的特征呢?后面会讲支持向量机算法,里面有一个巧妙的数学技巧,能让计算机处理无限多个特征。

这种任务属于分类问题,目标是推测出一个离散的输出(0或1)。分类问题中,有时会有两个以上的输出值,比如:0=良性,1=第一类乳腺癌,2=第二类乳腺癌,3=第三类乳腺癌。这些离散输出值对应不同的类别,因此属于多分类问题

四、无监督学习

在无监督学习中,我们的数据集没有标签或“正确答案”。我们不知道每个样本属于哪一类,甚至不知道应该有多少类。我们唯一拥有的只是原始的数据,算法的任务是从这些数据中自动发现结构或规律

一个典型的无监督学习任务是聚类(Clustering)。算法试图将数据划分为若干个簇,如下图:算法可以自动识别出两个明显不同的簇(群组),即使我们事先并不知道这些簇的存在。

 

 聚类算法的实际应用,比如:

  • 谷歌新闻聚类

一个非常贴近生活的应用是 Google News。它每天会收集大量新闻内容,并使用聚类算法自动将相关的新闻归到一起。你看到的每一组新闻,其实是无监督学习算法将它们聚到一起的结果。

  • 基因表达分析

聚类算法也应用在基因数据分析中。例如,我们可以对不同个体的DNA微阵列数据进行分析,试图找出是否存在某些特定的基因表达模式。虽然我们并不知道哪些人属于哪一类,但通过聚类算法,我们可以将具有相似基因表达的个体归为一类。

无监督学习及其聚类算法被广泛应用于以下领域:

  • 计算机集群管理

在大数据中心,通过聚类算法自动识别哪些计算机可以协同工作,以提高效率。

  • 社交网络分析

分析你常联系的人,自动将社交网络中的朋友分组,每组中的人彼此熟识。

  • 市场细分(Market Segmentation)

企业可以使用顾客数据,自动将用户划分为不同的市场细分群体,进而进行更有针对性的营销。

  • 天文数据分析

聚类算法也被用于分析星系形成过程,提供了很多有趣且有用的理论支持。

另一种无监督学习任务是鸡尾酒宴问题。你可以想象在一个嘈杂的鸡尾酒宴会中,有两个人同时在说话。我们在房间里放置两个麦克风,分别录下两段混合音频。任务是从这两段录音中分离出各自的说话声。这个任务同样属于无监督学习。你不知道哪个声音是谁的,只能让算法自己去从音频中“解混合”,分离出原始的音频源。

相关文章:

吴恩达机器学习笔记(1)—引言

目录 一、欢迎 二、机器学习是什么 三、监督学习 四、无监督学习 一、欢迎 机器学习是当前信息技术领域中最令人兴奋的方向之一。在这门课程中,你不仅会学习机器学习的前沿知识,还将亲手实现相关算法,从而深入理解其内部机理。 事实上&…...

信贷风控规则策略累计增益lift测算

在大数据风控业务实践过程中,目前业内主要还是采用规则叠加的办法做策略,但是会遇到一些问题: 1.我们有10条规则,我上了前7条后,后面3条的绝对风险增益是多少? 2.我的规则之间应该做排序吗,最重…...

【笔记】Windows 部署 Suna 开源项目完整流程记录

#工作记录 因篇幅有限,所有涉及处理步骤的详细处理办法请参考文末资料。 Microsoft Windows [Version 10.0.27868.1000] (c) Microsoft Corporation. All rights reserved.(suna-py3.12) F:\PythonProjects\suna>python setup.py --admin███████╗██╗…...

【Elasticsearch】Elasticsearch 核心技术(一):索引

Elasticsearch 核心技术(一):索引 1.索引的定义2.索引的命名规范3.索引的增、删、改、查3.1 创建索引3.1.1 创建空索引 3.2 删除索引3.3 文档操作3.3.1 添加/更新文档(指定ID)3.3.2 添加文档(自动生成ID&am…...

AudioTrack的理解

采样率说的是一秒钟采样多少点 波形频率说的是一个采样周期内有多少个波形 pcm编码说的是 16 还是8 直接决定write的时候使用short还是byte ‌一、初始化配置 ‌参数设定‌ 需定义音频格式、采样率及缓冲区大小,确保符合硬件支持范围 // 音频参数配置 int sample…...

HTTP请求与HTTP响应介绍及其字段

HTTP请求 请求行:请求行主要包含请求方法、请求URI(统一资源标识符)和HTTP协议版本。例如: GET /index.html HTTP/1.1 请求头(Headers):包含客户端的元数据,为服务器提供了额外信息…...

Fullstack 面试复习笔记:操作系统 / 网络 / HTTP / 设计模式梳理

Fullstack 面试复习笔记:操作系统 / 网络 / HTTP / 设计模式梳理 面试周期就是要根据JD调整准备内容(挠头),最近会混合复习针对全栈这块的内容,目前是根据受伤的JD,优先选择一些基础的操作系统、Java、Nod…...

中科院报道铁电液晶:从实验室突破到多场景应用展望

2020年的时候,相信很多关注科技前沿的朋友都注意到,中国科学院一篇报道聚焦一项有望改写显示产业格局的新技术 —— 铁电液晶(FeLC)。这项被业内称为 "下一代显示核心材料" 的研究,究竟取得了哪些实质性进展…...

智慧政务标准规范介绍:构建高效、协同的政务信息体系

在当今信息化快速发展的时代,智慧政务作为政府数字化转型的重要方向,正逐步改变着政府管理和服务的方式。为了确保智慧政务系统的建设能够有序、高效地进行,国家制定了一系列标准规范,其中GB∕T 21062系列标准《政务信息资源交换体…...

6个月Python学习计划 Day 12 - 字符串处理 文件路径操作

第一周 Day 1 - Python 基础入门 & 开发环境搭建 Day 2 - 条件判断、用户输入、格式化输出 Day 3 - 循环语句 range 函数 Day 4 - 列表 & 元组基础 Day 5 - 字典(dict)与集合(set) Day 6 - 综合实战:学生信息…...

CSS篇-3

1. CSS 中哪些样式可以继承?哪些不可以继承? 可继承的样式: 与字体相关的样式,如:font-size、font-family、color 列表样式:list-style(如 UL、OL 的 list-style-type) 不可继承的样式: 与布局和尺寸相关的样式,如:border、padding、margin、width、height 总结: …...

Unity使用Lua框架和C#框架开发游戏的区别

在Unity中使用Lua框架和C#框架开发游戏有显著的区别,主要体现在性能、开发效率、热更新能力、维护成本等方面。 1. 语言类型与设计目标 维度LuaC#类型动态类型、解释型脚本语言静态类型、编译型面向对象语言设计初衷轻量级嵌入、配置和扩展宿主程序通用开发&#…...

Go开发简历优化指南

一、简历格式与排版 (一)简洁至上 去除多余装饰:在 Go 后台开发简历中,应摒弃那些花哨却无实际作用的元素,比如复杂的封面、页眉、页脚等。设想招聘人员每日要处理大量简历,若你的简历有繁杂的封面设计&a…...

手机照片太多了存哪里?

手机相册里塞满了旅行照片、生活碎片,每次清理都舍不得删?NAS——一款超实用的存储方案,让你的回忆安全又有序~ 1️⃣自动备份解放双手 手机 / 电脑 / 相机照片全自动同步到 NAS,再也不用手动传文件 2️⃣远程访问像…...

【论文笔记】SecAlign: Defending Against Prompt Injection with Preference Optimization

论文信息 论文标题:SecAlign: Defending Against Prompt Injection with Preference Optimization - CCS 25 论文作者: Sizhe Chen - UC Berkeley ;Meta, FAIR 论文链接:https://arxiv.org/abs/2410.05451 代码链接:h…...

IP Search Performance Tests dat/db/xdb/mmdb 结构性能差异对比

IP Search Performance Tests qqzeng-ip by 2025-06-01 测试环境: BenchmarkDotNet v0.15.0 macOS Sequoia 15.5 (24F74) [Darwin 24.5.0] Apple M4 Max, 1 CPU, 14 logical and 14 physical cores .NET SDK 10.0.100-preview.4.25258.110 [Host]: .NET…...

OpenRouter使用指南

OpenRouter 是一个专注于大模型(LLM)API 聚合和路由的服务平台,旨在帮助开发者便捷地访问多种主流大语言模型(如 GPT-4、Claude、Llama 等),并提供统一的接口、成本优化和智能路由功能。以下是它的核心功能…...

Linux 中 m、mm、mmm 函数和 make 的区别

在 Linux 内核开发和 Android 开发中,构建系统通常使用 make 命令来编译和构建项目。而在 Android 开发环境中,还有 m、mm 和 mmm 等命令,这些命令是 Android 构建系统的一部分,提供了更高效和便捷的构建方式。以下将详细介绍这些…...

【MAC】YOLOv8/11/12 转换为 CoreML 格式并实现实时目标检测

在本文中,我们将详细介绍如何将 YOLOv8/11/12 模型转换为 CoreML 格式,并使用该模型在摄像头实时检测中进行目标检测。主要适用于M1、M2、M3、M4芯片的产品。 以下教程在YOLOv8/11/12均适用,此处就以 YOLOv11 举例 目录 前提条件YOLOv8/11/12 转换为 CoreML实时目标检测结论…...

NodeJS全栈WEB3面试题——P7工具链 测试

📊 7.1 Truffle vs Hardhat:各自的优势? 项目TruffleHardhat📦 成熟度老牌框架,社区大,文档全面新一代框架,现代化设计🧪 测试支持内置 Mocha 测试框架支持 Mocha Chai&#xff0c…...

Mybatis框架各配置文件主要内容详解(二)

ResultMap解决了数据库字段与实体类之间不一致导致的问题 <!--resultMap&#xff1a;设置自定义映射属性&#xff1a;id&#xff1a;表示自定义映射的唯一标识type&#xff1a;查询的数据要映射的实体类的类型子标签&#xff1a;id&#xff1a;设置主键的映射关系result&…...

【优选算法 | 队列 BFS】构建搜索流程的核心思维

算法相关知识点可以通过点击以下链接进行学习一起加油&#xff01;双指针滑动窗口二分查找前缀和位运算模拟链表哈希表字符串模拟栈模拟(非单调栈)优先级队列 很多人学 BFS 的时候都知道“用队列”&#xff0c;但为什么一定是队列&#xff1f;它到底在整个搜索流程中起了什么作…...

virtio介绍 (三)--spdk作为virtio后端处理nvme盘io的流程--上

目录 一 简介 二 vhost-blk层 三 bdev层 四 lvol层 五 bdev_nvme层 六 硬件驱动层 七 完整取io调用栈流程 一 简介 上节介绍了virito的基本原理&#xff0c;后面根据实际代码介绍virtio的流程。virtio后端代码相对于前端代码更简单&#xff0c;我们先以spdk中的virtio后…...

关于BackgroundScheduler的pause

在APScheduler中&#xff0c;pausedTrue参数的作用对象取决于其使用场景&#xff1a; 1. ‌作用于调度器&#xff08;Scheduler&#xff09;‌ 当在start()方法中使用时&#xff08;如 scheduler.start(pausedTrue)&#xff09; 表示‌调度器本身启动后立即进入暂停状态‌&…...

设计模式(行为型)-中介者模式

目录 定义 类图结构展示 角色职责详解 模式的优缺点分析 优点 缺点 适用场景 应用实例 与其他模式的结合与拓展 总结 定义 中介者模式的核心思想可以概括为&#xff1a;用一个中介对象来封装一系列的对象交互。这个中介者就像一个通信枢纽&#xff0c;使各对象不需要…...

【Java学习笔记】异常

异常&#xff08;Exception&#xff09; 一、基本介绍 在 Java 程序中&#xff0c;将运行中发生的不正常情况称为 “异常”&#xff0c;开发过程中的语法错误和运行时发生的异常情况是不一样的。 二、异常的分类 1. Error&#xff08;错误&#xff09;&#xff1a;Java 虚拟…...

MySQL:视图+用户管理+访问+连接池原理

一、视图 视图是一个虚拟表&#xff0c;其内容由查询定义。同真实的表一样&#xff08;相当于是把查询的内容当成一个临时表来使用&#xff09;&#xff0c;视图包含一系列带有名称的列和行数据。视图的数据变化会影响到基表&#xff0c;基表的数据变化也会影响到视图。 1.1 为…...

neo4j 5.19.0安装、apoc csv导入导出 及相关问题处理

前言 突然有需求需要用apoc 导入 低版本的图谱数据&#xff0c;网上资料又比较少&#xff0c;所以就看官网资料并处理了apoc 导入的一些问题。 相关地址 apoc 官方安装网址 apoc 官方导出csv 教程地址 apoc 官方 导入 csv 地址 docker 安装 执行如下命令启动镜像 doc…...

C/C++ OpenCV 矩阵运算

C/C OpenCV 矩阵运算详解 &#x1f4a1; OpenCV 是一个强大的开源计算机视觉和机器学习库&#xff0c;它提供了丰富的矩阵运算功能&#xff0c;这对于图像处理和计算机视觉算法至关重要。本文将详细介绍如何使用 C/C 和 OpenCV 进行常见的矩阵运算。 矩阵的创建与初始化 在进…...

无人机桥梁3D建模的拍摄频率

无人机桥梁3D建模的拍摄频率 无人机桥梁3D建模的拍摄频率&#xff08;每秒拍摄照片数&#xff09;需根据建模精度、飞行速度、相机性能等因素综合确定。以下是专业级作业的详细参数分析&#xff1a; 1. 核心计算公式 拍摄频率&#xff08;fps&#xff09; \frac{飞行速度&…...