机器学习--学习计划
3周机器学习速成计划
基于「28原则」,聚焦机器学习20%的核心概念,覆盖80%的常见应用场景。计划分为 理论学习 + 项目实战,每周学习后通过5个递进项目巩固知识。
📅 第1周:数据与监督学习基础
学习目标:掌握数据预处理、线性模型与分类任务的基础流程。
核心概念(20%关键内容):
- 数据预处理
- 缺失值处理(均值填充、删除)
- 特征缩放(标准化、归一化)
- 分类变量编码(独热编码、标签编码)
- 监督学习基础
- 线性回归(原理、损失函数、梯度下降)
- 逻辑回归(分类任务、Sigmoid函数)
- 模型评估
- 训练集/测试集划分
- 准确率、均方误差(MSE)
学习资源:
- 工具库:
pandas(数据处理)、scikit-learn(模型训练) - 理论补充:Google机器学习速成课程
🚀 第1周项目(难度递增)
-
房价预测(线性回归)
- 目标:使用波士顿房价数据集,预测房屋价格。
- 强化概念:数据清洗、特征缩放、线性回归实现。
- 数据集:
sklearn.datasets.load_boston()
-
鸢尾花分类(逻辑回归)
- 目标:根据花瓣/花萼尺寸分类鸢尾花品种。
- 强化概念:分类任务、独热编码、混淆矩阵。
- 数据集:
sklearn.datasets.load_iris()
-
糖尿病预测(特征工程)
- 目标:处理缺失值,预测患者是否患糖尿病。
- 强化概念:缺失值处理、特征相关性分析。
- 数据集:Pima Indians Diabetes Dataset(Kaggle)
-
手写数字识别(多分类)
- 目标:识别MNIST数据集中的手写数字(0-9)。
- 强化概念:多分类逻辑回归、One-vs-All策略。
- 数据集:
sklearn.datasets.load_digits()
-
新闻分类(文本特征提取)
- 目标:将新闻文本分类为体育、科技等类别。
- 强化概念:TF-IDF向量化、稀疏矩阵处理。
- 数据集:
sklearn.datasets.fetch_20newsgroups()
📅 第2周:模型进阶与评估优化
学习目标:掌握树模型、模型调参与交叉验证,避免过拟合。
核心概念:
- 决策树与集成学习
- 决策树分裂准则(基尼系数、信息增益)
- 随机森林、梯度提升树(GBDT)
- 模型优化
- 超参数调优(网格搜索、随机搜索)
- 交叉验证(K-Fold)
- 过拟合与正则化
- L1/L2正则化(线性模型)
- 树模型的剪枝策略
学习资源:
- 工具库:
scikit-learn(随机森林、GridSearchCV) - 理论动画:StatQuest决策树视频
🚀 第2周项目(难度递增)
-
泰坦尼克生存预测(决策树)
- 目标:预测乘客是否幸存,处理混合型特征(数值+分类)。
- 强化概念:决策树可视化、特征重要性分析。
- 数据集:Titanic Dataset(Kaggle)
-
信用卡欺诈检测(类别不平衡)
- 目标:检测欺诈交易,使用过采样(SMOTE)或欠采样。
- 强化概念:精确率/召回率权衡、ROC曲线。
- 数据集:Credit Card Fraud Detection(Kaggle)
-
房价预测优化(随机森林)
- 目标:对比线性回归与随机森林性能,优化超参数。
- 强化概念:网格搜索(GridSearchCV)、MSE对比。
-
用户流失预测(梯度提升树)
- 目标:预测用户是否会流失,使用XGBoost或LightGBM。
- 强化概念:Boosting原理、早停法(Early Stopping)。
- 数据集:Telco Customer Churn(Kaggle)
-
模型部署实战(Flask API)
- 目标:将训练好的模型封装为API,实现实时预测。
- 强化概念:模型序列化(Pickle)、RESTful API设计。
📅 第3周:无监督学习与神经网络入门
学习目标:理解聚类、降维与神经网络基础。
核心概念:
- 无监督学习
- K-Means聚类(肘部法确定K值)
- PCA降维(主成分分析)
- 神经网络基础
- 感知机、全连接网络
- 激活函数(ReLU、Sigmoid)
- 深度学习工具
- TensorFlow/Keras基础语法
- 图像分类实战(CNN入门)
学习资源:
- 工具库:
scikit-learn(K-Means)、TensorFlow - 交互式学习:TensorFlow Playground
🚀 第3周项目(难度递增)
-
客户分群(K-Means)
- 目标:对电商用户进行分群,制定个性化营销策略。
- 强化概念:聚类评估(轮廓系数)、特征标准化。
- 数据集:Mall Customer Segmentation(Kaggle)
-
新闻主题挖掘(PCA降维)
- 目标:对新闻文本降维后可视化,发现潜在主题。
- 强化概念:PCA原理、二维/三维投影。
-
手写数字识别(全连接网络)
- 目标:用Keras构建神经网络,替代逻辑回归模型。
- 强化概念:损失函数(交叉熵)、优化器(Adam)。
-
猫狗分类(CNN入门)
- 目标:使用预训练的CNN模型(如VGG16)进行图像分类。
- 强化概念:迁移学习、数据增强(ImageDataGenerator)。
- 数据集:Dogs vs. Cats(Kaggle)
-
异常检测(自编码器)
- 目标:检测信用卡数据中的异常样本。
- 强化概念:自编码器原理、重构误差阈值。
💡 学习建议
- 每日代码:哪怕只写20分钟代码,保持手感。
- 先跑通再优化:项目初期直接使用示例代码,理解后再修改。
- 善用文档:遇到问题优先查阅
scikit-learn或TensorFlow官方文档。 - 加入社区:在Kaggle讨论区或Reddit的r/MachineLearning提问。
通过此计划,你将在3周内掌握机器学习的核心工作流,并具备独立解决实际问题的能力。最终目标不是记住所有算法,而是理解“数据-模型-评估”的闭环思维。
相关文章:
机器学习--学习计划
3周机器学习速成计划 基于「28原则」,聚焦机器学习20%的核心概念,覆盖80%的常见应用场景。计划分为 理论学习 项目实战,每周学习后通过5个递进项目巩固知识。 📅 第1周:数据与监督学习基础 学习目标:掌握…...
【深度分析】DeepSeek大模型技术解析:从架构到应用的全面探索
深度与创新:AI领域的革新者 DeepSeek,这个由幻方量化创立的人工智能公司推出的一系列AI模型,不仅在技术架构上展现出了前所未有的突破,更在应用领域中开启了无限可能的大门。从其混合专家架构(MoE)到多头潜…...
conda配置channel
你收到 CondaKeyError: channels: value https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main not present in config 错误是因为该镜像源(https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main)可能没有被正确添加到 Conda 的配置文件中&…...
wordpress每隔24小时 随机推荐一个指定分类下的置顶内容。
在WordPress中实现每隔24小时随机推荐一个指定分类下的置顶内容,可以通过以下步骤实现: 1. 创建自定义函数 在主题的functions.php文件中添加以下代码,用于创建一个定时任务,每隔24小时随机选择一个置顶文章并存储到选项中&…...
python学opencv|读取图像(五十五)使用cv2.medianBlur()函数实现图像像素中值滤波处理
【1】引言 在前述学习过程中,已经探索了取平均值的形式进行图像滤波处理。 均值滤波的具体的执行对象是一个nXn的像素核,对这个像素核内所有像素点的BGR值取平均值,然后把这个平均的BGR值直接赋给像素核中心位置的核心像素点,由…...
OpenAI 再战机器人领域,重组机器人团队
OpenAI重组机器人团队?大家是不是和小编一样,听到这个消息后,脑子里瞬间浮现出科幻电影里机器人满街跑的场景?今天咱们就来看看背后的故事吧~ 作为人工智能领域的领头羊,OpenAI一直以来都在探索和扩展AI技术的深度和广…...
Turing Complete-1位开关
要求如下: 我的思考: 把输入1当作控制信号,把输入2当作输出信号。 通过非门和开关使输入2形成双通道输出, 通道一为输出输入2取反。 通道二为输出输入2本身。 通过输入1来控制两个通道的开闭。...
预防和应对DDoS的方法
DDoS发起者通过大量的网络流量来中断服务器、服务或网络的正常运行,通常由多个受感染的计算机或联网设备(包括物联网设备)发起。 换种通俗的说法,可以将其想象成高速公路上的一次突然的大规模交通堵塞,阻止了正常的通勤…...
树莓派pico入坑笔记,睡眠
关于树莓派pico和circuitpython的更多玩法,请看树莓派pico专栏 关于在 CircuitPython 中使用警报和浅/深度睡眠的更多信息,请参阅此学习指南。 树莓派pico支持浅睡眠和深度睡眠,其中深度睡眠唤醒后将从boot.py开始运行 支持按时间唤醒和引…...
高并发、高可用的消息队列(MQ)设计与实战
目录 背景与历史消息队列的核心功能高并发、高可用的业务场景消息队列的实用性企业规模与消息队列的选择Java实战案例:基于RabbitMQ的高并发、高可用消息队列 6.1 环境准备6.2 RabbitMQ的安装与配置6.3 Java客户端集成6.4 生产者与消费者实现6.5 高并发处理6.6 高可…...
数据库 - Sqlserver - SQLEXPRESS、由Windows认证改为SQL Server Express认证进行连接 (sa登录)
本文讲SqlServer Express版本在登录的时候, 如何由Windows认证,修改为Sql Server Express认证。 目录 1,SqlServer Express的Windows认证 2,修改为混合认证 3,启用sa 用户 4,用sa 用户登录 下面是详细…...
二分基础两道
Leetcode704: 给定一个 n 个元素有序的(升序)整型数组 nums 和一个目标值 target ,写一个函数搜索 nums 中的 target,如果目标值存在返回下标,否则返回 -1。 示例 1: 输入: nums [-1,0,3,5,9,12], target 9 输出:…...
编程AI深度实战:AI编程工具哪个好? Copilot vs Cursor vs Cody vs Supermaven vs Aider
系列文章: 编程AI深度实战:私有模型deep seek r1,必会ollama-CSDN博客 编程AI深度实战:自己的AI,必会LangChain-CSDN博客 编程AI深度实战:给vim装上AI-CSDN博客 编程AI深度实战:火的编程AI,都在用语法树(AST)-CSDN博客 编程AI深度实战:让verilog不再是 AI …...
鸿蒙HarmonyOS Next 视频边播放边缓存- OhosVideoCache
OhosVideoCache 是一个专为OpenHarmony开发(HarmonyOS也可以用)的音视频缓存库,旨在帮助开发者轻松实现音视频的边播放边缓存功能。以下是关于 OhosVideoCache 的详细介绍: 1. 核心功能 边播放边缓存:将音视频URL传递给 OhosVideoCache 处理后…...
中间件漏洞之CVE-2024-53677
目录 什么是struts?CVE-2024-53677简介影响版本复现环境搭建漏洞利用修复 什么是struts? 在早期的 Java Web 开发中,代码往往混乱不堪,难以维护和扩展。比如,一个简单的用户登录功能,可能在不同的 Java 类…...
Python玄学
过年期间无聊的看了看DY直播,也是迷上玄学了。突然想着为啥要自己掐指算,我这🐷脑哪记得到那么多东西啊。然后,就捣鼓捣鼓了一些玩意儿。留个纪念。 注:就是一个玄学推动学习,部分内容不必当真,…...
16.1.STM32F407ZGT6-CAN基础概念
参考: https://blog.csdn.net/sunlight_vip/article/details/128639144 前言: 学习总结CAN的知识点: 1.can是什么,历史由来和背景 2.can的物理层,链路层 3.初始化的流程和关键点 4.波特率怎么设置 5.can id怎么过滤 6…...
记忆化搜索和动态规划 --最长回文子串为例
记忆化搜索 记忆化搜索是一种优化递归算法的方法,通过将已经计算过的子问题的结果存储起来(通常使用哈希表或数组),避免重复计算相同的子问题。 本质上是通过缓存中间结果来减少计算的重复性。 动态规划 动态规划是通过将问题分…...
【论文笔记】Fast3R:前向并行muti-view重建方法
众所周知,DUSt3R只适合做稀疏视角重建,与sapnn3r的目的类似,这篇文章以并行的方法,扩展了DUSt3R在多视图重建中的能力。 abstract 多视角三维重建仍然是计算机视觉领域的核心挑战,尤其是在需要跨不同视角实现精确且可…...
cf div3 998 E(并查集)
E : 给出两个简单无向图 (没有重边和自环)f g . 可以对f 进行 删边 和加边 的操作。问至少操作多少次 ,使得 f 和 g 的 点的联通情况相同(并查集的情况相同) 首先思考删边 : 对于 我 f 图存在边 e &#x…...
使用VCS对Verilog/System Verilog进行单步调试的步骤
Verilog单步调试: System Verilog进行单步调试的步骤如下: 1. 编译设计 使用-debug_all或-debug_pp选项编译设计,生成调试信息。 我的4个文件: 1.led.v module led(input clk,input rst_n,output reg led );reg [7:0] cnt;alwa…...
Pyside6异步通信测试
#第一种方式,借助qasync实现。使用pip install qasync安装。 from PySide6.QtWidgets import * from PySide6.QtCore import * from PySide6.QtGui import * import asyncio from qasync import QEventLoop, asyncSlotclass Form(QWidget):def __init__(self,paren…...
[ESP32:Vscode+PlatformIO]新建工程 常用配置与设置
2025-1-29 一、新建工程 选择一个要创建工程文件夹的地方,在空白处鼠标右键选择通过Code打开 打开Vscode,点击platformIO图标,选择PIO Home下的open,最后点击new project 按照下图进行设置 第一个是工程文件夹的名称 第二个是…...
如何使用 DeepSeek API 结合 VSCode 提升开发效率
引言 在当今的软件开发领域,API 的使用已经成为不可或缺的一部分。DeepSeek 是一个强大的 API 平台,提供了丰富的功能和数据,可以帮助开发者快速构建和优化应用程序。而 Visual Studio Code(VSCode)作为一款轻量级但功…...
自定义数据集 ,使用朴素贝叶斯对其进行分类
数据集定义: - data 列表包含了文本样本及其对应的情感标签。每个元素是一个元组,第一个元素是文本,第二个元素是标签。 特征提取: - 使用 CountVectorizer 将文本转换为词频向量。 fit_transform 方法在训练数据上拟合向量器…...
Flutter使用Flavor实现切换环境和多渠道打包
在Android开发中通常我们使用flavor进行多渠道打包,flutter开发中同样有这种方式,不过需要在原生中配置 具体方案其实flutter官网个了相关示例(https://docs.flutter.dev/deployment/flavors),我这里记录一下自己的操作 Android …...
C# lock使用详解
总目录 前言 在 C# 多线程编程中,lock 关键字是一种非常重要的同步机制,用于确保同一时间只有一个线程可以访问特定的代码块,从而避免多个线程同时操作共享资源时可能出现的数据竞争和不一致问题。以下是关于 lock 关键字的详细使用介绍。 一…...
C# 接口介绍
.NET学习资料 .NET学习资料 .NET学习资料 一、接口的定义 在 C# 中,接口是一种特殊的抽象类型,它定义了一组方法签名,但不包含方法的实现。接口使用interface关键字来声明。例如,定义一个表示形状的接口IShape: in…...
第三周 树
猫猫和企鹅 分数 10 全屏浏览 切换布局 作者 姜明欣 单位 河北大学 王国里有 nn 个居住区,它们之间有 n−1 条道路相连,并且保证从每个居住区出发都可以到达任何一个居住区,并且每条道路的长度都为 1。 除 1号居住区外,每个居…...
OpenAI 实战进阶教程 - 第四节: 结合 Web 服务:构建 Flask API 网关
目标 学习将 OpenAI 接入 Web 应用,构建交互式 API 网关理解 Flask 框架的基本用法实现 GPT 模型的 API 集成并返回结果 内容与实操 一、环境准备 安装必要依赖: 打开终端或命令行,执行以下命令安装 Flask 和 OpenAI SDK: pip i…...
