当前位置: 首页 > article >正文

经典机器学习(二)

一、损失函数损失函数使用来判定模型预测好坏的一种依据模型的目标就是将损失函数值降到最低损失函数最低是模型的目标而非开发者的唯一目标评定一个模型的好坏线性模型通过R方等决定系数来判断好坏分类模型通过AUC的值也就是ROC曲线的面积或者f1分数准确率精准率召回率等来参考模型好坏#训练集的损失值计算 train_loss mean_squared_error(train_y,model.predict(train_x))二、欠拟合与过拟合1欠拟合1、欠拟合特点测试集损失值很大训练集损失值也很大预测出的曲线与真实值的趋势明显不相符2、可能出现欠拟合的原因与解决方法模型复杂度不足 增加模型复杂度模型正则项过大 减小模型的正则项系数模型迭代次数较少没有学习到数据规律增加迭代次数模型特征不足使用麦克劳林展开增加特征项#欠拟合 #训练模型 model.fit(train_x,train_y) #模型评估 train_loss mean_squared_error(train_y,model.predict(train_x)) test_loss mean_squared_error(test_y,model.predict(test_x)) print(ftrain_loss {train_loss}, test_loss {test_loss}) ax[0].plot(x,model.predict(x),colorred)2恰好拟合1、恰好拟合特点模型训练集损失很小测试集损失也很小测试集损失略高于训练集预测出的曲线基本符合真实值的趋势#恰好拟合 #特征工程 poly PolynomialFeatures(degree5) train_2x poly.fit_transform(train_x) test_2x poly.transform(test_x) model.fit(train_2x,train_y) train_loss mean_squared_error(train_y,model.predict(train_2x)) test_loss mean_squared_error(test_y,model.predict(test_2x)) print(ftrain_loss {train_loss}, test_loss {test_loss}) ax[1].plot(x,model.predict(poly.transform(x)),colorred)3过拟合1、过拟合特点测试集损失值很大训练集损失值也很小预测出的曲线与真实值的趋势相符。但是明显过于贴合趋势2、可能出现过拟合的原因与解决方法模型过于复杂度 减少模型复杂度样本量过小导致模型能记住细节但是无法泛化新数据 增加样本数模型训练时间过强将噪声也学习过去了早停在损失值不下降之后停止训练模型特征过多调大正则项的强度避免过度拟合#特征工程 #过拟合 poly PolynomialFeatures(degree20) train_20x poly.fit_transform(train_x) test_20x poly.transform(test_x) model.fit(train_20x,train_y) train_loss mean_squared_error(train_y,model.predict(train_20x)) test_loss mean_squared_error(test_y,model.predict(test_20x)) print(ftrain_loss {train_loss}, test_loss {test_loss}) ax[2].plot(x,model.predict(poly.transform(x)),colorred)三、正则化L1正则也称之为lasso回归使用参数的绝对值之和成正则系数一般不常用因为曲线不光滑所以不可导部分权重趋近0甚至变为0。这会导致特征选择即模型会自动“丢弃”一些不重要的特征#设置正则系数为0.099 model Lasso(alpha0.099) model.fit(train_x,train_y) print(model.coef_,model.intercept_) loss mean_squared_error(test_y,model.predict(test_x)) print(f决定系数,model.score(test_x, test_y)) ax[0,1].plot(x,model.predict(poly.transform(x)),colorred) ax[1,1].bar(np.arange(len(model.coef_.reshape(-1))),model.coef_.reshape(-1)) print(ftest_loss2 {loss})L2正则也称之为岭回归参数的平方的和乘正则系数因为曲线光滑可导用的比较多#设置正则项强度为0.8 model Ridge(alpha0.8) model.fit(train_x,train_y) print(model.coef_,model.intercept_) loss mean_squared_error(test_y,model.predict(test_x)) print(f决定系数,model.score(test_x, test_y)) ax[0,2].plot(x,model.predict(poly.transform(x)),colorred) ax[1,2].bar(np.arange(len(model.coef_.reshape(-1))),model.coef_.reshape(-1)) print(ftest_loss3 {loss})四、模型评估指标1、对于线性模型R方决定系数均方误差平均绝对误差均方根误差等2、对于分类模型准确率精准率召回率AUC值f1分数等y_true [猫, 猫, 猫, 猫, 猫, 猫, 狗, 狗, 狗, 狗] # 真实值 y_pred [猫, 猫, 狗, 猫, 猫, 猫, 猫, 猫, 狗, 狗] labels [猫, 狗] matrix metrics.confusion_matrix(y_true, y_pred, labelslabels) print(matrix) data pd.DataFrame(matrix, indexlabels, columnslabels) print(data) #准确率 print(metrics.accuracy_score(y_true, y_pred)) #精确率(预测的正例里有多少对的) print(metrics.precision_score(y_true, y_pred, pos_label猫)) #召回率查全率实例的正例中查出来了多少 print(metrics.recall_score(y_true, y_pred,pos_label猫)) #f1分数 print(metrics.f1_score(y_true, y_pred, pos_label猫)) #评估报告 print(metrics.classification_report(y_true, y_pred))五、交叉验证1、简单交叉验证分为测试集于验证集#对数据进行训练集和测试集的划分 train_x,test_x,train_y,test_y train_test_split(x,y,test_size0.2)2、k折验证将数据集评分为k份k-1用于训练一份用来测试循环往复直到每一份都当过测试集3、留一验证将数据集只留一个样本进行测试其他都用于训练每个样本都当一次测试集直到全部当完

相关文章:

经典机器学习(二)

一、损失函数损失函数使用来判定模型预测好坏的一种依据,模型的目标就是将损失函数值降到最低,损失函数最低是模型的目标,而非开发者的唯一目标,评定一个模型的好坏,线性模型通过R方等决定系数来判断好坏,分…...

【论文阅读】Learning from Long-Term Engagement: Adaptive Tutoring Dialogue Planning for Personalized Educa

【论文阅读】Learning from Long-Term Engagement: Adaptive Tutoring Dialogue Planning for Personalized Education 摘要 scaffold 支架式教学 或 教学支架 例:The teacher provided scaffolds for the students. →老师为学生提供了学习支架(教学辅助…...

面试场景:互联网大厂Java求职者挑战与学习

面试场景:互联网大厂Java求职者挑战与学习 场景设定: 谢飞机是一位程序员,正在挑战一家互联网大厂的Java岗位面试。面试官严肃认真,谢飞机有点紧张不自信。他对简单的问题能够侃侃而谈,但面对复杂问题却有些词不达意。…...

别再只会用sub了!R语言里gsub的‘全局替换’技巧,帮你一键清理脏数据

R语言数据清洗实战:gsub的全局替换艺术与正则表达式进阶技巧 在数据分析的日常工作中,我们常常会遇到各种"脏数据"——格式混乱的日期、前后不一致的产品名称、夹杂着特殊字符的文本字段。这些看似小问题却可能让后续分析功亏一篑。很多R用户虽…...

如何快速掌握Beyond Compare 5密钥生成:完整使用教程

如何快速掌握Beyond Compare 5密钥生成:完整使用教程 【免费下载链接】BCompare_Keygen Keygen for BCompare 5 项目地址: https://gitcode.com/gh_mirrors/bc/BCompare_Keygen 您是否正在使用Beyond Compare 5进行文件对比,却发现30天评估期结束…...

终极显卡显存稳定性测试工具:memtest_vulkan 完全指南

终极显卡显存稳定性测试工具:memtest_vulkan 完全指南 【免费下载链接】memtest_vulkan Vulkan compute tool for testing video memory stability 项目地址: https://gitcode.com/gh_mirrors/me/memtest_vulkan 你是否曾经遇到过显卡超频后系统不稳定&#…...

告别官方地图限制:用Leaflet+Renderjs在uni-app里玩转天地图(安卓/H5实战)

突破uni-app地图限制:LeafletRenderjs集成天地图的跨端实践 在移动应用开发领域,地图功能已成为许多应用的核心组件。uni-app作为跨平台开发框架,虽然提供了官方地图组件,但其仅支持有限的几家主流地图服务商。当项目需要集成天地…...

从零开始学习AI漫剧,好课优选告诉您思路要转变

想从零开始学习AI漫剧,最关键的好课优选告诉你:不要试图先学完所有理论再动手,而是应该先动手做出一个“粗糙”的作品,在实践中遇到问题,再针对性地学习。 这里为你规划了一条清晰的学习路径,分为四个阶段&…...

给SATA驱动开发新手的保姆级指南:手把手带你理解FIS命令的内存布局与触发流程

SATA驱动开发实战:从内存布局到命令触发的深度解析 刚接触SATA驱动开发时,面对AHCI规范里那些晦涩的术语和复杂的内存结构,我完全摸不着头脑。直到有一天,我在调试一个硬盘读写问题时,突然意识到——理解cmd_slot、rx_…...

Ultimate Minecraft启动器:离线畅玩的终极解决方案

Ultimate Minecraft启动器:离线畅玩的终极解决方案 【免费下载链接】Launcher Offline Minecraft launcher. 项目地址: https://gitcode.com/gh_mirrors/lau/Launcher 想要摆脱官方Minecraft启动器的限制,享受完全自由的游戏体验吗?Ul…...

MYSQL——基础知识(元数据)

目录 前言 一、SQL 元数据 二、information_schema:MySQL 的元数据宝库 三、information_schema 核心表详解与实战 四、其他获取元数据的方式 五、在应用程序中使用元数据 六、总结:元数据的价值 前言 在数据库的世界中,元数据&#…...

SD-PPP插件架构解析:Photoshop与AI绘图平台的无缝集成技术实现

SD-PPP插件架构解析:Photoshop与AI绘图平台的无缝集成技术实现 【免费下载链接】sd-ppp A Photoshop AI plugin 项目地址: https://gitcode.com/gh_mirrors/sd/sd-ppp SD-PPP作为一款革命性的Photoshop AI插件,通过创新的架构设计实现了Adobe Pho…...

告别网盘限速:LinkSwift直链下载助手完整指南

告别网盘限速:LinkSwift直链下载助手完整指南 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云盘 / 迅…...

终极指南:如何快速解锁VMware macOS虚拟机限制

终极指南:如何快速解锁VMware macOS虚拟机限制 【免费下载链接】auto-unlocker Unlocker for VMWare macOS 项目地址: https://gitcode.com/gh_mirrors/au/auto-unlocker 你是否想在VMware中运行macOS虚拟机,却被系统限制困扰?Auto-Un…...

终极英语词库指南:如何高效利用47万单词资源构建智能应用

终极英语词库指南:如何高效利用47万单词资源构建智能应用 【免费下载链接】english-words :memo: A text file containing 479k English words for all your dictionary/word-based projects e.g: auto-completion / autosuggestion 项目地址: https://gitcode.co…...

OpCore-Simplify:黑苹果自动化配置引擎的技术架构与实现原理深度解析

OpCore-Simplify:黑苹果自动化配置引擎的技术架构与实现原理深度解析 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 在Hackintosh生态系统…...

Stable Diffusion WebUI双语插件实战指南:高效配置与故障排除

Stable Diffusion WebUI双语插件实战指南:高效配置与故障排除 【免费下载链接】sd-webui-bilingual-localization Stable Diffusion web UI bilingual localization extensions. SD WebUI双语对照翻译插件 项目地址: https://gitcode.com/gh_mirrors/sd/sd-webui-…...

OpenArk:Windows系统安全分析终极指南 - 开源反Rootkit工具深度解析

OpenArk:Windows系统安全分析终极指南 - 开源反Rootkit工具深度解析 【免费下载链接】OpenArk The Next Generation of Anti-Rookit(ARK) tool for Windows. 项目地址: https://gitcode.com/GitHub_Trending/op/OpenArk 你是否曾经怀疑自己的Windows系统被恶…...

2026年最新B站视频下载教程:3分钟掌握BiliTools跨平台下载神器

2026年最新B站视频下载教程:3分钟掌握BiliTools跨平台下载神器 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTool…...

GitHub加速插件:告别龟速下载,享受极速开发体验

GitHub加速插件:告别龟速下载,享受极速开发体验 【免费下载链接】Fast-GitHub 国内Github下载很慢,用上了这个插件后,下载速度嗖嗖嗖的~! 项目地址: https://gitcode.com/gh_mirrors/fa/Fast-GitHub 你是否曾在…...

保姆级教程:在Firefly RK3568开发板上为Android11系统适配GT9271触摸屏(附设备树与驱动修改详解)

Firefly RK3568开发板Android11系统GT9271触摸屏适配实战指南 在嵌入式开发领域,触摸屏作为人机交互的核心组件,其适配质量直接影响用户体验。本文将深入探讨如何在Firefly RK3568开发板上为Android11系统适配GT9271电容触摸屏,涵盖从硬件确…...

在Windows 10上用VS2019编译libtiff 4.0.8:从源码到读取16位医学影像的完整避坑指南

在Windows 10上用VS2019编译libtiff 4.0.8:从源码到读取16位医学影像的完整避坑指南 医学影像处理领域常面临高位深图像(如16位灰度DICOM转换后的TIFF)的解析难题。不同于普通8位RGB图像,这类专业格式对编译环境和库链接有特殊要求…...

技术深度解析:Get-cookies.txt-LOCALLY - 本地化Cookie导出解决方案

技术深度解析:Get-cookies.txt-LOCALLY - 本地化Cookie导出解决方案 【免费下载链接】Get-cookies.txt-LOCALLY Get cookies.txt, NEVER send information outside. 项目地址: https://gitcode.com/gh_mirrors/ge/Get-cookies.txt-LOCALLY Get-cookies.txt-L…...

PyTorch多层感知机(MLP)构建与训练实战指南

1. PyTorch中的多层感知机基础PyTorch作为当前最流行的深度学习框架之一,其灵活性和易用性使其成为构建神经网络的首选工具。多层感知机(MLP)是最基础的神经网络结构,理解它的构建方式对于掌握深度学习至关重要。在PyTorch中构建M…...

从“账物不符“到“全程可控“:IT资产全生命周期管理整体解决方案深度解析(PPT)

导读: 在企业数字化转型的浪潮中,IT资产管理(ITAM)长期处于一个尴尬的位置——它既不像ERP、CRM那样直接驱动业务收入,又不像网络安全那样拥有明确的合规压力,但它却是企业IT治理体系中最基础、最容易被忽视…...

从SMR硬盘到ZNS SSD:聊聊‘叠瓦式’存储思想的跨界与新生

从SMR硬盘到ZNS SSD:存储技术中的"叠瓦式"思想进化史 在存储技术的发展长河中,有一种设计哲学跨越了机械与固态的物理界限,悄然改变了现代数据中心的架构方式。这种被称为"叠瓦式"(Shingled)的存储…...

Win11Debloat:终极Windows系统定制化框架深度解析

Win11Debloat:终极Windows系统定制化框架深度解析 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to declutter and custom…...

免费音频转换器fre:ac终极指南:5个实用功能带你玩转音频格式转换

免费音频转换器fre:ac终极指南:5个实用功能带你玩转音频格式转换 【免费下载链接】freac The fre:ac audio converter project 项目地址: https://gitcode.com/gh_mirrors/fr/freac 在数字音乐时代,音频格式转换是每个音乐爱好者、播客制作者和内…...

你的U-Boot命令用对了吗?盘点那些容易混淆的‘孪生’命令与隐藏参数(以mmc/fat操作为例)

U-Boot命令深度解析:避开存储操作中的那些"雷区" 在嵌入式开发中,U-Boot作为系统启动的"第一道关卡",其命令操作的精确性直接关系到设备能否正常启动。许多开发者在使用mmc和fat系列命令时,常常因为对底层原理…...

AI搜索引擎Morphic:基于生成式UI与双模式搜索的智能问答系统

1. 项目概述:一个能“思考”的搜索引擎如果你厌倦了在传统搜索引擎里翻好几页才能找到答案,或者觉得现在的AI聊天机器人虽然能说会道,但回答总像是从一堆文档里东拼西凑出来的,那这个项目可能就是你一直在找的东西。Morphic&#…...