当前位置: 首页 > news >正文

神经网络八股(三)

1.什么是梯度消失和梯度爆炸

梯度消失是指梯度在反向传播的过程中逐渐变小,最终趋近于零,这会导致靠前层的神经网络层权重参数更新缓慢,甚至不更新,学习不到有用的特征。

梯度爆炸是指梯度在方向传播过程中逐渐变大,权重参数更新变化较大,导致损失函数的上下跳动,导致训练不稳定

可以使用一些合理的损失函数如relu, leakRelu,归一化处理,batchnorm,确保神经元的输出值在合理的范围内

2.为什么需要特征归一化

因为特征之间的单位与尺度不同,为了消除此间差异,对每个维度等同看待,防止尺度大的特征起决定性作用,所以需要进行特征归一化使不同特征在数值范围和尺度上保持一致。

优点:加快模型训练速度、提高模型性能、避免数值不稳定,增强模型的泛化能力

平均值归一化:

最大最小值归一化:

标准化:

3.什么是组合特征,如何组合高阶特征

组合特征是指多个特征组合起来,作为新的特征,组合的方法有:基本运算、聚合、聚合后进行基本运算等。

组合高阶特征可以对类别特征进行embedding嵌入、然后对特征实施FM因子分解机特征组合。

Embedding是一种将类别特征转换为低维稠密向量的技术。具体来说,它将每个类别映射到一个固定维度的向量空间中

因子分解机(FM)是一种专门用于处理稀疏数据和特征组合的机器学习模型。它特别擅长处理类别特征的交互(interaction)和组合。FM的核心思想是:

  • 将每个特征(包括类别特征的embedding)表示为一个向量。

  • 通过计算特征向量之间的内积(点积),捕捉特征之间的交互关系。

4.欧式距离与曼哈顿距离的区别

欧式距离是定义在欧几里得空间中,两点之间的距离,他具有明显的缺点是将样本不同属性之间的差别等同看待;曼哈顿距离也叫城市区块距离,是欧几里得空间上两点所形成的线段对轴产生的投影的距离总和

4.为什么一些场景使用余弦相似度而不是欧式相似度

余弦相似度指的是两个向量之间的角度关系,并不关心他们的绝对值大小,而欧式距离体现的是数值上的绝对差异

余弦相似度:衡量的是两个向量之间的夹角,只关注方向,而不考虑向量的长度,对向量的方向差异敏感,但对长度不敏感

欧即里得距离:衡量的是两个点在空间中的绝对距离,关注的是向量的长度和位置

5.one-hot独热编码得作用是什么

将每个类别特征的取值转换为一个唯一的二进制向量,其中只有一个位置的值为1,其余位置的值为0。能够避免类别数据的序数关系,提供稀疏的特征表示,支持多类别特征的组合,并且与大多数算法兼容。然而,在处理类别数量较多的特征时,需要考虑其维度爆炸和稀疏性问题

6.参数模型和非参数模型

在统计学中,参数模型通常假设总体(随机变量)服从某一个分布,该分布由一些参数确定(比如正态分布由均值和方差确定),在此基础上构建的模型称为参数模型,参数模型的形式和复杂度在训练之前已经确定,模型的输出依赖于一组固定数量的参数.模型形式固定,参数量有限,训练速度块,线性回归、逻辑回归、感知机:所需样本量少、拟合快、复杂度低。

非参数模型对于总体的分布不做任何假设,只是知道总体是一个随机变量,其分布是存在的(分布中也可能存在参数),但是无法知道其分布的形式,更不知道分布的相关参数,只有在给定一些样本的条件下,能够依据非参数统计的方法进行推断。非参数模型的形式和复杂度在训练过程中根据数据动态确定,模型的输出不依赖于固定数量的参数。形式灵活,参数不固定,训练慢。K近邻算法,SVM向量机,高斯过程。所需样本量多、拟合慢、容易过拟合

7.L1和L2正则先验分别服从什么分布

L1:lasso回归拉普拉斯分布

L1正则化通过惩罚参数的绝对值,使得模型参数倾向于稀疏化,即很多参数会趋近于零。这种稀疏性可以帮助进行特征选择,减少模型复杂度

L2:岭回归,高斯分布,L2正则化通过惩罚参数的平方,使得模型参数的值保持较小,但不会将参数完全置为零。这种正则化方法有助于平滑模型,避免过拟合。

8.回归问题常用得模型评估方法

均方误差:MSE预测值与实际值之差的平方的平均值。MSE的值越小,表示模型的预测结果越接近实际值,模型的性能越好。

均方根误差RMESE:均方误差(MSE)的平方根,它衡量的是模型预测值与实际值之间的标准差。RMSE的值越小,表示模型的预测结果越接近实际值,模型的性能越好

和方误差:SSE=i=1∑n​(yi​−y^​i​)2

平均绝对误差MAE:计算的是模型预测值与实际值之差的绝对值的平均值。

平均绝对百分比误差MAPE

决定系数:表示模型解释的因变量的方差比例。R2的值介于0和1之间,值越接近1,表示模型对数据的拟合越好,即模型解释的方差比例越高

相关文章:

神经网络八股(三)

1.什么是梯度消失和梯度爆炸 梯度消失是指梯度在反向传播的过程中逐渐变小,最终趋近于零,这会导致靠前层的神经网络层权重参数更新缓慢,甚至不更新,学习不到有用的特征。 梯度爆炸是指梯度在方向传播过程中逐渐变大,…...

堆、优先队列、堆排序

堆: 定义: 必须是一个完全二叉树(完全二叉树:完全二叉树只允许最后一行不为满,且最后一行必须从左往右排序,最后一行元素之间不可以有间隔) 堆序性: 大根堆:每个父节点…...

vue 学习-vite api.js

/** 整机管理 * */ // 整机分类 列表 export const wholeMachineServersType params > ajaxGet({url: wholeMachine/serverstype/,params}) // 整机分类 新增 export const wholeMachineServersTypeAdd params > ajaxPost({url: wholeMachine/serverstype/,params}) /…...

java练习(35)

ps:题目来自力扣 整数反转 给你一个 32 位的有符号整数 x ,返回将 x 中的数字部分反转后的结果。 如果反转后整数超过 32 位的有符号整数的范围 [−231, 231 − 1] ,就返回 0。 假设环境不允许存储 64 位整数(有符号或无符号&#xff09…...

PW_Balance

目录 1、 PW_Balance 1.1、 getDocumentsTypeID 1.2、 getShouldAmount 1.3、 setOptimalAmount 1.4、 setRemark PW_Balance package com.gx.pojo; public class PW_Balance { private Integer BalanceID; private Integer PaymentID; private Integer ReceptionID…...

【Linux-网络】HTTP的清风与HTTPS的密语

🎬 个人主页:谁在夜里看海. 📖 个人专栏:《C系列》《Linux系列》《算法系列》 ⛰️ 道阻且长,行则将至 目录 📚 引言 📚 一、HTTP 📖 1.概述 📖 2.URL &#x1f5…...

【前端框架】vue2和vue3的区别详细介绍

Vue 3 作为 Vue 2 的迭代版本,在性能、语法、架构设计等多个维度均有显著的变革与优化。以下详细剖析二者的区别: 响应式系统 Vue 2 实现原理:基于 Object.defineProperty() 方法实现响应式。当一个 Vue 实例创建时,Vue 会遍历…...

CMake管理依赖实战:多仓库的无缝集成

随着软件复杂度的增加,单个项目可能需要依赖多个外部库或模块。这些依赖项可能是来自不同的代码仓库,如ATest和BTest。为了实现高效的依赖管理,CMake提供了多种方式来处理这种多仓库的情况。下面我们将详细介绍几种常见的方法,并通…...

Touchgfx 编写下载算法文件(.stldr)

一)下载算法文件主要参考官方的STM32 ST-LINK Utility模板:(文件所在位置如下:) C:\Program Files (x86)\STMicroelectronics\STM32 ST-LINK Utility\ST-LINK Utility\ExternalLoader\M25P64_STM3210E-EVAL\Project\MD…...

回不去的乌托邦

回不去的乌托邦 坐在电脑面前愣神间已至深夜,依然睡意不起。 相比于带着疲惫入睡,伏案发呆更令人惬意。想起最近在自媒体上看到的一句话“最顶级的享受变成了回不去的乌托邦”。 “这是兄弟们最后一次逛校园了,我拍个照”。我的记忆力总是用在…...

如何在 SpringBoot 项目使用 Redis 的 Pipeline 功能

本文是博主在批量存储聊天中用户状态和登陆信息到 Redis 缓存中时,使用到了 Pipeline 功能,并对此做出了整理。 一、Redis Pipeline 是什么 Redis 的 Pipeline 功能可以显著提升 Redis 操作的性能,性能提升的原因在于可以批量执行命令。当我…...

Linux----线程

一、基础概念对比 特性进程 (Process)线程 (Thread)资源分配资源分配的基本单位(独立地址空间)共享进程资源调度单位操作系统调度单位CPU调度的最小单位创建开销高(需复制父进程资源)低(共享进程资源)通信…...

实现rolabelimg对于dota格式文件的直接加载和保存

在本篇博客中,我们将讲解如何修改roLabelImg.py文件,使其能够直接加载和保存Dota格式的标注文件(txt)以替换掉复杂的xml文件。通过对源代码的修改,我们将实现支持加载并保存Dota格式标注数据,以便与roLabel…...

bboss v7.3.5来袭!新增异地灾备机制和Kerberos认证机制,助力企业数据安全

ETL & 流批一体化框架 bboss v7.3.5 发布,多源输出插件增加为特定输出插件设置记录过滤功能;Elasticsearch 客户端新增异地双中心灾备机制,提升框架高可用性;Elasticsearch client 和 http 微服务框架增加对 Kerberos 认证支持…...

华为昇腾服务器固件Firmware、驱动Drive、CANN各自的作用与联系?

文章目录 **1. 固件(Firmware)****2. 驱动(Driver)****3. CANN(Compute Architecture for Neural Networks)****三者关系****典型问题定位** 华为昇腾服务器的固件、驱动和CANN是支撑其AI计算能力的核心组件…...

MySQL 视图入门

一、什么是 MySQL 视图 1.1 视图的基本概念 在 MySQL 中,视图是一种虚拟表,它本身并不存储实际的数据,而是基于一个或多个真实表(基表)的查询结果集。可以把视图想象成是一个预定义好的查询语句的快捷方式。当你查询…...

算法很美笔记(Java)——动态规划

解重叠子问题(当前解用到了以前求过的解) 形式:记忆型递归或递推(dp) 动态规划本质是递推,核心是找到状态转移的方式,也就是填excel表时的逻辑(填的方式),而…...

C++ ——继承

体现的是代码复用的思想 1、子类继承父类,子类就拥有了父类的特性(成员方法和成员属性) 2、已存在的类被称为“基类”或者“父类”或者“超类”;新创建的类被称为“派生类”或者“子类” 注意: (1&#…...

LeetCode 热题 100 283. 移动零

LeetCode 热题 100 | 283. 移动零 大家好,今天我们来解决一道经典的算法题——移动零。这道题在LeetCode上被标记为简单难度,要求我们将数组中的所有 0 移动到数组的末尾,同时保持非零元素的相对顺序。下面我将详细讲解解题思路,…...

游戏引擎学习第116天

回顾昨天的工作 本次工作内容主要集中在游戏开发的低级编程优化,尤其是手动优化软件渲染。工作目的之一是鼓励开发者避免依赖外部库,而是深入理解代码并进行优化。当前阶段正进行SIMD(单指令多数据)优化,使用Intel推荐…...

使用VSCode开发Django指南

使用VSCode开发Django指南 一、概述 Django 是一个高级 Python 框架,专为快速、安全和可扩展的 Web 开发而设计。Django 包含对 URL 路由、页面模板和数据处理的丰富支持。 本文将创建一个简单的 Django 应用,其中包含三个使用通用基本模板的页面。在此…...

ubuntu搭建nfs服务centos挂载访问

在Ubuntu上设置NFS服务器 在Ubuntu上,你可以使用apt包管理器来安装NFS服务器。打开终端并运行: sudo apt update sudo apt install nfs-kernel-server创建共享目录 创建一个目录用于共享,例如/shared: sudo mkdir /shared sud…...

【人工智能】神经网络的优化器optimizer(二):Adagrad自适应学习率优化器

一.自适应梯度算法Adagrad概述 Adagrad(Adaptive Gradient Algorithm)是一种自适应学习率的优化算法,由Duchi等人在2011年提出。其核心思想是针对不同参数自动调整学习率,适合处理稀疏数据和不同参数梯度差异较大的场景。Adagrad通…...

对WWDC 2025 Keynote 内容的预测

借助我们以往对苹果公司发展路径的深入研究经验,以及大语言模型的分析能力,我们系统梳理了多年来苹果 WWDC 主题演讲的规律。在 WWDC 2025 即将揭幕之际,我们让 ChatGPT 对今年的 Keynote 内容进行了一个初步预测,聊作存档。等到明…...

React19源码系列之 事件插件系统

事件类别 事件类型 定义 文档 Event Event 接口表示在 EventTarget 上出现的事件。 Event - Web API | MDN UIEvent UIEvent 接口表示简单的用户界面事件。 UIEvent - Web API | MDN KeyboardEvent KeyboardEvent 对象描述了用户与键盘的交互。 KeyboardEvent - Web…...

苍穹外卖--缓存菜品

1.问题说明 用户端小程序展示的菜品数据都是通过查询数据库获得,如果用户端访问量比较大,数据库访问压力随之增大 2.实现思路 通过Redis来缓存菜品数据,减少数据库查询操作。 缓存逻辑分析: ①每个分类下的菜品保持一份缓存数据…...

Mac软件卸载指南,简单易懂!

刚和Adobe分手,它却总在Library里给你写"回忆录"?卸载的Final Cut Pro像电子幽灵般阴魂不散?总是会有残留文件,别慌!这份Mac软件卸载指南,将用最硬核的方式教你"数字分手术"&#xff0…...

AI编程--插件对比分析:CodeRider、GitHub Copilot及其他

AI编程插件对比分析:CodeRider、GitHub Copilot及其他 随着人工智能技术的快速发展,AI编程插件已成为提升开发者生产力的重要工具。CodeRider和GitHub Copilot作为市场上的领先者,分别以其独特的特性和生态系统吸引了大量开发者。本文将从功…...

数据库分批入库

今天在工作中,遇到一个问题,就是分批查询的时候,由于批次过大导致出现了一些问题,一下是问题描述和解决方案: 示例: // 假设已有数据列表 dataList 和 PreparedStatement pstmt int batchSize 1000; // …...

MySQL中【正则表达式】用法

MySQL 中正则表达式通过 REGEXP 或 RLIKE 操作符实现(两者等价),用于在 WHERE 子句中进行复杂的字符串模式匹配。以下是核心用法和示例: 一、基础语法 SELECT column_name FROM table_name WHERE column_name REGEXP pattern; …...