算法常见八股问题整理
1.极大似然估计和交叉熵有什么关系


在分类问题中,当我们使用softmax函数作为输出层时,最大化对数似然函数实际上等价于最小化交叉熵损失函数。具体来说,在多分类情况下,最大化该样本的对数似然等价于最小化该样本的交叉熵损失。

交叉熵损失本质上就是对数似然的负数形式,使用交叉熵损失来进行优化时,我们可以简化很多数学表达和推导步骤。
2.正则化
正则化(Regularization)是机器学习和深度学习中的一种技术,用于防止模型过拟合(overfitting)。在训练模型时,如果模型太复杂,它可能会过度拟合训练数据中的噪声,而不仅仅是学习到数据的潜在规律。正则化通过在模型的损失函数中增加一个惩罚项,限制模型的复杂度,从而提高模型的泛化能力,使其在新的、未见过的数据上表现更好。
原理:在损失函数上加上某些规则(限制),缩小解空间,从而减少求出过拟合解的可能性

因此,其实在机器学习中,正则化往往是在损失函数上增加参数绝对值和(L1正则化)或增加参数平方和(L2正则化)。
将Loss拆分成两部分,一部分是正常计算的损失值,我们要寻找它的最小值,是个凹函数。另一部分是个正则化项,我们也要寻找它的最小值,它也是个凹函数。
假设待优化的模型参数w只有两个维度,可以看出来正则化项 z=|w1|+|w2| 或z=w1²+w2²等如下所示:

因为我们要寻找最终的最小值,两个凹函数的相加的最小值往往是二者相切的点。

总结
- L1 正则化(Lasso)适用于特征选择和当你认为数据中有冗余或不重要的特征时,可以去除这些特征(即产生稀疏模型)。
- L2 正则化(Ridge)适用于当你希望模型平滑、避免过拟合并且不需要对特征进行选择时。它更适合特征之间有相关性的情况,能够平衡每个特征的影响。
3.位置编码
3.1绝对位置编码
3.2旋转位置编码
4.LayerNorm和BatchNorm区别
RMSNorm(LLama)
相关文章:
算法常见八股问题整理
1.极大似然估计和交叉熵有什么关系 在分类问题中,当我们使用softmax函数作为输出层时,最大化对数似然函数实际上等价于最小化交叉熵损失函数。具体来说,在多分类情况下,最大化该样本的对数似然等价于最小化该样本的交叉熵损失。 交…...
关于GeoPandas库
geopandas buildings gpd.read_file(shapefile_path) GeoDataFrame 对象有一个属性叫做 sindex 空间索引通常是基于 R-树 或其变体构建的,这些数据结构专为空间查询优化,可以显著提高查询效率,尤其是在处理大型数据集时。 buildings_sin…...
【漫话机器学习系列】103.学习曲线(Learning Curve)
学习曲线(Learning Curve)详解 1. 什么是学习曲线? 学习曲线(Learning Curve)是机器学习和深度学习领域中用于评估模型性能随训练过程变化的图示。它通常用于分析模型的学习能力、是否存在过拟合或欠拟合等问题。 从…...
电商运营中私域流量的转化与变现:以开源AI智能名片2+1链动模式S2B2C商城小程序为例
摘要 电商运营的核心目标在于高效地将产品推向市场,实现私域流量的转化和变现。本文以“罗辑思维”的电商实践为背景,探讨了私域流量变现的重要性,并深入分析了开源AI智能名片21链动模式S2B2C商城小程序在电商运营中的应用与价值。通过该模式…...
Python常见面试题的详解19
1. 如何使用Django 中间件 Django 中间件宛如一个灵活且强大的插件系统,它为开发者提供了在请求处理流程的不同关键节点插入自定义代码的能力。这些节点包括请求抵达视图之前、视图完成处理之后以及响应即将返回给客户端之前。借助中间件,我们可以实现诸…...
Python 数据类型转换
目录 整数(int)与浮点数(float)之间的转换 (1)int():将浮点数或字符串转换为整数 (2)float():将整数或字符串转换为浮点数 字符串(str…...
进程概念、PCB及进程查看
文章目录 一.进程的概念进程控制块(PCB) 二.进程查看通过指令查看进程通过proc目录查看进程的cwd和exe获取进程pid和ppid通过fork()创建子进程 一.进程的概念 进程是一个运行起来的程序,而程序是存放在磁盘的,cpu要想执行程序的指…...
PyEcharts 数据可视化:从入门到实战
一、PyEcharts 简介 PyEcharts 是基于百度开源可视化库 ECharts 的 Python 数据可视化工具,支持生成交互式的 HTML 格式图表。相较于 Matplotlib 等静态图表库,PyEcharts 具有以下优势: 丰富的图表类型(30)动态交互功…...
RT-Thread+STM32L475VET6——ADC采集电压
文章目录 前言一、板载资源二、具体步骤1.打开CubeMX进行配置1.1 使用外部高速时钟,并修改时钟树1.2 打开ADC1的通道3,并配置为连续采集模式(ADC根据自己需求调整)1.3 打开串口1.4 生成工程 2. 配置ADC2.1 打开ADC驱动2.2 声明ADC2.3 剪切stm…...
easyexcel 2.2.6版本导出excel模板时,标题带下拉框及其下拉值过多不显示问题
需求背景:有一个需求要做下拉框的值有100多条,同时这个excel是一个多sheet的导入模板 直接用easyexcel 导出,会出现下拉框的值过多,导致生成出来的excel模板无法正常展示下拉功能 使用的easyexcel版本:<depende…...
树(数据结构·)
树(数据结构篇) 里面没有结点时,称之为空树 树型结构是一对多的形式 深度优先遍历: 所谓的DFS,也就是说每次都尝试向更深的节点走,也就是一条路走到黑 当一条路走完,走到…...
XUnity.AutoTranslator-deepseek——调用腾讯的DeepSeek V3 API,实现Unity游戏中日文文本的自动翻译
XUnity.AutoTranslator-deepseek 本项目通过调用腾讯的DeepSeek V3 API,实现Unity游戏中日文文本的自动翻译。 准备工作 1. 获取API密钥 访问腾讯云API控制台申请DeepSeek的API密钥(限时免费)。也可以使用其他平台提供的DeepSeek API。 …...
谈谈 ES 6.8 到 7.10 的功能变迁(1)- 性能优化篇
前言 ES 7.10 可能是现在比较常见的 ES 版本。但是对于一些相迭代比较慢的早期业务系统来说,ES 6.8 是一个名副其实的“钉子户”。 借着工作内升级调研的任务东风,我整理从 ES 6.8 到 ES 7.10 ELastic 重点列出的新增功能和优化内容。将分为 6 个篇幅给…...
[250222] Kimi Latest 模型发布:尝鲜最新特性与追求稳定性的平衡 | SQLPage v0.33 发布
目录 Kimi Latest 模型发布:尝鲜最新特性与追求稳定性的平衡SQLPage v0.33 发布:使用 SQL 构建自定义 UI 和 API! Kimi Latest 模型发布:尝鲜最新特性与追求稳定性的平衡 Kimi 开放平台推出全新模型 kimi-latest,旨在…...
深入理解设计模式之解释器模式
深入理解设计模式之解释器模式 在软件开发的复杂世界中,我们常常会遇到需要处理特定领域语言的情况。比如在开发一个计算器程序时,需要解析和计算数学表达式;在实现正则表达式功能时,要解析用户输入的正则表达式来匹配文本。这些场景都涉及到对特定语言的解释和执行,而解…...
深入理解设计模式之代理模式
深入理解设计模式之代理模式 在软件开发的复杂体系中,我们常常会遇到这样的情况:需要控制对某个对象的访问,或者在访问对象前后添加一些额外的处理逻辑,又或者希望在不改变原对象代码的基础上扩展其功能。代理模式(Pr…...
Golang | 每日一练 (3)
💢欢迎来到张胤尘的技术站 💥技术如江河,汇聚众志成。代码似星辰,照亮行征程。开源精神长,传承永不忘。携手共前行,未来更辉煌💥 文章目录 Golang | 每日一练 (3)题目参考答案map 实现原理hmapb…...
企业数据集成:实现高效调拨出库自动化
调拨出库对接调出单-v:旺店通企业奇门数据集成到用友BIP 在企业信息化管理中,数据的高效流转和准确对接是实现业务流程自动化的关键。本文将分享一个实际案例,展示如何通过轻易云数据集成平台,将旺店通企业奇门的数据无缝集成到用…...
提效10倍:基于Paimon+Dolphin湖仓一体新架构在阿里妈妈品牌业务探索实践
1. 业务背景 阿里妈妈品牌广告数据包括投放引擎、下发、曝光、点击等日志,面向运筹调控、算法特征、分析报表、诊断监控等应用场景,进行了品牌数仓能力建设。随着业务发展,基于Lambda架构的数仓开发模式,缺陷日益突出:…...
Deepseek快速做PPT
背景: DeepSeek大纲生成 → Kimi结构化排版 → 数据审查,细节调整 DeepSeek 拥有深度思考能力,擅长逻辑构建与内容生成,它会根据我们的问题进行思考,其深度思考能力当前测试下来,不愧为国内No.1,而且还会把中间的思考过程展示出来,大多时候会给出很多我们意想不到的思…...
STC15W104单片机8脚4路2262 1527解码输出程序-带学习功能与掉电储存功能
STC15W104单片机8脚4路2262 1527解码输出程序,带学习功能,掉电储存。老铁们今天咱们搞点硬核的!最近在玩STC15W104这个8脚小钢炮,折腾出个支持1527/2262编码的万能遥控解码器。核心功能就三点:自动学习遥控器、掉电记忆…...
保姆级教程:将老旧监控RTSP流转换成HLS(m3u8),用Video.js在Vue/Web网页无插件播放
现代Web无插件播放:RTSP流转换HLS全栈解决方案 老旧监控设备往往采用RTSP协议传输视频流,而现代Web浏览器已不再支持直接播放这种格式。本文将详细介绍如何通过JavaCV实现RTSP到HLS的转换,并结合Nginx和Video.js构建完整的无插件播放方案。 1…...
Windows事件日志分析新思路:不用记Event ID,用PowerShell和Log Parser自动化生成安全周报
Windows安全日志自动化分析:告别手工整理,用PowerShell打造智能周报系统 每次月底赶安全报告时,IT管理员最头疼的莫过于要反复筛选事件日志、统计各类安全事件的发生次数。传统方法需要记住大量Event ID,手动导出数据再整理成表格…...
别再死记硬背UNet结构了!用PyTorch手搓一个细胞分割模型,带你真正理解跳层连接
别再死记硬背UNet结构了!用PyTorch手搓一个细胞分割模型,带你真正理解跳层连接 在医学图像分析领域,细胞分割一直是基础且关键的课题。传统方法依赖人工设计特征和阈值,而深度学习带来的变革在于让模型自动学习这些特征。UNet作为…...
从天气预报到视频预测:ConvLSTM实战项目入门(附PyTorch完整代码)
从天气预报到视频预测:ConvLSTM实战项目入门(附PyTorch完整代码) 当我们需要预测未来几小时的降雨量,或是推断视频下一帧的画面时,传统方法往往捉襟见肘。ConvLSTM的出现,为这类时空序列预测问题提供了全新…...
(84页PPT)公司整套管理流程图(附下载方式)
篇幅所限,本文只提供部分资料内容,完整资料请看下面链接 (84页PPT)公司整套管理流程图.pptx_PPT大模型实践案例资源-CSDN下载 资料解读:《公司整套管理流程图》 详细资料请看本解读文章的最后内容。 作为一套系统性…...
别急着换Ubuntu!在Fedora上搞定U-Boot交叉编译的‘multiple definition of yylloc‘报错
在Fedora上根治U-Boot交叉编译的yylloc多重定义错误 当你在Fedora 35或更高版本上交叉编译较旧版本的U-Boot时,可能会遇到一个令人头疼的错误:"multiple definition of yylloc"。这个错误通常出现在编译dtc(设备树编译器࿰…...
创业者必读:AI Agent Harness Engineering 赛道融资趋势与 VC 关注点分析
创业者必读:AI Agent Harness Engineering 赛道融资趋势与 VC 关注点分析一、 引言 (Introduction) 1.1 钩子 (The Hook) 你见过这样的新闻发布会吗?没有PPT脚本撰写师、没有会议主持控场师、没有媒体问答梳理员、没有会后纪要速记与翻译分发——一场面向…...
SpringBoot项目里那些不起眼的路径匹配规则,你真的用对了吗?
SpringBoot路径匹配的深度实践:从Ant规则到安全防御 在SpringBoot项目中,路径匹配就像空气一样无处不在却又容易被忽视。直到某天深夜,我被紧急电话惊醒——生产环境出现严重的安全漏洞,攻击者通过精心构造的URL绕过了权限验证。排…...
