当前位置: 首页 > article >正文

LLM面试题八

推荐算法工程师面试题

  1. 二分类的分类损失函数?

    二分类的分类损失函数一般采用交叉熵(Cross Entropy)损失函数,即CE损失函数。二分类问题的CE损失函数可以写成:在这里插入图片描述其中,y是真实标签,p是预测标签,取值为0或1。

  1. 多分类的分类损失函数(Softmax)?

    多分类的分类损失函数采用Softmax交叉熵(Softmax Cross Entropy)损失函数。Softmax函数可以将输出值归一化为概率分布,用于多分类问题的输出层。Softmax交叉熵损失函数可以写成:-∑logn,),其中,n是类别数,yi是第i类的真实标签,pi是第i类的预测概率。

  1. 关于梯度下降的sgdm,adagrad,介绍一下。
  • SGD(Stochastic Gradient Descent)是最基础的梯度下降算法,每次迭代随机选取一个样本计算梯度并更新模型参数
  • SGDM(Stochastic Gradient Descent withMomentum)在SGD的基础上增加了动量项,可以加速收敛
  • Adagrad(AdaptiveGradient)是一种自适应学习率的梯度下降算法,它根据每个参数的梯度历史信息调整学习率,可以更好地适应不同参数的变化范围。
  1. 为什么不用MSE分类用交叉熵?

    MSE(Mean Squared Error)损失函数对离群点敏感,而交叉嫡(CrossEntropy)损失函数在分类问题中表现更好,因为它能更好地刻画分类任务中标签概率分布与模型输出概率分布之间的差异。

  1. yolov5相比于之前增加的特性有哪些?

    YOLOv5相比于之前版本增加了一些特性,包括:使用CSP(Cross StagePartial)架构加速模型训练和推理;采用Swish激活函数代替ReLU;引入多尺度训l练和测试,以提高目标检测的精度和召回率;引入AutoML技术,自动调整超参数以优化模型性能。

  1. 可以介绍一下attention机制吗?

    Attention机制是一种用于序列建模的技术,它可以自适应地对序列中的不同部分赋予不同的权重,以实现更好的特征表示。在Attention机制中,通过计算查询向量与一组键值对之间的相似度,来确定每个键值对的权重,最终通过加权平均的方式得到Attention向量.

  1. 关于attention机制,三个矩阵KQ,KV,K.的作用是什么?

    在Attention机制中,KQV是一组与序列中每个元素对应的三个矩阵,其中K和V分别代表键和值,用于计算对应元素的权重,Q代表查询向量,用于确定权重分配的方式。三个矩阵K、Q、V在Attention机制中的具体作用如下:

  • K(Key)矩阵:K矩阵用于计算每个元素的权重,是一个与输入序列相同大小的矩阵。通过计算查询向量Q与每个元素的相似度,确定每个元素在加权平均中所占的5比例。
  • Q(Query)向量:Q向量是用来确定权重分配方式的向量,与输入序列中的每个元素都有一个对应的相似度,可以看作是一个加权的向量。
  • V(Value)矩阵:V矩阵是与输入序列相同大小的矩阵,用于给每个元素赋予一个对应的特征向量。在Attention机制中,加权平均后的向量就是V矩阵的加权平均向量。

    通过K、Q、V三个矩阵的计算,Attention机制可以自适应地为输入序列中的每个元素分配一个权重,以实现更好的特征表示。

  1. 介绍一下文本检测EAST。

    EAST(Efficient and Accurate Scene Text)是一种用于文本检测的神经网络模型。EAST通过以文本行为单位直接预测文本的位置、方向和尺度,避免了传统方法中需要多次检测和合并的过程,从而提高了文本检测的速度和精度。EAST采用了一种新的训练方式,即以真实文本行作为训练样本,以减少模型对背景噪声的干扰,并在测试阶段通过非极大值抑制(NMS)算法进行文本框的合并。

  1. 编程题(讲思路):给定两个字符串s,在$字符串中找到包含t字符串的最小字串。

    给定两个字符串s、t,可以采用滑动窗口的方式在s中找到包含t的最小子串。具体做法如下:

  • 定义两个指针left和right,分别指向滑动窗口的左右边界。
  • 先移动ight指针,扩展滑动窗口,直到包含了t中的所有字符。
  • 移动left指针,缩小滑动窗口,直到无法再包含t中的所有字符。
  • 记录当前滑动窗口的长度,如果小于之前记录的长度,则更新最小长度和最小子串。
  • 重复(2)到(4)步骤,直到ight指针到达s的末尾为止。

算法工程师暑期实习面试题

  1. 如何理解交叉熵的物理意义

    交叉熵是一种用于比较两个概率分布之间的差异的指标。在机器学习中,它通常用于比较真实标签分布与模型预测分布之间的差异。

  1. 过拟合如何去解决?

    L1正则为什么能够使得参数稀疏,从求导的角度阐述。过拟合的解决方法有很多:数据的角度:获取和使用更多的数据(数据集增强)模型角度:降低模型复杂度、L1L2 Dropout正则化、Early stopping(提前终止)

    模型融合的角度:使用bagging等模型融合方法。L1正则化在损失函数中加入参数的绝对值之和,可以使得一些参数变得非常小或者为零,从而使得模型更加稀疏,减少过拟合的风险。从求导的角度来看:L1正则化添加了个与模型参数绝对值成正比的项到损失函数中,即λ|w|,λ是正则化系数,w是模型参数。进行求导,可以得到:在这里插入图片描述其中sign()是符号函数。这个导数是常数,不像L2正则化的导数那样与参数的大小成正比。

    当使用梯度下降进行优化时,L1正则化会持续地从权重中减去一个恒定的值(取决于其符号),导致许多权重减少到零。而L2正则化会持续地从权重中减去一个与权重大小成正比的值,这不太可能导致权重完全达到零。因此,L1正则化倾向于产生稀疏的权重向量,其中大多数权重为零,而L2正则化则更可能使所有权重都接近于零但不完全为零。

  1. 类别不平衡是如何去处理的?如果进行采样,策略是什么?

    类别不平衡可以通过对数据进行采样来处理。一种常用的采样策略是欠采样,即随机从多数类中选择一部分样本使得样本平衡。另一种常用的采样策略是过采样,即从少数类中复制一些样本使得样本平衡。还有一种策略是生成新的少数类样本,比如SMOTE算法,其中通过对少数类样本进行随机插值来生成新的样本。

  1. 介绍一下attention,做过哪些尝试和改进。

    Attention是一种机器学习中的技术,主要用于提取输入序列中的关键信息。在自然语言处理和图像处理中,Attention机制已经成为了重要的技术。对于Attention的一些实现方法和改进,一种常见的Attention实现方法是Soft Attention,它可以用于提取序列数据中的重要信息。另外,还有些改进方法,比如Muti-Head Attention和Self-Attention等,可以进一步提高Attention的性能。

  1. 对于一个时间顺序的推荐数据,如何划分训练集和验证集,能不能随机?

    对于时间顺序的推荐数据,通常可以使用时间轴来划分训练集和验证集。具体地,可以选取一段时间作为训练集,另一段时间作为验证集。如果数据量足够大,也可以将数据随机划分为训练集和验证集。但是,需要注意的是,在时间序列数据中,训练集和验证集应该按照时间顺序进行划分,以保证模型的泛化能力。

  1. 欠拟合如何去解决,训练过程不收敛如何去解决?

    欠拟合的解决方法有很多,其中一个是增加模型的复杂度。可以增加模型的参数数量、增加网络层数、使用更复杂的模型结构等来提高模型的拟合能力。另外,还可以尝试调整学习率、修改损失函数、增加训练数据等方法。如果训练过程不收敛,可能是学习率过大或者网络结构不合理导致的。可以尝试减小学习率、使用不同的优化器、增加网络层数等方法来解决这个问题。

  1. 正则化和最大似然的关系。

    正则化和最大似然有一定的关系。最大似然是一种用于估计模型参数的方法,其目标是找到使得观测数据出现的概率最大的模型参数。正则化是一种对模型参数进行限制的方法,可以使得模型参数更加稳定和泛化能力更强。在最大似然估计中,通过添加正则化项可以达到类似的目的,即防止模型过拟合。常见的正则化方法包括L1正则化和L2正则化。

  1. Leetcode:数组中第K大的元素。

    难度:【中等】三种思路:一种是直接使用sorted函数进行排序,一种是使用小顶堆,一种是使用快排(双指针+分治)。

  • 方法一:直接使用sorted函数进行排序代码如下:
class Solution:def findKthLargest(self,nums:List[int],k:int)->int:return sorted(nums,reverse =True)[k-1]
  • 方法二:使用堆XX维护一个size为k的小顶堆,把每个数丢进去,如果堆的size>k,就把堆顶pop掉(因为它是最小的),这样可以保证堆顶元素一定是第k大的数。代码如下:
class Solution:def findKthLargest(self,nums:List[int],k:int)->int:heap = []for num in nums:heappush(heap,num)if len(heap)>k:heappop(heap)return heap[0]

    时间复杂度:O(nlogk)空间复杂度:O(k)

  • 方法三:双指针+分治partition部分定义两个指针left和right,还要指定一个中心pivot(这里直接取最左边的元素为中心,即nums[i])不断将两个指针向中间移动,使得大于pivot的元素都在pivot的右边,小于pivot的元素都在pivot的左边,注意最后满足时,left是和right相等的,因此需要将pivot赋给此时的let或right。.然后再将中心点的索引和k-1进行比较,通过不断更新let和right找到最终的第k个位置。代码如下:
class Solution:def findKthLargest(self,nums:List[int],k:int)->int:left,right,target =0,len(nums)-1,k-1while True:pos=self.partition(nums,left,right)if pos ==target:return nums[pos]elif pos>target:right=pos-1else:left = pos + 1def partition(self,nums,left,right):pivot=nums[left]while left right:while nums[right]<=pivot and left<right:right-=1nums[left]=nums[right]while nums[left]>pivot and left<right:left += 1nums[right]nums[left]nums[left] = pivotreturn left

视觉算法工程师面试题

  1. C++编译的过程,从源码到二进制:

    C++源码经过以下几个步骤进行编译,从源码转换为可执行的二进制文件:

  • 预处理(Preprocessing):预处理器根据源码中的预处理指令,如# include、define等,对源码进行文本替换、宏展开等处理。
  • 编译(Compilation):编译器将预处理后的源码转换为汇编语言代码,也称为汇编源码。
  • 汇编(Assembly):汇编器将汇编语言代码转换为机器语言指令,生成目标文件(通常为二进制文件)。
  • 链接(Linking):链接器将目标文件与系统库、用户自定义的库进行链接,生成可执行文件。链接器将目标文件中的符号(如函数、变量等)与其对应的定义进行匹配,解析符号的引用关系,生成最终的可执行文件。
  • 加载(Loading):操作系统将可执行文件加载到内存中,并将程序的控制权转交给程序的入口点,从而开始执行程序。
  1. C++最小的编译单元:

    C++中最小的编译单元是函数。函数在编译时被编译器独立地编译成目标文件,然后通过链接器将目标文件与其他目标文件或库文件链接成最终的可执行文件。

  1. C+静态库和动态库的区别:

    静态库(Static Library)在链接时会被完整地复制到可执行文件中,程序运行时不需要外部的库文件支持。而动态库(Dynamic Library)在链接时并不会被复制到可执行文件中,而是在程序运行时由操作系统动态加载到内存中并共享使用。因此,静态库会增加可执行文件的大小,而动态库可以在多个可执行文件之间共享,减小了可执行文件的大小。

  1. 说一下C+中的share_ptr

    share_ptr是C++11引入的智能指针,用于管理动态分配的对象的所有权。它使用引用计数的方式来自动释放资源,避免了内存泄漏。share_ptr允许多个share_ptr对象共享同一个对象,当最后一个指向对象的share_ptr被销毁时,它会自动释放资源。

  1. C++中new和make_shared创建出来的差异点
  • new和make_shared都用于在堆上分配动态内存并创建对象。其中,new是C++中的关键字,返回的是裸指针,需要手动管理内存释放:而make_shared是C++11引入的函数模板,返回的是一个shared_ptr对象,使用引用计数管理内存,无需手动释放

差异点:

  • make_shared通常比new效率更高,因为它在一次内存分配中同时分配了对象和控制块(用于管理引用计数),减少了内存分配的次数,提高了性能。
  • make_shared可以避免潜在的内存泄漏,因为它将对象和引用计数块一同存储在连续的内存块中,确保了对象和引用计数块的一致性,避免了因为异常导致的资源泄漏。
  • 使用shared_ptr时,建议优先使用make_shared,因为它更加安全和高效,能够减少内存分配次数,提高性能。
  1. C++中左值和右值的概念:
  • 左值(Lvalue)是指具有持久性、可以被命名的表达式或对象,它们具有内存地址。左值可以出现在赋值、取址、函数调用等操作中,并且可以被修改。
  • 右值(Rvalue)是指临时的、没有持久性的表达式或对象,它们不能被命名,通常用于初始化或者临时计算。右值不能出现在赋值的左侧,但可以出现在赋值的右侧,并且可以被移动或者转移所有权。
  • C++11引入了右值引用(Rvalue reference),通过&&表示,用于标识对右值的引用,右值引用可以用于实现移动语义和完美转发(perfect forwarding),提高了性能和灵活性。
  1. C++中的STL(Standard Template Library)里面有以下常用的容器:
  • vector:动态数组,支持随机访问.
  • list:双向链表,支持快速插入和删除。
  • deque:双端队列,支持随机访问。
  • queue:队列,先进先出(FIFO)。
  • stack:栈,后进先出(LIFO)。
  • set:集合,自动排序且元素唯一。
  • map:映射,键值对容器,自动排序且键唯一。
  • unordered_set:无序集合,哈希实现,元素唯一。
  • unordered_map:无序映射,键值对容器,哈希实现。

8、C++中map和unordered_map的区别:

  • 排序:map中的键值对默认按照键的大小进行排序,而unordered_map没有固定的排序,是无序的。
  • 实现:map通常使用红黑树(平衡二叉搜索树)实现,而unordered_map使用哈希表实现。
  • 性能:unordered_map在插入删除和查找操作上通常具有更好的平均性能,因为哈希表具有较快的查找和插入速度,而map则对键进行排序可能会导致性能略低。
  • 内存占用:unordered_map通常占用更多的内存,因为哈希表需要额外的存储空间来存储哈希函数和桶(bucket)的信息,而map使用红黑树存储,不需要额外的存储空间。
  • 查找效率:在大数据量的情况下,unordered_map通常比map更快,因为哈希表具有O(1)的平均查找复杂度,而红黑树具有OogN)的平均查找复杂度。
  • 迭代顺序:mp中的元素按照键的大小进行排序,可以通过迭代器按照顺序访问,而unordered_map中的元素没有固定的顺序。
  • 适用场景:map适用于需要按照键的大小进行排序或者需要有序访问的场景,而unordered_map适用于不需要排序或者对访问顺序无要求的场景,且在性能要求较高的情况下可以考虑使用unordered_map

相关文章:

LLM面试题八

推荐算法工程师面试题 二分类的分类损失函数&#xff1f; 二分类的分类损失函数一般采用交叉熵(Cross Entropy)损失函数&#xff0c;即CE损失函数。二分类问题的CE损失函数可以写成&#xff1a;其中&#xff0c;y是真实标签&#xff0c;p是预测标签&#xff0c;取值为0或1。 …...

【团体程序涉及天梯赛】L1~L2实战反思合集(C++)

实战反思汇总记录 仔细审题&#xff0c;想好再写 L1-104 九宫格 - 团体程序设计天梯赛-练习集 易忽略的错误&#xff1a;开始习惯性地看到n就以为是n*n数组了&#xff0c;实际上应该是9*9的固定大小数组&#xff0c;查了半天没查出来 L1-101 别再来这么多猫娘了&#xff01…...

Linux Terminal Mode | canonical / nocanonical / cbreak / raw

注&#xff1a;本文为 “Linux 终端模式” 相关文章合辑。 略作重排&#xff0c;如有内容异常&#xff0c;请看原文。 终端输入输出的三种模式 guidao 1 前言 在进行项目开发时&#xff0c;需要实时读取终端输入&#xff08;无需按下 Enter 键即可读取&#xff09;。然而&a…...

预测分析(二):基于机器学习的数值预测

文章目录 基于机器学习的数值预测机器学习简介监督学习的任务创建第一个机器学习模型机器学习的目标——泛化过拟合现象评价函数与最优化 建模前的数据处理进一步特征变换 多元线性回归模型LASSO回归kNN算法原理算法步骤k值的选择 基于机器学习的数值预测 机器学习是人工智能的…...

JavaScript双问号操作符(??)详解,解决使用 || 时因类型转换带来的问题

目录 JavaScript双问号操作符&#xff08;??&#xff09;详解&#xff0c;解决使用||时因类型转换带来的问题 一、双问号操作符??的基础用法 1、传统方式的痛点 2、双问号操作符??的精确判断 3、双问号操作符??与逻辑或操作符||的对比 二、复杂场景下的空值处理 …...

蓝桥杯 web 展开你的扇子(css3)

普通答案&#xff1a; #box:hover #item1{transform: rotate(-60deg); } #box:hover #item2{transform: rotate(-50deg); } #box:hover #item3{transform: rotate(-40deg); } #box:hover #item4{transform: rotate(-30deg); } #box:hover #item5{transform: rotate(-20deg); }…...

聚焦楼宇自控:优化建筑性能,引领智能化管控与舒适环境

在当今建筑行业蓬勃发展的浪潮中&#xff0c;人们对建筑的要求早已超越了传统的遮风避雨功能&#xff0c;而是更加注重建筑性能的优化、智能化的管控以及舒适环境的营造。楼宇自控系统作为现代建筑技术的核心力量&#xff0c;正凭借其卓越的功能和先进的技术&#xff0c;在这几…...

前端视频流技术深度解析

一、视频流技术体系架构 1.1 现代视频流技术栈 1.1.1 核心协议对比 协议传输方式延迟适用场景浏览器支持HLSHTTP分片6-30s点播、直播回看全平台DASHHTTP动态适配3-15s多码率自适应Chrome/FirefoxWebRTCP2P/UDP<500ms实时通信、直播现代浏览器RTMPTCP长连接1-3s传统直播推…...

k8s核心资源对象一(入门到精通)

本文将深入探讨Kubernetes中的核心资源对象&#xff0c;包括Pod、Deployment、Service、Ingress、ConfigMap和Secret&#xff0c;详细解析其概念、功能以及实际应用场景&#xff0c;帮助读者全面掌握这些关键组件的使用方法。 一、pod 1 pod概念 k8s最小调度单元&#xff0c;…...

Ubuntu16.04配置远程连接

配置静态IP Ubuntu16.04 修改超管账户默认密码 # 修改root账户默认密码 sudo passwd Ubuntu16.04安装SSH # 安装ssh服务&#xff1a; sudo apt-get install ssh# 启动SSH服务&#xff1a; sudo /etc/init.d/ssh start # 开机自启 sudo systemctl enable ssh# 如无法连接&…...

基于springboot微信小程序课堂签到及提问系统(源码+lw+部署文档+讲解),源码可白嫖!

摘要 随着信息时代的来临&#xff0c;过去的课堂签到及提问管理方式的缺点逐渐暴露&#xff0c;本次对过去的课堂签到及提问管理方式的缺点进行分析&#xff0c;采取计算机方式构建基于微信小程序的课堂签到及提问系统。本文通过阅读相关文献&#xff0c;研究国内外相关技术&a…...

互联网三高-高性能之JVM调优

1 运行时数据区 JVM运行时数据区是Java虚拟机管理的内存核心模块&#xff0c;主要分为线程共享和线程私有两部分。 &#xff08;1&#xff09;线程私有 ① 程序计数器&#xff1a;存储当前线程执行字节码指令的地址&#xff0c;用于分支、循环、异常处理等流程控制‌ ② 虚拟机…...

数据操作语言

一、DML的核心操作类型 1.添加数据(INSERT) (1)手动插入:逐行插入数据,适用于少量数据。 INSERT INTO 表名 (字段1, 字段2) VALUES (值1, 值2);(2)批量导入:通过外部文件导入数据,适用于大数据场景...

智谛达科技:以创新为翼,翱翔AI人形机器人蓝海

在科技创新的浩瀚星空中,智谛达科技集团犹如一颗璀璨的明星,以其独特的创新光芒,照亮了AI人形机器人的广阔蓝海。这家在AI领域深耕多年的企业,始终秉持着创新为翼的发展理念,不断突破技术瓶颈,拓展应用场景,以卓越的实力和前瞻性的思维,引领着人形机器人行业的未来发展。 智谛达…...

封装可拖动弹窗(vue jquery引入到html的版本)

vue cli上简单的功能&#xff0c;在js上太难弄了&#xff0c;这个弹窗功能时常用到&#xff0c;保存起来备用吧 备注&#xff1a;deepseek这个人工智障写一堆有问题的我&#xff0c;还老服务器繁忙 效果图&#xff1a; html代码&#xff1a; <div class"modal-mask&qu…...

【LeetCode77】组合

题目描述 给定区间 [1, n] 和一个整数 k&#xff0c;需要返回所有可能的 k 个数的组合。 思路 算法选择&#xff1a;回溯算法 回溯算法是一种试探性搜索方法&#xff0c;非常适合用来解决组合问题。基本思想是&#xff1a; 从数字 1 开始&#xff0c;逐步构建组合。当当前组…...

【技术报告】GPT-4o 原生图像生成的应用与分析

【技术报告】GPT-4o 原生图像生成的应用与分析 1. GPT-4o 原生图像生成简介1.1 文本渲染能力1.2 多轮对话迭代1.3 指令遵循能力1.4 上下文学习能力1.5 跨模态知识调用1.6 逼真画质与多元风格1.7 局限性与安全性 2. GPT-4o 技术报告2.1 引言2.2 安全挑战、评估与缓解措施2.2.1 安…...

初阶数据结构(3)顺序表

Hello~,欢迎大家来到我的博客进行学习&#xff01; 目录 1.线性表2.顺序表2.1 概念与结构2.2 分类2.2.1 静态顺序表2.2.2 动态顺序表 2.3 动态顺序表的实现初始化尾插头插尾删头删查找指定位置之前插入数据删除指定位置的数据销毁 1.线性表 首先我们需要知道的是&#xff0c;…...

Visual Studio 中使用 Clang 作为 C/C++ 编译器时,设置优化选项方法

在 Visual Studio 中使用 Clang 作为 C/C 编译器时&#xff0c;可以通过以下方法设置优化选项&#xff1a; 方法 1&#xff1a;通过项目属性设置&#xff08;推荐&#xff09; 右键项目 → 属性 配置属性 → C/C → 优化 优化&#xff1a;选择优化级别 /O0 - 禁用优化&#x…...

设计模式简述(七)原型模式

原型模式 描述基本使用 使用场景 描述 基于已有对象&#xff0c;利用JDK的Cloneable接口&#xff0c;生成一个新的对象。 常用于需要同时创建多个对象的场景 默认的clone是浅拷贝&#xff0c;如果要实现深拷贝需自行处理 可以在clone方法中手动拷贝数组成员或者其他引用类型成…...

Linux中查看占用端口号的进程信息的方法

在 Linux 中查看占用 ** 端口&#xff08;eg:1717&#xff09;**的进程号&#xff08;PID&#xff09;&#xff0c;可以通过以下命令实现&#xff1a; 方法 1&#xff1a;使用 netstat 命令 sudo netstat -tulnp | grep :1717参数解释&#xff1a; -t&#xff1a;查看 TCP 端口…...

谷歌发布网络安全AI新模型Sec-Gemini v1

谷歌近日宣布推出实验性AI模型Sec-Gemini v1&#xff0c;旨在通过人工智能技术革新网络安全防御体系。该模型由Sec-Gemini团队成员Elie Burzstein和Marianna Tishchenko共同研发&#xff0c;旨在帮助网络安全人员应对日益复杂的网络威胁。 攻防不对称的破局之道 Sec-Gemini团队…...

【学Rust写CAD】35 alpha_mul_256(alpha256.rs补充方法)

源码 // Calculates (value * alpha256) / 255 in range [0,256], // for [0,255] value and [0,256] alpha256. pub fn alpha_mul_256(self,value: u32) -> Alpha256 {let prod value * self.0;Alpha256((prod (prod >> 8)) >> 8) }代码分析 这个函数 alph…...

嵌入式工程师多线程编程(三)裸机编程、RTOS、Linux及多线程编程的全面对比

以下是裸机编程、RTOS、Linux及多线程编程的全面对比解析&#xff0c;结合技术特性和应用场景进行深度分析&#xff1a; 一、架构与调度机制对比 维度裸机编程RTOSLinux任务调度无调度器&#xff08;轮询/前后台系统&#xff09;抢占式优先级调度&#xff08;硬实时&#xff0…...

Meta LLaMA 4:对抗 GPT-4o 与 Claude 的开源王牌

2025 年 4 月&#xff0c;Meta 正式发布了 LLaMA 4 系列的首批两款模型。 这两款模型模型分别是&#xff1a;LLaMA 4 Scout 与 LLaMA 4 Maverick&#xff0c;均采用了 专家混合架构&#xff08;Mixture-of-Experts, MoE&#xff09;。 据 Meta 表示&#xff0c;这是首次有 …...

企业级 ClickHouse Docker 离线部署实践指南20250407

企业级 ClickHouse Docker 离线部署实践指南 引言 在数据分析与日志处理日益重要的今天&#xff0c;ClickHouse 凭借其高性能、列式存储架构&#xff0c;成为企业在大数据分析中的首选引擎之一。本文基于一位金融行业从业者在离线网络环境中部署 ClickHouse 的真实实践过程&a…...

STM32看门狗应用实战:独立看门狗与窗口看门狗深度解析(下) | 零基础入门STM32第九十五步

主题内容教学目的/扩展视频看门狗什么是看门狗&#xff0c;原理分析&#xff0c;启动喂狗方法&#xff0c;读标志位。熟悉在程序里用看门狗。 师从洋桃电子&#xff0c;杜洋老师 &#x1f4d1;文章目录 一、看门狗应用架构分析1.1 系统监控流程图1.2 双看门狗应用场景对比 二、…...

DeepSeek-MLA

MLA 结构 需要缓存 KV 向量共用的压缩隐特征K 向量多头共享的带位置编码的向量 为什么带有位置信息的 Q 向量来自于隐特征向量&#xff0c;而带有位置的 K 向量来自于 H 向量且共享呢&#xff1f; 最好的方法肯定是从H向量直接计算并且不共享&#xff0c;但是会大大增加显存使…...

pyTorch-迁移学习-学习率衰减-四种天气图片多分类问题

目录 1.导包 2.加载数据、拼接训练、测试数据的文件夹路径 3.数据预处理 3.1 transforms.Compose数据转化 3.2分类存储的图片数据创建dataloader torchvision.datasets.ImageFolder torch.utils.data.DataLoader 4.加载预训练好的模型(迁移学习) 4.1固定、修改预训练…...

基于大模型的GCSE预测与治疗优化系统技术方案

目录 技术方案文档:基于大模型的GCSE预测与治疗优化系统1. 数据预处理模块功能:整合多模态数据(EEG、MRI、临床指标等),标准化并生成训练集。伪代码流程图2. 大模型架构(Transformer-GNN混合模型)功能:联合建模时序信号(EEG)与空间结构(脑网络)。伪代码流程图3. 术…...