当前位置：首页 > news >正文

搜广推校招面经七

news 2026/2/10 8:38:14

抖音推荐算法

一、广告系统中的数据流处理方法，怎么避免延迟回流问题
延迟回流问题是指，实时系统（如广告点击预估）中，历史数据未及时更新或发生延迟，导致系统的实时预测偏离实际情况。避免延迟回流的方法有
- 使用高效的流处理框架
  Kafka、Flink等流处理工具，确保实时性；使用滑动窗口处理实时数据，允许系统适应一定的延迟
- 特征工程优化
  - 消除数据泄漏
    严格限制特征只使用过去和当前的可用数据，防止数据泄露。
  - 实时与离线特征分层
    将特征分为离线特征（如用户画像、历史行为）和实时特征（如当前广告上下文、实时点击行为），根据实时性不同分阶段更新。
- 模型训练优化
  - 使用增量学习（在线学习）
    持续训练模型，吸收最新的数据流输入；在模型训练中，为最新数据分配更高的权重，减小延迟数据对模型影响
二、介绍DeepFM模型
DeepFM 是一种结合了因子分解机（FM）和深度神经网络（DNN）的模型，旨在同时捕捉特征的低阶交互和高阶非线性交互。其结构可以分为两个部分：FM 部分和 DNN 部分，最终两者的输出会结合起来进行预测。

import torch
import torch.nn as nn
import torch.optim as optimclass DeepFM(nn.Module):def __init__(self, n_features, embedding_dim, hidden_units, dropout_rate=0.5):super(DeepFM, self).__init__()self.embedding = nn.Embedding(n_features, embedding_dim)self.dnn = nn.Sequential(nn.Linear(n_features * embedding_dim, hidden_units[0]),nn.ReLU(),nn.Dropout(dropout_rate),nn.Linear(hidden_units[0], hidden_units[1]),nn.ReLU(),nn.Dropout(dropout_rate),nn.Linear(hidden_units[1], 1))# 输出层：FM 和 DNN 部分的输出拼接self.output_layer = nn.Linear(1 + 1, 1)  # FM 输出与 DNN 输出拼接def forward(self, x):# FM 部分：计算特征的二阶交互embedding_x = self.embedding(x)fm_output = torch.sum(torch.pow(torch.sum(embedding_x, dim=1), 2) - torch.sum(torch.pow(embedding_x, 2), dim=1), dim=1, keepdim=True)# DNN 部分：通过嵌入层和神经网络计算高阶特征交互x_dnn = embedding_x.view(embedding_x.size(0), -1)dnn_output = self.dnn(x_dnn)# 输出层：将 FM 和 DNN 的输出拼接起来output = self.output_layer(torch.cat([fm_output, dnn_output], dim=1))return output
# 示例
n_features = 10  # 假设有 10 个特征
embedding_dim = 5  # 每个特征的嵌入维度
hidden_units = [64, 32]  # DNN 的隐藏层大小
model = DeepFM(n_features, embedding_dim, hidden_units)
# 假设有 4 个样本，每个样本有 10 个特征
x = torch.randint(0, n_features, (4, n_features))
output = model(x)
print("DeepFM 输出:", output)

其中 fm_output = torch.sum(torch.pow(torch.sum(embedding_x, dim=1), 2) - torch.sum(torch.pow(embedding_x, 2), dim=1), dim=1, keepdim=True)这行代码计算了FM的二阶交互
在这里插入图片描述

三、多任务学习中ESSM有什么特点
- 1.ESSM是一个典型的硬共享早期阶段共享的多任务学习模型，通过共享嵌入层和中间层来学习两个任务的共性特征
- 2.loss函数通过加权平均等计算
  $\alpha \cdot L_{1} + \beta \cdot L_{2}$
四、多任务学习中MMoE（Multi-gate Mixture-of-Experts）有什么特点，如何解决不同任务的梯度冲突
利用专家网络（Experts）和任务门控（Task-specific Gates）来共享底层特征，同时允许每个任务独立选择适合自己的特征组合，通过门控网络提供动态特征共享机制，有效缓解任务冲突
- DWA（Dynamic Weight Average）
  DWA 动态调整每个任务的损失权重，目的是平衡任务之间的训练进度。DWA 根据任务的损失下降速率动态调整权重，鼓励更慢收敛的任务获得更多关注。
- PCGrad（Project Conflicting Gradient）
  PCGrad 当两个任务的梯度方向冲突时，PCGrad 会将一个梯度在另一个梯度的正交方向上进行投影
- 3.Uncertainty Weighting
  基于任务输出的不确定性调整权重，不确定性大的任务权重降低。
五、激活函数sigmoid、tanh出现梯度消失可以怎么处理
- 1.原因分析
- 2.替换其他更加稳定的激活函数
3.批归一化 (Batch Normalization)
4.正则化
5.调整学习率
6.残差连接
7.梯度裁剪 (Gradient Clipping)
在反向传播过程中，对梯度进行裁剪，防止梯度过小或过大

torch.nn.utils.clip_grad_norm_ # torch中有自带的梯度剪裁方法

六、介绍AUC，手撕AUC
AUC有一个常用的定义：随机从正样本和负样本中各选一个，分类器对于该正样本打分大于该负样本打分的概率。基于计算AUC的代码可以写为

def cal_auc_1(label, pred):numerator = 0    # 分子denominator = 0  # 分母for i in range(len(label) - 1):for j in range(i, len(label)):if label[i] != label[j]:denominator += 1# 统计所有正负样本对中，模型把相对位置排序正确的数量r = (label[i] - label[j]) * (pred[i] - pred[j])if r > 0:numerator += 1elif r == 0:numerator += 0.5return numerator / denominator

七、手撕：最大上升子序列（LIS）
给定一个无序的整数数组，找到其中的最长严格递增子序列，并返回该子序列的长度，子序列可以不连续。这是一个经典的动态规划问题

def LIS(nums):if not nums:return 0 dp = [1] * len(nums) # dp[i] 表示以 nums[i] 为结尾的最长递增子序列长度# 遍历所有元素，计算以每个元素为结尾的最长递增子序列for i in range(1, len(nums)):for j in range(i):if nums[i] > nums[j]:dp[i] = max(dp[i], dp[j] + 1)return max(dp)      # 返回 dp 中的最大值，即最长递增子序列的长度

搜广推校招面经七

抖音推荐算法一、广告系统中的数据流处理方法，怎么避免延迟回流问题延迟回流问题是指，实时系统（如广告点击预估）中，历史数据未及时更新或发生延迟，导致系统的实时预测偏离实际情况。避免延迟回流的方法有…...

编程日记 2025/1/15 13:45:17

Leetcode 518. 零钱兑换 II 动态规划

原题链接：Leetcode 518. 零钱兑换 II 可参考官解：零钱兑换 II 和这个解答：[Java/Python3/C]动态规划：拆分零钱兑换子问题（嵌套循环的秘密）【图解】此题需要仔细想象和Leetcode 377. 组合总和 Ⅳ 动态规划…...

编程日记 2025/1/15 13:39:08

【EI 会议征稿】第四届材料工程与应用力学国际学术会议（ICMEAAE 2025）

2025 4th International Conference on Materials Engineering and Applied Mechanics 重要信息大会官网：www.icmeaae.com 大会时间：2025年3月7-9日大会地点：中国西安截稿时间：2025年1月24日23:59 接受/拒稿通知&#xf…...

编程日记 2025/1/15 13:38:07

集合的线程安全

在多线程环境中，Java 的集合框架（Collection Framework）面临着线程安全的问题。当多个线程同时访问同一个集合对象时，可能会导致数据不一致、丢失更新或程序崩溃等严重问题。因此，在并发编程中确保集合操作的安全性至关…...

编程日记 2025/1/15 13:36:05

《深入理解Mybatis原理》Mybatis中的缓存实现原理

一级缓存实现什么是一级缓存？ 为什么使用一级缓存？ 每当我们使用MyBatis开启一次和数据库的会话，MyBatis会创建出一个SqlSession对象表示一次数据库会话。在对数据库的一次会话中，我们有可能会反复地执行完全相同的查询语句&…...

编程日记 2025/1/15 13:35:04

C# 数据拟合教程：使用 Math.NET Numerics 的简单实现

C# 数据拟合实战：使用 Math.NET Numerics 快速实现引言在科学计算、工程建模或数据分析中，数据拟合是一个非常重要的技术。无论是线性拟合还是非线性拟合，借助适当的工具都可以快速解决问题。本文将向您展示如何使用 C# 和强大的数值计算…...

编程日记 2025/1/15 13:29:55

C# 中对 Task 中的异常进行捕获

以下是在 C# 中对 Task 中的异常进行捕获的几种常见方法： 方法一：使用 try-catch 语句你可以使用 try-catch 语句来捕获 Task 中的异常，尤其是当你使用 await 关键字等待任务完成时。 using System; using System.Threading.Tasks;class …...

编程日记 2025/1/15 13:26:43

Android车机DIY开发之软件篇(九)默认应用和服务修改

Android车机DIY开发之软件篇(九)默认应用和服务修改 Car默认应用位置 ~/packages/apps/Car 增加APP 1.增加 XXXX.app 和Android.mk 2. 修改~/build/make/target/product/handheld_system_ext.mk Android默认APK位置 ~/packages/apps 1.增加文件夹 app和mk文件 2.build/mak…...

编程日记 2025/1/15 13:21:37

SimpleFOC01｜基于STM32F103+CubeMX，移植核心的common代码

导言如上图所示，进入SimpleFOC官网，点击Github下载源代码。如上图所示，找到仓库。 comom代码的移植后，simpleFOC的移植算是完成一大半。simpleFOC源码分为如下5个部分，其中communication是跟simpleFOC上位机通讯&a…...

编程日记 2025/1/15 13:20:36

web.xml常用配置

web.xml是Java Web应用程序的部署描述文件，它位于WEB-INF目录下。web.xml文件主要用于配置Servlet、Filter、Listener、MIME类型、欢迎页面等组件，以及一些Web应用的上下文参数。以下是一些常见的web.xml配置说明： Servlet配置： …...

编程日记 2025/1/15 13:18:31

代码随想录刷题day07|（数组篇）58.区间和

目录一、数组理论基础二、前缀和三、相关算法题目四、总结五、待解决问题一、数组理论基础数组是存放在连续内存空间上的相同类型数据的集合。代码随想录 (programmercarl.com) 特点： 1.下标从0开始，内存中地址空间是连续的 2.查询快&…...

编程日记 2025/1/15 13:16:28

【Linux】进程结束和进程等待

进程的结束退出码的认识在我们学习C/C的时候我们通常在进行写main函数时，main函数主体写完后通常会进行写一条语句 " return 0 " ，这里的这条语句到底是什么意思呢？？ 我们知道当在主函数中调用其他函数或者在其他函…...

编程日记 2025/1/15 13:13:17

可编辑精品PPT | 城投集团（行业）数字化解决方案

这个PPT详细介绍了城投集团的数字化转型解决方案。首先，它概述了数字化转型的背景，包括政策要求和行业趋势，并指出集团在信息化方面取得的阶段性成果及存在的不足。方案提出了数字化转型的总体规划，明确了总体目标、思路和推进策略…...

编程日记 2025/1/15 13:12:09

统计学习算法——决策树

内容来自B站Up主：风中摇曳的小萝卜https://www.bilibili.com/video/BV1ar4y137GD，仅为个人学习所用。问题引入有15位客户向某银行申请贷款，下面是他们的一些基本信息，类别列表示是否通过贷款申请，是表示通过贷款申…...

编程日记 2025/1/15 12:55:42

基于网络爬虫技术的网络新闻分析

文末附有完整项目代码在信息爆炸的时代，如何从海量的网络新闻中挖掘出有价值的信息呢？今天就来给大家分享一下基于网络爬虫技术的网络新闻分析的实现过程。首先，我们来了解一下系统的需求。我们的目标是能够实时抓取凤凰网新闻、网易新闻、…...

编程日记 2025/1/15 12:50:37

51_Lua面向对象编程

面向对象编程（Object Oriented Programming，OOP）是一种非常流行的计算机编程架构。像C++、Java、Objective-C、Smalltalk、C#、Ruby等编程语言都支持面向对象编程。 1.面向对象编程特性面向对象编程是一种编程范式，它使用“对象”来设计软件。对象是数据和行为的封装单元…...

编程日记 2025/1/15 12:45:27

关于在 Kotlin DSL 中，ndk 的配置方式

在 Kotlin DSL 中，ndk 的配置方式有所不同，取决于 Android Gradle 插件版本。ndk { abiFilters(…) } 在 Kotlin DSL 中实际上是 externalNativeBuild 的一部分，需要通过正确的上下文调用。错误代码： ndk {abiFilters("ar…...

编程日记 2025/1/15 12:40:19

【论文阅读+复现】High-fidelity Person-centric Subject-to-Image Synthesis

以人物为中心的主体到图像的高保真合成，CVPR2024 code：CodeGoat24/Face-diffuser: [CVPR2024] Official implementation of High-fidelity Person-centric Subject-to-Image Synthesis. paper：2311.10329 背景研究问题：这篇文…...

编程日记 2025/1/15 12:37:16

Spring Boot 应用开发入门

一、Spring Boot简介 Spring Boot 是一个基于 Spring 框架的开源 Java 基础框架，它简化了基于 Spring 的应用开发。Spring Boot 提供了一种快速、便捷的方式来创建独立、生产级的基于 Spring 框架的应用程序。它通过提供一系列的“启动器”依赖，帮助开发…...

编程日记 2025/1/15 12:35:14

【C语言】字符串函数详解

文章目录 Ⅰ. strcpy -- 字符串拷贝1、函数介绍2、模拟实现 Ⅱ. strcat -- 字符串追加1、函数介绍2、模拟实现 Ⅲ. strcmp -- 字符串比较1、函数介绍2、模拟实现 Ⅳ. strncpy、strncat、strncmp -- 可限制操作长度Ⅴ. strlen -- 求字符串长度1、函数介绍2、模拟实现&#xff08…...

编程日记 2025/1/15 12:34:11

深入剖析AI大模型：大模型时代的 Prompt 工程全解析

今天聊的内容，我认为是AI开发里面非常重要的内容。它在AI开发里无处不在，当你对 AI 助手说 "用李白的风格写一首关于人工智能的诗"，或者让翻译模型 "将这段合同翻译成商务日语" 时，输入的这句话就是 Prompt。…...

编程新知 2026/2/8 20:42:53

Xshell远程连接Kali（默认 | 私钥）Note版

前言:xshell远程连接，私钥连接和常规默认连接任务一开启ssh服务 service ssh status //查看ssh服务状态 service ssh start //开启ssh服务 update-rc.d ssh enable //开启自启动ssh服务任务二修改配置文件 vi /etc/ssh/ssh_config //第一…...

编程新知 2026/1/28 2:18:42

无法与IP建立连接，未能下载VSCode服务器

如题，在远程连接服务器的时候突然遇到了这个提示。查阅了一圈，发现是VSCode版本自动更新惹的祸！！！ 在VSCode的帮助->关于这里发现前几天VSCode自动更新了，我的版本号变成了1.100.3 才导致了远程连接出…...

编程新知 2026/1/22 21:24:01

Python爬虫实战：研究feedparser库相关技术

1. 引言 1.1 研究背景与意义在当今信息爆炸的时代，互联网上存在着海量的信息资源。RSS（Really Simple Syndication）作为一种标准化的信息聚合技术，被广泛用于网站内容的发布和订阅。通过 RSS，用户可以方便地获取网站更新的内容，而无需频繁访问各个网站。然而，互联网…...

编程新知 2025/8/18 9:54:31

c#开发AI模型对话

AI模型前面已经介绍了一般AI模型本地部署，直接调用现成的模型数据。这里主要讲述讲接口集成到我们自己的程序中使用方式。微软提供了ML.NET来开发和使用AI模型，但是目前国内可能使用不多，至少实践例子很少看见。开发训练模型就不介绍了&am…...

编程新知 2026/2/1 8:59:45

人机融合智能 | “人智交互”跨学科新领域

本文系统地提出基于“以人为中心AI(HCAI)”理念的人-人工智能交互(人智交互)这一跨学科新领域及框架,定义人智交互领域的理念、基本理论和关键问题、方法、开发流程和参与团队等,阐述提出人智交互新领域的意义。然后,提出人智交互研究的三种新范式取向以及它们的意义。最后,总结…...

编程新知 2026/2/10 7:13:28

Kubernetes 网络模型深度解析：Pod IP 与 Service 的负载均衡机制，Service到底是什么？

Pod IP 的本质与特性 Pod IP 的定位纯端点地址：Pod IP 是分配给 Pod 网络命名空间的真实 IP 地址（如 10.244.1.2）无特殊名称：在 Kubernetes 中，它通常被称为 “Pod IP” 或 “容器 IP”生命周期：与 Pod …...

编程新知 2025/11/4 22:48:45

C++实现分布式网络通信框架RPC(2)——rpc发布端

有了上篇文章的项目的基本知识的了解，现在我们就开始构建项目。目录一、构建工程目录二、本地服务发布成RPC服务 2.1理解RPC发布 2.2实现三、Mprpc框架的基础类设计 3.1框架的初始化类 MprpcApplication 代码实现 3.2读取配置文件类 MprpcConfig 代码实现…...

编程新知 2026/2/5 18:18:58

6️⃣Go 语言中的哈希、加密与序列化：通往区块链世界的钥匙

Go 语言中的哈希、加密与序列化：通往区块链世界的钥匙一、前言：离区块链还有多远？区块链听起来可能遥不可及，似乎是只有密码学专家和资深工程师才能涉足的领域。但事实上，构建一个区块链的核心并不复杂，尤其当你已经掌握了一门系统编程语言，比如 Go。要真正理解区…...

编程新知 2025/10/12 1:37:40

【2D与3D SLAM中的扫描匹配算法全面解析】

引言扫描匹配(Scan Matching)是同步定位与地图构建(SLAM)系统中的核心组件，它通过对齐连续的传感器观测数据来估计机器人的运动。本文将深入探讨2D和3D SLAM中的各种扫描匹配算法，包括数学原理、实现细节以及实际应用中的性能对比，特别关注…...

编程新知 2026/2/6 4:47:11

抖音推荐算法

相关文章：