当前位置: 首页 > news >正文

七个很酷的GenAI LLM技术性面试问题

不同于互联网上随处可见的传统问题库,这些问题需要跳出常规思维。

大语言模型(LLM)在数据科学、生成式人工智能(GenAI)和人工智能领域越来越重要。这些复杂的算法提升了人类的技能,并在诸多行业中推动了效率和创新性的提升,成为企业保持竞争力的关键。

然而,尽管GenAI和LLM越来越常见,但我们依然缺少能深入理解其复杂性的详细资源。职场新人在进行GenAI和LLM功能以及实际应用的面试时,往往会觉得自己像是陷入了未知领域。

为此,我们编写了这份指导手册,收录了7个有关GenAI & LLM的技术性面试问题。这份指南配有深入的答案,旨在帮助您更好地迎接面试,以充足的信心来应对挑战,以及更深层次地理解GenAI & LLM在塑造人工智能和数据科学未来方面的影响和潜力。

1. 如何在Python中使用嵌入式字典构建知识图谱?

一种方法是使用哈希(Python中的字典,也称为键-值表),其中键(key)是单词、令牌、概念或类别,例如“数学”(mathematics)。每个键(key)对应一个值(value),这个值本身就是一个哈希:嵌套哈希(nested hash)。嵌套哈希中的键也是一个与父哈希中的父键相关的单词,例如“微积分”(calculus)之类的单词。该值是一个权重:“微积分”的值高,因为“微积分”和“数学”是相关的,并且经常出现在一起;相反地,“餐馆”(restaurants)的值低,因为“餐馆”和“数学”很少出现在一起。

在LLM中,嵌套哈希可能是embedding(一种将高维数据映射到低维空间的方法,通常用于将离散的、非连续的数据转换为连续的向量表示,以便于计算机进行处理)。由于嵌套哈希没有固定数量的元素,因此它处理离散图谱的效果远远好于矢量数据库或矩阵。它带来了更快的算法,且只需要很少的内存。

2. 当数据包含1亿个关键字时,如何进行分层聚类?

如果想要聚类关键字,那么对于每一对关键字{A, B},你可以计算A和B之间的相似度,获悉这两个词有多相似。目标是生成相似关键字的集群。

Sklearn等标准Python库提供凝聚聚类(agglomerative clustering),也称为分层聚类(hierarchical clustering)。然而,在这个例子中,它们通常需要一个1亿x 1亿的距离矩阵。这显然行不通。在实践中,随机单词A和B很少同时出现,因此距离矩阵是非常离散的。解决方案包括使用适合离散图谱的方法,例如使用问题1中讨论的嵌套哈希。其中一种方法是基于检测底层图中的连接组件的聚类。

3. 如何抓取像Wikipedia这样的大型存储库,以检索底层结构,而不仅仅是单独的条目?

这些存储库都将结构化元素嵌入到网页中,使内容比乍一看更加结构化。有些结构元素是肉眼看不见的,比如元数据。有些是可见的,并且也出现在抓取的数据中,例如索引、相关项、面包屑或分类。您可以单独检索这些元素,以构建良好的知识图谱或分类法。但是您可能需要从头开始编写自己的爬虫程序,而不是依赖Beautiful Soup之类的工具。富含结构信息的LLM(如xLLM)提供了更好的结果。此外,如果您的存储库确实缺乏任何结构,您可以使用从外部源检索的结构来扩展您的抓取数据。这一过程称为“结构增强”(structure augmentation)。

4. 如何用上下文令牌增强LLM embeddings?

Embeddings由令牌组成;这些是您可以在任何文档中找到的最小的文本元素。你不一定要有两个令牌,比如“数据”和“科学”,你可以有四个令牌:“数据^科学”、“数据”、“科学”和“数据~科学”。最后一个表示发现了“数据科学”这个词。第一个意思是“数据”和“科学”都被发现了,但是在一个给定段落的随机位置,而不是在相邻的位置。这样的令牌称为多令牌(multi-tokens)或上下文令牌。它们提供了一些很好的冗余,但如果不小心,您可能会得到巨大的embeddings。解决方案包括清除无用的令牌(保留最长的一个)和使用可变大小的embeddings。上下文内容可以帮助减少LLM幻觉。

5. 如何实现自校正(self-tuning)以消除与模型评估和训练相关的许多问题?

这适用于基于可解释人工智能的系统,而不是神经网络黑匣子。允许应用程序的用户选择超参数并标记他喜欢的那些。使用该信息查找理想的超参数并将其设置为默认值。这是基于用户输入的自动强化学习。它还允许用户根据期望的结果选择他最喜欢的套装,使您的应用程序可定制。在LLM中,允许用户选择特定的子LLM(例如基于搜索类型或类别),可以进一步提高性能。为输出结果中的每个项目添加相关性评分,也有助于微调您的系统。

6. 如何将矢量搜索的速度提高几个数量级?

在LLM中,使用可变长度(variable-length)embeddings极大地减少了embeddings的大小。因此,它可以加速搜索,以查找与前端提示符中捕获到的相似的后端embeddings。但是,它可能需要不同类型的数据库,例如键-值表(key-value tables)。减少令牌的大小和embeddings表是另一个解决方案:在一个万亿令牌系统中,95%的令牌永远不会被提取来回答提示。它们只是噪音,因此可以摆脱它们。使用上下文令牌(参见问题4)是另一种以更紧凑的方式存储信息的方法。最后,在压缩embeddings上使用近似最近邻搜索(approximate nearest neighbor,ANN)来进行搜索。概率版本(pANN)可以运行得快得多,见下图。最后,使用缓存机制来存储访问最频繁的embeddings 或查询,以获得更好的实时性能。

概率近似最近邻搜索(pANN)

根据经验来看,将训练集的大小减少50%会得到更好的结果,过度拟合效果也会大打折扣。在LLM中,选择几个好的输入源比搜索整个互联网要好。对于每个顶级类别都有一个专门的LLM,而不是一刀切,这进一步减少了embeddings的数量:每个提示针对特定的子LLM,而非整个数据库。

7. 从你的模型中获得最佳结果的理想损失函数是什么?

最好的解决方案是使用模型评估指标作为损失函数。之所以很少这样做,是因为您需要一个损失函数,它可以在神经网络中每次神经元被激活时非常快地更新。在神经网络环境下,另一种解决方案是在每个epoch之后计算评估指标,并保持在具有最佳评估分数的epoch生成解决方案上,而不是在具有最小损失的epoch生成解决方案上。

我目前正在研究一个系统,其中的评价指标和损失函数是相同的。不是基于神经网络的。最初,我的评估指标是多元Kolmogorov-Smirnov距离(KS)。但如果没有大量的计算,在大数据上对KS进行原子更新(atomic update)是极其困难的。这使得KS不适合作为损失函数,因为你需要数十亿次原子更新。但是通过将累积分布函数(cumulative distribution)改变为具有数百万个bins参数的概率密度函数(probability density function),我能够想出一个很好的评估指标,它也可以作为损失函数。

相关文章:

七个很酷的GenAI LLM技术性面试问题

不同于互联网上随处可见的传统问题库,这些问题需要跳出常规思维。 大语言模型(LLM)在数据科学、生成式人工智能(GenAI)和人工智能领域越来越重要。这些复杂的算法提升了人类的技能,并在诸多行业中推动了效率和创新性的提升,成为企业保持竞争…...

SARscape雷达图像处理软件简介

合成孔径雷达(SAR)拥有独特的技术魅力和优势,渐成为国际上的研究热点之一,其应用领域越来越广泛。SAR数据可以全天候对研究区域进行量测、分析以及获取目标信息。高级雷达图像处理工具SARscape,能让您轻松将原始SAR数据…...

开源博客项目Blog .NET Core源码学习(23:App.Hosting项目结构分析-11)

本文学习并分析App.Hosting项目中后台管理页面的标签管理页面、轮播图维护页面。 标签管理页面 标签管理页面用于显示、检索、新建、编辑、删除标签数据,以便在前台页面的首页及文章专栏等页面显示标签数据。标签管理页面附带一新建及编辑页面,以支撑新…...

一.ffmpeg 将内存中的H264跟PCM 数据流合成多媒体文件

在有一些嵌入式平台中,H264数据流一般来自芯片内部的硬编码器, AAC音频数据则是通过采集PCM进行软编码,但是如何对它实时进行封装多媒体文件 ,参考ffmpeg example,花了一些时间终于实现了该功能。 流程图如下&#xf…...

C++ (week5):Linux系统编程3:线程

文章目录 三、线程1.线程的基本概念①线程相关概念②我的理解 2.线程的基本操作 (API)(1)获取线程的标识:pthread_self(2)创建线程:pthread_create()(3)终止线程①pthread_exit():当前线程终止,子线程主动退出②pthread_cancel()&…...

二叉树习题精讲-相同的树

相同的树 100. 相同的树 - 力扣(LeetCode)https://leetcode.cn/problems/same-tree/description/ /*** Definition for a binary tree node.* struct TreeNode {* int val;* struct TreeNode *left;* struct TreeNode *right;* };*/ bool i…...

「架构」模型驱动架构设计方法及其运用

本文通过一个实际的软件项目案例,深入探讨了模型驱动架构(MDA)在软件开发全过程中的应用。MDA是一种以模型为中心的设计方法,它通过分离计算、数据和业务逻辑,提高了软件的可维护性、可扩展性和可移植性。文章将从需求分析、架构设计、实现与测试三个阶段出发,分析MDA的应…...

基于 React + Nest 全栈开发的后台系统

Xmw Admin 基于 React Nest 全栈开发的后台系统 🪴 项目简介 🎯 前端技术栈: React、Ant Design、Umi、TypeScript🎯 后端技术栈: Nest.js、Sequelize、Redis、Mysql😝 线上预览: https://r…...

jQuery值操作例子 (代码)

直接上代码 <!DOCTYPE html> <html><head></head><body><div id"x1">例子</div><script src"js/jquery-3.7.1.min.js"></script><script>console.log($("#x1").text()) // 在浏览…...

Next-Admin,一款基于Nextjs开发的开箱即用的中后台管理系统(全剧终)

hello&#xff0c;大家好&#xff0c;我是徐小夕。之前和大家分享了很多可视化&#xff0c;零代码和前端工程化的最佳实践&#xff0c;今天继续分享一下最近开源的 Next-Admin 项目的最新更新。 这次更新是1.0版本最后一次更新&#xff0c;也根据用户反馈的问题做了一些优化&am…...

HTML5 文件处理及应用

HTML5 文件处理及应用 目录 核心对象文件信息读取文件拖放FileReaderSyncFileWriter APIBlob URL与 revokeObjectURL()跨源资源共享 (CORS)HTML5文件File API为浏览器提供了与用户计算机上的文件进行交互的能力,使得Web应用程序能够在客户端直接处理文件数据,而无需依赖服务…...

逻辑分析仪的调试使用

调试软件下载&#xff1a;点击跳转 一、接线 逻辑分析仪 设备 GND --- GND CHX&#xff08;数据通道&#xff09; --- 通信引脚 二、数据采集 图中两个可以选择数字大小的地方分别表示 采样深度 &#xff08;10M Samples&a…...

AI学习指南数学工具篇-Python中的凸优化库

AI学习指南数学工具篇-Python中的凸优化库 在人工智能和机器学习领域&#xff0c;凸优化是一个非常重要的数学工具。它可以帮助我们解决各种问题&#xff0c;包括线性规划、二次规划、半定规划等。而在Python中&#xff0c;有一个非常优秀的凸优化库&#xff0c;即CVXPY。本文…...

数据库mysql

一、mysql常用语句 登录MySQLmysql -u root -p列出所有数据库SHOW DATABASES;创建一个新数据库CREATE DATABASE test;删除一个数据库DROP DATABASE test;对一个数据库进行操作时USE test;列出当前数据库的所有表SHOW TABLES;要查看一个表的结构DESC students;创建表CREATE TAB…...

AWS联网和内容分发之Transit Gateway

将Amazon VPC、AWS账户和本地网络连接到一个网关中。AWS Transit Gateway通过中央枢纽连接Amazon虚拟私有云&#xff08;VPC&#xff09;和本地网络。此连接简化了您的网络&#xff0c;并且结束了复杂的对等关系。Transit Gateway充当高度可扩展的云路由器&#xff0c;每个新的…...

牛客NC236 最大差值【simple 动态规划 Java/Go/PHP】

题目 题目链接&#xff1a; https://www.nowcoder.com/practice/a01abbdc52ba4d5f8777fb5dae91b204 思路 不难看出该题可以使用动态规划的方式解题。 在循环数组的过程中&#xff0c;记录截止到当前位置-1的最小值&#xff0c; 然后用当前的值去计算最大的差值。Java代码 im…...

ORACLE 6节点组成的ACFS文件系统异常的分析思路

近期遇到多次6节点集群的ACFS文件系统环境异常问题&#xff1b;如24日中午12点附近出现ACFS文件系统访问异常&#xff0c;通过查看集群ALERT日志、CSSD进程日志及OSW监控软件的日志&#xff0c;可以发现OSW监控软件在11:55-12:40分时没有收集到虚拟机LINUX主机的监控数据&#…...

vscode当前分支有未提交的修改,但是暂时不想提交,想要切换到另一个分支该怎么办

当前分支有未提交的修改,但是暂时不想提交,想要切换到另一个分支该怎么办? 首先,可以将当前修改暂存起来,以便之后恢复 git stash 然后切换到目标分支,例如需求A所在分支 git checkout feat-a-jie 修改完A需求后,需要先切换回之前的分支,例如需求B所在分支 git checkout feat…...

前端API: IntersectionObserver的那一二三件事

IntersectionObserver 基础 IntersectionObserver 可以监听一个元素和可视区域相交部分的比例&#xff0c;然后在可视比例达到某个阈值的时候触发回调。比如可以用来处理图片的懒加载等等 首先我们来看下基本的格式&#xff1a; const observer new IntersectionObserver(c…...

C++迈向精通:vector复现与sort复现

vector复现 思考过程 对于vector考虑如下几点&#xff1a; 底层数据结构算法实现方式对外表现形式 这里底层的数据结构采用了顺序表&#xff0c;当然&#xff0c;原版STL中的vector也是采用的顺序表。 算法实现的方式放在代码中去设计 对外表现形式是数组&#xff0c;因此需…...

Hermes Agent框架对接Taotoken自定义供应商的配置指南

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 Hermes Agent框架对接Taotoken自定义供应商的配置指南 对于使用Hermes Agent框架的开发者而言&#xff0c;能够灵活接入不同的模型…...

【数字对调】信息学奥赛一本通C语言解法(题号2070)

自留or欢迎大佬纠错【题目描述】输入一个三位数&#xff0c;要求把这个数的百位数与个位数对调&#xff0c;输出对调后的数。【输入】三位数。【输出】如题述结果。【输入样例】123【输出样例】321#include<stdio.h> int main(){int a;scanf("%d",&a);int …...

FPGA系统时钟革新:纯硅可编程振荡器提升可靠性与设计灵活性

1. 项目概述&#xff1a;为什么FPGA需要一个更“稳”的时钟&#xff1f;在FPGA&#xff08;现场可编程门阵列&#xff09;的设计与应用中&#xff0c;时钟信号就像是整个数字系统的“心跳”。无论是高速数据采集、复杂算法处理&#xff0c;还是多协议通信&#xff0c;一个稳定、…...

Claude Code + Windows 桌面消息通知配置指南

Claude Code Windows 桌面通知配置指南 让 Claude Code 在完成任务后自动弹出 Windows 桌面通知&#xff0c;不用一直盯着屏幕等。 前置条件 Windows 10 或 Windows 11Claude Code CLI 已安装并能正常使用 安装步骤 第一步&#xff1a;创建通知脚本 创建目录 %USERPROFILE%\.cl…...

MRI绕组结构设计及均匀度优化算法【附算法】

✨ 长期致力于MRI、均匀度、球面谐波、目标场、主被动匀场、优化算法、超导磁体、线性规划、非线性规划研究工作&#xff0c;擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流&#xff0c;点击《获取方式》 &#xff08;1&#xff0…...

开启AI端侧能源新纪元 豪鹏科技亮相CIBF 2026

导读&#xff1a;豪鹏科技锚定“AI端侧电池固态电池”双轮驱动核心路径&#xff0c;完成从传统电池制造商到AI端侧能源引领者的跨越式转型&#xff0c;以硬核技术与前瞻布局&#xff0c;领航端侧能源产业迈向高质量发展新征程。以下为文章正文&#xff1a;图片来源于电池百人会…...

【软考高级架构】论文范文22——论系统可靠性设计及其应用

论系统可靠性设计及其应用 论系统可靠性设计及其应用,本文结合2014年试题题目进行深入论述,探讨如何在实际项目中进行软件的可靠性设计,确保系统在复杂和高风险环境下的稳定性与高效性。在现代复杂系统中,软件的可靠性设计已成为保障系统高效稳定运行的关键因素之一。随着技…...

保姆级教程:在Qt 6.5桌面应用中集成WebRTC实现一对一视频通话(附完整源码)

Qt 6.5与WebRTC深度整合实战&#xff1a;构建企业级视频通话解决方案 1. 环境配置与依赖管理 在开始Qt 6.5与WebRTC的集成之旅前&#xff0c;我们需要搭建一个稳定的开发环境。不同于普通的Qt项目&#xff0c;这种集成对工具链和系统配置有特殊要求。 推荐开发环境配置&…...

2026年制造业员工入转调离全流程自动化趋势?——从“系统孤岛”到“Agent全闭环”的效能革命

2026年&#xff0c;全球制造业正处于从“设备自动化”向“组织智能化”跨越的关键拐点。 随着人口红利消退与用工结构性矛盾加剧&#xff0c;工厂对于人力资源的精准配置已不仅是行政命题&#xff0c;而是直接影响产线柔性与交付周期的核心生产力命题。 传统的HR管理模式在面对…...

手把手教你用ROS小车仿真搞定LIO-SAM建图与NDT定位(附避坑配置)

从零实现ROS仿真环境下的LIO-SAM建图与NDT定位全流程指南 在机器人自主导航领域&#xff0c;激光雷达与惯性测量单元(IMU)的融合建图定位技术已成为工业级应用的主流方案。本文将基于steer_mini_gazebo仿真平台&#xff0c;完整演示如何配置LIO-SAM实时建图系统与Autoware的ND…...