当前位置: 首页 > news >正文

反馈驱动、上下文学习、多语言检索增强等 | Big Model Weekly 第55期

点击蓝字

00365d0a6c8f57d689b127a7ad85fc3e.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

01

A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution

传统方法严重依赖手动特征,无法捕捉长距离相关性,限制了其有效性。最近的研究利用预训练语言模型的文本嵌入,但需要在标记数据上进行大量微调,这带来了数据依赖和可解释性有限的挑战。大型语言模型(LLMs)凭借其深度推理能力和保持长距离文本关联的能力,提供了一种有前景的替代方案。本研究探索了预训练LLMs在单次作者归属中的潜力,特别是利用贝叶斯方法和LLMs的概率输出。该方法计算文本蕴含作者以往作品的概率,反映了对作者身份更细致的理解。仅使用预训练模型如Llama-3-70B,本研究在IMDb和博客数据集上的结果显示,在十位作者的单次作者分类中达到了85%的准确率。这些发现为使用LLMs进行单次作者分析设定了新的基准,并扩大了这些模型在法医语言学中的应用范围。本研究还包括广泛的消融研究来验证该方法。

d6a190016a191f16e06a57fde7dfb887.png

d95c35c1dc37fba2e0f02af79ffb7b28.png

f71c8f67424e6d8c52ba94d998dd01a9.png

b5de97eaa1e6a4085adc32068bee76a5.png

856021beffa25c416fb55a8e8284ef54.png

文章链接:

https://arxiv.org/pdf/2410.21716

02

FALCON: Feedback-driven Adaptive Long/short-term memory reinforced Coding Optimization system

最近,大型语言模型(LLMs)在自动化代码生成方面取得了显著进展。尽管这些模型具有强大的指令遵循能力,但在编码场景中常常难以与用户意图保持一致。特别是由于数据集缺乏多样性,未能涵盖专业任务或边缘情况,导致模型在生成精准且符合人类意图的代码时遇到困难。此外,监督式微调(SFT)和基于人类反馈的强化学习(RLHF)中的挑战,也使得生成的代码无法精准对齐人类意图。为应对这些挑战并提升自动化编程系统的代码生成性能,本文提出了反馈驱动的自适应长短时记忆强化编码优化方法(即FALCON)。FALCON分为两个层级结构,从全局层面来看,长期记忆通过保留和应用已学知识来提升代码质量;从局部层面来看,短期记忆则允许将编译器和人工智能系统的即时反馈纳入其中。此外,本文引入了带有反馈奖励的元强化学习来解决全局 - 局部双层优化问题,增强模型在多样化代码生成任务中的适应性。本研究进行了大量实验,结果表明该技术达到了最先进的性能,在MBPP基准测试中比其他强化学习方法高出4.5个百分点,在Humaneval基准测试中高出6.1个百分点。

231bfb5d7e99f997b838451637a648d4.png

cf40d2375af23e591198c12c065b9f5b.png

37b172a53ed3dc0c696b98d8d67966ae.png

3addbeb047a7ba84a1ca63d1be825b3c.png

ea993b294e7f2d629835c11dead61298.png

文章链接:

https://arxiv.org/pdf/2410.21349

03

Improving In-Context Learning with Small Language Model Ensembles

大型语言模型(LLMs)在各种任务中都展现出了令人印象深刻的性能,但在特定领域的任务上表现仍然有限。虽然检索增强生成和微调等方法可以帮助解决这一问题,但它们需要大量资源。在上下文学习(ICL)是一种廉价且高效的选择,但无法与先进方法的准确性相匹敌。本文提出了Ensemble SuperICL,这是一种新颖的方法,通过利用多个经过微调的小型语言模型(SLMs)的专业知识来增强ICL。Ensemble SuperICL在几个自然语言理解基准测试中取得了最先进的(SoTA)结果。此外,作者还在一个医学领域的标注任务上对其进行了测试,并通过使用在一般语言任务上微调的现成SLMs,展示了其实用性,在大规模数据标注中比所有基线方法都取得了更高的准确性。最后,作者进行了消融研究和敏感性分析,以阐明Ensemble SuperICL的潜在机制。本研究为LLMs中日益增长的高效领域专业化方法的需求做出了贡献,为从业者提供了一种廉价且有效的方法。

ee890cded49880721e4ddfae1f2dadf0.png

a0426ef046f26a9af30346202bfa04fa.png

5df4d1cb95da50e04944ca100443df50.png

35aee154d95003b54d42dd4f570b3f42.png

文章链接:

https://arxiv.org/pdf/2410.21868

04

ProMoE: Fast MoE-based LLM Serving using Proactive Caching

大型语言模型的有前景的应用常常受到边缘设备上有限的GPU内存容量的限制。混合专家(MoE)模型通过在计算过程中仅激活模型参数的一个子集来缓解这一问题,允许未使用的参数被卸载到主机内存中,从而降低整体GPU内存需求。然而,现有的基于缓存的卸载解决方案是被动处理缓存未命中,并且显著影响系统性能。本文提出了PRoMoE,这是一种新颖的主动缓存系统,它利用中间模型结果来预测后续参数的使用情况。通过提前主动获取专家,PRoMoE将加载时间从关键路径中移除,并减少了卸载的性能开销。评估结果表明,与现有卸载解决方案相比,PRoMoE在预填充阶段和解码阶段分别实现了平均2.13倍和2.84倍的速度提升。

3e0977f4230ad1ead909e40b2c2158fc.png

999667f53ceaedebc6eeb033a0a281b4.png

53ac2d5baf65fdf85955ad942f18c8d4.png

012201db9fb16742ed4f1301f79bc7d3.png

3e4350096b7b0481b9a1f0a487225768.png

330f98c166843d95221037b87f2b6100.png

文章链接:

https://arxiv.org/pdf/2410.22134

05

Not All Languages are Equal: Insights into Multilingual Retrieval-Augmented Generation

检索增强语言模型(RALMs)通过整合外部文本资源来拓展其知识范围。然而,全球知识的多语言特性要求RALMs能够处理多种语言,这一主题目前研究较少。本研究提出了Futurepedia,这是一个精心设计的基准测试,包含八种代表性语言的平行文本。作者使用该基准测试评估了六种多语言RALMs,以探索多语言RALMs面临的挑战。实验结果揭示了语言不平等现象:1)高资源语言在单语知识提取方面表现突出;2)印欧语系语言促使RALMs直接从文档中提供答案,缓解了跨语言表达答案的挑战;3)英语受益于RALMs的选择偏差,在多语言知识选择中更具影响力。基于这些发现,作者为改进多语言检索增强生成提供了建议。对于单语知识提取,必须谨慎关注将低资源语言翻译成高资源语言时的级联错误。在跨语言知识传递中,鼓励RALMs在不同语言的文档中提供答案可以提高传递性能。对于多语言知识选择,纳入更多非英语文档并重新定位英语文档有助于减轻RALMs的选择偏差。通过全面的实验,本研究强调了多语言RALMs所固有的复杂性,并为未来研究提供了有价值的见解。

16ce567f53838c6d85a5895242e21e6d.png

05759377f15fc5f61953776fa49eb719.png

79a28dc0fa7e1eeccf19b73cda8bbe60.png

d877f0c96779f6764238bad70b988433.png

fc3d5768e22baabee2a0f430768368fe.png

文章链接:

https://arxiv.org/pdf/2410.21970

06

On Memorization of Large Language Models in Logical Reasoning

大型语言模型(LLMs)在具有挑战性的推理基准测试中表现出色,但也可能会犯一些基本的推理错误。这种矛盾的行为在理解LLMs推理能力背后的机制时令人困惑。一种假设是,LLMs在常见推理基准测试中日益提高且几乎饱和的性能可能是由于对类似问题的记忆。本文通过使用基于“骑士与无赖”(Knights and Knaves,简称K&K)谜题的动态生成逻辑推理基准测试,对这一假设进行了系统的定量记忆测量研究。研究发现,经过微调后,LLMs能够内插训练谜题(几乎达到完美准确率),但当这些谜题稍作扰动时,模型就会失败,这表明模型在解决这些训练谜题时严重依赖记忆。另一方面,研究表明,尽管微调导致了大量记忆,但也始终提高了泛化性能。通过扰动测试、跨难度级别的可转移性分析、探测模型内部结构以及使用错误答案进行微调等深入分析表明,尽管存在训练数据记忆,LLMs仍然学会了对K&K谜题进行推理。这一现象表明,LLMs在记忆和真正的推理能力之间表现出复杂的相互作用。最后,基于每个样本的记忆分数的分析揭示了LLMs在解决逻辑谜题时如何在推理和记忆之间切换。

07bcc7ba0e28deffdf2cba90f0ad6e88.png

801ad7e6b005fe199a043332d3161944.png

f0885ad0af591243a25c7d2178e3a065.png

f64f2bff4074bc1ee205cb837f82a2e7.png

文章链接:

https://arxiv.org/pdf/2410.23123

07

TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters

Transformer已成为基础模型中的主导架构,因其在各个领域的出色表现。然而,扩展这些模型的巨大成本仍然是一个重大问题。这一问题主要源于其对线性投影中固定参数数量的依赖。当引入架构修改(例如,通道维度)时,通常需要从头开始重新训练整个模型。随着模型规模的持续增长,这种策略导致计算成本越来越高,变得不可持续。为了解决这一问题,本文介绍了Tokenformer,这是一种原生可扩展的架构,它不仅利用注意力机制进行输入标记之间的计算,还用于标记与模型参数之间的交互,从而增强了架构的灵活性。通过将模型参数视为标记,本文用token-parameter注意力层替换了Transformer中的所有线性投影,其中输入标记作为查询,模型参数作为键和值。这种重新表述允许逐步且高效地扩展,而无需从头开始重新训练。该模型通过逐步添加新的键值参数对,从1.24亿参数扩展到14亿参数,实现了与从头开始训练的Transformer相当的性能,同时大大降低了训练成本。

b5c41822755114742fe1cc948b08f77e.png

2f9d01ff393468212b2ae1b1ddc18fbc.png

12b571216dcbd6df432e3d55fd5a6920.png

b2374453e314eba530bf74f90773320c.png

2bc0901324f8aa2276848e57f03e0564.png

文章链接:

https://arxiv.org/pdf/2410.23168

本期文章由陈研整理

往期精彩文章推荐

b8ebf89214067f3c05490ea7fe062b5f.jpeg

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。

 0ec4cf927d73ab4013326a0d58f0b5d8.png

我知道你 

在看

提出观点,表达想法,欢迎 

留言

3f1304e0158bf2541a2f27ff17f8969d.gif

点击 阅读原文 查看更多!

相关文章:

反馈驱动、上下文学习、多语言检索增强等 | Big Model Weekly 第55期

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 01 A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution 传统方法严重依赖手动特征,无法捕捉长距离相关性,限制了其有效性。最近的研究利用预训练语言模型的…...

CF 41A.Translation(Java实现)

题目分析 根据示例千言万语一句话,reverse 思路分析 将读取的值分ab,再将b.reverse和a比较,一样就YES 代码 import java.util.*;public class Main {public static void main(String[] args) {Scanner sc new Scanner(System.in);String …...

14【学历和能力哪个更重要】

这是很多学习的人有的一个疑问,并提出想让我发表下看法,前面一直没空,我刚好完结了一个项目,最近又有时间更新图文课程了,就展开来讲讲 主流的说法有2个 1:学历重要,依据是很多公司招聘都有学历…...

Learning Vue 读书笔记 Chapter 2

2. Vue 基本工作原理 2.1 Virtual DOM 概念: DOM: DOM以内存中树状数据结构的形式,代表了网页上的HTML(或XML)文档内容。它充当了一个编程接口,将网页与实际的编程代码(如JavaScript)连接起来…...

SpringBoot支持动态更新配置文件参数

前言 博主介绍:✌目前全网粉丝3W,csdn博客专家、Java领域优质创作者,博客之星、阿里云平台优质作者、专注于Java后端技术领域。 涵盖技术内容:Java后端、大数据、算法、分布式微服务、中间件、前端、运维等。 博主所有博客文件…...

开发技巧,vue 中的动态组件的引用 component + is

在项目中很多时候有切换 tab 的场景&#xff0c;一般来说都是用 v-if 或者 v-show 然后根据各种条件来控制显示隐藏。 其实我们可以使用 vue 中的动态组件&#xff0c;也能实现这个效果 <!-- currentTab 改变时组件也改变 --> <component :is"currentTab"…...

基于SpringBoot+WebSocket的前后端连接,并接入文心一言大模型API

前言&#xff1a; 本片博客只讲述了操作的大致流程&#xff0c;具体实现步骤并不标准&#xff0c;请以参考为准。 本文前提&#xff1a;熟悉使用webSocket 如果大家还不了解什么是WebSocket&#xff0c;可以参考我的这篇博客&#xff1a; rWebSocket 详解&#xff1a;全双工…...

PSD是什么图像格式?如何把PSD转为JPG格式?

在图形设计的世界里&#xff0c;Photoshop 文档&#xff08;PSD&#xff09;格式是 Adobe Photoshop 的原生文件格式&#xff0c;它允许设计师保存图像中的图层、蒙版、透明度和不同色彩模式等信息。对于需要进一步编辑的设计作品来说&#xff0c;PSD 文件提供了极大的灵活性。…...

c语言中mysql_query的概念和使用案例

在 C 语言中&#xff0c;使用 MySQL 数据库需要用到 MySQL C API。mysql_query() 函数是 MySQL C API 中的一个函数&#xff0c;用于执行 SQL 语句。 概念 mysql_query() 函数的原型如下&#xff1a; int mysql_query(MYSQL *mysql, const char *stmt_str)mysql&#xff1a;…...

一次端口监听正常,tcpdump无法监听到指定端口报文问题分析

tcpdump命令&#xff1a; sudo tcpdump -i ens2f0 port 6471 -XXnnvvv 下面是各个部分的详细解释&#xff1a; 1.tcpdump: 这是用于捕获和分析网络数据包的命令行工具。 2.-i ens2f0: 指定监听的网络接口。ens2f0 表示本地网卡&#xff09;&#xff0c;即计算机该指定网络接口捕…...

解决InnoDB: Failing assertion: !lock->recursive

背景&#xff1a; 在arm服务器里运行MySQL5.7.22版本 报错信息 &#xff1a; 2024-11-25T08:07:36.24182508:00 856 [Note] Multi-threaded slave statistics for channel : seconds elapsed 126; events assigned 53431297; worker queues filled over overrun level 0; …...

基于微信小程序的外卖点餐系统设计与实现ssm+论文源码调试讲解

4系统概要设计 4.1概述 本系统后台采用B/S结构(Browser/Server,浏览器/服务器结构)和基于Web服务两种模式&#xff0c;是一个适用于Internet环境下的模型结构。只要用户能连上Internet,便可以在任何时间、任何地点使用。系统工作原理图如图4-1所示&#xff1a; 图4-1系统工作原…...

Helm Chart 实现 Kubernetes 应用的多环境部署与镜像更新

在现代软件开发中,通常需要将应用部署到多个环境(如开发环境、测试环境、生产环境),并且在不同环境中使用不同的配置和镜像版本。Helm Chart 提供了强大的模板化和参数化功能,可以轻松实现多环境部署和镜像更新。本文将详细介绍如何使用 Helm Chart 实现 Kubernetes 应用的…...

“腾讯、钉钉、飞书” 会议开源平替,免费功能强大

在数字化时代&#xff0c;远程办公和线上协作越来越火。然而&#xff0c;市面上的视频会议工具要么贵得离谱&#xff0c;要么功能受限&#xff0c;甚至还有些在数据安全和隐私保护上让人不放心。 今天开源君给大家安利一个超棒的开源项目 - Jitsi Meet&#xff0c;这可是我在网…...

我谈区域偏心率

偏心率的数学定义 禹晶、肖创柏、廖庆敏《数字图像处理&#xff08;面向新工科的电工电子信息基础课程系列教材&#xff09;》P312 区域的拟合椭圆看这里。 Rafael Gonzalez的二阶中心矩的表达不说人话。 我认为半长轴和半短轴不等于特征值&#xff0c;而是特征值的根号。…...

思科交换机telnet配置案例

目录 1.telnet简述2.网络拓扑3.设备说明4.网络配置4.1 电脑PC ip设置4.2 网络交换机telnet配置 5.小结 1.telnet简述 Telnet是远程登录服务的一个协议&#xff0c;该协议定义了远程登录用户与服务器交互的方式。它允许用户在一台联网的计算机上登录到一个远程分时系统中&#…...

机器学习:支持向量机

支持向量机&#xff08;Support Vector Machine&#xff09;是一种二类分类模型&#xff0c;其基本模型定义为特征空间上的间隔最大的广义线性分类器&#xff0c;其学习策略便是间隔最大化&#xff0c;最终可转化为一个凸二次规划问题的求解。 假设两类数据可以被 H x : w T x…...

人工智能前沿技术进展与应用前景探究

一、引言 1.1 研究背景与意义 人工智能作为一门极具变革性的前沿技术&#xff0c;正深刻地改变着人类社会的各个层面。从其诞生之初&#xff0c;人工智能便承载着人类对智能机器的无限遐想与探索。自 20 世纪中叶起&#xff0c;人工智能踏上了它的发展征程&#xff0c;历经了…...

(一)HTTP协议 :请求与响应

前言 爬虫需要基础知识&#xff0c;HTTP协议只是个开始&#xff0c;除此之外还有很多&#xff0c;我们慢慢来记录。 今天的HTTP协议&#xff0c;会有助于我们更好的了解网络。 一、什么是HTTP协议 &#xff08;1&#xff09;定义 HTTP&#xff08;超文本传输协议&#xff…...

什么是网络爬虫?Python爬虫到底怎么学?

最近我在研究 Python 网络爬虫&#xff0c;发现这玩意儿真是有趣&#xff0c;干脆和大家聊聊我的心得吧&#xff01;咱们都知道&#xff0c;网络上的信息多得就像大海里的水&#xff0c;而网络爬虫就像一个勤劳的小矿工&#xff0c;能帮我们从这片浩瀚的信息海洋中挖掘出需要的…...

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…...

基于算法竞赛的c++编程(28)结构体的进阶应用

结构体的嵌套与复杂数据组织 在C中&#xff0c;结构体可以嵌套使用&#xff0c;形成更复杂的数据结构。例如&#xff0c;可以通过嵌套结构体描述多层级数据关系&#xff1a; struct Address {string city;string street;int zipCode; };struct Employee {string name;int id;…...

谷歌浏览器插件

项目中有时候会用到插件 sync-cookie-extension1.0.0&#xff1a;开发环境同步测试 cookie 至 localhost&#xff0c;便于本地请求服务携带 cookie 参考地址&#xff1a;https://juejin.cn/post/7139354571712757767 里面有源码下载下来&#xff0c;加在到扩展即可使用FeHelp…...

【WiFi帧结构】

文章目录 帧结构MAC头部管理帧 帧结构 Wi-Fi的帧分为三部分组成&#xff1a;MAC头部frame bodyFCS&#xff0c;其中MAC是固定格式的&#xff0c;frame body是可变长度。 MAC头部有frame control&#xff0c;duration&#xff0c;address1&#xff0c;address2&#xff0c;addre…...

R语言AI模型部署方案:精准离线运行详解

R语言AI模型部署方案:精准离线运行详解 一、项目概述 本文将构建一个完整的R语言AI部署解决方案,实现鸢尾花分类模型的训练、保存、离线部署和预测功能。核心特点: 100%离线运行能力自包含环境依赖生产级错误处理跨平台兼容性模型版本管理# 文件结构说明 Iris_AI_Deployme…...

Springcloud:Eureka 高可用集群搭建实战(服务注册与发现的底层原理与避坑指南)

引言&#xff1a;为什么 Eureka 依然是存量系统的核心&#xff1f; 尽管 Nacos 等新注册中心崛起&#xff0c;但金融、电力等保守行业仍有大量系统运行在 Eureka 上。理解其高可用设计与自我保护机制&#xff0c;是保障分布式系统稳定的必修课。本文将手把手带你搭建生产级 Eur…...

学习STC51单片机32(芯片为STC89C52RCRC)OLED显示屏2

每日一言 今天的每一份坚持&#xff0c;都是在为未来积攒底气。 案例&#xff1a;OLED显示一个A 这边观察到一个点&#xff0c;怎么雪花了就是都是乱七八糟的占满了屏幕。。 解释 &#xff1a; 如果代码里信号切换太快&#xff08;比如 SDA 刚变&#xff0c;SCL 立刻变&#…...

均衡后的SNRSINR

本文主要摘自参考文献中的前两篇&#xff0c;相关文献中经常会出现MIMO检测后的SINR不过一直没有找到相关数学推到过程&#xff0c;其中文献[1]中给出了相关原理在此仅做记录。 1. 系统模型 复信道模型 n t n_t nt​ 根发送天线&#xff0c; n r n_r nr​ 根接收天线的 MIMO 系…...

Linux 中如何提取压缩文件 ?

Linux 是一种流行的开源操作系统&#xff0c;它提供了许多工具来管理、压缩和解压缩文件。压缩文件有助于节省存储空间&#xff0c;使数据传输更快。本指南将向您展示如何在 Linux 中提取不同类型的压缩文件。 1. Unpacking ZIP Files ZIP 文件是非常常见的&#xff0c;要在 …...

论文阅读:LLM4Drive: A Survey of Large Language Models for Autonomous Driving

地址&#xff1a;LLM4Drive: A Survey of Large Language Models for Autonomous Driving 摘要翻译 自动驾驶技术作为推动交通和城市出行变革的催化剂&#xff0c;正从基于规则的系统向数据驱动策略转变。传统的模块化系统受限于级联模块间的累积误差和缺乏灵活性的预设规则。…...