反馈驱动、上下文学习、多语言检索增强等 | Big Model Weekly 第55期
点击蓝字

关注我们
AI TIME欢迎每一位AI爱好者的加入!
01
A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution
传统方法严重依赖手动特征,无法捕捉长距离相关性,限制了其有效性。最近的研究利用预训练语言模型的文本嵌入,但需要在标记数据上进行大量微调,这带来了数据依赖和可解释性有限的挑战。大型语言模型(LLMs)凭借其深度推理能力和保持长距离文本关联的能力,提供了一种有前景的替代方案。本研究探索了预训练LLMs在单次作者归属中的潜力,特别是利用贝叶斯方法和LLMs的概率输出。该方法计算文本蕴含作者以往作品的概率,反映了对作者身份更细致的理解。仅使用预训练模型如Llama-3-70B,本研究在IMDb和博客数据集上的结果显示,在十位作者的单次作者分类中达到了85%的准确率。这些发现为使用LLMs进行单次作者分析设定了新的基准,并扩大了这些模型在法医语言学中的应用范围。本研究还包括广泛的消融研究来验证该方法。





文章链接:
https://arxiv.org/pdf/2410.21716
02
FALCON: Feedback-driven Adaptive Long/short-term memory reinforced Coding Optimization system
最近,大型语言模型(LLMs)在自动化代码生成方面取得了显著进展。尽管这些模型具有强大的指令遵循能力,但在编码场景中常常难以与用户意图保持一致。特别是由于数据集缺乏多样性,未能涵盖专业任务或边缘情况,导致模型在生成精准且符合人类意图的代码时遇到困难。此外,监督式微调(SFT)和基于人类反馈的强化学习(RLHF)中的挑战,也使得生成的代码无法精准对齐人类意图。为应对这些挑战并提升自动化编程系统的代码生成性能,本文提出了反馈驱动的自适应长短时记忆强化编码优化方法(即FALCON)。FALCON分为两个层级结构,从全局层面来看,长期记忆通过保留和应用已学知识来提升代码质量;从局部层面来看,短期记忆则允许将编译器和人工智能系统的即时反馈纳入其中。此外,本文引入了带有反馈奖励的元强化学习来解决全局 - 局部双层优化问题,增强模型在多样化代码生成任务中的适应性。本研究进行了大量实验,结果表明该技术达到了最先进的性能,在MBPP基准测试中比其他强化学习方法高出4.5个百分点,在Humaneval基准测试中高出6.1个百分点。





文章链接:
https://arxiv.org/pdf/2410.21349
03
Improving In-Context Learning with Small Language Model Ensembles
大型语言模型(LLMs)在各种任务中都展现出了令人印象深刻的性能,但在特定领域的任务上表现仍然有限。虽然检索增强生成和微调等方法可以帮助解决这一问题,但它们需要大量资源。在上下文学习(ICL)是一种廉价且高效的选择,但无法与先进方法的准确性相匹敌。本文提出了Ensemble SuperICL,这是一种新颖的方法,通过利用多个经过微调的小型语言模型(SLMs)的专业知识来增强ICL。Ensemble SuperICL在几个自然语言理解基准测试中取得了最先进的(SoTA)结果。此外,作者还在一个医学领域的标注任务上对其进行了测试,并通过使用在一般语言任务上微调的现成SLMs,展示了其实用性,在大规模数据标注中比所有基线方法都取得了更高的准确性。最后,作者进行了消融研究和敏感性分析,以阐明Ensemble SuperICL的潜在机制。本研究为LLMs中日益增长的高效领域专业化方法的需求做出了贡献,为从业者提供了一种廉价且有效的方法。




文章链接:
https://arxiv.org/pdf/2410.21868
04
ProMoE: Fast MoE-based LLM Serving using Proactive Caching
大型语言模型的有前景的应用常常受到边缘设备上有限的GPU内存容量的限制。混合专家(MoE)模型通过在计算过程中仅激活模型参数的一个子集来缓解这一问题,允许未使用的参数被卸载到主机内存中,从而降低整体GPU内存需求。然而,现有的基于缓存的卸载解决方案是被动处理缓存未命中,并且显著影响系统性能。本文提出了PRoMoE,这是一种新颖的主动缓存系统,它利用中间模型结果来预测后续参数的使用情况。通过提前主动获取专家,PRoMoE将加载时间从关键路径中移除,并减少了卸载的性能开销。评估结果表明,与现有卸载解决方案相比,PRoMoE在预填充阶段和解码阶段分别实现了平均2.13倍和2.84倍的速度提升。






文章链接:
https://arxiv.org/pdf/2410.22134
05
Not All Languages are Equal: Insights into Multilingual Retrieval-Augmented Generation
检索增强语言模型(RALMs)通过整合外部文本资源来拓展其知识范围。然而,全球知识的多语言特性要求RALMs能够处理多种语言,这一主题目前研究较少。本研究提出了Futurepedia,这是一个精心设计的基准测试,包含八种代表性语言的平行文本。作者使用该基准测试评估了六种多语言RALMs,以探索多语言RALMs面临的挑战。实验结果揭示了语言不平等现象:1)高资源语言在单语知识提取方面表现突出;2)印欧语系语言促使RALMs直接从文档中提供答案,缓解了跨语言表达答案的挑战;3)英语受益于RALMs的选择偏差,在多语言知识选择中更具影响力。基于这些发现,作者为改进多语言检索增强生成提供了建议。对于单语知识提取,必须谨慎关注将低资源语言翻译成高资源语言时的级联错误。在跨语言知识传递中,鼓励RALMs在不同语言的文档中提供答案可以提高传递性能。对于多语言知识选择,纳入更多非英语文档并重新定位英语文档有助于减轻RALMs的选择偏差。通过全面的实验,本研究强调了多语言RALMs所固有的复杂性,并为未来研究提供了有价值的见解。





文章链接:
https://arxiv.org/pdf/2410.21970
06
On Memorization of Large Language Models in Logical Reasoning
大型语言模型(LLMs)在具有挑战性的推理基准测试中表现出色,但也可能会犯一些基本的推理错误。这种矛盾的行为在理解LLMs推理能力背后的机制时令人困惑。一种假设是,LLMs在常见推理基准测试中日益提高且几乎饱和的性能可能是由于对类似问题的记忆。本文通过使用基于“骑士与无赖”(Knights and Knaves,简称K&K)谜题的动态生成逻辑推理基准测试,对这一假设进行了系统的定量记忆测量研究。研究发现,经过微调后,LLMs能够内插训练谜题(几乎达到完美准确率),但当这些谜题稍作扰动时,模型就会失败,这表明模型在解决这些训练谜题时严重依赖记忆。另一方面,研究表明,尽管微调导致了大量记忆,但也始终提高了泛化性能。通过扰动测试、跨难度级别的可转移性分析、探测模型内部结构以及使用错误答案进行微调等深入分析表明,尽管存在训练数据记忆,LLMs仍然学会了对K&K谜题进行推理。这一现象表明,LLMs在记忆和真正的推理能力之间表现出复杂的相互作用。最后,基于每个样本的记忆分数的分析揭示了LLMs在解决逻辑谜题时如何在推理和记忆之间切换。




文章链接:
https://arxiv.org/pdf/2410.23123
07
TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters
Transformer已成为基础模型中的主导架构,因其在各个领域的出色表现。然而,扩展这些模型的巨大成本仍然是一个重大问题。这一问题主要源于其对线性投影中固定参数数量的依赖。当引入架构修改(例如,通道维度)时,通常需要从头开始重新训练整个模型。随着模型规模的持续增长,这种策略导致计算成本越来越高,变得不可持续。为了解决这一问题,本文介绍了Tokenformer,这是一种原生可扩展的架构,它不仅利用注意力机制进行输入标记之间的计算,还用于标记与模型参数之间的交互,从而增强了架构的灵活性。通过将模型参数视为标记,本文用token-parameter注意力层替换了Transformer中的所有线性投影,其中输入标记作为查询,模型参数作为键和值。这种重新表述允许逐步且高效地扩展,而无需从头开始重新训练。该模型通过逐步添加新的键值参数对,从1.24亿参数扩展到14亿参数,实现了与从头开始训练的Transformer相当的性能,同时大大降低了训练成本。





文章链接:
https://arxiv.org/pdf/2410.23168
本期文章由陈研整理
往期精彩文章推荐

关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。

我知道你
在看
提出观点,表达想法,欢迎
留言

点击 阅读原文 查看更多!
相关文章:
反馈驱动、上下文学习、多语言检索增强等 | Big Model Weekly 第55期
点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 01 A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution 传统方法严重依赖手动特征,无法捕捉长距离相关性,限制了其有效性。最近的研究利用预训练语言模型的…...
CF 41A.Translation(Java实现)
题目分析 根据示例千言万语一句话,reverse 思路分析 将读取的值分ab,再将b.reverse和a比较,一样就YES 代码 import java.util.*;public class Main {public static void main(String[] args) {Scanner sc new Scanner(System.in);String …...
14【学历和能力哪个更重要】
这是很多学习的人有的一个疑问,并提出想让我发表下看法,前面一直没空,我刚好完结了一个项目,最近又有时间更新图文课程了,就展开来讲讲 主流的说法有2个 1:学历重要,依据是很多公司招聘都有学历…...
Learning Vue 读书笔记 Chapter 2
2. Vue 基本工作原理 2.1 Virtual DOM 概念: DOM: DOM以内存中树状数据结构的形式,代表了网页上的HTML(或XML)文档内容。它充当了一个编程接口,将网页与实际的编程代码(如JavaScript)连接起来…...
SpringBoot支持动态更新配置文件参数
前言 博主介绍:✌目前全网粉丝3W,csdn博客专家、Java领域优质创作者,博客之星、阿里云平台优质作者、专注于Java后端技术领域。 涵盖技术内容:Java后端、大数据、算法、分布式微服务、中间件、前端、运维等。 博主所有博客文件…...
开发技巧,vue 中的动态组件的引用 component + is
在项目中很多时候有切换 tab 的场景,一般来说都是用 v-if 或者 v-show 然后根据各种条件来控制显示隐藏。 其实我们可以使用 vue 中的动态组件,也能实现这个效果 <!-- currentTab 改变时组件也改变 --> <component :is"currentTab"…...
基于SpringBoot+WebSocket的前后端连接,并接入文心一言大模型API
前言: 本片博客只讲述了操作的大致流程,具体实现步骤并不标准,请以参考为准。 本文前提:熟悉使用webSocket 如果大家还不了解什么是WebSocket,可以参考我的这篇博客: rWebSocket 详解:全双工…...
PSD是什么图像格式?如何把PSD转为JPG格式?
在图形设计的世界里,Photoshop 文档(PSD)格式是 Adobe Photoshop 的原生文件格式,它允许设计师保存图像中的图层、蒙版、透明度和不同色彩模式等信息。对于需要进一步编辑的设计作品来说,PSD 文件提供了极大的灵活性。…...
c语言中mysql_query的概念和使用案例
在 C 语言中,使用 MySQL 数据库需要用到 MySQL C API。mysql_query() 函数是 MySQL C API 中的一个函数,用于执行 SQL 语句。 概念 mysql_query() 函数的原型如下: int mysql_query(MYSQL *mysql, const char *stmt_str)mysql:…...
一次端口监听正常,tcpdump无法监听到指定端口报文问题分析
tcpdump命令: sudo tcpdump -i ens2f0 port 6471 -XXnnvvv 下面是各个部分的详细解释: 1.tcpdump: 这是用于捕获和分析网络数据包的命令行工具。 2.-i ens2f0: 指定监听的网络接口。ens2f0 表示本地网卡),即计算机该指定网络接口捕…...
解决InnoDB: Failing assertion: !lock->recursive
背景: 在arm服务器里运行MySQL5.7.22版本 报错信息 : 2024-11-25T08:07:36.24182508:00 856 [Note] Multi-threaded slave statistics for channel : seconds elapsed 126; events assigned 53431297; worker queues filled over overrun level 0; …...
基于微信小程序的外卖点餐系统设计与实现ssm+论文源码调试讲解
4系统概要设计 4.1概述 本系统后台采用B/S结构(Browser/Server,浏览器/服务器结构)和基于Web服务两种模式,是一个适用于Internet环境下的模型结构。只要用户能连上Internet,便可以在任何时间、任何地点使用。系统工作原理图如图4-1所示: 图4-1系统工作原…...
Helm Chart 实现 Kubernetes 应用的多环境部署与镜像更新
在现代软件开发中,通常需要将应用部署到多个环境(如开发环境、测试环境、生产环境),并且在不同环境中使用不同的配置和镜像版本。Helm Chart 提供了强大的模板化和参数化功能,可以轻松实现多环境部署和镜像更新。本文将详细介绍如何使用 Helm Chart 实现 Kubernetes 应用的…...
“腾讯、钉钉、飞书” 会议开源平替,免费功能强大
在数字化时代,远程办公和线上协作越来越火。然而,市面上的视频会议工具要么贵得离谱,要么功能受限,甚至还有些在数据安全和隐私保护上让人不放心。 今天开源君给大家安利一个超棒的开源项目 - Jitsi Meet,这可是我在网…...
我谈区域偏心率
偏心率的数学定义 禹晶、肖创柏、廖庆敏《数字图像处理(面向新工科的电工电子信息基础课程系列教材)》P312 区域的拟合椭圆看这里。 Rafael Gonzalez的二阶中心矩的表达不说人话。 我认为半长轴和半短轴不等于特征值,而是特征值的根号。…...
思科交换机telnet配置案例
目录 1.telnet简述2.网络拓扑3.设备说明4.网络配置4.1 电脑PC ip设置4.2 网络交换机telnet配置 5.小结 1.telnet简述 Telnet是远程登录服务的一个协议,该协议定义了远程登录用户与服务器交互的方式。它允许用户在一台联网的计算机上登录到一个远程分时系统中&#…...
机器学习:支持向量机
支持向量机(Support Vector Machine)是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的广义线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。 假设两类数据可以被 H x : w T x…...
人工智能前沿技术进展与应用前景探究
一、引言 1.1 研究背景与意义 人工智能作为一门极具变革性的前沿技术,正深刻地改变着人类社会的各个层面。从其诞生之初,人工智能便承载着人类对智能机器的无限遐想与探索。自 20 世纪中叶起,人工智能踏上了它的发展征程,历经了…...
(一)HTTP协议 :请求与响应
前言 爬虫需要基础知识,HTTP协议只是个开始,除此之外还有很多,我们慢慢来记录。 今天的HTTP协议,会有助于我们更好的了解网络。 一、什么是HTTP协议 (1)定义 HTTP(超文本传输协议ÿ…...
什么是网络爬虫?Python爬虫到底怎么学?
最近我在研究 Python 网络爬虫,发现这玩意儿真是有趣,干脆和大家聊聊我的心得吧!咱们都知道,网络上的信息多得就像大海里的水,而网络爬虫就像一个勤劳的小矿工,能帮我们从这片浩瀚的信息海洋中挖掘出需要的…...
反向工程与模型迁移:打造未来商品详情API的可持续创新体系
在电商行业蓬勃发展的当下,商品详情API作为连接电商平台与开发者、商家及用户的关键纽带,其重要性日益凸显。传统商品详情API主要聚焦于商品基本信息(如名称、价格、库存等)的获取与展示,已难以满足市场对个性化、智能…...
第25节 Node.js 断言测试
Node.js的assert模块主要用于编写程序的单元测试时使用,通过断言可以提早发现和排查出错误。 稳定性: 5 - 锁定 这个模块可用于应用的单元测试,通过 require(assert) 可以使用这个模块。 assert.fail(actual, expected, message, operator) 使用参数…...
华为OD机试-食堂供餐-二分法
import java.util.Arrays; import java.util.Scanner;public class DemoTest3 {public static void main(String[] args) {Scanner in new Scanner(System.in);// 注意 hasNext 和 hasNextLine 的区别while (in.hasNextLine()) { // 注意 while 处理多个 caseint a in.nextIn…...
苍穹外卖--缓存菜品
1.问题说明 用户端小程序展示的菜品数据都是通过查询数据库获得,如果用户端访问量比较大,数据库访问压力随之增大 2.实现思路 通过Redis来缓存菜品数据,减少数据库查询操作。 缓存逻辑分析: ①每个分类下的菜品保持一份缓存数据…...
CocosCreator 之 JavaScript/TypeScript和Java的相互交互
引擎版本: 3.8.1 语言: JavaScript/TypeScript、C、Java 环境:Window 参考:Java原生反射机制 您好,我是鹤九日! 回顾 在上篇文章中:CocosCreator Android项目接入UnityAds 广告SDK。 我们简单讲…...
docker 部署发现spring.profiles.active 问题
报错: org.springframework.boot.context.config.InvalidConfigDataPropertyException: Property spring.profiles.active imported from location class path resource [application-test.yml] is invalid in a profile specific resource [origin: class path re…...
C++.OpenGL (20/64)混合(Blending)
混合(Blending) 透明效果核心原理 #mermaid-svg-SWG0UzVfJms7Sm3e {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-SWG0UzVfJms7Sm3e .error-icon{fill:#552222;}#mermaid-svg-SWG0UzVfJms7Sm3e .error-text{fill…...
Git 3天2K星标:Datawhale 的 Happy-LLM 项目介绍(附教程)
引言 在人工智能飞速发展的今天,大语言模型(Large Language Models, LLMs)已成为技术领域的焦点。从智能写作到代码生成,LLM 的应用场景不断扩展,深刻改变了我们的工作和生活方式。然而,理解这些模型的内部…...
淘宝扭蛋机小程序系统开发:打造互动性强的购物平台
淘宝扭蛋机小程序系统的开发,旨在打造一个互动性强的购物平台,让用户在购物的同时,能够享受到更多的乐趣和惊喜。 淘宝扭蛋机小程序系统拥有丰富的互动功能。用户可以通过虚拟摇杆操作扭蛋机,实现旋转、抽拉等动作,增…...
uniapp 集成腾讯云 IM 富媒体消息(地理位置/文件)
UniApp 集成腾讯云 IM 富媒体消息全攻略(地理位置/文件) 一、功能实现原理 腾讯云 IM 通过 消息扩展机制 支持富媒体类型,核心实现方式: 标准消息类型:直接使用 SDK 内置类型(文件、图片等)自…...
