当前位置：首页 > article >正文

张岳教授：语言模型推理与泛化研究 | ICLR 2025 特邀报告与团队专场

article 2026/3/25 18:51:05

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

AITIME

ICLR 2025预讲会特邀报告

AITIME

ICLR 2025预讲会西湖大学张岳老师实验室专场

AI生成文本的自动化检测

Glimpse: Enabling White-Box Methods to Use Proprietary Models for Zero-Shot LLM-Generated Text Detection

鲍光胜，张岳实验室博士生（2022级）

时间：3月4日10:00-10:15

简介：

先进的大型语言模型能够生成几乎与人类撰写的文本无法区分的内容，这使得自动、准确地检测AI生成文本变得非常重要。然而，目前的检测技术面临一个很大的挑战：白盒检测方法检测能力很强，但由于方法需要使用模型的预测分布，只能使用能力相对较弱的开源模型；而黑盒检测方法虽然能使用能力较强的私有模型（如gpt-4），但因为这类方法本身的缺陷，其检测能力并不强。由于私有模型只能通过API访问，无法提供完整的预测分布或内部嵌入，使得让白盒方法使用私有模型实现强强联手看起来似乎不可能。为解决这一难题，我们提出了Glimpse，一种概率分布估计方法，从API返回的部分观察中，预测恢复完整分布，从而成功地将多种白盒方法扩展到最新的私有模型上。实验表明，Glimpse结合Fast-DetectGPT方法和GPT-3.5模型，在五个最新大模型生成的语料上，实现了约95%的检测准确率，相较于开源模型基线将检测准确率相对提高了51%。我们的研究表明最新的大模型可以有效检测自己的输出，展示先进的大模型本身就是抵御它们自身风险的最佳护盾。

论文地址：

https://arxiv.org/pdf/2412.11506

代码地址：

https://github.com/baoguangsheng/glimpse

CycleResearcher: 通过自动化审稿提升自动化研究

CycleResearcher: Improving Automated Research via Automated Review

翁诣轩，张岳实验室访问学生

时间：3月4日10:15-10:30

简介：

本文探讨了利用开源大语言模型（LLMs）实现科研全流程自动化的可行性，提出了一种结合研究生成与自动化评审的迭代强化学习框架。该框架包含两个核心组件：CycleResearcher作为策略模型，负责文献综述、实验设计及论文撰写；CycleReviewer作为奖励模型，模拟同行评审过程，通过强化学习提供反馈以优化研究输出。研究构建了Review-5k（包含论文评审数据）和Research-14k（涵盖机器学习领域论文全文及大纲）两个新数据集，支持模型训练与评估。实验结果表明，CycleReviewer在预测论文得分上较个体人类评审者平均绝对误差（MAE）降低26.89%，显示出其在评审支持中的潜力；CycleResearcher生成的论文在模拟评审中得分为5.36，较会议录用论文（5.69）仍有改进空间。研究还设计了AI生成内容检测工具（准确率超95%），并强调伦理规范，倡导透明披露AI参与以维护学术诚信。该工作为AI驱动的自动化科研提供了新思路，同时兼顾了技术创新与学术责任。

大语言模型的个性化对齐

Personality Alignment of Large Language Models

朱敏郡，张岳实验室博士生（2023级）

时间：3月4日10:30-10:45

简介：

本文提出了一种名为“人格对齐”的创新方法，旨在解决大型语言模型（LLMs）在个性化交互中的局限性。传统模型通常基于普世人类价值观对齐，而本研究强调从个体差异出发，通过心理学测评工具量化用户特性。研究者构建了涵盖32万真实用户的PAPI数据集，包含正面的“大五人格”（开放性、尽责性、外向性、宜人性、神经质）和负面的“黑暗三联征”（马基雅维利主义、自恋、心理变态）双重评估体系，首次实现了语言模型在健康与病态人格维度的全面校准。针对个性化数据稀缺和计算效率挑战，团队开发了无需训练的“人格激活搜索”（PAS）方法。该方法通过识别关键注意力头并定向调整激活向量，在保持模型参数不变的前提下，仅需传统方法1/6的优化时间即可实现精准对齐。实验表明，PAS在Llama-3等模型上的对齐效果显著优于DPO、PPO等主流方法，甚至在部分指标上超越GPT-4。研究还揭示了人格对齐对复杂推理能力的正向影响，如提升尽责性可使模型数学解题准确率提高0.68个百分点。这项工作为构建真正个性化的AI系统提供了新范式。

论文地址：

https://openreview.net/pdf?id=0DZEs8NpUH

代码地址：

https://github.com/zhu-minjun/PAlign

NovelQA：对超过20万个tokens的文档进行基准问答

NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens

王存翔，张岳实验室2019级博士生

时间：3月4日10:45-11:00

简介：

为了引导和评测大模型的这种能力，我们基于几十本长篇英文小说，标注了几千条需要大模型从小说各个角落获取信息并进行复杂推理的问答题，比如“主教请JearValiean吃饭的时候桌上点了几根蜡烛”这种给别人转述故事的时候人家追问100次你都不会讲到的细节，还有比如“马德兰市长在小说开头马车下救的人在书中间跟Jean Valiean的名字有什么关系”这种转了很多章节和人物关系的问题。并且为了防止数据的泄漏，我们只在网上开源题目，而不开源答案，而让参与者通过CodaBench提交他们的回答并且算分。

论文地址：

https://openreview.net/forum?id=uMEsKEiB7J

AITIME

观看地址

进入Bilibili直播间观看，

提问有可能会被选中由讲者回答！

欢迎关注AITIME论道 Bilibili 观看更多讲者回放！

AITIME

加入群聊

添加"AI TIME小助手"，发送“ICLR”，

将拉您进“AI TIME 交流群”！

往期精彩活动推荐

CVPR 2025结果出炉｜一作讲者已开启招募，欢迎新老朋友来预讲会相聚！

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了2000多位海内外讲者，举办了逾700场活动，超800万人次观看。

我知道你

在看

提出观点，表达想法，欢迎

留言

点击 阅读原文 进入直播间！

张岳教授：语言模型推理与泛化研究 | ICLR 2025 特邀报告与团队专场

相关文章：

张岳教授：语言模型推理与泛化研究 | ICLR 2025 特邀报告与团队专场

离散傅里叶变换（Discrete Fourier Transform, DFT）及其在图像处理中的应用

记一次误禁用USB导致键盘鼠标失灵的修复过程

Apache nifi demo 实验

Leetcode 57-插入区间

SpringCloud之Eureka、Ribbon、OpenFeign

如何在MacOS 10.15上安装Docker Desktop

Moticon智能鞋垫传感器OpenGo：经济实用的运动科学研究与临床评估工具

打造高清3D虚拟世界|零基础学习Unity HDRP高清渲染管线（第一天）

nlp第十节——LLM相关

Flutter管理项目实战

智能差旅管理新范式：MyAgent如何重塑企业差旅全流程自动化

PostgreSQL 生产环境升级指南：pg_upgrade 快速完成版本升级！

UniApp 中封装 HTTP 请求与 Token 管理（附Demo）

@update 的常见用法 Vue.js

基于开源库编写MQTT通讯

基于springboot+vue美食与健康分享推广网站

React面试葵花宝典之二

计算机毕业设计SpringBoot+Vue.js装饰工程管理系统(源码+文档+PPT+讲解)

从波士顿动力到Figure AI：探寻人工智能驱动的机器人智能化

华为 VRP 系统简介配置SSH,TELNET远程登录

Token相关设计

【计算机网络入门】初学计算机网络（九）

xss笔记与打靶(更新中)

Lumoz Chain正式上线：AI 时代的新算力破局者

sql调优:优化响应时间(优化sql) ；优化吞吐量

Linux常见操作命令

2020最新Java面试题

递归遍历目录和普通文件的复制 [Java EE]

批量设置 Word 样式，如字体信息、段落距离、行距、页边距等信息