当前位置：首页 > news >正文

SimPO: Simple Preference Optimization with a Reference-Free Reward

news 2025/7/7 12:35:47

https://github.com/princeton-nlp/SimPO

简单代码

class simpo(paddle.nn.Layer):def __init__(self):super(OrPoLoss, self).__init__()self.loss = paddle.nn.CrossEntropyLoss()def forward(self,neg_logit, neg_lab, pos_logit, pos_lab,beta,gamma):neg_logit = paddle.nn.functional.log_softmax(neg_logit, -1)pos_logit = paddle.nn.functional.log_softmax(pos_logit, -1)batch_indices = paddle.arange(neg_lab.shape[0]).unsqueeze(1).tile([1, neg_lab.shape[1]])seq_indices = paddle.arange(neg_lab.shape[1]).unsqueeze(0).tile([neg_lab.shape[0], 1])indices = paddle.stack([batch_indices, seq_indices, neg_lab], axis=-1)# 使用 gather_nd 来提取对应的 logitneg_logit_selected = paddle.mean(paddle.gather_nd(neg_logit, indices),-1)# 选择标签样本batch_indices = paddle.arange(pos_lab.shape[0]).unsqueeze(1).tile([1, pos_lab.shape[1]])seq_indices = paddle.arange(pos_lab.shape[1]).unsqueeze(0).tile([pos_lab.shape[0], 1])indices = paddle.stack([batch_indices, seq_indices, pos_lab], axis=-1)# 使用 gather_nd 来提取对应的 logitpos_logit_selected = paddle.mean(paddle.gather_nd(pos_logit, indices),-1)pi_logratios = pos_logit_selected - neg_logit_selectedgamma_logratios = gamma / betalogits = pi_logratios - gamma_logratioslosses = (-paddle.nn.functional.log_sigmoid(beta * logits) * (1 - 0.3)-paddle.nn.functional.log_sigmoid(-beta * logits) * 0.3)# chosen_rewards = beta * pos_logit_selected# rejected_rewards = beta *neg_logit_selectedreturn losses.mean()

这段代码定义了一个名为simpo的类，继承自paddle.nn.Layer。在类的构造函数中，初始化了一个交叉熵损失函数loss。

forward函数是模型的前向传播函数。它接收四个参数：neg_logit，neg_lab，pos_logit，pos_lab，以及beta和gamma。其中，neg_logit和pos_logit是模型输出的负样本和正样本的预测分数，neg_lab和pos_lab是对应的标签。

在函数内部，首先对neg_logit和pos_logit使用log_softmax函数进行处理，将预测分数转换为对应类别的概率。然后，使用arange函数生成对应的索引，通过gather_nd函数提取出标签样本对应的预测概率。这里使用了mean函数计算平均值，得到负样本和正样本的选中概率。

接下来，计算pi_logratios，即正样本选中概率减去负样本选中概率。然后，计算gamma_logratios，即gamma除以beta。最后，将pi_logratios和gamma_logratios相减得到logits。

根据logits计算损失。损失的计算采用了公式(-log_sigmoid(beta * logits) * (1 - 0.3) -log_sigmoid(-beta * logits) * 0.3)，其中log_sigmoid函数是对beta * logits和-beta * logits进行log sigmoid函数的运算。最终，使用mean函数计算损失的平均值，并返回。

根据文档内容，我梳理了以下大纲：
一、引言

背景介绍：从人类反馈中学习是关键，RLHF是一种流行的方法，DPO是一种简单的离线优化算法。
问题提出：DPO存在训练和推理指标不一致的问题，可能导致次优性能。
本文贡献：提出SimPO，一个简单有效的离线偏好优化算法，通过直接将奖励函数与生成指标对齐，无需参考模型，同时引入目标奖励间隔，提高算法性能。
二、SimPO: 简单偏好优化
背景：介绍DPO算法。
简单的参考无关奖励：提出使用平均对数似然作为奖励，与生成指标对齐，无需参考模型。
SimPO目标：推导SimPO目标函数，引入目标奖励间隔。
三、实验设置
模型与训练设置：使用Llama3和Mistral进行训练，设置Base和Instruct两种。
评估基准：使用AlpacaEval 2、Arena-Hard和MT-Bench。
基准模型：与DPO、IPO、KTO、ORPO、R-DPO进行比较。
四、实验结果
SimPO在所有基准上持续显著优于其他方法。
Instruct设置引入了显著的性能提升。
SimPO的两个关键设计都很重要。
长度标准化防止了长度剥削。
目标奖励间隔对性能有影响。
SimPO优于DPO的原因分析。
五、相关研究
RLHF相关研究。
偏好优化相关研究。
六、讨论
结论。
限制与未来工作。

SimPO: Simple Preference Optimization with a Reference-Free Reward

https://github.com/princeton-nlp/SimPO 简单代码 class simpo(paddle.nn.Layer):def __init__(self):super(OrPoLoss, self).__init__()self.loss paddle.nn.CrossEntropyLoss()def forward(self,neg_logit, neg_lab, pos_logit, pos_lab,beta,gamma):neg_logit paddle.n…...

编程日记 2024/5/31 13:35:15

CDH6.3.2安装文档

前置环境： 操作系统： CentOS Linux release 7.7 java JDK ： 1.8.0_231 1、准备工作准备以下安装包： Cloudera Manager: cloudera-manager-agent-6.3.1-1466458.el7.x86_64.rpm cloudera-manager-daemons-6.3.1-1466458.el…...

编程日记 2024/5/31 13:34:14

Java实战入门：深入解析Java中的 `Arrays.sort()` 方法

文章目录一、方法定义参数说明返回值二、使用场景三、实现原理四、示例代码示例一：对整型数组排序示例二：对字符串数组排序示例三：对自定义对象数组排序五、注意事项六、总结在Java编程中，Arrays.sort() 方法是一个非常常用的…...

编程日记 2024/5/31 13:33:13

JavaScript的垃圾回收机制

No.内容链接1Openlayers 【入门教程】 - 【源代码示例300】 2Leaflet 【入门教程】 - 【源代码图文示例 150】 3Cesium 【入门教程】 - 【源代码图文示例200】 4MapboxGL【入门教程】 - 【源代码图文示例150】 5前端就业宝典【面试题详细答案 1000】文章目录一、垃圾…...

编程日记 2024/5/31 13:32:11

小程序使用Canvas设置文字竖向排列

在需要使用的js页面引入js文件,传入对应参数即可 /** * 文本竖向排列 */ function drawTextVertical(context, text, x, y) {var arrText text.split();var arrWidth arrText.map(function (letter) {return 26; // 字体间距,需要自定义可以自己加参数,根据传入参数进行…...

编程日记 2024/5/31 13:31:10

GPT-4o：重塑人机交互的未来

一个愿意伫立在巨人肩膀上的农民...... 一、推出在人工智能（AI）领域，自然语言处理（NLP）技术一直被视为连接人类与机器的桥梁。近年来，随着深度学习技术的快速发展，NLP领域迎来了前所未有的变革…...

编程日记 2024/5/31 13:30:09

大语言模型拆解——Tokenizer

1. 认识Tokenizer 1.1 为什么要有tokenizer？ 计算机是无法理解人类语言的，它只会进行0和1的二进制计算。但是呢，大语言模型就是通过二进制计算，让你感觉计算机理解了人类语言。举个例子：单1，双2&#x…...

编程日记 2024/5/31 13:26:05

Linux自动挂载服务autofs讲解

1.产生原因 2.配置文件讲解总结：配置客户端，先构思好要挂载的目录如：/abc/cb 然后在autofs.master中编辑： /abc（要挂载的主目录） /etc/qwe（在这个文件里去找要挂载的副目录，这个名…...

编程日记 2024/5/31 13:24:03

堆结构知识点复习——玩转堆结构

前言:堆算是一种相对简单的数据结构， 本篇文章将详细的讲解堆中的知识点， 包括那些我们第一次学习堆的时候容易忽略的内容， 本篇文章会作为重点详细提到。本篇内容适合已经学完C语言数组和函数部分的友友们观看。目录什么是堆建堆算法…...

编程日记 2024/5/31 13:23:01

JS数据类型运算符标准库

目录数据类型运算符标准库对象Object对象属性描述对象Array对象包装对象Boolean对象Number对象String对象Math对象Date对象...

编程日记 2024/5/31 13:20:58

单片机之从C语言基础到专家编程 - 4 C语言基础 - 4.13数组

C语言中，有一类数据结构，它可以存储一组相同类型的元素，并且可以通过索引访问这些元素，没错，这类数据结构就是数组。数组可以说是C语言中非常重要的数据结构之一了。使用数组可以是程序逻辑更加清晰，也更加…...

编程日记 2024/5/31 13:19:58

【码银送书第二十期】《游戏运营与出海实战：策略、方法与技巧》

市面上的游戏品种繁杂，琳琅满目，它们是如何在历史的长河中逐步演变成今天的模式的呢？接下来，我们先回顾游戏的发展史，然后按照时间轴来叙述游戏运营的兴起。作者：艾小米本文经机械工业出版社授权转载&a…...

编程日记 2024/5/31 13:18:56

String 类

目录： 一. 认识 String 类二. String 类的基本用法三. String对象的比较四.字符串的不可变性五. 认识 StringBuffer 和 StringBuilder 一. 认识 String 类： 在C语言中已经涉及到字符串了，但是在C语言中要表示字符串只能使用字符数组或者…...

编程日记 2024/5/31 13:16:54

Chromebook Plus中添加了Gemini？

Chromebook Plus中添加了Gemini？ 前言就在5月29日，谷歌宣布了一项重大更新，将其Gemini人工智能技术集成到Chromebook Plus笔记本电脑中。这项技术此前已应用于谷歌的其他设备。华硕和惠普已经在市场上销售的Chromebook Plus机型，…...

编程日记 2024/5/31 13:15:53

Git Large File Storage (LFS) 的安装与使用

Git Large File Storage [LFS] 的安装与使用 1. An open source Git extension for versioning large files2. Installing on Linux using packagecloud3. Getting Started4. Error: Failed to call git rev-parse --git-dir: exit status 128References 1. An open source Git…...

编程日记 2024/5/31 13:14:52

使用国产工作流引擎，有那些好处？

使用国产工作流引擎的好处主要体现在以下几个方面： 符合企业独特业务： 国产工作流引擎可以深入挖掘和理解企业内部各项业务流程，精细化地定义流程模型和规则，实现“以流程驱动业务”的目标。这有助于企业更好地满足其独特的业务…...

编程日记 2024/5/31 13:13:51

掌握 Go 语言：使用 net/http/httptrace 包优化HTTP请求

掌握 Go 语言：使用 net/http/httptrace 包优化HTTP请求介绍net/http/httptrace 包的基础概述适用场景使用httptrace进行网络请求追踪配置httptrace的基本步骤示例：创建一个简单的HTTP客户端，使用httptrace监控连接示例：追踪HTT…...

编程日记 2024/5/31 13:10:49

探秘Flask中的表单数据处理

新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆，收藏下次不迷路┗|｀O′|┛ 嗷~~ 目录一、引言二、Flask中的表单处理机制三、Flask表单处理实战四、处理表单数据的注意事项…...

编程日记 2024/5/31 13:07:46

java —— 包装类及拆箱、装箱

java 当中有 8 种基本类型对应其相应的包装类，分别如下： intIntegerbyteByteshortShortlongLongfloatFloatdoubleDoublecharCharacterbooleanBoolean 一、装箱两种装箱方法： public static void main(String[] args) {Integer anew Inte…...

编程日记 2024/5/31 13:04:43

运算符重载(下)

目录前置和后置重载前置的实现Date& Date::operator()代码后置的实现Date Date::operator(int )代码前置--和后置--重载前置--的实现Date& Date::operator--( )代码后置--的实现Date Date::operator--(int )代码流插入运算符重载流插入运算符重载的实现流提取运算…...

编程日记 2024/5/31 13:03:42

超短脉冲激光自聚焦效应

前言与目录强激光引起自聚焦效应机理超短脉冲激光在脆性材料内部加工时引起的自聚焦效应，这是一种非线性光学现象，主要涉及光学克尔效应和材料的非线性光学特性。自聚焦效应可以产生局部的强光场，对材料产生非线性响应，可能…...

编程新知 2025/7/7 6:41:50

突破不可导策略的训练难题：零阶优化与强化学习的深度嵌合

强化学习（Reinforcement Learning, RL）是工业领域智能控制的重要方法。它的基本原理是将最优控制问题建模为马尔可夫决策过程，然后使用强化学习的Actor-Critic机制（中文译作“知行互动”机制），逐步迭代求解…...

编程新知 2025/7/5 22:47:32

蓝桥杯3498 01串的熵

问题描述对于一个长度为 23333333的 01 串, 如果其信息熵为 11625907.5798， 且 0 出现次数比 1 少, 那么这个 01 串中 0 出现了多少次? #include<iostream> #include<cmath> using namespace std;int n 23333333;int main() {//枚举 0 出现的次数//因…...

编程新知 2025/7/7 1:55:00

RSS 2025｜从说明书学习复杂机器人操作任务：NUS邵林团队提出全新机器人装配技能学习框架Manual2Skill

视觉语言模型（Vision-Language Models, VLMs），为真实环境中的机器人操作任务提供了极具潜力的解决方案。尽管 VLMs 取得了显著进展，机器人仍难以胜任复杂的长时程任务（如家具装配），主要受限于人…...

编程新知 2025/7/7 12:01:37

C++ 设计模式《小明的奶茶加料风波》

👨‍🎓 模式名称：装饰器模式（Decorator Pattern） 👦 小明最近上线了校园奶茶配送功能，业务火爆，大家都在加料： 有的同学要加波霸 🟤，有的要加椰果…...

编程新知 2025/7/5 18:08:21

MinIO Docker 部署：仅开放一个端口

MinIO Docker 部署：仅开放一个端口在实际的服务器部署中，出于安全和管理的考虑，我们可能只能开放一个端口。MinIO 是一个高性能的对象存储服务，支持 Docker 部署，但默认情况下它需要两个端口：一个是 API 端口（用于存储和访问数据），另一个是控制台端口（用于管理界面…...

编程新知 2025/6/21 15:09:46

MFE(微前端) Module Federation：Webpack.config.js文件中每个属性的含义解释

以Module Federation 插件详为例，Webpack.config.js它可能的配置和含义如下： 前言 Module Federation 的Webpack.config.js核心配置包括： name filename（定义应用标识） remotes（引用远程模块&#xff0…...

编程新知 2025/7/4 2:06:56

计算机系统结构复习-名词解释2

1.定向：在某条指令产生计算结果之前，其他指令并不真正立即需要该计算结果，如果能够将该计算结果从其产生的地方直接送到其他指令中需要它的地方，那么就可以避免停顿。 2.多级存储层次：由若干个采用不同实现技术的存储…...

编程新知 2025/6/20 12:15:02

大模型智能体核心技术：CoT与ReAct深度解析

**导读：**在当今AI技术快速发展的背景下，大模型的推理能力和可解释性成为业界关注的焦点。本文深入解析了两项核心技术：CoT（思维链）和ReAct（推理与行动），这两种方法正在重新定义大模…...

编程新知 2025/6/19 6:12:54

Redis专题-实战篇一-基于Session和Redis实现登录业务

GitHub项目地址：https://github.com/whltaoin/redisLearningProject_hm-dianping 基于Session实现登录业务功能提交版本码：e34399f 基于Redis实现登录业务提交版本码：60bf740 一、导入黑马点评后端项目项目架构图 1. 前期阶段2. 后续阶段导…...

编程新知 2025/7/5 0:22:15

简单代码

相关文章：