当前位置: 首页 > news >正文

各种LLM数据集包括SFT数据集

各种LLM数据集包括SFT数据集

  • 数集介绍和 hf上的名字
  • 对话数据生成方法
  • 交通领域数据集
  • SFT 的解释

数集介绍和 hf上的名字

通用预训练数据集 SFT datasets SFT 数据集 50万条中文ChatGPT指令Belle数据集:BelleGroup/train_0.5M_CN

100万条中文ChatGPT指令Belle数据集:BelleGroup/train_1M_CN

5万条英文ChatGPT指令Alpaca数据集:50k English Stanford Alpaca dataset

2万条中文ChatGPT指令Alpaca数据集:shibing624/alpaca-zh

69万条中文指令Guanaco数据集(Belle50万条+Guanaco19万条):Chinese-Vicuna/guanaco_belle_merge_v1.0

5万条英文ChatGPT多轮对话数据集:RyokoAI/ShareGPT52K

80万条中文ChatGPT多轮对话数据集:BelleGroup/multiturn_chat_0.8M

116万条中文ChatGPT多轮对话数据集:fnlp/moss-002-sft-data

Reward Model datasets 奖励模型数据集 原版的oasst1数据集:OpenAssistant/oasst1

2万条多语言oasst1的reward数据集:tasksource/oasst1_pairwise_rlhf_r

相关文章:

各种LLM数据集包括SFT数据集

各种LLM数据集包括SFT数据集 数集介绍和 hf上的名字对话数据生成方法交通领域数据集SFT 的解释数集介绍和 hf上的名字 通用预训练数据集 SFT datasets SFT 数据集 50万条中文ChatGPT指令Belle数据集:BelleGroup/train_0.5M_CN 100万条中文ChatGPT指令Belle数据集:BelleGrou…...

Sleuth

Sleuth 一 引言 随着服务的越来越多,对调⽤链的分析会越来越复杂。它们之间的调⽤关系也许如下图: 问题: 1:微服务之间的调⽤错综复杂,⽤户发送的请求经历那些服务,调⽤链不清楚,没有⼀ 个⾃…...

新手必看!!附源码!!STM32通用定时器输出PWM

一、什么是PWM? PWM(脉冲宽度调制)是一种用于控制电子设备的技术。它通过调整信号的脉冲宽度来控制电压的平均值。PWM常用于调节电机速度、控制LED亮度、产生模拟信号等应用。 二、PWM的原理 PWM的基本原理是通过以一定频率产生的脉冲信号&#xff0…...

静态文件鉴权

​ 静态文件鉴权的解决方案 背景介绍 XX业务系统作为BXX业务系统的孪生姐妹系统,是对BXX受理业务的强力补充系统,他允许操作员拿着IPAD,和客户约定地点上门受理业务。 因一些业务的受理,按照最新的业务规章制度,需…...

计算机视觉与机器学习D1

计算机视觉简介 技术背景 了解人工智能方向、热点 目前人工智能的技术方向有: 1、计算机视觉——计算机视觉(CV)是指机器感知环境的能力;这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。物体检测和人脸识别是其比较成功…...

layui(2.8.18)生成验证码

<!DOCTYPE html> <html> <head><meta charset"utf-8"><title>登入</title><meta name"renderer" content"webkit"><meta http-equiv"X-UA-Compatible" content"IEedge,chrome1&quo…...

MAX/MSP SDK学习05:A_GIMME方法

今天终于将A_GIMME方法部分的描述看懂了&#xff0c;上周因为太赶时间加上这文档很抽象一直没看懂。也就那么一回事&#xff0c;记录一下。 A_GIMME方法用于接收多个参数。 ①内置消息选择器传递多个参数时一定要使用A_GIMME&#xff1b; ②自定义消息选择器传递多个参数时建…...

LangChain: 类似 Flask/FastAPI 之于 Django,LangServe 就是「LangChain 自己的 FastAPI」

原文&#xff1a;LangChain: 类似 Flask/FastAPI 之于 Django&#xff0c;LangServe 就是「LangChain 自己的 FastAPI」 - 知乎 说明&#xff1a;LangServe代替 langchainserver 成为新的langchain 部署工具 官网资料&#xff1a;&#x1f99c;️&#x1f3d3; LangServe | &…...

mmdet全教程

官方给的文档一言难尽&#xff0c;网上的教程又没有从大纲到源码的完整解读&#xff0c;计划年后开个系列记录一下...

1992-2021年省市县经过矫正的夜间灯光数据(GNLD、VIIRS)

1992-2021年省市县经过矫正的夜间灯光数据&#xff08;GNLD、VIIRS&#xff09; 1、时间&#xff1a;1992-2021年3月&#xff0c;其中1992-2013年为年度数据&#xff0c;2013-2021年3月为月度数据 2、来源&#xff1a;DMSP、VIIRS 3、范围&#xff1a;分区域汇总&#xff1a…...

Guava的Retryer

Retryer类是Guava库中的一个重试工具类&#xff0c;它提供了一种在调用方法时自动重试的机制。Retryer类中的call()方法用于执行需要重试的方法&#xff0c;如果方法执行失败&#xff0c;则Retryer会根据配置的规则进行重试。Retryer类可以配置重试的次数、重试间隔时间、重试的…...

Docker实践笔记7:构建MySQL 8镜像

使用Docker构建MySQL 8镜像并运行容器 本教程将指导您使用Dockerfile构建和运行一个MySQL 8容器。让我们开始吧&#xff01; 步骤1&#xff1a;创建Dockerfile 在您的项目根目录下创建一个名为Dockerfile的文件。以下是Dockerfile的示例内容&#xff1a; # 基于最新的MySQL…...

# 学习 Prolog 和 离散逻辑的16个等价公式:一趟有趣的逻辑之旅

Prolog 的语法很奇怪,需要一些时间来适应,所以我花了点时间,想用Prolot来学习和验证离散逻辑的16组等价公式。 1. 双重否定律 (Double Negation Law) A ⇔A 首先&#xff0c;我们来看看双重否定律。在 Prolog 中&#xff0c;我们可以这样验证它&#xff1a; fun1(A,Z):-memb…...

Win11+Modelsim SE-64 10.6d搭建UVM环境

1、添加源文件及tb文件 在目录下建立文件夹&#xff0c;将DUT和Testbench添加进去&#xff0c;文件夹内容如下所示&#xff1a; 2、以《UVM实战》中的例子做简单的示例&#xff1a; 2.1 设计文件 &#xff1a;dut.sv 功能很简单&#xff0c;即将接受到的数据原封不动发送出去…...

LeetCode(32)串联所有单词的子串【滑动窗口】【困难】(含图解)

目录 1.题目2.答案3.提交结果截图4.图解 链接&#xff1a; 串联所有单词的子串 1.题目 给定一个字符串 s 和一个字符串数组 words。 words 中所有字符串 长度相同。 s 中的 串联子串 是指一个包含 words 中所有字符串以任意顺序排列连接起来的子串。 例如&#xff0c;如果 w…...

【Delphi】使用TWebBrowser执行JavaScript命令传入JSON参数执行出错解决方案

目录 一、问题背景&#xff1a; 二、实际示例&#xff1a; 三、解决方案&#xff1a; 1. Delphi 代码&#xff1a; 2. javaScript代码&#xff1a; 一、问题背景&#xff1a; 在用Delphi开发程序&#xff0c;无论是移动端还是PC端&#xff0c;都可以很方便的使用TWebBrows…...

04 if进阶

elif 否则如果 如果条件没有满足 会继续进入“否则如果”里面判断 只要满足一个条件 条件判断立即终止 chinese 100 if chinese 100:print("我们去迪士尼玩")elif chinese > 90:print("我们去朱雀森林公园")else:print("回家写作业")if n…...

2023全球数字贸易创新大赛9-12

目录 回答评委提问:先说痛点-再说怎样解决 食品安全溯源是否全流程 星火• 链网...

vue3的两个提示[Vue warn]: 关于组件渲染和函数外部使用

1. [Vue warn]: inject() can only be used inside setup() or functional components. 这个消息是提示我们&#xff0c;需要将引入的方法作为一个变量使用。以vue-store为例&#xff0c;如果我们按照如下的方式使用&#xff1a; import UseUserStore from ../../store/module…...

Ubuntu环境下基于libxl库文件使用C++实现对表格的操作

功能 表格不存在则创建后再进行操作创建sheet添加新的工作表在sheet中增加数据设置单元格样式 相关配置 下载地址&#xff1a;libxl选择 LibXL for Linux 4.2.0 i386 x64 armhf aarch64 安装配置 1&#xff0c;使用 tar zxvf 文件名.tar.gz 进行文件解压2&#xff0c;创…...

AISMM模型落地失效真相:87%失败源于“治理-工程”语义断层——附2024最新跨职能对齐检查矩阵

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;AISMM模型与AI治理框架融合的底层逻辑 AISMM&#xff08;Artificial Intelligence Service Maturity Model&#xff09;并非孤立的技术评估体系&#xff0c;而是以系统性、可演进、可审计为设计原语&a…...

从Word迁移到LaTeX:如何像处理Word一样轻松管理你的图片、表格和公式?

从Word到LaTeX的无缝迁移&#xff1a;图片、表格与公式的高效管理指南 第一次接触LaTeX的Word用户往往会感到手足无措——那些熟悉的拖拽操作和可视化工具突然变成了需要记忆的代码命令。但别担心&#xff0c;LaTeX的代码化操作实际上提供了一种更精确、更自动化的文档控制方式…...

Unity AI副驾驶Coplay:用自然语言与流水线重塑游戏开发工作流

1. 项目概述&#xff1a;Unity开发者的AI副驾驶如果你是一名Unity开发者&#xff0c;无论是独立制作人还是团队中的一员&#xff0c;肯定都经历过这样的时刻&#xff1a;为了调整一个物体的材质参数&#xff0c;在Inspector面板里反复点击&#xff1b;为了写一个简单的协程或事…...

Gemini3.1Pro:一键生成高效项目进度报告

项目经理最熟悉的一种感受&#xff0c;大概就是&#xff1a; 项目明明一直在推进&#xff0c;但到周报、月报、例会前&#xff0c;还是要花很多时间重新整理一遍。问题不在于“没有内容”&#xff0c;而在于内容分散在太多地方&#xff1a;需求文档任务看板会议纪要风险清单群聊…...

通达信缠论可视化插件终极指南:3步实现专业级技术分析

通达信缠论可视化插件终极指南&#xff1a;3步实现专业级技术分析 【免费下载链接】Indicator 通达信缠论可视化分析插件 项目地址: https://gitcode.com/gh_mirrors/ind/Indicator 你是否曾经为缠论的复杂结构而头疼&#xff1f;面对K线图中的顶底分型、笔、线段和中枢…...

企业级应用如何利用Taotoken统一管理多个AI模型API调用

企业级应用如何利用Taotoken统一管理多个AI模型API调用 1. 企业多模型管理的核心挑战 在智能应用开发过程中&#xff0c;企业常面临多个业务线需要调用不同大模型的情况。不同业务团队可能根据需求选择不同厂商的模型&#xff0c;导致API入口分散、调用标准不统一。技术团队需…...

Revelation光影包:用物理渲染技术重新定义Minecraft的视觉边界

Revelation光影包&#xff1a;用物理渲染技术重新定义Minecraft的视觉边界 【免费下载链接】Revelation An explorative shaderpack for Minecraft: Java Edition 项目地址: https://gitcode.com/gh_mirrors/re/Revelation Revelation是一款为Minecraft: Java Edition设…...

【2026实战】Go与Python Agent通信机制:gRPC与消息队列深度解析

系列第7篇:Python+Go构建企业级AI Agent实战指南(7/13) 标签: Go | Python | gRPC | RabbitMQ | 通信机制 一、开篇:双栈通信的核心挑战 Python负责AI推理,Go负责基础设施——这是2026年的主流架构。但两者如何高效通信? 核心挑战: 性能:Python GIL限制,如何充分利…...

8088单板机时序测试(C语言版)

1.硬件2.测试程序#define ADR_273 0x0200 #define ADR_244 0x0400 #define LED_PORT 0x800 #define CS_IC4 0x400void outp(unsigned int addr, char data) // 输出一字节到I/O端口 { __asm{ mov dx, addrmov al, dataout dx, al} }char inp(unsigned int addr) // 从I/O端口…...

从入门到精通:2026年大模型系统学习路线(小白程序员通用)

当下&#xff0c;大模型技术正加速从实验室走向产业落地&#xff0c;成为驱动AI变革的核心力量&#xff0c;无论是零基础小白、想转型的职场人&#xff0c;还是深耕技术的程序员&#xff0c;都渴望抓住这波技术浪潮。但大模型知识体系繁杂庞大&#xff0c;很多人要么被高深的理…...