当前位置: 首页 > news >正文

80万条中文ChatGPT多轮对话数据集

80万条中文ChatGPT多轮对话数据集

  • 代码
  • 代码地址
  • 代码解析

代码

import json
import numpy as np
from tqdm import tqdm
import redef find_chinese_text(text):pattern = re.compile(r'[^\u4e00-\u9fff]')return pattern.sub('', text)with open("E:/data_sets/multiturn_chat_0.8M.json", "r", encoding="utf-8") as f:json_list = f.readlines()data = [json.loads(i) for i in tqdm(json_list)]
data_list = []
basic_list = ["<|User|>", "<|Ash|>"] * 100for one_data in tqdm(data):ins = one_data["instruction"]# inp=one_data["input"]out = one_data["output"]ins = np.hstack([i.split("Human:") for i in ins.split("Assistant:")])[1:-1].tolist()ins_len = len(ins)ins = np.hstack([[i, j] for i, j in zip(basic_list[:ins_len], ins)]).tolist()ins += [basic_list[ins_len], out]data_list.append(ins)
with open("data_set.txt","a",encoding="utf-8") as f:voc_set=set()for one_list in tqdm(data_list):one_data=[]for one in one_list:try:if one in ["<|User|>", "<|Ash|>"]:one_data+=[one]else:if len(find_chinese_text(one))/(len(one)+1)<0.5:one=one.split()else:one=list(one)one_data+=oneexcept:print()voc_set|=set(one_data)f.write(str(one_data)+"\n")

代码地址

数据地址

代码解析

  1. 导入需要的库:json、numpy、tqdm、re。
  2. 定义函数 find_chinese_text(),用于寻找文本中的中文字符。
  3. 使用 with 打开文件 “E:/data_sets/multiturn_chat_0.8M.json”,并逐行读取文件,将其转化为列表形式。
  4. 将读取到的json数据解析出instruction和output,并将instruction中的对话拆分成用户和Ash的对话,并将其存储到ins列表中,输出的对话存储到out列表中。
  5. 将ins列表中的对话合并成一整段对话,并在其中添加分割符 “<|User|>” 和 “<|Ash|>”。
  6. 将out列表添加到ins列表中,并将整段对话添加到data_list中。
  7. 使用 with 打开文件 “data_set.txt”,并迭代 data_list 中的每一段对话,将其中的每一个元素添加到 one_data 列表中,如果元素是 “<|User|>” 或者 “<|Ash|>”,则直接添加,否则将元素按空格分开,分开后的每个单词作为列表元素添加到 one_data 列表中。
  8. 将 one_data 列表转化为字符串,并将其写入到 “data_set.txt” 文件中。
  9. 使用 set() 函数将所有的词语添加到 voc_set 集合中,得到整个数据集中所有的单词。

相关文章:

80万条中文ChatGPT多轮对话数据集

80万条中文ChatGPT多轮对话数据集 代码代码地址代码解析 代码 import json import numpy as np from tqdm import tqdm import redef find_chinese_text(text):pattern re.compile(r[^\u4e00-\u9fff])return pattern.sub(, text)with open("E:/data_sets/multiturn_chat…...

阿里云ECS服务器如何搭建并连接FTP,完整步骤

怎么用终端连接服务器就不多说了&#xff0c;直接开始搭建FTP。 我是用root账号执行的命令&#xff0c;如果不使用root账号&#xff0c;注意在命令前面加sudo。 一、安装FTP 我这里安装的是vsftpd。 1、检查是否已安装vsftpd&#xff1a; vsftpd -v如果出现了版本信息&…...

uni-app 使用uni.getLocation获取经纬度配合腾讯地图api获取当前地址

前言 最近在开发中需要根据经纬度获取当前位置信息&#xff0c;传递给后端&#xff0c;用来回显显示当前位置 查阅uni-app文档&#xff0c;发现uni.getLocation () 可以获取到经纬度&#xff0c;但是在小程序环境没有地址信息 思考怎么把经纬度换成地址&#xff0c;如果经纬度…...

cocos2dx ​​Animate3D (一)

3D相关的动画都是继承Grid3DAction 本质上是用GirdBase进行创建动画的小块。 Shaky3D 晃动特效 // 持续时间(时间过后不会回到原来的样子) // 整个屏幕被分成几行几列 // 晃动的范围 // z轴是否晃动 static Shaky3D* create(float initWithDuration, const Size& …...

2023年最新PyCharm环境搭建教程(含Python下载安装)

文章目录 写在前面PythonPython简介Python生态圈Python下载安装 PyCharmPyCharm简介PyCharm下载安装PyCharm环境搭建 写在后面 写在前面 最近博主收到了好多小伙伴的吐槽称不会下载安装python&#xff0c;博主听到后非常的扎心&#xff0c;经过博主几天的熬夜加班&#xff0c;…...

3D火山图绘制教程

一边学习&#xff0c;一边总结&#xff0c;一边分享&#xff01; 本期教程内容 **注&#xff1a;**本教程详细内容 Volcano3D绘制3D火山图 一、前言 火山图是做差异分析中最常用到的图形&#xff0c;在前面的推文中&#xff0c;我们也推出了好几期火山图的绘制教程&#xff0…...

跳跃游戏[中等]

优质博文&#xff1a;IT-BLOG-CN 一、题目 给你一个非负整数数组nums&#xff0c;你最初位于数组的第一个下标 。数组中的每个元素代表你在该位置可以跳跃的最大长度。判断你是否能够到达最后一个下标&#xff0c;如果可以&#xff0c;返回true&#xff1b;否则&#xff0c;返…...

华为昇腾开发板共享Windows网络上网的方法

作者&#xff1a;朱金灿 来源&#xff1a;clever101的专栏 为什么大多数人学不会人工智能编程&#xff1f;>>> 具体参考文章&#xff1a;linux(内网&#xff09;通过window 上网。具体是两步&#xff1a;一是在windows上设置internet连接共享。二是打开Atlas 200I D…...

【工具栏】热部署不生效

目录 配置热部署&#xff1a; 解决热部署不生效&#xff1a; 首先检查&#xff1a; 第一步&#xff1a; 第二步&#xff1a; 第三步&#xff1a; 第四步&#xff1a; 配置热部署&#xff1a; https://blog.csdn.net/m0_67930426/article/details/133690559 解决热部署不…...

一键去水印免费网站快速无痕处理图片、视频水印

水印问题往往是一个大麻烦。即使我们只想将这些照片保留在我们的个人相册中以供怀旧&#xff0c;水印也可能像顽固的符号一样刺激我们的眼睛。为了解决这个问题&#xff0c;我们需要不断探索创新的解决方案&#xff0c;让我们深入研究一款强大的一键去水印免费网站“水印云”。…...

分片并不意味着分布式

Sharding&#xff08;分片&#xff09;是一种将数据和负载分布到多个独立的数据库实例的技术。这种方法通过将原始数据集分割为分片来利用水平可扩展性&#xff0c;然后将这些分片分布到多个数据库实例中。 1*yg3PV8O2RO4YegyiYeiItA.png 但是&#xff0c;尽管"分布"…...

Python中的函数

一、函数参数与返回值基础知识 1、不要使用可变类型&#xff08;list等&#xff09;作为参数默认值&#xff0c;用None来代替。 参数默认值只会在函数定义阶段被创建一次&#xff0c;之后无论创建多少次&#xff0c;函数内拿到的默认值都是同一个对象&#xff0c;为规避这个问…...

推荐一款png图片打包plist工具pngPackerGUI_V2.0

png图片打包plist工具&#xff0c;手把手教你使用pngPackerGUI_V2.0 此软件是在pngpacker_V1.1软件基础之后&#xff0c;开发的界面化操作软件&#xff0c;方便不太懂命令行的小白快捷上手使用。1.下载并解压缩软件&#xff0c;得到如下目录&#xff0c;双击打开 pngPackerGUI.…...

Docker快速安装Mariadb11.1

MariaDB数据库管理系统是MySQL的一个分支&#xff0c;主要由开源社区在维护&#xff0c;采用GPL授权许可 MariaDB的目的是完全兼容MySQL&#xff0c;包括API和命令行&#xff0c;使之能轻松成为MySQL的代替品。在存储引擎方面&#xff0c;使用XtraDB来代替MySQL的InnoDB。 Mari…...

CuratorFrameworkFactory.builder()方法可配置属性

CuratorFrameworkFactory.builder()方法可以配置以下属性&#xff1a; 1. connectString&#xff1a;ZooKeeper服务器的连接字符串。 2. sessionTimeoutMs&#xff1a;ZooKeeper会话超时时间。 3. connectionTimeoutMs&#xff1a;ZooKeeper连接超时时间。 4. retryPolicy&…...

鸿蒙 ark ui 轮播图实现教程

前言&#xff1a; 各位同学有段时间没有见面 因为一直很忙所以就没有去更新博客。最近有在学习这个鸿蒙的ark ui开发 因为鸿蒙不是发布了一个鸿蒙next的测试版本 明年会启动纯血鸿蒙应用 所以我就想提前给大家写一些博客文章 效果图 具体实现 我们在鸿蒙的ark ui 里面列表使…...

看不惯AI版权作品被白嫖!Stability AI副总裁选择了辞职,曾领导开发Stable Audio

近日&#xff0c;OpenAI的各种大瓜真是让人吃麻了。 而就在Sam Altmam被开除前两天&#xff0c;可能没太多人注意到Stability AI副总裁Newton—Rex因看不惯StabilityAI在版权保护上的行为选择辞职一事。 大模型研究测试传送门 GPT-4传送门&#xff08;免墙&#xff0c;可直接…...

基于Python+OpenCV+Tensorflow图像迁移的艺术图片生成系统

欢迎大家点赞、收藏、关注、评论啦 &#xff0c;由于篇幅有限&#xff0c;只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统![请添加图片描述](https://img-blog.csdnimg.cn/dbda87069fc14c24b71c1eb4224dff05.png)四. 总结 一项目简介 基于PythonOpenCVTensorfl…...

leetcode 32最长有效括号 34在排序数组中查找元素的第一个和最后一个位置

32. 最长有效括号 给你一个只包含 ( 和 ) 的字符串&#xff0c;找出最长有效&#xff08;格式正确且连续&#xff09;括号子串的长度。 示例 1&#xff1a; 输入&#xff1a;s "(()" 输出&#xff1a;2 解释&#xff1a;最长有效括号子串是 "()" 示例 2&a…...

【附代码】判断线段是否相交算法(Python,C++)

【附代码】判断线段是否相交算法&#xff08;Python&#xff0c;C&#xff09; 文章目录 【附代码】判断线段是否相交算法&#xff08;Python&#xff0c;C&#xff09;相关文献测试电脑配置基础向量旋转向量缩放向量投影推导 点乘定义推导几何意义 叉乘定义推导几何意义 判断线…...

桌游《展翅翱翔》新手入门:从规则解析到100分实战策略(含AI对战心得)

桌游《展翅翱翔》新手入门&#xff1a;从规则解析到100分实战策略&#xff08;含AI对战心得&#xff09; 第一次打开《展翅翱翔》的盒子时&#xff0c;我被那些精美的鸟类卡牌和色彩斑斓的栖息地板块深深吸引。作为一款以观鸟为主题的策略桌游&#xff0c;它巧妙地将生态知识与…...

VS Code MCP服务集成实战手册(MCP Server注册失败率下降83%的底层逻辑)

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;VS Code MCP服务集成的核心价值与演进脉络 VS Code 通过 MCP&#xff08;Model Control Protocol&#xff09;服务集成&#xff0c;实现了本地开发环境与大模型能力的深度协同。MCP 并非传统语言服务器…...

面试场景:互联网大厂Java求职者挑战与学习

面试场景&#xff1a;互联网大厂Java求职者挑战与学习 场景设定&#xff1a; 谢飞机是一位程序员&#xff0c;正在挑战一家互联网大厂的Java岗位面试。面试官严肃认真&#xff0c;谢飞机有点紧张不自信。他对简单的问题能够侃侃而谈&#xff0c;但面对复杂问题却有些词不达意。…...

如何在Mac上免费实现NTFS完美读写?Free-NTFS-for-Mac终极指南

如何在Mac上免费实现NTFS完美读写&#xff1f;Free-NTFS-for-Mac终极指南 【免费下载链接】Free-NTFS-for-Mac Nigate: An open-source NTFS utility for Mac. It supports all Mac models (Intel and Apple Silicon), providing full read-write access, mounting, and manage…...

WebGL 开发数字孪生

基于 WebGL 开发数字孪生&#xff08;Digital Twin&#xff09;项目已经从简单的“3D 可视化”演变为“全要素实时仿真控制层”。以下是开发 WebGL 数字孪生项目的完整实战流程及技术选型建议&#xff1a;1. 技术选型&#xff1a;WebGL vs WebGPU在 2026 年&#xff0c;虽然 We…...

OpCore Simplify:三步构建完美黑苹果OpenCore EFI的终极指南

OpCore Simplify&#xff1a;三步构建完美黑苹果OpenCore EFI的终极指南 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 对于渴望在PC硬件上体验macOS…...

如何快速掌握llama-cpp-python:从Python调用到多模态AI应用开发

如何快速掌握llama-cpp-python&#xff1a;从Python调用到多模态AI应用开发 【免费下载链接】llama-cpp-python Python bindings for llama.cpp 项目地址: https://gitcode.com/gh_mirrors/ll/llama-cpp-python 在人工智能快速发展的今天&#xff0c;本地部署大型语言模…...

别再折腾官方SDK了!手把手教你用这个优化版WPS Web Office V3 SDK快速集成(附Java/Solon Demo)

告别官方SDK的繁琐&#xff1a;高效集成WPS Web Office V3的实战指南 如果你正在寻找一种更简单、更高效的方式来集成WPS Web Office V3&#xff0c;那么你来对地方了。本文将带你深入了解如何利用优化版SDK快速完成集成&#xff0c;避开官方SDK的种种坑点&#xff0c;节省宝贵…...

告别卡顿与白边!深度优化Unity中Spine动画的性能与渲染效果

告别卡顿与白边&#xff01;深度优化Unity中Spine动画的性能与渲染效果 在移动游戏和UI动效领域&#xff0c;Spine动画因其骨骼动画的灵活性和高效性而广受欢迎。然而&#xff0c;许多Unity开发者在实际项目中常会遇到两个棘手问题&#xff1a;运行时性能卡顿和渲染时的白边瑕疵…...

告别受限:用ViWizard Apple Music Converter,真正拥有你喜欢的音乐

在数字音乐时代&#xff0c;Apple Music 凭借海量曲库和高品质音质&#xff0c;成为了无数人的首选。但你有没有遇到过这样的困扰&#xff1a;明明付了会员费&#xff0c;下载好的歌曲一旦停止续费&#xff0c;就全部变成灰色无法播放&#xff1b;或者想在朋友的智能音箱、旧款…...