当前位置: 首页 > news >正文

传神社区|数据集合集第7期|法律NLP数据集合集

自从ChatGPT等大型语言模型(Large Language Model, LLM)出现以来,其类通用人工智能(AGI)能力引发了自然语言处理(NLP)领域的新一轮研究和应用浪潮。尤其是ChatGLM、LLaMA等普通开发者都能运行的较小规模LLM开源之后,业界涌现了大量基于LLM的二次微调和应用案例。

传神社区(Opencsg)旨在收集和整理与中文NLP相关的开源数据集。如果本篇文章对您有帮助,欢迎点赞与收藏~

我们也欢迎大家贡献本文未收录的开源数据集,提供对应的资源,描述与链接,感谢您的支持!

目录

1. 法律问答

      • 1.1 哈佛法学院案例语料库

      • 1.2 中文司法阅读理解数据集

      • 1.3 隐私政策问答数据集

  • 2. 法律文本摘要

    3.1 PILE法律数据集

    3.2 Fairlex评估数据集

    3.3 LexGLUE评估检索数据集

    4. 其他

    4.1 面向非结构化法律文本的spaCy pipeline和NLP模型

    4.2 罪名法务名词及分类模型

      • 2.1 英国最高法院的案例文件及其摘要数据集

      • 2.2 印度最高法院的案例文件及其摘要数据集

      • 2.3 域指导隐私政策摘要数据集

      • 2.4 美国立法自动总结语料库

      • 2.5 合同英语摘要数据集

      • 2.6 美国法律案例摘要数据集

      • 2.7 法律案件报告数据集

      • 3. 法律基准数据集

01 法律问答

1.1 哈佛法学院案例语料库

CaseHOLD:

简介:预训练语料库是通过摄取从1965年至今的整个哈佛法学院案例语料库构建的。这个语料库(37GB)的大小很大,代表了所有联邦和州法院的3,446,187个法律判决,并且比最初用于训练BERT的BookCorpus/Wikipedia语料库(15GB)的大小还要大。我们从这个语料库中随机抽取 10% 的决策作为保留集,我们用它来创建 CaseHOLD 数据集。剩下的 90% 用于预训练。

地址:https://opencsg.com/datasets/MagicAI/CaseHOLD

图片

1.2 中文司法阅读理解数据集

CJRC:

简介:中文司法阅读理解(CJRC)数据集,其中包含约10,000份文件和近50,000个带答案的问题。这些文件来自判决书,问题则由法律专家进行标注。CJRC数据集可帮助研究人员通过阅读理解技术提取要素。要素提取是法律领域的一项重要任务。

地址:https://opencsg.com/datasets/MagicAI/CJRC

图片

1.3 隐私政策问答数据集

PrivacyQA:

简介:PrivacyQA 是一个语料库,由 1750 个关于隐私政策内容的问题组成,并配有专家注释。这项工作的目标是启动该领域问答方法的开发,以解决(不切实际的)期望,即大量人口每天应该阅读许多政策。

地址:https://opencsg.com/datasets/MagicAI/PrivacyQA

02 法律文本摘要

2.1 英国最高法院的案例文件及其摘要数据集

UK-Abs :

简介:这个数据集是从英国最高法院的网站爬取的,包含了793份完整的案件文档及其对应的摘要。这些数据被分为训练集和测试集,其中693对(文档,摘要)被随机抽样作为训练数据集,剩余的100对作为测试集。

地址:https://opencsg.com/datasets/MagicAI/UK-Abs

2.2 印度最高法院的案例文件及其摘要数据集

IN-Abs:

简介:这个数据集是从印度法律信息网站爬取的,包含了7,130份完整的案件文档及其对应的摘要。这些数据被分为训练集和测试集,其中7,030对(文档,摘要)被随机抽样作为训练数据集,剩余的100对作为测试集。

地址:https://opencsg.com/datasets/MagicAI/IN-Abs

2.3 域指导隐私政策摘要数据集

Domain-Guided-Summarization-of-Privacy-Policies:

简介:本数据集提取自151家公司的隐私政策、服务条款和Cookie政策文本。要点和简明英语摘要摘自 tosdr.org。

地址:https://opencsg.com/datasets/MagicAI/Domain-Guided-Summarization-of-Privacy-Policies

2.4 美国立法自动总结语料库

BillSum:

简介:BillSum 数据集是第一个用于自动汇总美国立法的语料库。该语料库包含来自美国国会和加利福尼亚州立法机关的法案文本和人工撰写的摘要。它作为论文发表在EMNLP 2019 New Frontiers in Summarization研讨会上。

地址:https://opencsg.com/datasets/MagicAI/BillSum

图片

2.5 合同英语摘要数据集

legal_summarization :

简介:这个数据集专注于单边法律合同,如服务条款,这类合同在现代数字生活中扮演着重要角色。然而,很少有人在接受这些条款之前会阅读这些文档,因为它们通常篇幅冗长且语言复杂。为了解决这一问题,我们提出了将这些法律文档以简洁的英语进行摘要的任务,这样可以帮助用户更好地理解他们正在接受的条款。

地址:https://opencsg.com/datasets/MagicAI/legal_summarization

图片

2.6 美国法律案例摘要数据集

BVA Cases:

简介:来自美国退伍军人上诉委员会的 92 对(案例、摘要)

地址:https://www.opencsg.com/datasets/MagicAI/BVA_Cases

2.7 法律案件报告数据集

LCR

简介:包含4000个法律案例的文本语料库,用于自动摘要和引文分析。对于每份文档,我们收集标语、引文句子、引文标语和引文类别。

地址:https://www.opencsg.com/datasets/MagicAI/LCR

图片

03 法律基准数据集

3.1 PILE法律数据集

Pile of Law:

简介:我们收集了大量的法律的和行政数据。这些数据的用途有两方面:(1)汇总体现不同数据过滤规范和法律的标准的法律的和行政数据源;(2)收集一个数据集,可用于未来的法律领域语言模型预训练,这是诉诸司法举措的一个关键方向。因此,对数据源进行策划以告知:(1)法律的分析、知识或理解;(2)论点形成;(3)隐私过滤标准。像法典和法律这样的来源倾向于提供信息(1)。成绩单和法庭文件往往提供信息(2)。意见倾向于告知(1)和(3)。

地址:https://www.opencsg.com/datasets/MagicAI/pile_of_Law

图片

3.2 Fairlex评估数据集

Fairlex:

简介:我们提出了一个由四个数据集组成的基准套件,用于评估预先训练的法律语言模型的公平性,以及用于为下游任务微调它们的技术。我们的基准涵盖四个司法管辖区(欧洲理事会、美国、瑞士和中国)、五种语言(英语、德语、法语、意大利语和中文)以及五个属性(性别、年龄、国籍/地区、语言和法律领域)的公平性。在我们的实验中,我们使用几种组鲁棒微调技术评估了预训练的语言模型,并表明在许多情况下,性能组差异是活跃的,而这些技术都不能保证公平性,也不能始终如一地减轻组差异。此外,我们还对结果进行了定量和定性分析,强调了在法律NLP中开发鲁棒性方法的开放挑战。了两个数据集。

地址:https://www.opencsg.com/datasets/MagicAI/Fairlex

图片

3.3 LexGLUE评估检索数据集

LexGLUE:

简介:与 GLUE 和 SuperGLUE ( Wang et al., 2109) 一样,我们的目标之一是推动能够处理多个 NLP 任务的通用(或基础)模型,在我们的例子中是合法的 NLP 任务,可能具有有限的特定任务微调。另一个目标是为希望探索或开发法律NLP方法的NLP研究人员和从业者提供一个方便且信息丰富的切入点。考虑到这些目标,我们在 LexGLUE 中包含的数据集及其处理的任务已通过多种方式进行了简化,如下所述,以使新手和通用模型更容易解决所有任务。

地址:https://www.opencsg.com/datasets/MagicAI/LexGLUE

图片

04 其他

4.1 面向非结构化法律文本的spaCy pipeline和NLP模型

Blackstone:

简介:Blackstone 是一个 spaCy 模型和库,用于处理长格式、非结构化的法律文本。Blackstone 是英格兰和威尔士法律报告委员会研究实验室 ICLR&D 的一个实验性研究项目。

地址:https://opencsg.com/datasets/MagicAI/Blackstone

4.2 罪名法务名词及分类模型

CrimeKgAssitant:

简介:,罪名法务智能项目,内容包括856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能.

地址:https://opencsg.com/datasets/MagicAI/CrimeKgAssitant

图片

相关文章:

传神社区|数据集合集第7期|法律NLP数据集合集

自从ChatGPT等大型语言模型(Large Language Model, LLM)出现以来,其类通用人工智能(AGI)能力引发了自然语言处理(NLP)领域的新一轮研究和应用浪潮。尤其是ChatGLM、LLaMA等普通开发者都能运行的…...

完美解决Ubuntu的MySQL临时文件夹修改调整

打开终端,输入以下命令 $ sudo -i # 切换root用户 $ systemctl stop mysql.service $ mkdir /home/tmp $ chown root:root /home/tmp $ chmod 1777 /home/tmp $ gedit /etc/mysql/mysql.conf.d/mysqld.cnf以上最后一条命令执行完后,在打开的mysqld.cnf文…...

shell基础编程

初始shell 程序 语言 编程 ---------------------------------- 语言 自然语言:汉语、英语 计算机语言:c语言、c、(java php python go shell) 编译型语言 c c java 解释型语言 php python bash ​ 编译型语言:编译型语言的首先将源代码编译生成机器语言,再由机…...

近期代码报错解决笔记

1.TypeError: ‘bool’ object is not callable 想print("Type of head:", type(entity_emb[head])),结果报如下错误: 源代码: 因为 print 仍然被当作一个布尔值处理,而不是作为函数调用。这个问题的根源在于 print …...

apache设置ssl代理

<VirtualHost *:8082> ServerName localhost DocumentRoot D:\xampp\htdocs\somgl\dist #证书 SSLProtocol all -SSLv2 SSLCipherSuite DEFAULT:!EXP:!SSLv2:!DES:!IDEA:!SEED:3DES SSLEngine on SSLProxyEngine on SSLProxyVerify…...

数据库中单表的查询(select)

单表查询 所有的查找都会得到一张虚拟表 一、 最简单的查询 SELECT 123; SELECT asd; SELECT 11;二、 从表中获取数据 select 字段名,字段名 from 表名 2.1 全字段查询 SELECT sid,sname,birthday,ssex,classid FROM student; SELECT * FROM student; -- 使用*不利于s…...

Spring源码-BeanFactory类关系层级

BeanFactory 访问Spring bean容器的根接口。 这是bean容器的基本客户端视图;例如{link ListableBeanFactory}和{link org.springframework.beans.factory.config。ConfigurableBeanFactory}可用于特定目的。 这个接口是由包含许多bean定义的对象实现的&#xff0c;每个bean定义…...

Electron 结合 Selenium + chromedriver 驱动服务实现浏览器多开

背景 在调研浏览器多开的过程中&#xff0c;electron 有自带的 browserview&#xff0c;webview&#xff0c;但是上面两个受制于 electron 内核版本限制&#xff0c;升级不够灵活&#xff0c;对新版的网页支持可能不及时&#xff0c;甚至不兼容&#xff0c;必须通过发布新的客…...

手持式气象检测设备:便携科技,气象探测

一、手持式气象检测设备&#xff1a;小巧身躯&#xff0c;大能量 手持式气象检测设备&#xff0c;顾名思义&#xff0c;是一种可以手持操作的气象监测工具。它集成了温度、湿度、气压、风速风向等多种传感器&#xff0c;能够实时获取气象数据&#xff0c;并通过显示屏或手机APP…...

shell 发送邮件脚本(免密)

#!/bin/bash ENV$1 TARGET_VERSION$2 TO$3 # SMTP服务器设置 SMTP_SERVER"邮箱服务地址" SMTP_PORT"25"# 邮件信息 FROM"jenkinsy.com" SUBJECT"Deployment Status Notification" BODY$ENV"发布完成&#xff0c;版本 &#xff1a…...

Web动画(lottie篇)

一、Lottie简介 Lottie是一个库&#xff0c;可以解析使用AE制作的动画&#xff08;需要用bodymovin导出为json格式&#xff09;&#xff0c;支持web、ios、android和react native。在web侧&#xff0c;lottie-web库可以解析导出的动画json文件&#xff0c;并将其以svg或者canva…...

昇思25天学习打卡营第20天|CV-ResNet50图像分类

打卡 目录 打卡 图像分类 ResNet网络介绍 数据集准备与加载 可视化部分数据集 残差网络构建 Building Block 结构 代码实现 Bottleneck结构 代码实现 构建ResNet50网络 代码定义 模型训练与评估 可视化模型预测 重点&#xff1a;通过网络层数加深&#xff0c;感知…...

grep: /etc/mysql/my.cnf: 没有那个文件或目录

当你收到 "grep: /etc/mysql/my.cnf: 没有那个文件或目录" 的错误信息时&#xff0c;这意味着你的系统上可能没有默认的 MySQL/MariaDB 配置文件 /etc/mysql/my.cnf。MariaDB 和 MySQL 可能会使用不同的配置文件路径。下面是一些步骤来帮助你找到正确的配置文件&…...

养猫好物|宠物空气净化器是不是智商税?靠谱猫毛空气净化器推荐

宠物空气净化器是不是智商税&#xff1f;宠物空气净化器是否真有其效&#xff0c;是许多由于要不要买空气净化器养宠人心中的疑惑。作为呼吸科医生&#xff0c;我深知良好空气质量对呼吸道健康的重要性&#xff0c;因此建议所有家庭&#xff0c;尤其是养有猫狗等宠物的家庭&…...

【CPS出版】2024年智能计算与数据分析国际学术会议(ICDA 2024,9月6日-8)

为探讨数据科学和计算智能领域的关键问题&#xff0c;促进相关交流&#xff0c;2024年智能计算与数据分析国际学术会议&#xff08;ICDA 2024)将于2024年9月6日-8日在中国青岛召开。 本届会议拟邀请数据分析和计算智能领域的顶级专家、学者和产业界优秀人才&#xff0c;围绕当前…...

AutoGen框架革新:解锁新闻稿写作的新境界

前言 今天带来的仍然是AutoGen基于AssistantAgent和UserProxyAgent的例子&#xff0c;以帮助大家一起消化目前最前卫的AI应用框架。这是一个AIGC最擅长&#xff0c;因为生成新闻稿嘛&#xff0c;同时又需要利用Agent的一个常规Demo。了解LangChain的同学&#xff0c;会通过对比…...

数据结构之队列详解

1.队列的概念以及结构 队列&#xff1a;只允许在一端进行插入数据操作&#xff0c;在另一端进行删除数据操作的特殊线性表&#xff0c;队列具有先进先出FIFo(Frist in Frist out)的特性 入队列&#xff1a;进行插入才操作的一端称为队尾 出队列&#xff1a;进行删除操作的一…...

[渗透测试] 反序列化漏洞

反序列化漏洞 ​ 序列化&#xff1a;将对象的状态信息转换为可以传输或存储的形式的过程。简单的来说&#xff0c;就是将一个抽象的对象转换成可以传输的字符串 &#xff0c;以特定的形式在进行之间实现跨平台的传输。 序列化大多以字节流、字符串、json串的形式来传输。将对…...

C++ 类型转换 包括C风格的转换、static_cast、const_cast、reinterpret_cast、dynamic_cast、模板特化等

C 类型转换 包括C风格的转换、static_cast、const_cast、reinterpret_cast、dynamic_cast、模板特化等 flyfish 0. 隐式转换&#xff08;Implicit Conversions&#xff09; 隐式转换是编译器自动进行的类型转换&#xff0c;通常在需要将一个类型转换为另一个类型以匹配函数参…...

等保通过标准

等保测评&#xff0c;即信息系统安全等级保护测评&#xff0c;是国家对信息系统安全等级保护的一种评估活动。它涉及到安全管理、安全技术、安全运维等多个方面&#xff0c;旨在评定信息系统是否达到了国家设定的安全等级保护标准。等保测评的通过标准通常会根据信息系统的安全…...

Cesium1.95中高性能加载1500个点

一、基本方式&#xff1a; 图标使用.png比.svg性能要好 <template><div id"cesiumContainer"></div><div class"toolbar"><button id"resetButton">重新生成点</button><span id"countDisplay&qu…...

uni-app学习笔记二十二---使用vite.config.js全局导入常用依赖

在前面的练习中&#xff0c;每个页面需要使用ref&#xff0c;onShow等生命周期钩子函数时都需要像下面这样导入 import {onMounted, ref} from "vue" 如果不想每个页面都导入&#xff0c;需要使用node.js命令npm安装unplugin-auto-import npm install unplugin-au…...

理解 MCP 工作流:使用 Ollama 和 LangChain 构建本地 MCP 客户端

&#x1f31f; 什么是 MCP&#xff1f; 模型控制协议 (MCP) 是一种创新的协议&#xff0c;旨在无缝连接 AI 模型与应用程序。 MCP 是一个开源协议&#xff0c;它标准化了我们的 LLM 应用程序连接所需工具和数据源并与之协作的方式。 可以把它想象成你的 AI 模型 和想要使用它…...

JDK 17 新特性

#JDK 17 新特性 /**************** 文本块 *****************/ python/scala中早就支持&#xff0c;不稀奇 String json “”" { “name”: “Java”, “version”: 17 } “”"; /**************** Switch 语句 -> 表达式 *****************/ 挺好的&#xff…...

今日科技热点速览

&#x1f525; 今日科技热点速览 &#x1f3ae; 任天堂Switch 2 正式发售 任天堂新一代游戏主机 Switch 2 今日正式上线发售&#xff0c;主打更强图形性能与沉浸式体验&#xff0c;支持多模态交互&#xff0c;受到全球玩家热捧 。 &#x1f916; 人工智能持续突破 DeepSeek-R1&…...

爬虫基础学习day2

# 爬虫设计领域 工商&#xff1a;企查查、天眼查短视频&#xff1a;抖音、快手、西瓜 ---> 飞瓜电商&#xff1a;京东、淘宝、聚美优品、亚马逊 ---> 分析店铺经营决策标题、排名航空&#xff1a;抓取所有航空公司价格 ---> 去哪儿自媒体&#xff1a;采集自媒体数据进…...

【Oracle】分区表

个人主页&#xff1a;Guiat 归属专栏&#xff1a;Oracle 文章目录 1. 分区表基础概述1.1 分区表的概念与优势1.2 分区类型概览1.3 分区表的工作原理 2. 范围分区 (RANGE Partitioning)2.1 基础范围分区2.1.1 按日期范围分区2.1.2 按数值范围分区 2.2 间隔分区 (INTERVAL Partit…...

学习STC51单片机32(芯片为STC89C52RCRC)OLED显示屏2

每日一言 今天的每一份坚持&#xff0c;都是在为未来积攒底气。 案例&#xff1a;OLED显示一个A 这边观察到一个点&#xff0c;怎么雪花了就是都是乱七八糟的占满了屏幕。。 解释 &#xff1a; 如果代码里信号切换太快&#xff08;比如 SDA 刚变&#xff0c;SCL 立刻变&#…...

【数据分析】R版IntelliGenes用于生物标志物发现的可解释机器学习

禁止商业或二改转载&#xff0c;仅供自学使用&#xff0c;侵权必究&#xff0c;如需截取部分内容请后台联系作者! 文章目录 介绍流程步骤1. 输入数据2. 特征选择3. 模型训练4. I-Genes 评分计算5. 输出结果 IntelliGenesR 安装包1. 特征选择2. 模型训练和评估3. I-Genes 评分计…...

Unsafe Fileupload篇补充-木马的详细教程与木马分享(中国蚁剑方式)

在之前的皮卡丘靶场第九期Unsafe Fileupload篇中我们学习了木马的原理并且学了一个简单的木马文件 本期内容是为了更好的为大家解释木马&#xff08;服务器方面的&#xff09;的原理&#xff0c;连接&#xff0c;以及各种木马及连接工具的分享 文件木马&#xff1a;https://w…...