当前位置: 首页 > article >正文

【数据集】多视图文本数据集

多视图文本数据集指的是包含多个不同类型或来源的信息的文本数据集。不同视图可以来源于不同的数据模式(如原始文本、元数据、网络结构等),或者不同的文本表示方法(如 TF-IDF、词嵌入、主题分布等)。这些数据集常用于多视图文本分类、文本聚类、情感分析等任务。


1. 20 Newsgroups (20NG)

  • 简介

    • 20 Newsgroups 是一个著名的文本数据集,包含 20 个不同主题的新闻组文章,涉及科技、宗教、体育等多个领域。

  • 数据规模

    • 约 20,000 篇文章,分为 20 类,每类约 1,000 篇文章。

  • 视图划分

    • 视图 1(TF-IDF 词向量):使用 TF-IDF 提取的词频特征向量。

    • 视图 2(Word2Vec 词嵌入):利用 Word2Vec 预训练模型转换成密集向量。

    • 视图 3(LDA 主题分布):使用 LDA(潜在狄利克雷分配)进行主题建模,得到文章的主题分布。

  • 适用任务

    • 多视图文本聚类、多视图分类、多模态学习。


2. Reuters-21578

  • 简介

    • Reuters-21578 是一个金融新闻数据集,包含路透社 1987 年发布的新闻稿。

  • 数据规模

    • 21,578 篇新闻,覆盖 135 个不同类别(如“贸易”、“经济”、“科技”等)。

  • 视图划分

    • 视图 1(文本内容):使用 TF-IDF 或词向量表示新闻内容。

    • 视图 2(元数据):新闻发布时间、新闻作者等信息。

    • 视图 3(类别标签):虽然是分类数据,但可用于半监督聚类。

  • 适用任务

    • 文本分类、多视图文本聚类、主题建模。


3. Amazon Reviews Multi-View Dataset

  • 简介

    • 该数据集包含亚马逊用户对商品的评论,常用于情感分析和商品推荐。

  • 数据规模

    • 数百万条商品评论,涵盖多个产品类别(如电子产品、图书、服饰等)。

  • 视图划分

    • 视图 1(评论文本):用户对产品的评论文本,TF-IDF 或 BERT 词向量表示。

    • 视图 2(评分):用户给出的 1-5 星评分(数值特征)。

    • 视图 3(商品类别):商品的分类标签,如“电子产品”或“家居用品”。

  • 适用任务

    • 多视图情感分析、用户偏好分析、个性化推荐。


4. Wikipedia Multi-View Dataset

  • 简介

    • 该数据集包含维基百科中的文章,常用于知识图谱构建和文本分类。

  • 数据规模

    • 数百万篇文章,覆盖不同领域(如科学、历史、艺术等)。

  • 视图划分

    • 视图 1(正文文本):TF-IDF 词向量或 BERT 词嵌入表示的文章内容。

    • 视图 2(超链接结构):文章之间的超链接关系,构成网络结构。

    • 视图 3(主题分布):使用 LDA 生成的主题分布。

  • 适用任务

    • 主题聚类、知识图谱构建、文本分类。


5. Twitter Multi-View Dataset

  • 简介

    • 该数据集包含推特社交媒体数据,适用于舆情分析、社交网络分析等任务。

  • 数据规模

    • 包含数百万条推文,涉及不同主题(如政治、娱乐、科技等)。

  • 视图划分

    • 视图 1(文本内容):推文的原始文本,采用 TF-IDF 或 BERT 词嵌入表示。

    • 视图 2(用户信息):用户的社交属性(关注者数量、影响力评分等)。

    • 视图 3(社交网络结构):用户之间的关注关系和互动(点赞、转发)。

  • 适用任务

    • 舆情分析、多视图社交网络聚类、热点话题检测。


6. Ohsumed Multi-View Medical Dataset

  • 简介

    • 该数据集包含医学文献,适用于医学文本分类和生物医学信息挖掘。

  • 数据规模

    • 约 343,000 篇医学文章,覆盖多个医学主题(如心血管、神经病学等)。

  • 视图划分

    • 视图 1(医学文本):使用 TF-IDF 或 BERT 表示医学摘要。

    • 视图 2(MeSH 主题标签):每篇文章的医学主题标签(如“心脏病”)。

    • 视图 3(文献引用关系):文章之间的相互引用关系,形成网络结构。

  • 适用任务

    • 医学文本分类、信息检索、临床知识挖掘。


7. Yelp Multi-View Dataset

  • 简介

    • 该数据集包含 Yelp 商户评论,适用于情感分析和商户推荐。

  • 数据规模

    • 约 600,000 条评论,覆盖 10,000+ 家商户。

  • 视图划分

    • 视图 1(评论文本):采用 TF-IDF 或 BERT 表示用户评论。

    • 视图 2(评分):用户对商户的评分(1-5 分)。

    • 视图 3(商户类别):商户的行业类别(如餐厅、酒店)。

  • 适用任务

    • 多视图情感分析、推荐系统、用户行为预测。


总结

数据集数据规模主要视图适用任务
20 Newsgroups20,000 篇新闻TF-IDF、Word2Vec、LDA文本分类、聚类
Reuters-2157821,578 篇新闻文本、元数据、类别主题建模、新闻聚类
Amazon Reviews数百万条评论文本、评分、商品类别情感分析、推荐系统
Wikipedia数百万篇文章文本、超链接、主题知识图谱、文本聚类
Twitter数百万条推文文本、用户信息、社交网络舆情分析、话题检测
Ohsumed343,000 篇医学文献医学文本、MeSH 标签、引用关系医学信息检索
Yelp600,000 条评论文本、评分、商户类别商户推荐、情感分析

后续用的时候可以来找一下。。

相关文章:

【数据集】多视图文本数据集

多视图文本数据集指的是包含多个不同类型或来源的信息的文本数据集。不同视图可以来源于不同的数据模式(如原始文本、元数据、网络结构等),或者不同的文本表示方法(如 TF-IDF、词嵌入、主题分布等)。这些数据集常用于多…...

学透Spring Boot — 007. 七种配置方式及优先级

Spring Boot 提供很多种方式来加载配置,本文我们会用Tomcat的端口号作为例子,演示Spring Boot 常见的配置方式。 几种配置方式 使用默认配置 新建一个项目什么都不配置,Spring Boot会自动配置Tomcat端口号。 启动日志 TomcatWebServer :…...

元素定位-xpath

xpath其实就是一个path(路径),一个描述页面元素位置信息的路径,相当于元素的坐标xpath基于XML文档树状结构,是XML路径语言,用来查询xml文档中的节点。 绝对定位 从根开始找--/(根目录)/html/body/div[2]/div/form/div[5]/button缺…...

【youcans论文精读】弱监督深度检测网络(Weakly Supervised Deep Detection Networks)

欢迎关注『youcans论文精读』系列 本专栏内容和资源同步到 GitHub/youcans 【youcans论文精读】弱监督深度检测网络 WSDDN 0. 弱监督检测的开山之作0.1 论文简介0.2 WSDNN 的步骤0.3 摘要 1. 引言2. 相关工作3. 方法3.1 预训练网络3.2 弱监督深度检测网络3.3 WSDDN训练3.4 空间…...

网络购物谨慎使用手机免密支付功能

在数字经济蓬勃发展的当下,“免密支付”成为许多人消费时的首选支付方式。 “免密支付”的存在有其合理性。在快节奏的现代生活中,时间愈发珍贵,每节省一秒都可能带来更高的效率。以日常通勤为例,上班族乘坐交通工具时&#xff0c…...

Sentinel[超详细讲解]-4

🚓 主要讲解流控模式的 三种方式中的两种: 直接、链路🚀 1️⃣ 直接模式 🚎 直接模式:对资源本身进行限流,例如对某个接口进行限流,当该接口的访问频率超过设定的阈值时,直接拒绝新的…...

【服务日志链路追踪】

MDCInheritableThreadLocal和spring cloud sleuth 在微服务架构中,日志链路追踪(Logback Distributed Tracing) 是一个关键需求,主要用于跟踪请求在不同服务间的调用链路,便于排查问题。常见的实现方案有两种&#x…...

【行测】判断推理:图形推理

> 作者:დ旧言~ > 座右铭:读不在三更五鼓,功只怕一曝十寒。 > 目标:掌握 图形推理 基本题型,并能运用到例题中。 > 毒鸡汤:有些事情,总是不明白,所以我不会坚持。早安! …...

OpenCV 图形API(12)用于计算图像或矩阵的平均值函数mean()

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 计算矩阵元素的平均值(均值)。 mean函数计算矩阵元素的平均值M,每个通道独立计算,并返回该值。 …...

Oracle触发器使用(一):DML触发器

Oracle触发器使用(一):DML触发器 DML触发器条件谓词触发器INSTEAD OF DML触发器复合DML触发器Oracle数据库中的触发器(Trigger)本质上也是PL/SQL代码,触发器可以被Enable或者Disable,但是不能像存储过程那样被直接调用执行。 触发器不能独立存在,而是定义在表、视图、…...

3D模型给可视化大屏带来了哪些创新,都涉及到哪些技术栈。

一、3D 模型给可视化大屏带来的创新 更直观的视觉体验 传统的可视化大屏主要以二维图表和图形的形式展示数据,虽然能够传达一定的信息,但对于复杂的场景和数据关系,往往难以直观地呈现。而 3D 模型可以将数据以三维立体的形式展示出来&#…...

Unity HDRP管线用ShaderGraph还原Lit,方便做拓展;

里面唯一的重点就是判断有无这张复合图,我用的是颜色判断: float Tex TexCol.r*TexCol.g*TexCol.b*TexCol.a; if(Tex 1) { IsOrNot 1; } else { IsOrNot 0; } 其他的正常解码就行,对了法线贴图孔位记得设置成normal,不然的话…...

绝缘升级 安全无忧 金能电力环保绝缘胶垫打造电力安全防护新标杆

在电力安全领域,一块看似普通的胶垫,却是守护工作人员生命安全的“第一道防线”。近年来,随着电网设备升级和环保要求趋严,传统绝缘胶垫有异味、易老化、绝缘性能不足等问题逐渐暴露。为此,金能电力凭借技术创新推出新…...

Linux命令-iotop

iotop 命令 iotop 是一个用于实时监控磁盘 I/O 活动的工具,可以显示哪些进程正在使用磁盘资源。 参数 描述 –version 显示程序版本号并退出 -h, --help 显示此帮助消息并退出 -o, --only 仅显示实际进行 I/O 操作的进程或线程 -b, --batch 非交互模式,适…...

记录 | Android getWindow().getDecorView().setSystemUiVisibility(...)设置状态栏属性

纯纯的一边开发一边学习,是小白是菜鸟,单纯的记录和学习,大神勿喷,理解有错望指正~ getWindow().getDecorView().setSystemUiVisibility(…) 该方法用于控制系统 UI(如状态栏、导航栏)的可见性…...

QTableWidget 中insertRow(0)(头插)和 insertRow(rowCount())(尾插)的性能差异

一、目的 在 Qt 的 QTableWidget 中,insertRow(0) (头插)和 insertRow(rowCount())(尾插)在性能上存在显著差异。 二、QAbstractItemModel:: insertRows 原文解释 QAbstractItemModel Class | Qt Core 5.15.18 AI 解…...

用nodejs连接mongodb数据库对标题和内容的全文本搜索,mogogdb对文档的全文本索引的设置以及用node-rs/jieba对标题和内容的分词

//首先我们要在Nodejs中安装 我们的分词库node-rs/jieba,这个分词不像jieba安装时会踩非常多的雷,而且一半的机率都是安装失败,node-rs/jieba比jieba库要快20-30%;安装分词库是为了更好达到搜索的效果 这个库直接npm install node-rs/jieba即…...

【万字总结】前端全方位性能优化指南(完结篇)——自适应优化系统、遗传算法调参、Service Worker智能降级方案

前言 自适应进化宣言 当监控网络精准定位病灶,真正的挑战浮出水面:系统能否像生物般自主进化? 五维感知——通过设备传感器实时捕获环境指纹(如地铁隧道弱光环境自动切换省电渲染) 基因调参——150个性能参数在遗传算…...

不绕弯地解决文件编码问题,锟斤拷烫烫烫

安装python对应库 pip install chardet 检测文件编码 import chardet# 检测文件编码 file_path rC:\Users\AA\Desktop\log.log # 这里放文件和文件绝对路径 with open(file_path, rb) as f:raw_data f.read(100000) # 读取前10000个字节result chardet.detect(raw_data)e…...

高密度任务下的挑战与破局:数字样机助力火箭发射提效提质

2025年4月1日12时,在酒泉卫星发射中心,长征二号丁运载火箭顺利升空,成功将一颗卫星互联网技术试验卫星送入预定轨道,发射任务圆满完成。这是长征二号丁火箭的第97次发射,也是长征系列火箭的第567次发射。 执行本次任务…...

QT Quick(C++)跨平台应用程序项目实战教程 6 — 弹出框

目录 1. Popup组件介绍 2. 使用 上一章内容完成了音乐播放器程序的基本界面框架设计。本小节完成一个简单的功能。单击该播放器顶部菜单栏的“关于”按钮,弹出该程序的相关版本信息。我们将使用Qt Quick的Popup组件来实现。 1. Popup组件介绍 Qt 中的 Popup 组件…...

【面试篇】Es

基础概念类 问题:请简要介绍 Elasticsearch 是什么,它的主要特点有哪些? 答案:Elasticsearch 是一个基于 Lucene 库的开源分布式搜索引擎和分析引擎。它能对海量数据进行实时搜索与分析,被广泛应用于日志分析、全文搜…...

KisFlow-Golang流式实时计算案例(四)-KisFlow在消息队列MQ中的应用

Golang框架实战-KisFlow流式计算框架专栏 Golang框架实战-KisFlow流式计算框架(1)-概述 Golang框架实战-KisFlow流式计算框架(2)-项目构建/基础模块-(上) Golang框架实战-KisFlow流式计算框架(3)-项目构建/基础模块-(下) Golang框架实战-KisFlow流式计算框架(4)-数据流 Golang框…...

leetcode:1582. 二进制矩阵中的特殊位置(python3解法)

难度:简单 给定一个 m x n 的二进制矩阵 mat,返回矩阵 mat 中特殊位置的数量。 如果位置 (i, j) 满足 mat[i][j] 1 并且行 i 与列 j 中的所有其他元素都是 0(行和列的下标从 0 开始计数),那么它被称为 特殊 位置。 示…...

大型语言模型的智能本质是什么

大型语言模型的智能本质是什么 基于海量数据的统计模式识别与生成系统,数据驱动的语言模拟系统 ,其价值在于高效处理文本任务(如写作、翻译、代码生成),而非真正的理解与创造 大型语言模型(如GPT-4、Claude等)的智能本质可概括为基于海量数据的统计模式识别与生成系统,…...

linux_sysctl_fs_file_nr监控项

在 Linux 系统中,/proc/sys/fs/file-nr 文件提供了当前系统打开文件句柄的信息。如果监控到文件打开数较高,可能会影响系统性能,甚至导致无法打开新文件(达到文件句柄上限)。以下是分析和解决该问题的步骤:…...

Cline – OpenRouter 排名第一的CLI 和 编辑器 的 AI 助手

Cline – OpenRouter 排名第一的CLI 和 编辑器 的 AI 助手,Cline 官网:https://github.com/cline/cline Star 37.8k ps,OpenRouter的网址是:OpenRouter ,这个排名第一,据我观察,是DeepSeek v3…...

Mock.js虚拟接口

Vue3中使用Mock.js虚拟接口数据 一、创建项目 pnpm创建vite的项目,通过 PNPM来简化依赖管理。若还没有安装 PNPM,可以通过 npm来安装: 安装 PNPM npm install -g pnpm//使用国内镜像加速pnpm add -g pnpmlatestpnpm config set registry http://regis…...

2025年嵌入式大厂春招高频面试真题及解析

以下是 2025 年嵌入式大厂春招高频面试真题及解析,结合真题分类和核心知识点整理: 一、‌C/C++编程基础‌ ‌1.1 指针与内存‌ ‌野指针的成因及避免方法‌(未初始化、释放后未置空)‌ malloc与calloc的区别(后者自动初始化为0)‌ ‌指针与数组的区别‌(内存分配方…...

LoRa模块通信距离优化:如何实现低功耗覆盖30公里无线传输要求

在物联网(IoT)快速发展的今天,LoRa(Long Range)技术作为一种基于扩频调制的远距离无线通信技术,因其远距离通信、低功耗和强抗干扰能力等优势,在农业监测、城市智能管理、环境监测等多个领域得到…...