当前位置: 首页 > news >正文

Nat. Mach. Intell. | 预测人工智能的未来:在指数级增长的知识网络中使用基于机器学习的链接预测

今天为大家介绍的是来自Mario Krenn团队的一篇论文。一个能够通过从科学文献中获取洞见来建议新的个性化研究方向和想法的工具,可以加速科学的进步。一个可能受益于这种工具的领域是人工智能(AI)研究,近年来科学出版物的数量呈指数级增长,这使得人类研究者难以跟上进展。在这里,作者使用AI技术来预测AI自身的未来研究方向。

1d632b39e5b492f99275751b79a2d7bc.png

科学文献的语料库以越来越快的速度增长。特别是在人工智能(AI)和机器学习(ML)领域,每个月的论文数量都在以大约23个月翻一番的速度指数级增长(见图1)。同时,AI社区正在吸纳来自数学、统计学和物理学等多个学科的多样化思想,这使得组织不同的想法和发现新的科学联系变得更具挑战性。作者设想一个计算机程序可以自动阅读、理解并对AI文献采取行动。它可以预测并提出超越个人知识和跨领域界限的有意义研究想法。如果成功,它可以极大地提高AI研究人员的生产力,开辟新的研究途径,并帮助推动该领域的进步。在这项工作中,作者着手实现通过数据驱动方法预测未来研究方向。由于新的研究想法往往来自于看似不相关概念的连接,作者将AI文献的演化模拟为一个时间网络。

1c34602c533a6828612a0975c054d21c.png
图 1

语义网络

语义网络的目标是从科学文献中提取知识,随后可以由计算机算法处理。乍看之下,这个流程的第一步可能是使用大型语言模型对每篇文章进行处理,自动提取概念及其关系。然而,这些方法在推理能力上仍然存在困难;因此,目前还不清楚这些模型如何用于识别和建议新的想法和概念组合。研究人员开创了一种替代方法,在生物化学中从科学论文中共现的概念创建语义网络。在那里,节点代表科学概念,特别是生物分子,并且当论文在其标题或摘要中提及两者时就会被链接。这个不断演化的网络捕捉了该领域的历史,并使用超级计算机模拟,提供了对科学家集体行为的洞察,并建议了更有效的研究策略。尽管从概念共现中创建语义网络只从每篇论文中提取了少量知识,但当应用于大型数据集时,它捕捉到了有意义且可操作的内容。PaperRobot通过从大型医学知识图中预测新链接,并以人类语言形式制定新想法作为论文草案,扩展了这一方法。这种方法被应用并扩展到量子物理学,通过构建一个包含6,000多个概念的语义网络。研究人员将新研究趋势和联系的预测形式化为一个ML任务,目标是识别文献中尚未共同讨论但可能在未来被调查的概念对。这个预测任务是为个性化建议新研究想法的一个组成部分。

作者将未来研究主题的预测形式化为人工智能领域中一个指数级增长的语义网络中的链接预测任务。目标是预测未来哪些尚未连接的节点,代表尚未共同研究的科学概念,将会被连接起来。链接预测在计算机科学中是一个常见问题,通过经典的度量和特征以及机器学习技术来解决。在语义网络中对研究方向进行预测的目标是向研究者提供新的想法。在某种程度上,作者希望建立一个在科学上有创造力的人工缪斯。除此之外,还可以偏向或约束模型,以提供与个别科学家的研究兴趣相关的主题建议,或者为两位科学家的跨学科合作提供合作主题。

数据的来源

f1979ffcf6a4ea8c563c8b3e517d5d78.png
图 2 

b1148850f2f5cc3dc7b13e195be096cd.png
图 3

5dbab8aa5c21b785f407b528e8f7d1e1.png
图 4

9a0e65c77f8805be39570b980d8e20ca.png
图 5

作者使用1992年到2020年在arXiv上发布的论文,在类别cs.AI、cs.LG、cs.NE和stat.ML中,创建了一个动态的语义网络。64,719个节点代表从143,000篇论文标题和摘要中提取的AI概念,这些概念是通过快速自动关键词提取(RAKE)获取的,并通过自然语言处理(NLP)技术和自定义方法进行了规范化。作者的目标是构建一个可扩展的方法,适用于任何科学领域。概念形成语义网络的节点,当概念在论文标题或摘要中共现时就会画出相互连接的边。边有基于论文发表日期的时间戳属性,常见的是概念之间有多个时间戳的边。网络是加权的,边的权重代表连接两个概念的论文数量。总的来说,这创建了一个随时间演化的语义网络,如图2所示。发布的语义网络有64,719个节点和17,892,352个独特的无向边,平均节点度为553。许多中心节点的度远远超过这个平均值,如图3所示。观察到随时间网络连通性的变化。尽管度分布仍然是重尾的,但由于流行趋势的影响,尾部内的节点顺序发生了变化。最具连接性的节点以及它们成为这样的年份包括决策树(1994年)、机器学习(1996年)、逻辑程序(2000年)、神经网络(2005年)、实验结果(2011年)、机器学习(2013年,第二次)和神经网络(2015年)。图4中的连通分量分析显示,网络随着时间的推移变得更加连通,最大的研究群体扩大了,而网络整体的连通分量的数量减少了。语义网络揭示了随时间的增加中心化,百分比更小的节点(概念)贡献了更大的边缘(概念组合)部分,如图5显示。这可能是由于AI社区对少数主导方法越来越关注,或者对术语使用的更一致。

实验部分

fc337fc6b2197798a6dc8788010427b9.png
图 6

作者展示了预测语义网络中新链接(基于2020年前的数据训练,预测2021年的研究)的各种方法,范围从纯统计学方法到带有手工制作特征(NF)的神经网络,再到不含NF的机器学习(ML)模型。结果显示在图6中,使用NF作为ML模型输入的方法获得了最高的AUC分数。没有ML的纯网络特征也具有竞争力,而纯ML方法尚未胜过那些带有NF的方法。预测至少产生三次的网络链接可以达到AUC > 0.995。

结论

作者的方法代表着向开发一个可以帮助科学家发现新的探索途径的工具迈出的关键一步。作者相信,文章中概述的想法和扩展为实现实用、个性化、跨学科的基于AI的新发现建议铺平了道路。并且坚信,这样的工具具有成为影响深远的催化剂的潜力,它将改变科学家们在各自领域内提出研究问题和协作的方式。

参考资料

Krenn, M., Buffoni, L., Coutinho, B. et al. Forecasting the future of artificial intelligence with machine learning-based link prediction in an exponentially growing knowledge network. Nat Mach Intell (2023). 

https://doi.org/10.1038/s42256-023-00735-0

相关文章:

Nat. Mach. Intell. | 预测人工智能的未来:在指数级增长的知识网络中使用基于机器学习的链接预测

今天为大家介绍的是来自Mario Krenn团队的一篇论文。一个能够通过从科学文献中获取洞见来建议新的个性化研究方向和想法的工具,可以加速科学的进步。一个可能受益于这种工具的领域是人工智能(AI)研究,近年来科学出版物的数量呈指数…...

MySQL海量数据配置优化教程

1.缓存大小调整 缓存是数据库中用于减少磁盘 I/O 操作的重要机制。通过增加缓存大小,可以减少对磁盘的访问,从而提高查询性能。 可以使用 innodb_buffer_pool_size 参数来调整 InnoDB 缓存的大小。例如,将缓存大小设置为服务器内存的 70% my…...

Mac-idea快捷键操作

–以下是程序员在Mac中常用的快捷键 弹出程序坞ctrol f3 窗口满屏,半屏 ctrol command f 切换同一个程序的窗口 command ~ 打开最小化窗口 command tab option 拷文件路径 command option c 显示隐藏文件command shift . 显示所有窗口 control 向上箭头 chrome 全屏…...

HarmonyOS脚手架:UI组件之文本和图片

前言 关于HarmonyOS脚手架,本篇是系列的第二篇,主要实现UI组件文本和图片的常见效果查看,本身功能特别的简单,其目的也是很明确,方便大家根据效果查看相关代码实现,可以很方便的进行复制使用,当…...

详细学习Pyqt5中的6种按钮

Pyqt5相关文章: 快速掌握Pyqt5的三种主窗口 快速掌握Pyqt5的2种弹簧 快速掌握Pyqt5的5种布局 快速弄懂Pyqt5的5种项目视图(Item View) 快速弄懂Pyqt5的4种项目部件(Item Widget) 快速掌握Pyqt5的6种按钮 快速掌握Pyqt5的10种容器&…...

【工具】Zotero|使用Zotero向Word中插入引用文献(2023年)

版本:Word 2021,Zotero 6.0.30 前言:两年前我找网上插入文献的方式,网上的博客提示让我去官网下个插件然后才能装,非常麻烦,导致我对Zotero都产生了阴影。最近误打误撞发现Zotero自带了Word插件&#xff0c…...

利用Python爬虫爬取豆瓣电影排名信息

可以使用第三方库Beautiful Soup和Requests来编写一个简单的爬虫,从豆瓣电影Top100页面获取信息 import requests from bs4 import BeautifulSoupdef get_douban_top100():url https://movie.douban.com/top250headers {User-Agent: Mozilla/5.0 (Windows NT 10.…...

灯光开不了了,是不是NVIDIA的问题

如果你跟我一样灯光亮度调节不了了,然后显示适配器又没有了,你看一下是不是和我这个大怨种一样把NVIDIA卸了,为了这个东西,这屏幕亮瞎我的眼镜😢😢。只需要进入官网,你就可以直接找到&#xff0…...

线性可分SVM摘记

线性可分SVM摘记 0. 线性可分1. 训练样本到分类面的距离2. 函数间隔和几何间隔、(硬)间隔最大化3. 支持向量 \qquad 线性可分的支持向量机是一种二分类模型,支持向量机通过核技巧可以成为非线性分类器。本文主要分析了线性可分的支持向量机模型,主要取自…...

LabVIEW在调用image.cpp或drawmgr.cpp因为DAbort而崩溃

LabVIEW在调用image.cpp或drawmgr.cpp因为DAbort而崩溃 出现下列问题,如何解决? 1. LabVIEW 程序因image.cpp或drawmgr.cpp中的错误而崩溃 2. 正在通过cRIO-9034运行独立的LabVIEW应用程序,但它因drawmgr.cpp中的错误而崩溃 …...

nodejs微信小程序+python+PHP贵州旅游系统的设计与实现-计算机毕业设计推荐MySQL

目 录 摘 要 I ABSTRACT II 目 录 II 第1章 绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章 相关技术 3 2.1 nodejs简介 4 2.2 express框架介绍 6 2.4 MySQL数据库 4 第3章 系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可行性:…...

WebUI自动化学习(Selenium+Python+Pytest框架)003

1.元素操作 在成功定位到元素之后,我们需要对元素进行一些操作动作。常用的元素操作动作有: (1)send_keys() 键盘动作:向浏览器发送一个内容,通常用于输入框输入内容或向浏览器发送快捷键 (2…...

python+Appium自动化:python多线程多并发启动appium服务

Python启动Appium 服务 使用Dos命令或者bat批处理来手动启动appium服务,启动效率低下。如何将启动Appium服务也实现自动化呢? 这里需要使用subprocess模块,该模块可以创建新的进程,并且连接到进程的输入、输出、错误等管道信息&…...

【计算机网络笔记】802.11无线局域网

系列文章目录 什么是计算机网络? 什么是网络协议? 计算机网络的结构 数据交换之电路交换 数据交换之报文交换和分组交换 分组交换 vs 电路交换 计算机网络性能(1)——速率、带宽、延迟 计算机网络性能(2)…...

用C++和python混合编写数据采集程序?

之前看过一篇文章,主要阐述的就是多种语言混合编写爬虫程序,结合各种语言自身优势写一个爬虫代码是否行得通?觉得挺有意思的,带着这样的问题,我尝试着利用我毕生所学写了一段C和python混合爬虫程序,目前运行…...

Android HCI日志分析案例1

案例1--蓝牙扫描设备过程分析 应用层发起搜索蓝牙设备,Android 官方提供的蓝牙扫描方式有三种,分别如下: BluetoothAdapter.startDiscovery(); //可以扫描经典蓝牙和BLE两种。BluetoothAdapter.startLeScan();//扫描低功耗蓝牙,…...

LangChain(0.0.339)官方文档四:Prompts下——prompt templates的存储、加载、组合和部分格式化

文章目录 一、 部分提示模板1.1 使用字符串值进行部分格式化(Partial with strings)1.2 使用函数进行部分格式化(Partial with functions) 二、Prompt pipelining2.1 String prompt pipelining2.2 Chat prompt pipelining 三、使用…...

鸿蒙开发笔记

最近比较火,本身也是做前端的,就抽空学习了下。对前端很友好 原视频地址:黑马b站鸿蒙OS视频 下载安装跟着视频或者文档就可以了。如果你电脑上安装的有node,但是开发工具显示你没安装,不用动咱们的node,直…...

「计算机网络」Cisco Packet Tracker计算机网络仿真器的使用

介绍 Cisco Packet Tracker:网络仿真工具,用于模拟网络配置。 (一) 配置交换机(Switch)(通过 带外管理) 带外:Out-of-Band, OOB写在前面:如何打开Console页…...

【已解决】if lock.acquire(block, timeout):KeyboardInterrupt

问题描述 Traceback (most recent call last): File "/media/visionx/monica/project/ResShift/app.py", line 134, in <module> demo.launch(shareFalse) File "/home/visionx/anaconda3/envs/ResShift/lib/python3.9/site-packages/gradio/bloc…...

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…...

基于算法竞赛的c++编程(28)结构体的进阶应用

结构体的嵌套与复杂数据组织 在C中&#xff0c;结构体可以嵌套使用&#xff0c;形成更复杂的数据结构。例如&#xff0c;可以通过嵌套结构体描述多层级数据关系&#xff1a; struct Address {string city;string street;int zipCode; };struct Employee {string name;int id;…...

React 第五十五节 Router 中 useAsyncError的使用详解

前言 useAsyncError 是 React Router v6.4 引入的一个钩子&#xff0c;用于处理异步操作&#xff08;如数据加载&#xff09;中的错误。下面我将详细解释其用途并提供代码示例。 一、useAsyncError 用途 处理异步错误&#xff1a;捕获在 loader 或 action 中发生的异步错误替…...

iOS 26 携众系统重磅更新,但“苹果智能”仍与国行无缘

美国西海岸的夏天&#xff0c;再次被苹果点燃。一年一度的全球开发者大会 WWDC25 如期而至&#xff0c;这不仅是开发者的盛宴&#xff0c;更是全球数亿苹果用户翘首以盼的科技春晚。今年&#xff0c;苹果依旧为我们带来了全家桶式的系统更新&#xff0c;包括 iOS 26、iPadOS 26…...

DockerHub与私有镜像仓库在容器化中的应用与管理

哈喽&#xff0c;大家好&#xff0c;我是左手python&#xff01; Docker Hub的应用与管理 Docker Hub的基本概念与使用方法 Docker Hub是Docker官方提供的一个公共镜像仓库&#xff0c;用户可以在其中找到各种操作系统、软件和应用的镜像。开发者可以通过Docker Hub轻松获取所…...

华为OD机试-食堂供餐-二分法

import java.util.Arrays; import java.util.Scanner;public class DemoTest3 {public static void main(String[] args) {Scanner in new Scanner(System.in);// 注意 hasNext 和 hasNextLine 的区别while (in.hasNextLine()) { // 注意 while 处理多个 caseint a in.nextIn…...

python爬虫:Newspaper3k 的详细使用(好用的新闻网站文章抓取和解析的Python库)

更多内容请见: 爬虫和逆向教程-专栏介绍和目录 文章目录 一、Newspaper3k 概述1.1 Newspaper3k 介绍1.2 主要功能1.3 典型应用场景1.4 安装二、基本用法2.2 提取单篇文章的内容2.2 处理多篇文档三、高级选项3.1 自定义配置3.2 分析文章情感四、实战案例4.1 构建新闻摘要聚合器…...

今日科技热点速览

&#x1f525; 今日科技热点速览 &#x1f3ae; 任天堂Switch 2 正式发售 任天堂新一代游戏主机 Switch 2 今日正式上线发售&#xff0c;主打更强图形性能与沉浸式体验&#xff0c;支持多模态交互&#xff0c;受到全球玩家热捧 。 &#x1f916; 人工智能持续突破 DeepSeek-R1&…...

C++八股 —— 单例模式

文章目录 1. 基本概念2. 设计要点3. 实现方式4. 详解懒汉模式 1. 基本概念 线程安全&#xff08;Thread Safety&#xff09; 线程安全是指在多线程环境下&#xff0c;某个函数、类或代码片段能够被多个线程同时调用时&#xff0c;仍能保证数据的一致性和逻辑的正确性&#xf…...

智能分布式爬虫的数据处理流水线优化:基于深度强化学习的数据质量控制

在数字化浪潮席卷全球的今天&#xff0c;数据已成为企业和研究机构的核心资产。智能分布式爬虫作为高效的数据采集工具&#xff0c;在大规模数据获取中发挥着关键作用。然而&#xff0c;传统的数据处理流水线在面对复杂多变的网络环境和海量异构数据时&#xff0c;常出现数据质…...