当前位置: 首页 > article >正文

网安加·百家讲坛 | 刘志诚:AI安全风险与未来展望

作者简介:刘志诚,乐信集团信息安全中心总监、OWASP广东区域负责人、网安加社区特聘专家。专注于企业数字化过程中网络空间安全风险治理,对大数据、人工智能、区块链等新技术在金融风险治理领域的应用,以及新技术带来的技术风险治理方面拥有丰富的理论和相关经验。

背景:人工智能安全——一个日益凸显的复杂议题

人工智能(AI)技术正以前所未有的速度渗透到社会生产生活的各个方面,从提升效率到驱动创新,其潜力巨大。

然而,伴随着AI能力的飞速发展,其潜在的安全风险也日益成为全球关注的焦点。“人工智能安全”这一概念本身就具有多重含义,通常可以从以下几个维度理解:

人工智能安全的三重含义

1. AI系统自身的网络安全(Security of AI - Infrastructure)

指AI系统在开发、部署和运营过程中,因存在安全漏洞而被攻击、利用,导致系统的机密性、完整性、可用性受到破坏。这更偏向传统网络安全视角,将AI视为需要保护的信息基础设施。

2. AI引发的广义安全风险(Safety of AI - Inherent Risks)

指AI技术本身及其应用可能带来的固有风险,包括数据驱动的风险、算法与模型风险、生成与对齐风险、应用与集成风险等。

3. 面向安全领域的人工智能应用(AI for Security)

指利用AI技术(如机器学习、深度学习、大语言模型)来提升网络防御能力,例如用于威胁检测、态势感知、安全策略优化等。

本文将重点关注前两种含义,即AI系统自身的安全防护以及AI技术固有和衍生的安全风险。

当前研究热点与焦点领域

当前,全球范围内对人工智能安全的研究高度活跃,主要聚焦于以下几个方面:

▪ 生成式AI的安全问题:作为当前热点,其鲁棒性、可靠性、可解释性、公平性、偏见、隐私保护、伦理治理以及在关键基础设施中的应用安全尤为突出。

▪ 可信人工智能:重点研究如何构建和评估可信赖的AI系统,特别是大型语言模型(LLM),包括提高透明度、增强可解释性、进行可信评估与测试。

▪ 对抗性机器学习:研究AI模型如何抵御恶意制作的输入(对抗样本)或其他旨在欺骗或破坏模型性能的攻击,并开发相应的防御策略。

▪ 数据安全与隐私保护:在AI全生命周期中,如何对数据进行分类、脱敏、保护,防止训练数据泄露敏感信息,尤其是在高质量公共数据趋于枯竭的情况下。

 AI伦理与治理:制定相应的法律法规、伦理准则、技术标准,平衡AI发展与安全,防范误用滥用,推动负责任的AI创新。

▪ AI Agent安全:随着AI Agent(智能体)技术的发展,其在感知、决策、行动环节可能带来的新风险,以及如何对其进行有效治理成为新议题。

人工智能安全风险分类

其他重要风险类型

1. 滥用与误用风险(Abuse & Misuse Risk)

AI技术可能被有意(滥用)或无意(误用)地用于有害目的,如生成虚假信息、进行网络攻击、侵犯版权等。

2. 失控风险(Loss of Control Risk)

AI系统行为和影响超出预期范围,在极端情况下可能带来灾难性后果。当前缺乏有效管控高级AI的技术手段。

3. 侵权与责任风险(Infringement & Liability Risk)

AI应用可能侵犯人权或知识产权,且责任界定困难。确定何时由人承担责任,何时由AI提供者或使用者负责成为挑战。

4.社会经济风险(Socioeconomic Risk)

AI对就业市场、社会不平等、信息生态的影响,可能导致技能贬值、失业增加、不平等加剧和信息泡沫等问题。

综合分析:安全风险的理论研究与实践案例

综合当前人工智能安全领域的研究动态和实践案例,我们可以看到各类风险在不同维度上的复杂交织,以及学界和产业界提出的应对方案。

数据风险的深层次分析

理论研究

研究表明,AI模型训练数据源自现实世界,不可避免地会学习和复制甚至放大社会中存在的偏见和歧视。算法可能无意中将特定群体与负面信息关联,这是数据和算法交互的结果。

在Scale Of Law规律下,高质量公共数据的稀缺性使得包含敏感信息的数据集使用增加,加剧了隐私泄露和商业侵权风险。

实践案例

多个案例显示AI在招聘、司法、金融服务、教育和内容生成等领域产生歧视性结果。

例如,个性化定价可能演变成价格歧视,政府数据治理中嵌入AI也可能因数据片面性导致算法歧视。员工使用生成式AI时无意输入敏感信息,导致数据泄露。医疗领域、智能设备和政府数据管理是数据泄露的高风险场景。

应对策略

针对上述风险,研究者和从业者提出了多种应对策略:通过数据清洗、平衡和人工审查等手段在数据阶段实现对齐;加密、强认证、访问控制和安全审计等措施加强数据保护;确保训练数据真实、准确、客观、多样且来源合法,并建立数据治理框架;遵守相关法规并进行合规审计。

算法与对齐风险的关键洞察

核心问题

算法风险和对齐风险有着密切的关联。算法作为AI的核心驱动力,其设计或实施中的错误、固有缺陷和“黑箱”特性,直接影响对齐质量。

同时,基于概率的输出机制和提示词工程的不确定性,使得模型输出的准确性、真实性和有效性无法得到完全保证。

典型表现

“幻觉”是对齐问题的典型表现,指AI生成看似合理但与事实不符或无法验证的内容。

研究发现,除了明显的幻觉,还存在“正确的废话”现象——输出在形式上符合语法和基本逻辑,但实际上缺乏实质内容和价值。这种表面合理但实质空洞的输出比明显错误更危险,因为它更难被识别。

前沿解决方案

当前前沿的解决方案包括提升算法的可解释性、进行安全测试和风险评估;通过检索增强生成(RAG)提高输出的事实准确性;应用人类反馈强化学习(RLHF)改进AI行为;开发价值观对齐方法,为AI植入道德指南针。然而,这些方法仍在发展中,其有效性有待进一步验证。

集成风险与多Agent协作的未知领域

复杂度转移

集成风险揭示了一个极具洞察力的现象:多Agent协作系统通过降低开发难度,表面上简化了复杂任务,但实际上是将复杂度从开发环节转移到了模型自动化和集成环节。这种“复杂度转移”而非“复杂度消除”的现象,创造了一种新的风险类型。

系统级风险

MCP、A2A等协议使多Agent自动化协作成为可能,依赖于复杂的感知、决策、分解、应用和集成模式。但这种依赖未知复杂度的协作机制引入了系统级风险:当各个Agent基于自身决策进行协作时,可能产生个体层面难以预测的涌现行为,增加了整体系统的不确定性。

研究与应用

作战系统、教育、电网仿真等领域正在探索Agent应用。研究表明,多Agent系统在提高效率的同时也增加了复杂性和风险。业界正在开发如多智能体框架(OWL)和模型上下文协议(MCP)等规范,旨在降低风险。然而,Agent的量化评估(实用性、社会性、价值观)仍具有重大挑战性。

综合以上分析,我们可以看到人工智能安全风险呈现出几个关键特征:

▪ 多维交织性:各类风险并非孤立存在,而是相互影响、彼此强化。

▪ 内在不确定性:AI系统的复杂性使得许多风险难以完全预测和评估。

▪ 动态演化性:风险随着技术发展和应用场景拓展不断变化

▪ 治理滞后性:现有的评估框架和治理机制难以跟上技术发展速度。

创新洞察:人工智能安全的范式转变

基于上述风险分析和挑战,我们提出以下关于人工智能安全的创新洞察和未来发展路径:

安全融合视角的创新突破

通过区分传统的“Security”(系统网络安全)和AI特有的“Safety”(AI固有风险),并强调二者的交叉融合,我们开创了一种全新的安全研究范式。这种融合不仅是概念上的叠加,更是方法论上的创新,它要求网络安全专家与AI研究者突破学科藩篱,共同构建新型安全评估框架。

数据困境与资源枯竭

“Scale Of Law的规律下,大规模数据的需求对高质量公共数据集的消耗殆尽”。这揭示了AI发展面临的深层次矛盾:更强大的模型需要更多高质量数据,但这些数据资源正在迅速枯竭。未来模型训练将不可避免地转向更敏感的数据来源,带来更复杂的隐私和道德问题。

算法“黑箱”的本质重新定义

大模型训练过程中的非核心算法被比喻为“迷信与巫术”,参与者往往也不知道哪个环节的操作带来了正向和负向的效果。这一洞察超越了传统的“黑箱”讨论,指出问题不仅是对外不透明,甚至对开发者自身也存在不可知性。

“正确的废话”:对齐风险的新维度

我们识别出了一种比“幻觉”更隐蔽的风险类型:“正确的废话”。它指输出在形式上看似合理,符合语法和基本逻辑,但实际上缺乏实质内容或准确性。这种表面合理但实质空洞的输出比明显错误更危险,因为它更难被识别,更容易被误信任。

复杂度转移理论

多Agent协作系统通过降低开发难度,实际上是将复杂度从开发环节转移到了模型和集成环节。这种“复杂度转移”而非“复杂度消除”的现象,创造了一种新的风险类型。

这一理论对理解未来AI系统的安全挑战具有革命性意义:它指出了简化开发过程的代价是引入了更难以预测和控制的系统级复杂性。当我们使用MCP或A2A协议让多Agent系统自动协作时,表面上降低了开发门槛,但实际上是将复杂度嵌入了更深层次的系统架构中,这种“依赖未知复杂度的模式”带来的安全风险是全新的,需要新的评估框架。

面向未来的安全发展路径

1.整合性安全框架

打破Security和Safety的界限,构建统一的安全评估和防护体系,将安全考量融入AI全生命周期。

2.数据效率与伦理平衡

发展小样本学习、合成数据技术,同时建立数据使用的伦理框架,应对数据资源枯竭挑战。

3.系统化理解与控制

超越组件级安全,转向系统级风险管理,特别关注多Agent系统的涌现风险和集成威胁。

4.不确定性的适应性管理

接受AI系统固有的不确定性,发展适应性安全策略,建立多层次防护机制。

5.安全评估方法创新

推动验证与评估方法的革新,发展针对复杂AI系统的动态、持续性评估体系。

结论

通过将人工智能安全分解为数据、算法、对齐与集成四大风险维度,我们不仅系统化梳理了当前AI安全挑战,更提出了多个具有前瞻性的创新洞察。这些洞察超越了传统的安全讨论框架,揭示了AI安全的根本性挑战——不是已知风险的规避,而是未知复杂性的管理。

在“复杂度转移”“正确的废话”“算法巫术”等创新概念的引导下,我们倡导了一种全新的AI安全范式,这种范式不再追求绝对的确定性和可控性,而是承认并正视AI系统的根本不确定性,通过系统化、多层次的安全架构来管理这种不确定性。这一范式转变不仅对技术发展有指导意义,也为政策制定、伦理规范和社会治理提供了新的思考框架。

参考文献

1.OpenAI. (2023). GPT-4 System Card. https://cdn.openai.com/papers/gpt-4-system-card.pdf

2.Google DeepMind. (2023). Frontier AI Safety and Preparedness. https://deepmind.google/discover/blog/frontier-ai-safety-and-preparedness/

3.中国科学院. (2023). 中国科学院发布《人工智能安全白皮书》. https://www.cas.cn/yw/202311/t20231117_4998381.shtml

4.国家互联网信息办公室. (2023). 《生成式人工智能服务管理暂行办法》. http://www.cac.gov.cn/2023-07/13/c_1690898327029107.htm

5.Future of Life Institute. (2023). Statement on AI Risk. https://futureoflife.org/open-letter/ai-risk/

6.Anthropic. (2023). Core Challenges in AI Safety. https://www.anthropic.com/research

7.刘鹏, 张建华. (2022). 人工智能伦理的研究趋势、热点与前沿——基于CiteSpace的可视化分析. 情报杂志, 41(09), 170-177.

8.李德毅, 高山, 崔岩. (2023). 读懂AI Agent:多智能体协作的智能风险与治理. 中国工程科学, 25(04), 54-61.

9.李晓东, 陈泽宇, 黄明. (2023). 基于风险的人工智能监管治理:理论范式与实践路径. 电子政务, (06), 2-14.

相关文章:

网安加·百家讲坛 | 刘志诚:AI安全风险与未来展望

作者简介:刘志诚,乐信集团信息安全中心总监、OWASP广东区域负责人、网安加社区特聘专家。专注于企业数字化过程中网络空间安全风险治理,对大数据、人工智能、区块链等新技术在金融风险治理领域的应用,以及新技术带来的技术风险治理…...

熵权法+TOPSIS+灰色关联度综合算法(Matlab实现)

熵权法TOPSIS灰色关联度综合算法(Matlab实现) 代码获取私信回复:熵权法TOPSIS灰色关联度综合算法(Matlab实现) 摘要: 熵权法TOPSIS灰色关联度综合算法(Matlab实现)代码实现了一种…...

React 中如何获取 DOM:用 useRef 操作非受控组件

&#x1f4cc; 场景说明 在写 React 的时候&#xff0c;通常我们是通过“受控组件”来管理表单元素&#xff0c;比如用 useState 控制 <input> 的值。 但有些时候&#xff0c;控制的需求只是临时性的&#xff0c;或者完全不需要重新渲染组件&#xff0c;这时候直接访问…...

YAFFS2 的页缓存机制原理及配置优化方法详解

YAFFS2&#xff08;Yet Another Flash File System 2&#xff09;通过其独特的 页缓存机制 和 日志结构设计 优化了 NAND 闪存的读写性能与寿命。以下是其页缓存实现的核心机制及关键流程&#xff1a; 一、YAFFS2 页缓存架构 1. 缓存结构 YAFFS2 的页缓存基于 动态缓存池 设计…...

神经接口安全攻防:从技术漏洞到伦理挑战

随着脑机接口&#xff08;BCI&#xff09;技术的快速发展&#xff0c;神经接口设备已从实验室走向消费市场。然而&#xff0c;2025年曝光的某品牌脑机接口设备漏洞&#xff08;CVE-2025-3278&#xff09;引发了行业对神经数据安全的深度反思。本文围绕神经接口安全的核心矛盾&a…...

Clickhouse 配置参考

Clickhouse 配置参考 适用版本 21.3.9.84 config.xml 配置 <?xml version"1.0"?> <!--NOTE: User and query level settings are set up in "users.xml" file. --> <yandex><access_control_path>/data/clickhouse/clickhous…...

利用deepseek+Mermaid画流程图

你是一个产品经理&#xff0c;请绘制一个流程图&#xff0c;要求生成符合Mermaid语法的代码&#xff0c;要求如下&#xff1a; 用户下载文件、上传文件、删除文件的流程过程符合安全规范细节具体到每一步要做什么 graph LRclassDef startend fill:#F5EBFF,stroke:#BE8FED,str…...

高频面试题:Android MVP/MVVM/MVI这几种架构在实际生产中,各自的优缺点和适用场景是什么

安卓开发早期的架构模式相对简单&#xff0c;许多开发者直接在Activity或Fragment中堆砌业务逻辑和UI操作&#xff0c;这种方式虽然在小型项目中看似高效&#xff0c;但随着代码量的增加&#xff0c;很快就会导致逻辑混乱、难以测试和维护的问题。Activity和Fragment作为安卓框…...

leetcode0146. LRU 缓存-medium

1 题目&#xff1a;LRU 缓存 官方标定难度&#xff1a;中 请你设计并实现一个满足 LRU (最近最少使用) 缓存 约束的数据结构。 实现 LRUCache 类&#xff1a; LRUCache(int capacity) 以 正整数 作为容量 capacity 初始化 LRU 缓存 int get(int key) 如果关键字 key 存在于缓…...

SuperMap iClient3D for WebGL 如何加载WMTS服务

在 SuperMap iClient3D for WebGL 中加载WMTS服务时&#xff0c;参数配置很关键&#xff01;下面我们详细介绍如何正确填写参数&#xff0c;确保影像服务完美加载。 一、数据制作 对于上述视频中的地图制作&#xff0c;此处不做讲述&#xff0c;如有需要可访问&#xff1a;Onl…...

组件自身如何向外暴露一个子组件

最近在开发是遇到一个问题,原本是在组件内的一个功能被ui设计稿给搞到了外面,产品也不同意放在子组件内。于是一个问题就来,抽出来放到外面的部分依赖的也是组件内部的数据和逻辑,所以如果外面再重写这一部分,显然浪费感情,并且又要把依赖关系挪出去,也不划算。 于是,…...

《软件设计师》复习笔记(11.4)——处理流程设计、系统设计、人机界面设计

目录 一、业务流程建模 二、流程设计工具 三、业务流程重组&#xff08;BPR&#xff09; 四、业务流程管理&#xff08;BPM&#xff09; 真题示例&#xff1a; 五、系统设计 1. 主要目的 2. 设计方法 3. 主要内容 4. 设计原则 真题示例&#xff1a; 六、人机界面设…...

深入解析B站androidApp接口:从bilibili.api.ticket.v1.Ticket/GetTicket到SendMsg的技术分析

前言 最近一段时间&#xff0c;我对B站的App接口进行了深入分析&#xff0c;特别是关注了认证机制和私信功能的实现。通过逆向工程和网络抓包&#xff0c;发现了B站移动端API的底层工作原理&#xff0c;包括设备标识生成机制、认证流程和消息传输协议。本文将分享这些研究成果…...

#去除知乎中“盐选”付费故事

添加油猴脚本&#xff0c;去除知乎中“盐选”付费故事 // UserScript // name 盐选内容隐藏脚本 // namespace http://tampermonkey.net/ // version 0.2 // description 自动隐藏含有“盐选专栏”或“盐选”文字的回答卡片 // author YourName // mat…...

MATLAB脚本实现了一个转子系统的参数扫描和分岔分析

% 参数扫描范围 clc; clear; close all;S_values 500:200:20000; % 转速范围% 定义系统参数 N 5; % 质量点数量 num_nodes N; % 节点数 num_dofs_per_node 4; % 每个节点的自由度数 num_elements num_nodes-1; % 单元数 total_dofs num_nodes * num_dofs_per_node; % 总自…...

UWP发展历程

通用Windows平台(UWP)发展历程 引言 通用Windows平台(Universal Windows Platform, UWP)是微软为实现"一次编写&#xff0c;处处运行"的愿景而打造的现代应用程序平台。作为微软统一Windows生态系统的核心战略组成部分&#xff0c;UWP代表了从传统Win32应用向现代应…...

数据库相关概念,关系型数据库的核心要素,MySQL(特点,安装,环境变量配置,启动,停止,客户端连接),数据模型

目录 数据库相关概念 MySQL&#xff08;特点&#xff0c;安装&#xff0c;环境变量配置&#xff0c;启动和停止&#xff0c;客户端连接&#xff09; MySQL数据库的特点 Windows下安装MySQL MySQL 8.0.36&#xff08;安装版&#xff09; MySQL安装 配置Path环境变量 MySQ…...

Facebook隐私保护:从技术到伦理的探索

在这个数字化时代&#xff0c;隐私保护已成为公众关注的焦点。Facebook&#xff0c;作为全球最大的社交媒体平台之一&#xff0c;其用户隐私保护问题更是引起了广泛的讨论。本文将从技术层面和伦理层面探讨 Facebook 在隐私保护方面的努力和挑战。 技术层面的隐私保护 在技术…...

三维点拟合平面ransac c++

理论 平面的一般定义 在三维空间中&#xff0c;一个平面可以由两个要素唯一确定&#xff1a; 法向量 n(a,b,c)&#xff1a;垂直于平面的方向 平面上一点 平面上任意一点 p(x,y,z) 满足&#xff1a; ( p − p 0 ) ∗ n 0 (p - p0) * n 0 (p−p0)∗n0 即 a ( x − x 0 ) …...

香港服务器CPU对比:Intel E3与E5系列核心区别与使用场景

香港服务器的 CPU 配置(核心数与主频)直接决定了其并发处理能力和数据运算效率&#xff0c;例如高频多核处理器可显著提升多线程任务响应速度。在实际业务场景中&#xff0c;不同负载需求对 CPU 架构的要求存在显著差异——以 Intel E3 和 E5 系列为例&#xff0c;由于两者在性…...

ChatGPT-o3辅助学术大纲效果如何?

目录 1 引言 2 背景综述 2.1 自动驾驶雷达感知 2.2 生成模型演进&#xff1a;从 GAN 到 Diffusion 3 相关工作 3.1 雷达点云增强与超分辨率 3.2 扩散模型在数据增广中的应用 4 方法论 4.1 问题定义与总览 4.2 数据预处理与雷达→体素表示 4.3 潜在体素扩散网络&…...

AI大模型API文档的核心内容概述,以通用框架和典型实现为例

以下是AI大模型API文档的核心内容概述&#xff0c;以通用框架和典型实现为例&#xff1a; 一、API基础架构 1. 基础信息 API类型&#xff1a;RESTful API或gRPC&#xff08;如阿里云通义千问支持HTTPS接口&#xff09;请求方式&#xff1a;通常为POST方法基础URL&#xff1a…...

使用pnpm第一次运行项目报错 ERR_PNPM_NO_PKG_MANIFEST No package.json found in E:\

开始用unibestpnpm写一个小程序 运行pnpm init报错 如标题所示没有package.json这个文件 博主犯了一个很愚蠢的错误。。 准备方案手动创建一个json文件 此时才发现没到根目录下&#xff0c;创建了一个项目之后就没有切入文件夹里。 切入根目录再下载就成功啦...

单线服务器有什么优点

单线服务器是一个普遍存在的术语&#xff0c;它是指一种服务器连接互联网时只使用一个物理线路的服务器。简单来说&#xff0c;就是使用一条网络线路的服务器&#xff0c;上传和下载的数据都通过一个通道实现。在当今数字化的时代&#xff0c;服务器的选择至关重要。今天&#…...

手持式三维扫描设备赋能智能汽车制造

随着电动化与智能化趋势的加速&#xff0c;传统逆向工程手段已难以满足复杂零部件的建模需求。 ‌3D逆向建模‌技术&#xff0c;为汽车制造企业提供高效、精准的数字化解决方案。 传统汽车零部件的尺寸检测与建模依赖三坐标测量机&#xff08;CMM&#xff09;或人工测绘&#…...

FA-YOLO:基于FMDS与AGMF的高效目标检测算法解析

本文《FA-YOLO: Research On Efficient Feature Selection YOLO Improved Algorithm Based On FMDS and AGMF Modules》针对YOLO系列在特征融合与动态调整上的不足,提出两种创新模块:​FMDS(细粒度多尺度动态选择模块)​和AGMF(自适应门控多分支聚焦融合模块)​。论文结构…...

Hutool之DateUtil:让Java日期处理变得更加简单

前言 在Java开发中&#xff0c;日期和时间的处理是一个常见问题。为了简化这个过程&#xff0c;许多开发者会使用第三方工具包&#xff0c;如Hutool。Hutool是一个Java工具包&#xff0c;提供了许多实用的功能&#xff0c;其中之一就是日期处理。日期时间工具类是Hutool的核心包…...

Ambari 中移除/重装 yarn 集群中的 NodeManager 节点

文章目录 背景分析解决分析:现有 NodeManager 情况移除:240 服务器上的 NodeManager重新安装:240 服务器上的安装 NodeManager疑问为什么直接添加就可以运行?参考背景 项目中有Spark应用,主要在 yarn 集群中部署。 现在发现 yarn 集群中的节点资源过剩,需要将部分节点移…...

小程序在 skyline 下如何开启多行省略

参考&#xff1a;https://developers.weixin.qq.com/community/develop/doc/000a648baacca06e83f1034d66c000 前言 小程序在 skyline 下不支持 line-clamp&#xff0c;想要开启多行省略使用 text 组件的 max-lines 结合 overflow 属性。 解决办法&#xff1a;skyline 下不支…...

uni.createInnerAudioContext踩坑duration在真机环境一直为0

解决 uni.createInnerAudioContext 的 duration 在真机环境一直为 0 的问题 在使用 uni.createInnerAudioContext 播放音频时,开发者可能会遇到以下问题: duration 在真机环境中一直为 0:即使音频文件是正常的,duration 属性也无法正确获取音频的时长。音频实例未放到全局…...