“AI+Security”系列第2期(一):对抗!大模型自身安全的攻防博弈

近日,由安全极客、Wisemodel 社区和 InForSec 网络安全研究国际学术论坛联合主办的“AI+Security”系列第 2 期——对抗!大模型自身安全的攻防博弈线上活动如期举行。本次活动邀请了君同未来创始人兼 CEO 韩蒙、前阿里云高级安全专家郑瀚、ChaMd5 AI 组负责人宁宇飞、始智 AI wisemodel 创始人兼 CEO 刘道全、云起无垠创始人兼 CEO 沈凯文和金睛云华技术合伙人孙志敏,他们针对大模型安全进行了精彩分享,并且围绕“大模型自身安全”展开了圆桌讨论,深入探讨了大模型安全现状、未来发展趋势以及前景市场等相关问题。
活动开始时,安全极客主理人王书辉对各位嘉宾和观众的到来表示欢迎,同时简要概述了本次活动的话题和探讨方向,并欢迎大家积极参与,共同分享“AI+Security”的相关内容,以促进相关技术进步,为产业贡献力量。
01 人工智能风险治理机遇与挑战
人工智能(AI)技术的迅速发展带来了许多机遇,同时也引发了一系列的风险和挑战。特别是大模型技术的广泛应用,如GPT-4、BERT等,虽然推动了AI能力的提升,但也暴露了数据隐私泄露、生成内容违规、模型偏见等诸多问题。因此,如何有效治理人工智能风险,确保其安全、可靠、公平地发展,成为当前社会亟待解决的重要课题。

君同未来创始人兼 CEO 韩蒙博士指出,当前大语言模型所面临的风险类型涵盖内生安全、伴生安全、应用安全问题。其中内生安全问题包含非对抗性风险和对抗性风险。非对抗性风险有模型幻觉、数据偏见、机密数据泄露等;对抗性风险包括模型对抗攻击、模型越狱攻击、模型目标劫持攻击、模型提示词攻击等。

基于此,韩蒙博士表示,君同未来深入探索了安全风险识别能力、攻击意图识别能力、正向回答生成能力、输出内容改写能力,并研发了大模型安全评测平台、大模型风险监控平台和大模型安全对齐平台,以提升大模型的安全性和可靠性。
02 面向LLM的漏洞挖掘与对齐防御研究
随着人工智能技术的迅猛发展,大语言模型(LLM)凭借其卓越的多任务学习能力和泛化能力,在各行各业中发挥着越来越重要的作用。这些模型能够处理庞大的参数量,深度整合企业内部数据,为实际业务场景提供精准服务。然而,随着云端和端侧LLM的互补发展以及开源LLM的广泛普及,虽然为小型开发者带来了前所未有的便利和效率提升,但同时也带来了新的安全风险和挑战。

LLM越狱攻击作为一种典型的安全威胁,对LLM的安全稳定性构成了重大影响。郑瀚先生指出,与传统网络安全攻击技术相比,LLM安全攻击已经进入了一个不确定的概率范式。这一范式转移带来的最大挑战是漏洞搜索空间的无限扩大。由于大型模型本质上是由数千亿参数构成的复杂概率模型,它们的行为和输出具有高度的不确定性和复杂性,这使得传统的基于形式逻辑的漏洞挖掘和防御方法变得不再适用。
越狱攻击与LLM的对齐方法紧密相关,其核心目标在于破坏模型开发人员所施加的基于人类价值观的约束和其他限制,迫使模型在面对恶意问题时提供正确的答案,而不是选择拒绝回答。这种攻击方式不仅对模型的安全性构成威胁,更对模型的可靠性和可控性提出了严峻挑战。
03 AI/机器学习供应链攻击
在网络安全领域,公共仓库中的组件和库极易遭受恶意用户的攻击。这些恶意用户通过进行“名字抢注”或“拼写抢注”,即注册与知名实体相似的名称,来利用其信誉传送恶意负载。这种攻击策略在Python软件包索引(PyPI)和Node软件包管理器(npm)等仓库中已屡有发生,而且人工智能和机器学习(AI/ML)供应链也正在成为此类攻击的目标。据Sophos的报告显示,微软的域名抢注率达61%,Twitter为74%,Facebook为81%,谷歌为83%,苹果则为86%。

宁宇飞先生指出,在公共ML仓库(如Hugging Face)中,恶意用户能够上传被破坏的模型,并将其伪装成来自可信来源的发布工件。尽管Hugging Face设有验证流程,但存在容易被忽略验证标志等问题。此外,还发现了多个冒用知名公司名称的仓库,比如存在导致API密钥泄露的.pth文件以及假冒llama的仓库等情况。
04 大模型自身安全
在圆桌讨论中,君同未来创始人兼CEO韩蒙、前阿里云高级安全专家郑瀚、ChaMd5 AI组负责人宁宇飞、始智AI wisemodel创始人兼CEO刘道全、云起无垠创始人兼CEO沈凯文、金睛云华技术合伙人孙志敏等共同参与,深入探讨了大模型自身安全相关问题,具体包括以下几个方面:
1. 随着大模型在各领域的广泛应用,探讨未来几年大模型安全性所面临的最大挑战,以及科研与产业界应采取的关键措施来应对这些挑战?
2. 在信息安全/网络安全领域中,网络攻击以往通常由专业人才实施。当下大模型不断发展,如今所探讨的大模型安全,是否会降低网络攻击的门槛,进而使普通人也能够进行网络攻击?其产生的影响是否会更大?
3. 鉴于各行各业在利用大模型技术突破传统瓶颈时,有的使用开源模型,有的使用闭源商业模型,而社会各界对开源模型和闭源模型的安全性存在不同观点,有人认为开源模型更安全,也有专家认为闭源模型更安全。针对这一问题,询问各位专家的看法,并探讨企业在使用开源模型和闭源模型时是否有不同的安全关注点?
4. 鉴于目前大模型应用蓬勃发展,围绕大模型安全的市场规模、爆发节点预测及重点商业化方向,讨论未来大模型安全的商业化市场前景?
5. 当下大模型安全是备受关注的重点,那么,大模型安全是给大模型公司创造了机会和需求,还是为广大创新创业公司创造了机会?
6. 鉴于之前Open AI组建了Super alignment超级对齐团队,以及Open AI的首席科学家离职并开启了自己的新项目——安全超级智能,这些都充分体现了安全性在大模型领域的重要性。站在人类命运共同体的角度,探讨如何保证大模型自身的安全可控,防止被未来的超级智能力量所颠覆?
写在最后
本次分享活动可谓是干货十足,对大模型自身安全相关问题进行了深入的探讨。关于本次活动嘉宾的精彩分享的系列内容,我们会逐一进行整理,并陆续发布,敬请大家期待!
此外,“AI + Security”系列的第三期专题分享活动将于9月初左右与大家在线下见面。届时,我们将邀请来自人工智能(AI)和网络安全领域的行业专家以及领军人物共同参与分享,深入探讨并分享关于“AI + Security”技术理念的独到见解和丰富经验。
欢迎大家关注“安全极客”,我们热切期待您的加入,一同推动AI与安全技术的融合与创新,共创美好未来!

相关文章:
“AI+Security”系列第2期(一):对抗!大模型自身安全的攻防博弈
近日,由安全极客、Wisemodel 社区和 InForSec 网络安全研究国际学术论坛联合主办的“AISecurity”系列第 2 期——对抗!大模型自身安全的攻防博弈线上活动如期举行。本次活动邀请了君同未来创始人兼 CEO 韩蒙、前阿里云高级安全专家郑瀚、ChaMd5 AI 组负…...
Python Static Typing: 提升代码可靠性与可读性的使用技巧
💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「storm…...
Datawhale多模态赛事(1)
赛事说明:https://tianchi.aliyun.com/competition/entrance/532251/introduction?spma2c22.12281925.0.0.2f307137p8qZmp 学习平台:https://linklearner.com/home 第一天 1.报名赛道学习赛事 https://tianchi.aliyun.com/competition/entrance/53225…...
云手机在海外社交媒体运营中的作用
随着社交媒体的全球普及,海外社交媒体运营成为众多企业与个人提升品牌影响力和扩大市场份额的重要策略。在这一进程中,海外云手机以其独特的功能,为海外社交媒体运营提供了强大的支持。 那么,海外云手机在海外社交媒体运营中究竟扮…...
Ubuntu怎么进入救援模式或单用户模式
进入救援模式(Rescue Mode)或单用户模式(Single User Mode)的方法取决于你所使用的Linux发行版。以下是通用的步骤,适用于大多数基于GRUB引导的系统,如Ubuntu、Debian、CentOS等: 重启你的系统。…...
学习鸿蒙-构建私有仓储
1.选择 鸿蒙提供ohpm-repo工具用于构建本地私有仓储 ohpm-repo下载 2.环境配置 安装node,ohpm-repo 支持 node.js 18.x 及以上版本 node最新版本下载 3.配置文件及运行 1.解压 ohpm-repo 私仓工具包 2.进入 ohpm-repo 解压目录的 conf 目录内,打开 c…...
经验是负债,学习是资产
经验是负债,学习是资产 经验是负债,学习是资产。这是李嘉诚先生的一句名言。他一语道出了学习在企业发展中的推动作用。 企业家经营的目的,无非就是将利润最大化。企业能够产生利润,靠的是提升自身业绩、降低运营成本,…...
电脑屏幕录制工具分享5款,附上详细电脑录屏教程(2024全新)
日月更迭,转眼间已经来到了2024年的立秋,在这个数字技术快速发展的时代,电脑录屏技术已经成为了一项不可或缺的技能,无论是用于工作汇报、在线教学、游戏直播还是个人娱乐。那么录屏软件哪个好用呢?接下来,…...
Docker资源隔离的实现策略以及适用场景
Docker通过多种技术实现资源隔离,确保不同容器之间相互独立并有效利用主机资源。 以下是Docker资源隔离的主要实现策略以及适用场景: 实现策略 1、命名空间(Namespaces) 进程命名空间(PID Namespace): 隔…...
PLL基本原理、设计及应用
PLL基本原理 锁相环(Phase-Locked Loop, PLL)是一种基本的反馈控制系统,广泛应用于电子通信、信号处理、时钟同步等多个领域。PLL通过反馈机制锁定输入信号的频率和相位,从而实现输出信号与输入信号的同步。其基本工作原理可以概…...
Qt实现类似淘宝商品看板的界面,带有循环翻页以及点击某页跳转的功能
效果如下: #ifndef ModelDashboardGroup_h__ #define ModelDashboardGroup_h__#include <QGridLayout> #include <QLabel> #include <QPushButton> #include <QWidget>#include <QLabel> #include <QWidget> #include <QMou…...
2024下半年国际学术会议一览表
在科技与人文的交汇点,2024年的国际学术会议季即将拉开帷幕,一系列聚焦于计算机科学与人工智能、工程与技术、教育与社会科学的盛会,不仅展示了全球学术研究的最新成果,更促进了跨学科交流与合作,为未来的科技发展与社…...
serial靶场
项目地址 https://download.vulnhub.com/serial/serial.zip 实验过程 将下载好的靶机导入到VMware中,设置网络模式为NAT模式,然后开启靶机虚拟机 使用C段扫描,获取靶机IP地址 arp-scan -l 扫描一下端口 nmap -sV -p- 192.168.48.149 查看…...
如何在Vue3项目中引入并使用Echarts图表
在Vue 3项目中引入并使用ECharts图表,你可以通过npm或yarn来安装ECharts,然后在Vue组件中引入并使用它。以下是一个基本的步骤指南: 1. 安装ECharts 首先,你需要在你的Vue 3项目中安装ECharts。打开你的终端或命令提示符&#x…...
C# 子类、接口
栏目总目录 子类 继承的概念 继承机制:C#支持单继承,即一个类只能直接继承自一个基类。但基类本身可以继承自另一个类,从而实现继承链。继承关键字:使用冒号(:)表示继承关系,子类在声明时指定…...
Qt实现圆形窗口
重新实现paintEvent()函数。 效果如下: 效果为蓝色区域,背景是vs接面,代码直接复制可用,留给有需要的人。 #ifndef CircleWidget_h__ #define CircleWidget_h__#include <QWidget>class CCircleWidget : public QWidget {Q…...
LeetCode 算法:有效的括号 c++
原题链接🔗:有效的括号 难度:简单⭐️ 题目 给定一个只包括 ‘(’,‘)’,‘{’,‘}’,‘[’,‘]’ 的字符串 s ,判断字符串是否有效。 有效字符串需满足: …...
react和vue的diff算法的差别
React 的 Diff 算法 React 的 diff 算法主要基于以下几个原则: 同层比较: React 只会比较同一层级的节点,不会跨层级比较。假设跨层级的变化较少,从而简化了算法,提高了性能。 深度优先遍历: React 采用深…...
算法【滑动窗口】
滑动窗口指的是维持左、右边界都不回退的一段范围,来求解很多子数组(串)的相关问题。 滑动窗口的关键是找到范围和答案指标之间的单调性关系(类似贪心)。 滑动过程:滑动窗口可以用简单变量或者结构来维护…...
【RISC-V设计-06】- RISC-V处理器设计K0A之ALU
【RISC-V设计-06】- RISC-V处理器设计K0A之ALU 文章目录 【RISC-V设计-06】- RISC-V处理器设计K0A之ALU1.简介2.顶层设计3.内部结构4.端口说明5.操作码说明6.设计代码7.总结 1.简介 算术逻辑单元(Arithmetic Logic Unit,简称 ALU)是计算机中…...
观成科技:隐蔽隧道工具Ligolo-ng加密流量分析
1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具,该工具基于TUN接口实现其功能,利用反向TCP/TLS连接建立一条隐蔽的通信信道,支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式,适应复杂网…...
React Native 开发环境搭建(全平台详解)
React Native 开发环境搭建(全平台详解) 在开始使用 React Native 开发移动应用之前,正确设置开发环境是至关重要的一步。本文将为你提供一份全面的指南,涵盖 macOS 和 Windows 平台的配置步骤,如何在 Android 和 iOS…...
vscode(仍待补充)
写于2025 6.9 主包将加入vscode这个更权威的圈子 vscode的基本使用 侧边栏 vscode还能连接ssh? debug时使用的launch文件 1.task.json {"tasks": [{"type": "cppbuild","label": "C/C: gcc.exe 生成活动文件"…...
Opencv中的addweighted函数
一.addweighted函数作用 addweighted()是OpenCV库中用于图像处理的函数,主要功能是将两个输入图像(尺寸和类型相同)按照指定的权重进行加权叠加(图像融合),并添加一个标量值&#x…...
【Zephyr 系列 10】实战项目:打造一个蓝牙传感器终端 + 网关系统(完整架构与全栈实现)
🧠关键词:Zephyr、BLE、终端、网关、广播、连接、传感器、数据采集、低功耗、系统集成 📌目标读者:希望基于 Zephyr 构建 BLE 系统架构、实现终端与网关协作、具备产品交付能力的开发者 📊篇幅字数:约 5200 字 ✨ 项目总览 在物联网实际项目中,**“终端 + 网关”**是…...
爬虫基础学习day2
# 爬虫设计领域 工商:企查查、天眼查短视频:抖音、快手、西瓜 ---> 飞瓜电商:京东、淘宝、聚美优品、亚马逊 ---> 分析店铺经营决策标题、排名航空:抓取所有航空公司价格 ---> 去哪儿自媒体:采集自媒体数据进…...
快刀集(1): 一刀斩断视频片头广告
一刀流:用一个简单脚本,秒杀视频片头广告,还你清爽观影体验。 1. 引子 作为一个爱生活、爱学习、爱收藏高清资源的老码农,平时写代码之余看看电影、补补片,是再正常不过的事。 电影嘛,要沉浸,…...
【 java 虚拟机知识 第一篇 】
目录 1.内存模型 1.1.JVM内存模型的介绍 1.2.堆和栈的区别 1.3.栈的存储细节 1.4.堆的部分 1.5.程序计数器的作用 1.6.方法区的内容 1.7.字符串池 1.8.引用类型 1.9.内存泄漏与内存溢出 1.10.会出现内存溢出的结构 1.内存模型 1.1.JVM内存模型的介绍 内存模型主要分…...
windows系统MySQL安装文档
概览:本文讨论了MySQL的安装、使用过程中涉及的解压、配置、初始化、注册服务、启动、修改密码、登录、退出以及卸载等相关内容,为学习者提供全面的操作指导。关键要点包括: 解压 :下载完成后解压压缩包,得到MySQL 8.…...
消息队列系统设计与实践全解析
文章目录 🚀 消息队列系统设计与实践全解析🔍 一、消息队列选型1.1 业务场景匹配矩阵1.2 吞吐量/延迟/可靠性权衡💡 权衡决策框架 1.3 运维复杂度评估🔧 运维成本降低策略 🏗️ 二、典型架构设计2.1 分布式事务最终一致…...
