当前位置: 首页 > news >正文

“AI+Security”系列第2期(一):对抗!大模型自身安全的攻防博弈

图片

近日,由安全极客、Wisemodel 社区和 InForSec 网络安全研究国际学术论坛联合主办的“AI+Security”系列第 2 期——对抗!大模型自身安全的攻防博弈线上活动如期举行。本次活动邀请了君同未来创始人兼 CEO 韩蒙、前阿里云高级安全专家郑瀚、ChaMd5 AI 组负责人宁宇飞、始智 AI wisemodel 创始人兼 CEO 刘道全、云起无垠创始人兼 CEO 沈凯文和金睛云华技术合伙人孙志敏,他们针对大模型安全进行了精彩分享,并且围绕“大模型自身安全”展开了圆桌讨论,深入探讨了大模型安全现状、未来发展趋势以及前景市场等相关问题。

活动开始时,安全极客主理人王书辉对各位嘉宾和观众的到来表示欢迎,同时简要概述了本次活动的话题和探讨方向,并欢迎大家积极参与,共同分享“AI+Security”的相关内容,以促进相关技术进步,为产业贡献力量。

01 人工智能风险治理机遇与挑战

人工智能(AI)技术的迅速发展带来了许多机遇,同时也引发了一系列的风险和挑战。特别是大模型技术的广泛应用,如GPT-4、BERT等,虽然推动了AI能力的提升,但也暴露了数据隐私泄露、生成内容违规、模型偏见等诸多问题。因此,如何有效治理人工智能风险,确保其安全、可靠、公平地发展,成为当前社会亟待解决的重要课题。

图片

君同未来创始人兼 CEO 韩蒙博士指出,当前大语言模型所面临的风险类型涵盖内生安全、伴生安全、应用安全问题。其中内生安全问题包含非对抗性风险和对抗性风险。非对抗性风险有模型幻觉、数据偏见、机密数据泄露等;对抗性风险包括模型对抗攻击、模型越狱攻击、模型目标劫持攻击、模型提示词攻击等。

图片

基于此,韩蒙博士表示,君同未来深入探索了安全风险识别能力、攻击意图识别能力、正向回答生成能力、输出内容改写能力,并研发了大模型安全评测平台、大模型风险监控平台和大模型安全对齐平台,以提升大模型的安全性和可靠性。

02 面向LLM的漏洞挖掘与对齐防御研究

随着人工智能技术的迅猛发展,大语言模型(LLM)凭借其卓越的多任务学习能力和泛化能力,在各行各业中发挥着越来越重要的作用。这些模型能够处理庞大的参数量,深度整合企业内部数据,为实际业务场景提供精准服务。然而,随着云端和端侧LLM的互补发展以及开源LLM的广泛普及,虽然为小型开发者带来了前所未有的便利和效率提升,但同时也带来了新的安全风险和挑战。

图片

LLM越狱攻击作为一种典型的安全威胁,对LLM的安全稳定性构成了重大影响。郑瀚先生指出,与传统网络安全攻击技术相比,LLM安全攻击已经进入了一个不确定的概率范式。这一范式转移带来的最大挑战是漏洞搜索空间的无限扩大。由于大型模型本质上是由数千亿参数构成的复杂概率模型,它们的行为和输出具有高度的不确定性和复杂性,这使得传统的基于形式逻辑的漏洞挖掘和防御方法变得不再适用。

越狱攻击与LLM的对齐方法紧密相关,其核心目标在于破坏模型开发人员所施加的基于人类价值观的约束和其他限制,迫使模型在面对恶意问题时提供正确的答案,而不是选择拒绝回答。这种攻击方式不仅对模型的安全性构成威胁,更对模型的可靠性和可控性提出了严峻挑战。

03 AI/机器学习供应链攻击

在网络安全领域,公共仓库中的组件和库极易遭受恶意用户的攻击。这些恶意用户通过进行“名字抢注”或“拼写抢注”,即注册与知名实体相似的名称,来利用其信誉传送恶意负载。这种攻击策略在Python软件包索引(PyPI)和Node软件包管理器(npm)等仓库中已屡有发生,而且人工智能和机器学习(AI/ML)供应链也正在成为此类攻击的目标。据Sophos的报告显示,微软的域名抢注率达61%,Twitter为74%,Facebook为81%,谷歌为83%,苹果则为86%。

图片

宁宇飞先生指出,在公共ML仓库(如Hugging Face)中,恶意用户能够上传被破坏的模型,并将其伪装成来自可信来源的发布工件。尽管Hugging Face设有验证流程,但存在容易被忽略验证标志等问题。此外,还发现了多个冒用知名公司名称的仓库,比如存在导致API密钥泄露的.pth文件以及假冒llama的仓库等情况。

04 大模型自身安全

在圆桌讨论中,君同未来创始人兼CEO韩蒙、前阿里云高级安全专家郑瀚、ChaMd5 AI组负责人宁宇飞、始智AI wisemodel创始人兼CEO刘道全、云起无垠创始人兼CEO沈凯文、金睛云华技术合伙人孙志敏等共同参与,深入探讨了大模型自身安全相关问题,具体包括以下几个方面:

1. 随着大模型在各领域的广泛应用,探讨未来几年大模型安全性所面临的最大挑战,以及科研与产业界应采取的关键措施来应对这些挑战?

2. 在信息安全/网络安全领域中,网络攻击以往通常由专业人才实施。当下大模型不断发展,如今所探讨的大模型安全,是否会降低网络攻击的门槛,进而使普通人也能够进行网络攻击?其产生的影响是否会更大?

3. 鉴于各行各业在利用大模型技术突破传统瓶颈时,有的使用开源模型,有的使用闭源商业模型,而社会各界对开源模型和闭源模型的安全性存在不同观点,有人认为开源模型更安全,也有专家认为闭源模型更安全。针对这一问题,询问各位专家的看法,并探讨企业在使用开源模型和闭源模型时是否有不同的安全关注点?

4. 鉴于目前大模型应用蓬勃发展,围绕大模型安全的市场规模、爆发节点预测及重点商业化方向,讨论未来大模型安全的商业化市场前景?

5. 当下大模型安全是备受关注的重点,那么,大模型安全是给大模型公司创造了机会和需求,还是为广大创新创业公司创造了机会?

6. 鉴于之前Open AI组建了Super alignment超级对齐团队,以及Open AI的首席科学家离职并开启了自己的新项目——安全超级智能,这些都充分体现了安全性在大模型领域的重要性。站在人类命运共同体的角度,探讨如何保证大模型自身的安全可控,防止被未来的超级智能力量所颠覆?

写在最后

本次分享活动可谓是干货十足,对大模型自身安全相关问题进行了深入的探讨。关于本次活动嘉宾的精彩分享的系列内容,我们会逐一进行整理,并陆续发布,敬请大家期待!

此外,“AI + Security”系列的第三期专题分享活动将于9月初左右与大家在线下见面。届时,我们将邀请来自人工智能(AI)和网络安全领域的行业专家以及领军人物共同参与分享,深入探讨并分享关于“AI + Security”技术理念的独到见解和丰富经验。

欢迎大家关注“安全极客”,我们热切期待您的加入,一同推动AI与安全技术的融合与创新,共创美好未来!

图片

相关文章:

“AI+Security”系列第2期(一):对抗!大模型自身安全的攻防博弈

近日,由安全极客、Wisemodel 社区和 InForSec 网络安全研究国际学术论坛联合主办的“AISecurity”系列第 2 期——对抗!大模型自身安全的攻防博弈线上活动如期举行。本次活动邀请了君同未来创始人兼 CEO 韩蒙、前阿里云高级安全专家郑瀚、ChaMd5 AI 组负…...

Python Static Typing: 提升代码可靠性与可读性的使用技巧

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「storm…...

Datawhale多模态赛事(1)

赛事说明:https://tianchi.aliyun.com/competition/entrance/532251/introduction?spma2c22.12281925.0.0.2f307137p8qZmp 学习平台:https://linklearner.com/home 第一天 1.报名赛道学习赛事 https://tianchi.aliyun.com/competition/entrance/53225…...

云手机在海外社交媒体运营中的作用

随着社交媒体的全球普及,海外社交媒体运营成为众多企业与个人提升品牌影响力和扩大市场份额的重要策略。在这一进程中,海外云手机以其独特的功能,为海外社交媒体运营提供了强大的支持。 那么,海外云手机在海外社交媒体运营中究竟扮…...

Ubuntu怎么进入救援模式或单用户模式

进入救援模式(Rescue Mode)或单用户模式(Single User Mode)的方法取决于你所使用的Linux发行版。以下是通用的步骤,适用于大多数基于GRUB引导的系统,如Ubuntu、Debian、CentOS等: 重启你的系统。…...

学习鸿蒙-构建私有仓储

1.选择 鸿蒙提供ohpm-repo工具用于构建本地私有仓储 ohpm-repo下载 2.环境配置 安装node,ohpm-repo 支持 node.js 18.x 及以上版本 node最新版本下载 3.配置文件及运行 1.解压 ohpm-repo 私仓工具包 2.进入 ohpm-repo 解压目录的 conf 目录内,打开 c…...

经验是负债,学习是资产

经验是负债,学习是资产 经验是负债,学习是资产。这是李嘉诚先生的一句名言。他一语道出了学习在企业发展中的推动作用。 企业家经营的目的,无非就是将利润最大化。企业能够产生利润,靠的是提升自身业绩、降低运营成本,…...

电脑屏幕录制工具分享5款,附上详细电脑录屏教程(2024全新)

日月更迭,转眼间已经来到了2024年的立秋,在这个数字技术快速发展的时代,电脑录屏技术已经成为了一项不可或缺的技能,无论是用于工作汇报、在线教学、游戏直播还是个人娱乐。那么录屏软件哪个好用呢?接下来,…...

Docker资源隔离的实现策略以及适用场景

Docker通过多种技术实现资源隔离,确保不同容器之间相互独立并有效利用主机资源。 以下是Docker资源隔离的主要实现策略以及适用场景: 实现策略 1、命名空间(Namespaces) 进程命名空间(PID Namespace): 隔…...

PLL基本原理、设计及应用

PLL基本原理 锁相环(Phase-Locked Loop, PLL)是一种基本的反馈控制系统,广泛应用于电子通信、信号处理、时钟同步等多个领域。PLL通过反馈机制锁定输入信号的频率和相位,从而实现输出信号与输入信号的同步。其基本工作原理可以概…...

Qt实现类似淘宝商品看板的界面,带有循环翻页以及点击某页跳转的功能

效果如下&#xff1a; #ifndef ModelDashboardGroup_h__ #define ModelDashboardGroup_h__#include <QGridLayout> #include <QLabel> #include <QPushButton> #include <QWidget>#include <QLabel> #include <QWidget> #include <QMou…...

2024下半年国际学术会议一览表

在科技与人文的交汇点&#xff0c;2024年的国际学术会议季即将拉开帷幕&#xff0c;一系列聚焦于计算机科学与人工智能、工程与技术、教育与社会科学的盛会&#xff0c;不仅展示了全球学术研究的最新成果&#xff0c;更促进了跨学科交流与合作&#xff0c;为未来的科技发展与社…...

serial靶场

项目地址 https://download.vulnhub.com/serial/serial.zip 实验过程 将下载好的靶机导入到VMware中&#xff0c;设置网络模式为NAT模式&#xff0c;然后开启靶机虚拟机 使用C段扫描&#xff0c;获取靶机IP地址 arp-scan -l 扫描一下端口 nmap -sV -p- 192.168.48.149 查看…...

如何在Vue3项目中引入并使用Echarts图表

在Vue 3项目中引入并使用ECharts图表&#xff0c;你可以通过npm或yarn来安装ECharts&#xff0c;然后在Vue组件中引入并使用它。以下是一个基本的步骤指南&#xff1a; 1. 安装ECharts 首先&#xff0c;你需要在你的Vue 3项目中安装ECharts。打开你的终端或命令提示符&#x…...

C# 子类、接口

栏目总目录 子类 继承的概念 继承机制&#xff1a;C#支持单继承&#xff0c;即一个类只能直接继承自一个基类。但基类本身可以继承自另一个类&#xff0c;从而实现继承链。继承关键字&#xff1a;使用冒号&#xff08;:&#xff09;表示继承关系&#xff0c;子类在声明时指定…...

Qt实现圆形窗口

重新实现paintEvent()函数。 效果如下&#xff1a; 效果为蓝色区域&#xff0c;背景是vs接面&#xff0c;代码直接复制可用&#xff0c;留给有需要的人。 #ifndef CircleWidget_h__ #define CircleWidget_h__#include <QWidget>class CCircleWidget : public QWidget {Q…...

LeetCode 算法:有效的括号 c++

原题链接&#x1f517;&#xff1a;有效的括号 难度&#xff1a;简单⭐️ 题目 给定一个只包括 ‘(’&#xff0c;‘)’&#xff0c;‘{’&#xff0c;‘}’&#xff0c;‘[’&#xff0c;‘]’ 的字符串 s &#xff0c;判断字符串是否有效。 有效字符串需满足&#xff1a; …...

react和vue的diff算法的差别

React 的 Diff 算法 React 的 diff 算法主要基于以下几个原则&#xff1a; 同层比较&#xff1a; React 只会比较同一层级的节点&#xff0c;不会跨层级比较。假设跨层级的变化较少&#xff0c;从而简化了算法&#xff0c;提高了性能。 深度优先遍历&#xff1a; React 采用深…...

算法【滑动窗口】

滑动窗口指的是维持左、右边界都不回退的一段范围&#xff0c;来求解很多子数组&#xff08;串&#xff09;的相关问题。 滑动窗口的关键是找到范围和答案指标之间的单调性关系&#xff08;类似贪心&#xff09;。 滑动过程&#xff1a;滑动窗口可以用简单变量或者结构来维护…...

【RISC-V设计-06】- RISC-V处理器设计K0A之ALU

【RISC-V设计-06】- RISC-V处理器设计K0A之ALU 文章目录 【RISC-V设计-06】- RISC-V处理器设计K0A之ALU1.简介2.顶层设计3.内部结构4.端口说明5.操作码说明6.设计代码7.总结 1.简介 算术逻辑单元&#xff08;Arithmetic Logic Unit&#xff0c;简称 ALU&#xff09;是计算机中…...

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…...

【Linux】shell脚本忽略错误继续执行

在 shell 脚本中&#xff0c;可以使用 set -e 命令来设置脚本在遇到错误时退出执行。如果你希望脚本忽略错误并继续执行&#xff0c;可以在脚本开头添加 set e 命令来取消该设置。 举例1 #!/bin/bash# 取消 set -e 的设置 set e# 执行命令&#xff0c;并忽略错误 rm somefile…...

React第五十七节 Router中RouterProvider使用详解及注意事项

前言 在 React Router v6.4 中&#xff0c;RouterProvider 是一个核心组件&#xff0c;用于提供基于数据路由&#xff08;data routers&#xff09;的新型路由方案。 它替代了传统的 <BrowserRouter>&#xff0c;支持更强大的数据加载和操作功能&#xff08;如 loader 和…...

【HarmonyOS 5.0】DevEco Testing:鸿蒙应用质量保障的终极武器

——全方位测试解决方案与代码实战 一、工具定位与核心能力 DevEco Testing是HarmonyOS官方推出的​​一体化测试平台​​&#xff0c;覆盖应用全生命周期测试需求&#xff0c;主要提供五大核心能力&#xff1a; ​​测试类型​​​​检测目标​​​​关键指标​​功能体验基…...

《Playwright:微软的自动化测试工具详解》

Playwright 简介:声明内容来自网络&#xff0c;将内容拼接整理出来的文档 Playwright 是微软开发的自动化测试工具&#xff0c;支持 Chrome、Firefox、Safari 等主流浏览器&#xff0c;提供多语言 API&#xff08;Python、JavaScript、Java、.NET&#xff09;。它的特点包括&a…...

工程地质软件市场:发展现状、趋势与策略建议

一、引言 在工程建设领域&#xff0c;准确把握地质条件是确保项目顺利推进和安全运营的关键。工程地质软件作为处理、分析、模拟和展示工程地质数据的重要工具&#xff0c;正发挥着日益重要的作用。它凭借强大的数据处理能力、三维建模功能、空间分析工具和可视化展示手段&…...

在Ubuntu中设置开机自动运行(sudo)指令的指南

在Ubuntu系统中&#xff0c;有时需要在系统启动时自动执行某些命令&#xff0c;特别是需要 sudo权限的指令。为了实现这一功能&#xff0c;可以使用多种方法&#xff0c;包括编写Systemd服务、配置 rc.local文件或使用 cron任务计划。本文将详细介绍这些方法&#xff0c;并提供…...

今日科技热点速览

&#x1f525; 今日科技热点速览 &#x1f3ae; 任天堂Switch 2 正式发售 任天堂新一代游戏主机 Switch 2 今日正式上线发售&#xff0c;主打更强图形性能与沉浸式体验&#xff0c;支持多模态交互&#xff0c;受到全球玩家热捧 。 &#x1f916; 人工智能持续突破 DeepSeek-R1&…...

如何在最短时间内提升打ctf(web)的水平?

刚刚刷完2遍 bugku 的 web 题&#xff0c;前来答题。 每个人对刷题理解是不同&#xff0c;有的人是看了writeup就等于刷了&#xff0c;有的人是收藏了writeup就等于刷了&#xff0c;有的人是跟着writeup做了一遍就等于刷了&#xff0c;还有的人是独立思考做了一遍就等于刷了。…...

通过MicroSip配置自己的freeswitch服务器进行调试记录

之前用docker安装的freeswitch的&#xff0c;启动是正常的&#xff0c; 但用下面的Microsip连接不上 主要原因有可能一下几个 1、通过下面命令可以看 [rootlocalhost default]# docker exec -it freeswitch fs_cli -x "sofia status profile internal"Name …...