龙空技术网

AI研习丨音乐问答—音乐的感知与理解

中国人工智能学会 64

前言:

今天兄弟们对“在线音乐免费解析”大约比较讲究,你们都需要了解一些“在线音乐免费解析”的相关知识。那么小编也在网络上网罗了一些关于“在线音乐免费解析””的相关知识,希望看官们能喜欢,同学们快快来了解一下吧!

文/ 李小兵,高文豪,周晴雯,帖云

摘 要:

音乐分析与理解一直是专业人士的工作,为了帮助普通人感知理解音乐,提出了音乐问答任务。给定音乐和关于音乐的提问,任务的目标是提供准确的答案。为实现此目标,在MTAT数据集的基础上制作了MQAdataset,包含了乐器、速度、风格、情感、演奏形式、语言和音量七个基础分类;同时MQAdataset的所有问题被分为基础问题和深度问题,以便讨论不同模型在音乐问答任务上回答深度问题的能力。为完成MQA任务,搭建多个模型进行试验,并对结果进行讨论,在所有参与测试的模型中,Musicnn-MALiMo(Spectrogram,i=4)得到了准确度为71.13%的最好成绩。

关键词:

音乐理解;问答;特征提取;特征融合

引言:

随着深度学习的不断发展,计算机在认知理解视觉信息方面的能力得到不断提高,在目标检测、图片字幕、视觉问答等领域取得显著成就,一大批优秀的模型和网络框架应运而生。但是在音频内容理解方面却进展缓慢,尤其是音乐方面。虽然近年也存在几个相关方向,但都不能全面地帮助理解音乐内容。音乐自动标注旨在用一系列的标签来对音乐进行注释,而音乐字幕是为了通过一句简单的描述让我们对当前音乐有一个简单的认识,而这些对深入全面理解音乐的帮助甚微。本文提出的音乐问答任务,是以音乐的音频文件和针对音乐的提问作为输入,以预测该问题的回答作为输出(见图1)。我们希望它可以填补音乐理解方面的空白,进而实现更高层次的音乐认知和理解。

图1 MQA 任务:以音乐和针对音乐的提问为输入,以系统的预测答案为输出

音乐问答系统可以帮助我们认知音乐。在听到一首音乐时,听众会想要了解它包含的乐器种类、语言、风格划分等特征信息。但对于未接受专业训练的人而言,很难直接从听觉中感受到上述信息,如普通人很难直接分辨出一首音乐中使用了几种乐器。同时不同的人对于音乐内容的理解也不尽相同。孩童对于音乐所想要了解的内容大多处在浅层,如这首音乐主要使用的乐器是什么?但是对于有乐理基础的人而言,更关注音乐深层次的音乐信息,如这首音乐包含几种打击乐器。

我们在 MagnaTagATune(MTAT)数据集的基础上制作了数据集 MQAdataset,同时测试了多个模型的性能。为了加强对音乐内容的深度挖掘,满足人们对于不同层次音乐理解的需求,还引入了线性调制的多辅助控制器(MALiMo),扩展并增强了特征线性调制 FILM 模型,具备信息推理的能力。

本文主要贡献可以归纳为:①提出的音乐问答任务是一个全新的领域,可以帮助人们认知和感受音乐。②制作了第一个音乐问答数据集MQAdataset,将其分为乐器、速度、风格、情感、演出形式、语言和音量七类,并按照问题的来源将其分为基础问题和深度问题。③测试了多个模型在MQA 任务上的表现,并且模型 Musicnn-MAliMo 取得准确度最好的成绩。

1 相关工作

1.1 音乐内容理解

在MQA之前,也存在一些可以认知音乐内容的任务,这里主要介绍音乐自动标注和音乐字幕。

Jordi Pons 和 Keunwoo Choi 曾分别提出基准模型用于音乐自动标注,并取得了不错效果。但是由于音乐标注数据往往存在冗余性,面对音乐的疑惑很难直接从大量的标注数据中得到答案。Karim M.Ibrahim 想借助音乐上下文行为来挖掘音乐的内部信息,但这对理解音乐内容的帮助甚微。Zhang 提出 BUTTER 模型,想通过音乐的潜在表示生成音乐描述,不过该工作还有许多方面需要进一步完善。Tian Cai 采用序列到序列的模型想通过生成一系列标签来认知音乐,并将其称为描述。这依然属于音乐标注,所得到的也是一系列离散的词汇。Ilaria Manco 借助音频描述的方法来生成音乐描述,如一段安静的吉他声。这种描述方式过于简单,涉及的音乐特征也较少,不能帮助我们全面认识音乐。

1.2 问答

自视觉问答任务提出以来,受到广泛关注。Qingbao Huang 使 用一种新的双通道图卷积网络(DC-GCN),用于更好地结合视觉和文本优势,不同的 GCN 网络捕获不同的目标关系。Deniz Engin将视频中的对话转化为摘要,同时使用软时间注意机制定位长时间输入,最后取得的成绩甚至比一些人类评估者表现得更好。Jungin Park 和 Pin Jiang 借助时空图提高自己模型的性能,取得了十分好的实验结果。Xinyu Wang 和 Amanpreet Singh 的工作主要集中在文本视觉问答,关注的重点主要是视觉信息中的文字部分。Haytham 的工作集中在声音问答任务上,通过自己制作数据集 DAQAdataset 来验证所提出网络 MALiMo 在时空推理方面的优越性,不过 DAQAdataset 的音频文件是多个声音文件拼接在一起的,这显然与 MQA 的主体思想有明显差异。

2 MQAdataset 介绍

2.1 MQA 数据集制作

为了实现 MQA 这个任务,我们在 MTAT的基础上制作了第一个用于音乐问答的数据集MQAdataset。MTAT 是一个包含大量音乐和音乐注释标签的数据集,共有 25 863 个音乐片段;每段音乐持续 29 s,包含 188 个注释标签。制作过程中参考了音乐分析时常用的音乐分析方法,并从中总结出人们进行音乐分析时经常关注的音乐元素。结合MTAT 的标签内容,选定 59 个标签作为提问的主要音乐元素,并将这些分为了乐器、速度、风格、情感、演奏形式、语言和音量七类。

MQAdataset 的每个数据由音乐、问题和回答三部分组成。其中,音乐部分使用的是 MTAT 数据集原有的音乐部分,长度是 29 s。问题部分由两类志愿者进行提问,第一类为来自中国传媒大学音乐专业的 10 名学生;第二类为未接受过音乐训练的 20名普通学生。每个人按照自己的喜好提出问题,提问内容主要是具体音乐元素或者音乐的类别归属。答案生成的过程为,首先为每个问题匹配音乐;然后根据 MTAT 数据集中的标签得到答案。我们尽可能地匹配那些同类标签较少的音乐。例如,如果问题是这首音乐是否使用了钢琴,则为其匹配乐器种类较少的音乐;对于计数类问题我们考虑的答案范围是(0~3),并且每个问题下不同答案的个数相同。对于答案是 Yes/No 问题,每个问题都有匹配不同答案的音乐,其个数相同。

根据两类志愿者提问时主要关注的音乐元素有所不同,所有问题分为两类。未经过专业培训的学生提问主要集中在速度、语言、音量和乐器,这些问题称为基础问题。相比之下,音乐专业的学生提问主要集中在风格、感情和演出形式上,这些问题称为深度问题。特别的,将乐器的类别和计数类问题归为深度问题,因为这些音乐元素同样被音乐专业的学生所关注。

2.2 MQA 数据集分析

实验中共生成了 4 350 组数据,每组数据包含 { 音乐,问题,回答 },其中 3 480 组用于训练、870 组用于测试。图 2 是每个问题前三个词的分布情况。

图 2 每个问题前三个词的分布情况

所有问题中最长的包含了 11 个单词(How many kinds of percussion music are used in this music?),最短的仅包括三个单词(Is it jazzy?)。深度问题共有 2 020 个,分别位于情感、风格、演出形式和乐器四类,图 3 是深度问题在不同类别中所占比重。答案部分共包含 63 个,其中 yes、no、0、1、2、3出现的频率最高,除此之外的答案均为具体的特征值,图 4 显示了各答案出现的频率。

图 3 深度问题在不同类别中所占比重

图 4 各答案的出现的频率

3 模型与方法

下面将从三个部分介绍实验模型、音乐特征提取、语言特征提取和融合处理(没有考虑仅有问题和仅有音乐两种情况)。

Conv-LSTM 模型包含一个多层卷积网络和一个两层的 LSTM。卷积网络用于提取音频特征,包含5个卷积块和两个标准卷积层;每个卷积块包括两个具有 BatchNorm 和 ReLUs 的卷积层,以及在第二个卷积层之后具有 2×2 窗口的最大池层;然后是两个标准卷积层,带有 BatchNorm 和 ReLUs;再后是一层卷积网络;最后是每个通道的全局平均池。第一个卷积块中的卷积层有 32 个大小为 3×12、步幅为1×9 的滤波器,而后每个卷积块的滤波器数量是前一个的 2 倍,所有这些滤波器的步幅为 3×3。

我们使用视觉问答研究中编码问题的常用方法——预训练的 GloVe 编码问题。每个单词都被嵌入到一个 300 维的 GLoVe 向量中,然后输入到一个两层的 LSTM 进行编码,产生问题表示。问题表示和音乐表示连接起来,并反馈到一个全连接神经网络。该神经网络由一个包含 1 024 个单元的隐藏层和 ReLUs 组成,用于预测答案。

4 实验

4.1 实验细节

实验过程中音乐文件的预处理工作安排如下,对于使用基础卷积网络提取音频特征的模型,将每个音频片段以10 ms的步幅分割为25 ms帧,并应用汉明窗;然后从每个帧中提取 64 个对数频谱系数,并进行标准化。对于 Musicnn 中的谱形前端遵循先前工作,将音频片段转换为对数梅尔幅度谱图,并进行标准化。

公式中,T 表示模型预测正确的问题数量;A 表示本次测试所有的问题数量。

4.2 模型分析

按照第三章提出的模型配置,在 MQAdataset 上进行实验,结果如表 1 所示。从表中可以看出,所有模型中 Musicnn- MALiMo 取得了最好的实验结果,与预期相同。总体来看,Conv-LSTM 模型较差,仅取得 37.47% 的成绩。但是在加入 Musicnn 提取音音乐特征后,模型性能得到了大幅度提升。这说明相比普通的卷积网络,Musicnn 提取音乐特征的能力是可靠的。加入 MALiMo 模块后,模型效果提升较小,这是由于在整个数据集中,需要对特征做融合推理的问题不多导致的。将问题进行分类考虑,yes/no 类的问题在各模型中都是最好。加入 Musicnn后,受影响最大的是 else 类,原因是这类的答案主要是音乐具体特征的值,其更加依赖于网络对于音乐特征的提取程度。加入 MALiMo 模块后,Count类的准确度提升最大。这表明相较于其他类,这类问题对于模型的推理能力要求更高。

为了讨论不同模型对于深度问题的效果,对其结果进行统计。从表 2 中可以看到,MALiMo 模块对于深度问题的贡献相当显著,对于不同的前端分别提升了 27.35% 和 22.84%,但是随着 MAliMo 个数增加,模型性能得到了大幅度提升。但是随着 MAliMo 个数增加,它对于深度问题效果提升的并不明显,对于所有问题的效果提升也不明显,我们认为是数据集太小导致的,这将是下一步工作重点。同时注意到,对于Musicnn 的两个不同前端,谱形前端的表现领先,这与谱形前端中使用两种分支结构密不可分。

5 结束语

为了帮助感知理解音乐内容,提出了 MQA 的任务,并在 MTAT 数据集的基础上构造了第一个音乐问答数据集 MQAdataset。使用不同网络结构测试其对于 MQA 任务性能的结果表明,使用 Musicnn-MALiMo (Spectrogram,i=4)时的效果最好(71.13%),这个结果基本满足了 MQA 任务的要求。此外分析了 MALiMo 模块解决深度问题方面的能力,以及不同类别问题的准确度。在下一步工作中,更加完备的数据集和更好提取音乐特征的网络将是我们的工作重点,同时希望会有更多的人参加到这个任务中。

(参考文献略)

选自《中国人工智能学会通讯》

2022年第12卷第4期

艺术与人工智能专题

标签: #在线音乐免费解析