除了AI孙燕姿，生成式音频究竟能带来什么？

钛媒体APP 09-28 491

前言：

今天朋友们对“音频的波形代表什么”大约比较注意，小伙伴们都想要学习一些“音频的波形代表什么”的相关文章。那么小编在网摘上汇集了一些有关“音频的波形代表什么””的相关内容，希望小伙伴们能喜欢，兄弟们快快来了解一下吧！

图片来源@视觉中国

文 | BTmt科技，作者 | 青山白鹭

有人比喻ChatGPT对于科技行业，就像可乐中加入了薄荷糖，各种应用瞬间喷涌而出。

这句形容再贴切不过。6月11日，苹果发布了重磅产品——Vision Pro头显，VR头显设备一直被业界认为是苹果未来能取代手机业务的产品，不过，该产品面世却一拖再拖，直到最近被苹果发布，令外界诧异的是，苹果竟然将Vision Pro头显接入了AI助手。

头显接入AI有啥用？可以这么说，应用仅受限于你的想象力。比如你不知道如何驾驶一架战斗机，戴上具有AI功能的头显，它可以手把手教你开飞机；你打麻将老不赢？带上AI功能的头显分分钟让你“赌神附体”；出去登山AI头显可以让你化身为植物学家或动物学家……

就在前不久，全球大名鼎鼎的人形机器人公司波士顿动力，也宣布将机器狗接入ChatGPT，这犹如给了机器狗“生命”一般，让机器狗能够与人类对话，并回答各种刁钻的问题。

而这，仅仅是生成式AI应用的冰山一角。生成式AI未来将是什么样的形态？德意志银行的最新研报似乎给出了答案，生成式文字热潮后，科技界或将迎来生成式音频的大爆发。

生成式音频究竟能给我们带来什么？

AI音频已经来到我们身边

德意志银行的最新研报显示，从2020年第一季度到2022年第四季度，提到“生成式音频（generative audio）”的公司文件数量增加了13倍以上。

德意志银行分析指出，人们可以输入文本或图像来生成音频内容，而不需要音频专家或计算机专家。这可能会影响游戏、通信、音乐、新闻和医疗保健等一系列领域。

福布斯科技专栏文章同样指出，目前，AI模型已经涉足音乐领域，生成式人工智能很可能越来越成为创作歌曲和作曲的宝贵工具……

就在我们以为这样的场景会很遥远时，生成式音频已经来到我们身边。

谁能想到，有一天华语音乐圈的顶流会是AI呢？前一段时间，AI孙燕姿登上热搜，AI孙燕姿演唱的《爱在西元前》、《发如雪》等周杰伦代表作在B站已破百万播放，众多网友被AI孙燕姿的歌声倾倒，连“冷门歌手”孙燕姿本人都不得不发文回应此事。

除了AI孙燕姿，AI瞬间席卷了音乐圈，几乎没有热门歌手能逃脱此次AI热潮。甚至AI热潮还有向谱曲、填词等周边蔓延的趋势。

因为AI歌手太热，B站音乐区不得不专门在翻唱区为“它们”开辟了一个板块。除了AI孙燕姿，化身为AI歌手的还有陈奕迅、周杰伦、张学友、刘德华等等热门歌手。在这个板块你可以听AI孙燕姿唱的《向天再借500年》，AI爱莉安娜·格兰德唱的《天路》，AI那英唱的《2002年第一场雪》，AI周杰伦唱的《乌梅子酱》……

甚至不是歌手的“名人”，也能化身为AI歌手，比如AI雷军可以为大家演唱一首《千里之外》；AI孙红雷也可以演唱柔情版的《红豆》；AI马斯克演唱《好汉歌》竟然也不违和。

如果说，这股AI歌手热潮仅仅起到了娱乐作用，那么用AI复活那些去世的歌手，也确实为冰冷的科技世界增添了些许温暖。当AI迈克尔·杰克逊再次用他那标志性的嗓音为我们演唱歌曲时，下面的留言中有网友写道：“MJ的声音一出，我就瞬间泪崩了……”一位网友在AI张国荣的演唱视频中留下评论，AI音乐技术让这些已经离世的歌手以另一种方式出了“新歌”，对粉丝们而言未尝不是心理慰藉。

正如ChatGPT对各行各业产生的影响一样，AI歌手也带来了巨大争议，有业内人士表示，AI歌手是否构成侵权，是行业内最大的争议。有律师指出，AI模拟的声音并不构成侵权，也不受《著作权法》保护，但是被翻唱的歌曲是有著作权的，需要取得授权才能使用。

还有网友指出，如果声音可以被模拟，那么是不是代表着声纹锁这样的产品会面临巨大风险？有观点指出，“生成式音频”确实会对现有的社会秩序带来更多的冲击，比如还可能引发电信诈骗、伪造高层指令等等一系列风险。

遗憾的是，这样的担忧已经成为现实。美国《时代》周刊在4月曾报道称，亚利桑那州的一个家庭以为接到了绑架电话，电话里的声音听起来与亲人的声音一模一样，甚至连哭腔都别无二致，结果发现这是一个完全由AI制造的骗局。

澳大利亚悉尼科技大学电气与数据工程学院副教授迪普对媒体指出，AI模型仅需要被模仿者说几个短语，就可以“克隆”出和他一模一样的语音，有些模型和算法只需一分钟甚至更短时间。

应用场景远超想象

AI歌手能带给大众的或只是会心一笑，娱乐性其实仅仅是“生成式音频”极小的一个应用场景，“生成式音频”能带给我们的远超想象。

事实上，互联网公司在行业最前沿从未缺席。据最新的《中国人工智能大模型地图研究报告》显示，据不完全统计，中国10亿级参数规模以上大模型已发布了79个，特别是在自然语言理解、多模态等方面，出现了多个在行业有影响力的大模型。

从世界范围来看，拥有生成式音频相关专利最多的公司包括索尼（Sony）、亚马逊、华为、字节跳动、Adobe、苹果和腾讯。

6月初，阿里云向外界透露了通义大模型进展，聚焦音视频AI的“通义听悟”正式亮相，成为国内首个开放公测的大模型应用产品。“通义听悟”正是“生成式音频”一个“非娱乐化”的落地样本。

如果仔细追溯通义听悟的“前世今生”，会发现它就是阿里云在2021就重点打造的 “听悟”大模型产品，现在被阿里云寄予厚望，就是因为除了集成阿里通义千问大模型的理解与摘要能力外，还融合了阿里最先进的语音语义、多模态算法等技术。

通义听悟带给我们的是AI音频杀入办公赛道。结合当前的官方定义来看，通义听悟具备“听”与“悟”能力，即“听力好 ”，能高准确度生成会议记录、区分不同发言人，“悟性高”，可形成摘要、总结全文及每个发言人观点、整理关注重点和待办事项。

用AI音频杀入办公赛道的，不仅仅是阿里云。还有腾讯会议、科大讯飞等等实力强悍的服务商，此外抖音的飞书妙记、搜狗、网易有道也在对这个赛道虎视眈眈。

究其原因会发现，除了文字输入这种与机器交互的方式外，效率最高、最准确的就是音视频与机器交互这种方式了。而且如果语音识别度高，音频的输入速度远远高于文字输入。但是，目前文字和音频之间的转换，仍存在一些瓶颈。

据业内人士指出，从文本语言模型转向音频语言模型，仍有一些问题待解决。比如，文本和音频之间不是一一对应关系。对人类来说同一句话可以有不同语气的演绎，对AI理解来说却是一个难题。此前，谷歌的AI工程师指出音频并不容易用字符来记录：“音频的数据速率要更高，用数十个字符就可表示的书面句子，其音频波形通常含有几十万个值。”

生成式音频不仅仅杀入了办公赛道，给音乐界带来的影响正如上文提到的，各种AI歌手的出现几乎颠覆了整个行业。但是，生成式音频带来的并不是只有“毁灭”，还可以帮助音乐人突破创作瓶颈。

梳理发现，其实语音、音频合成技术已经存在了几十年，音乐合成器在之前一直扮演着创造世界上从没有过的声音的“使命”，但是它必须由人来操作每一步。后来诞生了数字音乐，虽然可以大大方便音乐人来创作音乐，但是依然需要创作者具有多年的学习和使用经验。

当AI音乐席卷了音乐圈后，人们发现创作AI音乐已经不需要太多音乐知识和专业能力，只需要简单地输入一些文字和描述，就能很快创作出音乐，当然这样的“音乐”在一些音乐人眼中看来，还不能称之为“音乐”。但是随着大模型的训练，我相信这种由AI创作的音乐一定会有惊人的效果。

此外，生成式音频连游戏产业也开始颠覆。在过去，游戏公司支出的一个大头，就是游戏中各种音效、BGM、片头曲片尾曲等等，现在有了生成式音频，可以大大将这项开支节俭。

有游戏行业从业者指出，游戏中的音频主要分4个部分：音乐、语音、音效、声音引擎。之前的游戏音频开发需要经过漫长的设计、制作生产、引擎逻辑、音频QA等工序。目前，AI音频技术可以应用在设计、制作生产等环节，使得游戏音频开发时间大幅缩短，而且成本也低得多。

综合来看，生成式音频已经来到我们身边，由计算机生成的语音可以接近人类语音所传递的表达、语调和情感水平，这将为实时翻译、音频配音和自动实时配音和叙述带来新的可能性。对于我们来说，生成式音频的到来影响是巨大的，但它也告诉我们，它不是人类创造力的替代品。所以，未来世界会是什么样，我们仍不得而知。

本文地址：http://www.longkongtuishu.com/ca88bBA1sAFcDC1M.html

标签： #音频的波形代表什么