龙空技术网

识别 4000 种语言、生成 1000 多种语音,Meta 开源大模型再下一城!

CSDN 2249

前言:

目前各位老铁们对“语音生成模型”大体比较注意,小伙伴们都需要知道一些“语音生成模型”的相关内容。那么小编在网上网罗了一些对于“语音生成模型””的相关资讯,希望姐妹们能喜欢,大家一起来了解一下吧!

整理 | 屠敏
出品 | CSDN(ID:CSDNnews)

和 OpenAI、Google 分道扬镳,Meta 在开源大模型方向上越走越深。

今日,Meta 在 GitHub 上再次开源了一款全新的 AI 语言模型——Massively Multilingual Speech (MMS,大规模多语种语音),它与 ChatGPT 有着很大的不同,这款新的语言模型可以识别 4000 多种口头语言并生成 1100 多种语音(文本到语音)。

在上线短短的几个小时,该 GitHub 库便收获了 23k Star,Fork 数量高达 5.5k。

初衷

对于开发这款 MMS 模型,Meta 表示,「为设备配备识别和产生语音的能力可以让更多的人访问信息」。

不过,虽然全球已知的语言种类高达 7000 多种,但是现有的 AI 语音识别模型仅能够涵盖 100 种语言,范围太小了。

同时,语音识别和文本转语音模型通常需要对数千小时的音频进行训练,对于大多数语言而言,这些数据根本就不存在。甚至全球多种语言在时代不断发展中,会有不少在未来几十年有消失的危险。

为了能够保护世界上语言的多样性,也想要为濒临消失的语言做一些贡献,Meta 研究团队研发并开源了 MMS,「我们公开分享我们的模型和代码,以便研究界的其他人可以在我们工作的基础上进行构建」。

当然,想要收集数千种语言的音频数据是开发这款大模型首先需要克服的困难。

在最新的 MMS 开源语音模型中,Meta 使用了一种非常规的方法来收集音频数据,他们使用了圣经等宗教文本。

Meta 对此解释称,“我们使用宗教文本,是因为这些文本已被翻译成多种不同的语言,并且其译文已被广泛研究用于基于文本的语言翻译研究。这些翻译有公开的录音,记录了人们用不同的语言阅读这些文本的情况。”

作为大模型项目的一部分,Meta 创建了 1100 多种语言的数据集,每种语言平均提供 32 小时的数据。

另外,结合圣经和类似文本的未标记录音,Meta 的研究人员将模型的可用语言增加到 4,000 多种。

支持数千种语言的单一语音模型

当然,依靠这些数据,很多人认为这个是偏向宗教的一种 AI 模型。事实上,Meta 表示,并非如此。

Meta 在公告中写道,“虽然录音的内容是宗教的,但我们的分析表明,这并没有使模型过度偏向于产生更多的宗教语言。我们认为这是因为我们使用了连接主义时间分类 (CTC) 方法,与用于语音识别的大型语言模型 (LLM) 或序列到序列模型相比,这种方法受到的限制要大得多。”

在训练这个模型时,Meta 结合使用了自家公司的“自监督语音表示学习”模型——wav2vec 2.0,它可以在未标记的数据上进行训练。结合非常规数据源和自我监督的语音模型能够带来不错的效果。

根据官方测试数据表明,与现有的模型相比,Meta 在使用 1B 参数 wav2vec 2.0 模型在 1,100 多种语言上训练了多语言语音识别模型。随着语言数量的增加,性能确实会下降,但幅度很小:从 61 种语言增加到 1,107 种语言,字符错误率仅增加了约 0.4%,但语言覆盖率增加了 18 倍以上。

在与 OpenAI 的 Whisper 模型比较时,其在 Massively Multilingual Speech 数据上训练的模型实现了一半的单词错误率,但 Massively Multilingual Speech 涵盖的语言是其 11 倍。

毋庸置疑,MMS 开源模型的到来,不仅扩大了文本生成语音的语言范围,也极大地提升了准确率。

局限性

不过,Meta 警告说它的新模型并不完美。该公司写道:“例如,语音转文本模型可能会错误转录选定的单词或短语,这存在一定风险。”

“根据输出结果,这可能会导致攻击性或不准确的语言。我们仍然相信,整个 AI 社区的协作对于负责任地开发 AI 技术至关重要。”

对于语音大模型的未来,Meta 称也做了设想,希望可以通过一个模型解决所有语言的多个语音任务。“虽然我们为语音识别、语音合成和语言识别训练了不同的模型,但我们相信在未来,一个模型将能够完成所有这些任务以及更多任务,从而带来更好的整体性能”,Meta 说道。

当然,我们也期望这一天能够早日到来。

GitHub 地址:

公告:

标签: #语音生成模型 #语音合成模型训练 #语音合成模型训练平台 #语音合成模型训练方法