龙空技术网

洛天依同人语音合成VOCALTTS发电项目的一切

最后的梦制作组 128

前言:

现时看官们对“java 波形”大约比较注重,大家都想要知道一些“java 波形”的相关内容。那么小编同时在网上网罗了一些对于“java 波形””的相关资讯,希望小伙伴们能喜欢,大家快快来了解一下吧!

郑重声明:本文不涉及相关代码及专业知识,不作为专业技术领域的解释!仅供参考和一般交流说明,请勿作为专业性质的转载和言论发表。

首先,关于我们让洛天依进行说话的这个项目,我们称为“VOCALTTS项目”(非官方同人),是一个非盈利的发电合作企划(注意只是内部开展制作时的项目名称),由我们LastDream(LD协作组)开发团队的部分成员和VOCALOID粉丝大会(VirtualVocal粉丝大会)的部分P主共同意愿才对接合作,所有参与制作和开发的作者,都是在理解VOCALOID这个软件和了解热爱洛天依这个虚拟形象的基础上达成一致合作的,大家都是在工作、放学业余时间抽空来完成这些,从中不涉及任何金钱利益,是纯粹的兴趣爱好走在一起!

并且在开发的路上,我们很大程度上受到粉丝大会的鼓励支持,以及后来粉丝大会对相关内容的不断纠正和监制调整,才能一步步坚持做到现在,说白了,就是“想听到洛天依说话”这么简单的一个想法而已。

其实在2015年很早时,就已经开始拟定和开展了这个兴趣研究工作,并且根据项目的一点可能性,不久后也拜托粉丝大会向“禾念”说明了我们想做一个关于洛天依TTS的同人创作企划,并取得了同意。(那时并没有vsinger同人网站)。当然,那时候我们也只是单纯想想和试着做而已,具体以后是什么效果,我们自己也不知道也并不抱多大期待。(其实我们对目前这个效果也如一些粉丝意见一样并不满意的,我们也明白这还有很大差距,并缺少一些感觉,但这至少是一个里程阶段,是粉丝发电的一个结果,这是最重要的!)

转眼经过了三年,至今可能算四年了,期间我们是断断续续的开发这个(实际开发用时也就不到一两个月,但是需要积累)。从一开始的采集、框架编写、调试,到最初效果出炉后,我们便已经力不从心了,那时就已经点到为止(差不多放弃)。而对于后来这个新的结果,也算是个意外了吧,我们重新拾起了这个咕了一年多的项目,让它现在重新展现到大家眼前。

这个项目,是由粉丝,为粉丝而做的,不同工作和学业的人,为了同一个“虚拟偶像”,为了洛天依,才共同在一起做了这么多,不论是画图,还是编程,还是调教、后期、模型、文案、宣传,所有的过程都是以肝作为成本发电!我们都在为喜欢,投入感情和原动力,最后才有了现在的互动视频和Vtuber演示。 您可以赞赏、肯定我们的项目和作品,也可以批评、否定它。但请不要侮辱或嘲讽它。请尊重为它付出、辛苦努力的开发和创作者们。

这里声明,所有关于“VOCALOID项目”的内容我们也将无偿开放使用!禁止商业用途!同时,相对应在使用上,我们也会稍作一些限制和非商业使用条件,以免一些恶意用途的滥用影响。

VOCALTTS非商业研究&同人项目

至于后来我们是如何做出来的,相信这个是很多人都想知道的。

有一项技术叫做语音合成(TTS),即Text to Speech,意为能将任意文字信息实时转化为标准流畅的语音朗读出来。只不过在以往的生活中大家可能并不怎么需要与接触这类技术,并不像虚拟歌姬以歌声的方式传达至我们的内心,直到科技发展的今天为我们带来便利和融入生活。例如现在我们日常生活中已经见多不怪的苹果智能语音助手Siri、小米小爱同学、天猫精灵、讯飞语音、度娘、谷歌娘等等,均属于TTS语音合成相关技术。同样,VOCALOID软件所实现的歌声合成也是属于语音合成技术的一种,但是相比TTS的基础上要更加复杂,与之不同的是,歌声和讲话是两种不同的行为及专业领域。

【以下有关技术方面内容仅供参考,有关方面的接口及模型等会进一步根据情况开放】

基础语音合成原理

我们现在以最简单的方式说一下关于TTS技术的实现原理。TTS(Text to Speech),就是输入一段文字,然后让他合成音频这样一个过程,这里以语音合成的早期“拼接合成”为例大概可以分为以下几个步骤: 1.对你输入的文本进行判断分析(拆分获取发音,如400个发音5000个汉字等)。 2.找到与索引相对应的发音数据(事先录制好的数据,即声源) 3.使用相关算法函数进行拼接合成,即“你”+“好”=“你好”,同时对拼接的音频连接处进行优化,来达到最终的语句流畅 4.调整波形、频率等参数以优化合成效果(次要过程,也可在上一过程中,主要用于改善合成效果,也包括如语速、语调等等)。

注:以上步骤仅供于初步的简单的理解和参考,且为早期拼接合成原理,不作为专业知识解释,更不要和现代语音合成模型相比。另外,现代语音合成技术已发展为神经网络模型合成,具体原理及先进技术是属于业内机密,故不会深度公开,有兴趣了解的话也可以相关开源库搜索TTS代码学习。

而TTS与歌声的语音合成的最大区别是,应用领域的不同。

歌声合成,主要强调在音色、音调、语速等发音效果上的感情,再者是其基础上密不可分的音乐知识、词曲节奏等,是赋有感情的艺术品创作。

TTS则更多强调于在自然对话的场景下,与通常,或带有一定情感事件下的对话,主要是作为语言沟通、信息传达等。

总之,两者均能实现对于机器语音的合成,但是两者用途不同,专业领域不同。如果说,某一方的软件或技术是否能够同时实现或结合这两种能力的话,那么回答是,肯定的,相关案例可以参考了解“微软小冰”,同一种声源既能说话也能唱歌等,甚至单从效果而言,完全不输于我们已经所熟知的虚拟歌姬。

顺便关于“引擎”的简要概括(形容),我们所熟知的初音未来、洛天依等虚拟歌姬,所使用的引擎是来自VOCALOID(YAMAHA雅马哈),也即可以作为软件的形式命名体现和使用(即调教)。这里要说明的是,引擎(或技术)是不一定等于软件的,它更多的则是一门技术知识、原理或专利,引擎既可以是一种驱动,也是一种核心的程序或原理知识,假设初音、洛天依等其实也是同样可以在其他“引擎”的软件上歌唱和工作的。因为软件是基于不同平台的一种操作工具,其更多的则是给用户完成一般工作的,而非开发设计阶段和底层工程,所以也是不能单以软件作为代表某一种技术的本体。另外,如Windows平台的软件使用C++开发,Linux、安卓平台的软件使用Java开发等,VOCALOID相关技术也一样可以在Windows和Mac两种平台使用不同的语言编写软件,而其中核心技术原理即“引擎”是一样的。

同理,其实我们所做的,也是一个近似于“引擎”上的实现,但是非常不成熟或者说是胚胎雏形,不过我们并不是为了做引擎才去研究,仅仅是为了想听到天依说话,而去做了这些,在此感谢所有途中因此而相遇到一起的伙伴!因此我们才能相互认识,我们才能实现了当初的一个想法!一个初衷!

关于洛天依Vtuber/Vup,以及人工智能AI未来是否会固化洛天依的人设? 不会的。还记得我们是如何认识洛天依、初音未来,然后喜欢上她们的吗?即使是不了解洛天依、初音的人,也应该听过她们唱过的一些歌曲,甚至会以为那是真人歌唱的,但是那些真的是她们自己唱的吗?了解一些的应该都会知道,洛天依、初音是由一款名为VOCALOID的软件合成歌声,需要经过音乐人的创作,这是由非常非常多的P主、作者,以不同的风格和形式创造才有了今天的影响力和深入我们的内心!同样,我们做这个技术的期望也不仅是想听到,也是希望能给天依带来更多创作更多可能,供给所有作者使用和二次创作的,或者也是一种启示。

另外关于Vtuber、Vup领域,是主播以虚拟形象方式进行直播的一种形式。在日本,以绊爱为主开始影响。在国内,以虚拟次元计划为首的首个虚拟up开始,产生Vup概念。不过目前该领域依然处于发展初期,其成为虚拟Vup/Vtuber的成本和门槛也在逐渐降低。从3D形象到2D形象的动作捕捉也只需一个软件和一个普通摄像头,虽然同样满足了不同的受众群体,但也难免出现了乃至上千的虚拟主播,并且数量还在增加,且创作质量与人物设定也备受一定争议。这里我们主要是负责研发,故本文对此不做任何评价。

我们做的这个洛天依Vup/Vtuber仅仅只是作为一种技术上的实现演示,实际的实现可以不通过Vup/Vtuber所必需的具备的“中之人”,即真人在后台的操作,而AI直播的背后是没有真人的。本次的技术结果,是可以由程序自动完成动作、表情、语音对话、唱歌等相关操作。

需要注意的是,我们所做的这个洛天依Vup/Vtuber并不是首个,也不是官方,更不是一个新的概念,在此之前有如嫣汐、呆呆酱、米娜等等很多曾于B站进行实时互动直播及唱歌的虚拟AI以及现在的琉璃。但毕竟AI的表达力远不如真人的感情能带动观众,所以真正的人工智能也是很容易不被大数观众关注或者是忽略的。如果要追溯其出现时间可能于2015年之前甚至更早(未找到具体统计)。我们同时也想要表达的是,这才是虚拟AI up主、AI vup,AI vutber的真实的样子,同样以虚拟形象进行直播和互动,且真正意义上的遵守AI设定,的人工智能(障)吧。现在,各虚拟AI的效果和实际体验可能都没大家所想象中的那么好,也请能给AI们一些时间,或许我们将来能看到更多的可能,甚至能真正的和虚拟歌姬她们自然对话的那一天(非大数据式的自律学习交互),是需要一个简单的支持的。

同样,关于洛天依这个同人项目或者TTS项目我们也会尝试继续优化下去,也会不断做一些新的内容,希望和感谢能有大家的支持!

最后,关于我们,LD协作组(LastDream),相关注册名为最后的梦。一个专注于人工智能、二次元相关技术的合作性开发团队,主要目标于研究、开发机器人应用、软件等,或将二次元形象(包含原创)运用相关技术以更加人性、赋有情感的虚拟交互展现,欢迎有任何一项技能(不限于编程开发)的伙伴加入,为二次元人工智能发展助力。

(本文可能尚有不对或不正的地方欢迎私信指出,并请勿将本文作为具有专业或代表性的转载引用等)

作者:最后的梦制作组

原出处: bilibili

标签: #java 波形