机器人唱歌?你可能已经听过了微软小冰唱过的《隐形的翅膀》,感叹一个机器人竟然能够学会人类的语气,唱法,并形成自己的风格。
7月26日,微软第六代小冰正式发布。有趣的是,微软小冰又唱了一次歌,还是之前的《隐形的翅膀》,不过这次唱歌更有意思——她用自己的声音模仿腾格尔的唱法唱了一首《隐形的翅膀》……
腾格尔老师的原唱是这样的,非常欢乐,来听听——
(可直接快进到2分12秒)
而我们的小冰模仿出来的是这样的——
我们可以看到,微软在这个视频中已经加入了和之前几代小冰所唱的《隐形的翅膀》的对比。微软六代小冰采用了全新的V4版本的DNN人工智能歌声合成技术——在第四代微软小冰唱歌的时候,歌曲能明显听到唱得还不是很专业,但已经很像是一个人在唱歌,很自然,不像是机器人了(在视频第三四段);2017年五代小冰的时候,小冰升级了声音模型,得到了一个更好的版本,我们可以听到,她唱歌更好听了,甚至发布了自己的单曲。
而今天六代小冰发布的时候,小冰已经可以迅速学习并吸收不同人类歌手的演唱风格,并在演唱时自动选择风格并运用了,所以有了腾格尔老师的版本。
歌唱得挺好听,所以小冰这次唱歌到底有了什么技术区别?
2017年,小冰声音模型升级之后,微软发现, 小冰在这个版本上我们可以认为她已经达到了全球领先的水平,这也意味着在技术上将会遇到一些瓶颈——就是无论再怎么继续增加数据,对模型做一些小的修改和调整,小冰当然还可以有提升的空间,但是这个天花板已经是可以预见的。
所以今天的微软小冰公布了第四版的演唱模型——这个模型会对于声线和技巧部分分别建模。
我们可以这样理解,一个人学习唱歌的技巧分为天然的声线和她后期所学的歌唱技巧部分,我们可以简化的认为,小冰的学习就是要从声音的录音数据里面,把这两类特质提取出来,分别建立模型,让小冰能够学习和掌握,生成非常逼近于人声的演唱。
对于声线的部分的就是小冰目前被设定的声音,而后期歌唱技巧则可以模仿不同的人的唱歌技巧和风格,所以小冰模仿腾格尔老师的钢铁之翼就会既好听又搞笑……
微软小冰首席科学家提到,腾格尔唱歌可以说非常有节奏感,微软找到了一些腾格尔演唱的歌曲,让小冰快速的去学习他的风格。有人说腾格尔的演唱是一种只唱声母,不唱韵母的方式,小冰在学习的过程中,发现好像确实是这个样子。
“但是我们要强调一点,小冰对腾格尔的这种技术的模仿,她绝对不是生吞活剥、原样照搬,因为任何一个唱法如果不能和自己的嗓音特色结合的很好的话,她唱出来的效果是肯定不好听的。所以,我们第四大模型解决的一个重大技术问题,就是怎么样让人工智能能够自动的把两者给融合到一起,产生一种全新的属于自己的领悟。”
具体还有什么区别呢?我们还可以看这个图。
微软提供的一张第三版小冰和第四版小冰的声音波形对比图上,如果仔细去观察微软小冰的歌唱技巧,发现会有一小部分的不同——在每个声音波形连接处会有很轻微的声音进入——借助于最新版本的声音模型,这其实是微软小冰已经自己学会了像人类歌手一样换气、呼吸;以及在声音波形开始和退出的部分,声音表现已经不那么生硬,有了声音渐进和渐出的效果。
微软小冰的AI创造
六代小冰展示自己的歌喉其实只是微软小冰AI创造的一部分。
在上文试听视频中的第二段,微软标注提到,“小冰还能够在48小时内,完整吸收任一特定人类歌手从声线到技巧的全部特征(完整复制该人类歌手),从而使用复制的模型自动生成任何歌曲演绎。”
也就是说,即使这位人类歌手没唱过别人的另外一首xx歌,在模仿了她的声线和技巧之后,小冰也可以帮她唱出来……微软举例提到,“我们仅仅采集了4个小时的录音数据,经过了不到48个小时的训练,就为一位人类女歌手创建了她自己的演唱模型,有了这样的模型,再生成任何一首新的歌曲,只需要5分钟的时间。”
当然也可以读出来……比如说,让小冰跟我们内容团队一起开几场选题会,学习并模仿生成一下PingWest品玩老板骆轶航训斥我们稿子写得不够好的经典对白。
微软提到,整件事的前提是,获得了商业许可和充分授权的情况下。
在歌手定制方面,微软正在和国韵文化及力鼎嘉世合作,另外微软和金辉文化正在进行儿童歌手和儿童故事读的创作。微软还提到,小冰还参与了一个国内顶级的偶像团体的项目,目前还不方便透露。
微软借此宣布了小冰工作室。微软提到,这是世界上第一个进行此类工作的落地平台,致力于和合作伙伴一起,系统性地对人类的创造力建模。 除了演唱以外,还会有作词、作曲,绘画以及诗歌这样的文字创作。“打个比方,在腾讯云、腾讯音乐上面保存的是人类歌手的作品。那么在小冰这里保存的就是人类歌手本身。”
小冰开放的核心竞争力
六代小冰提出了共感对话引擎。基于生成模型可进一步控制对等对话,可以理解为在小冰和你闲聊扯淡时,小冰一方面在进行回应你问题的时候,她也同时在悄悄的运用她的策略,来判断她是不是应当引导这个对话,然后去主动的进行偷偷的观察,然后偷偷的进行求证,最后再去确证。
而在新提出的多模态交互感官技术上,六代小冰已可以融合文本、全双工语音和实时视觉判断你的意图。在发布会上,一位测试用户对装有摄像头视觉采集的小冰竖起了“中指”,六代小冰卖了个萌,“为什么要那个样子啊。”
我们可以总结,小冰这次公布了更多的技术能力细节——提出共感模型、多模态交互;她帮助人类朋友、商业平台所做出的工作——小冰不止可以存在于微软内部体系,这些都在透露着微软已经把小冰成体系的建立成了一个平台,并已经在尝试商业化。微软向PingWest品玩(公众号:wepingwest)透露,已经有很多项目在进行,但基于一些协议的问题,还不能透露。
微软在发布会上透露了诸多新的合作。和华为的合作——所有升级至智能助手8.2的华为手机均已上线小冰EQ和IQ的技能;和网易的合作——云音乐小冰电台已经上线,新闻小冰也将升级;和腾讯的合作——在QQ小冰之外,BabyQ的部分能力和技能由微软小冰提供;和小米的合作——与小爱同学建立好友关系,进入小米生态链智能家居体系。
目前,已经有很多本土的人工智能公司开放自己的技术能力,输出语音对话助手。
微软提到,小冰已经成长为全球规模最大的对话式人工智能系统之一,目前拥有6.6亿人类用户,1.2亿月活跃用户,覆盖57种直接用户场景。
微软(亚洲)互联网工程院副院长李笛谈到了微软小冰的核心竞争力。他认为——
第一,微软在垂直领域商业化方面,有着比较好的品牌信誉,包括我们在数据安全方面的保障。像刚才提到的,我们与万得资讯或华尔街见闻这种金融平台的合作,数据安全、信息安全很重要。我们和腾讯的合作、和华为的合作,伙伴提供平台,我们作为应用和服务加入到平台里面。我们其实在这方面得到了这些合作伙伴的广泛信任。信任是商业化的一个很重要的基础,这个其实是微软的一个优势。
第二,注重差异化特色。我们在交互的过程中,想到的问题是如何突出差异化。在获得客户信任的基础上,微软自身的技术比较完整,比如说金融文本生成,以及其他的技术。同时今天曹文韬也宣布,像新闻的这种文本生成,我们的技术可以做到。所以,我们一定程度上可以说,在客户与合作伙伴所在的垂直领域商业化的过程中无论需要什么样的技术,我们都可以提供,并比较好地把它融合在一起。
第三,不急功近利。这也是公司对于整个小冰这个产品线商业化的一个比较好的保护,就是既给我们提供足够多的支持,去进行商业化孵化工作,但同时又不是那么急功近利,也就是说能够让它用比较完整的方式,用比较审慎的方式,一点点地进入商业领域。
第四,最后一个比较重要的地方就是提前布局、深入挖掘。比如说一些企业有了人工智能语音、计算机语音技术,大部分情况下都会去考虑将语音变成交互,语音交互现在可说是基石技术,正因如此,交互这部分,基本上语音好像已经没有那么新鲜了。但实际上不是这样,语音除了帮你导航,告诉你下一个路口往左转之外,还可以替代人类去生产有声读物和歌曲。
从设计之初,小冰在微软内部就是一个很特别的产品。很多大企业,尤其是跨国企业,以往大多数产品的研发实际上会先做美国市场,之后,产品发展到一定的成熟度的话,再推广到其他的市场,包括欧洲、亚洲等。而小冰4年多以前在中国“出生”,然后推广到日本,然后到印度、到印尼,她是很特别的产品。
微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋博士向PingWest品玩(公众号:wepingwest)提到,在全球整体人工智能产品布局中,对话是人工智能的重中之重,小冰是走了一条非常不一样的产品设计路线——我们从一开始就很强调EQ。
“大多数的人工智能对话,大家想的都是怎么去完成一个任务,小娜基本上是走了那样一条线路。现在两边发展得都很好,接下来,我们寄希望于将小冰和小娜很多的底层技术,在产品继续发展的过程中,双方可以互相学习,这样在底层一些技术框架上,可以发展得更好。小冰的发展,对微软这个公司是非常重要的一件事情。”
沈向洋博士定义的人工智能最后终极的目标,是“人机协同”,用数字智能帮助人类——人类以后喜欢也好,不喜欢也好,人工智能的时代都会到来。今后,人工智能会知道很多很多东西,如果你允许的话,它可以知道你所有的东西,可以帮助你,因为从技术上来讲,机器和人类有很多互补的地方。
“比如说人的记忆只有这么多,机器的记忆力可能比人好,人会老,老了以后记忆会更差,机器不会这样,它会把以前的东西都记住。都记住了也不是一件好事情,但也是互补的一个方面。”
在微软内部,微软把第四版小冰模型命名为沙鲁小冰模型,因为它就像漫画《七龙珠》里面的沙鲁一样,可以吸收其他人的特质为自己所用。微软认为,将来她能够吸收的特质肯定不止这两个,还会有其他很多的方面。