如何评价阿里达摩院发布自研语音 AI 芯片技术,计算效率提升百倍以上?

谢邀,针对大家关心的问题,我邀请到了达摩院研发这一产品的技术专家来回答:

谢谢大家关注,这次HotChips,收录的Oral只有20多篇,达摩院的入选,说明我们在芯片硬件领域的沉淀得到了世界认可。

AI在语音领域的产生的影响相比于其在CV和NLP领域的成就丝毫不逊色,其中最主要的就是语音识别(ASR)和语音合成(TTS)。语音合成算法里引入基于神经网络的结构之后,语音中的停顿、重音、语调、长短音这些都比之前的HMM算法完全提升了一个档次。按现在最好的Tacotron2+WaveNet来说,和真人语音的差距已经不到0.1分了。什么意思呢?如果不是遇到一些歧义瑕疵,大部分人已经听不出它和真人的区别了。

但是,好的算法总是有代价的,由于语音本身是一个采样频率很高的信号,神经网络推算要达到每秒16000次以上。关键是,这些计算还是互相依赖的,从计算量角度来看,一个基本台式机的GPU也没法跑满WaveNet算法;就算用一个专用集群,也很难通过大规模并行来加速。(注:DeepMind 于 2016 年发布 WaveNet 算法,可以生成类似真人发音的语音,效果比以前的模型都好,并且一个模型可以生成不同的声音,是目前主流的合成算法之一)

这导致现在的WaveNet在CPU和GPU上都要跑几十上百秒才能生成一个句子。想象一下,你正开在高速上,本来导航想告诉你该出去了,但因为语音一直没生成好,它只好等了两分钟才发给你,估计这一路下来,铁粉用户也要卸载导航了。

所以说,高语音质量和随之带来的高计算延时一直是个矛盾,尤其是实时任务。对于端上的应用场景来说,除了计算本身的延时外,还有网络不稳定带来的其他延时。而这种追求低延时的任务正是专用芯片领域的宠儿,我们正是发现了这个痛点,历经一年酝酿出了今天的Ouroboros。Ouroboros的突破主要在硬件,使用端上定制硬件加速技术替代云端服务器,一方面使用片上优化设计减少各种迭代中无效计算的开销,另一方面也避免了对网络连接和云端服务的强依赖性。

Ouroboros原理图

我们首先把Ouroboros在FPGA环境下做出了一款产品,使用WaveNet生成语音只需要 0.3秒,大大提升计算效率,同时将整体服务成本降低 10 倍以下,进一步减少业界的部署成本。

WaveNet实践结果

为了达到这样的效果,我们从硬件到软件进行了诸多协同设计与改良:

Ouroboros的主要技术在硬件层面,我们采用了片上环路结构支持迭代算法的思想,通过缓存和控制器直接在片上实现语音的循环生成,而不需要再从片外反复发送计算指令。这样的设计避免了大量进行计算核启动和数据搬运的开销,是针对自回归形式的语音合成模型所特有的结构,因此使用衔尾蛇(Ouroboros)为其命名。

在软件层面,针对硬件结构进行优化算法的计算流程,有效利用缓存队列和稀疏化,在保证计算等效性的前提下进一步提升计算速度。

相比于其他纯粹从算法角度改良的方法,我们此次的软硬件结合方案没有额外的模型训练开销,并且可以同时支持WaveRNN、LPCNet等其他语音合成模型,兼顾高性能与高灵活性。

此次发布的 Ouroboros 技术,同样适用于达摩院于今年 7 月发布的新一代的语音合成算法KAN-TTS,该算法将商用系统里的合成语音与原始语音的相似度提高到97%以上。

除了语音合成之外,Ouroboros 芯片技术还将支持AI语音识别。基于 Ouroboros 研发完整的语音AI芯片,可能会率先在天猫精灵上落地。

我们深知做好芯片是一场万里长征,现在达摩院和平头哥刚刚起步,还有诸多挑战和困难,仍待克服。

来源:知乎 www.zhihu.com

作者:阿里巴巴达摩院

【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载

此问题还有 46 个回答,查看全部。
延伸阅读:
在cpu处理速度越来越快的今天,进行开发的时候是否需要考虑所选语言的效率?

明明可以语音输入,为什么大家还会发语音消息?