实时转写率达98%,搜狗新款录音笔首创AI降噪功能,可自动提炼录音文稿关键语句

WechatIMG72_meitu_1

【猎云网北京】2月27日报道

2017年11月登陆美国纽约交易所上市后,搜狗“以语言为核心”的AI战略布局也逐步推进。这个战略包含了两个部分,一是人机交互,涉及感知和认知层面对语言的理解;其二,是以语言为核心,围绕机器提升其阅读和推理能力,称为知识计算。

在搜狗CEO王小川看来,搜狗关注AI的初衷就是:让表达和获取信息更简单。

为此,基于其输入法以及巨大的搜索用户数量,搜狗近年来以AI录音笔为切入口参与到智能语音、智能硬件市场的布局当中,陆续推出了以语音识别、转写和翻译为核心诉求的多款智能录音笔。

26日,搜狗就推出了S1、E1两款录音新品,还与故宫宫廷文化合作推出了S1和C1 Pro两款产品的故宫宫廷联名款。在原有录音笔C1的基础上实现了进一步升级,通过赋予产品超强拾音、准确转写、高效整理以及全能翻译等能力进一步提升使用体验。

利用AI降噪,保证人声收录清晰度

为了减少录音过程中因噪音干扰导致人声不清晰的情况,搜狗此次发布的AI录音笔S1在硬件和算法方面做了以下几大优化:

首先,硬件方面,S1配备了2颗哈曼指向性麦克风和6颗全向麦克风。作为对比,普通录音笔和智能手机一般只有两颗双向麦克风。

而S1不仅配备了2颗哈曼指向性麦克风,最远拾音距离可达10米,还配备有6颗全向麦克风,支持360°全向拾音。

其次,算法部分,基于搜狗的clairVoice 8麦阵列算法,S1还能为用户带来超远场景且360°无死角的拾音体验。

据搜狗语音交互中心技术总监陈伟介绍,这是搜狗首次基于深度学习的降噪能力完全实现产品化。

”我们使用的是基于深度神经网络的方式,噪声的分布和人声的分布,在频域和时域上是不同的,我们使用了4万多种噪声,让模型学习到人声和噪声的区别,从而达到超出麦克风阵列以及行业内其他降噪方案的最好降噪效果。”

值得一提的是,在支持录音实时转文字、录音文件转文字的同时还具备增强识别能力,可识别不同讲话人,大幅度提升用户体验。

面对录音转写过程中因为口音、专业词汇等各种因素造成的转写体验不佳的问题,S1、E1两款新品也通过升级实现了98%转写准确率,并支持中英日韩德等10种语言、川粤津陕贵等10种方言的录音和转写。

同时,对于学生、记者、律师、政务等日常具有频繁录音需求的相关领域,搜狗语音团队还训练创建了财经贸易、医疗卫生、IT科技、政法、文化体育等5个专业领域的语言模型,以提升了行业特有词汇的识别准确率

录音整理高效智能,“一句话”即可查找录音内容

对于大部分录音笔用户来说,传统录音笔在录音之后需要反复听写,过程既耗时又枯燥,搜狗此次推出的S1、E1两款新品则能够自动提炼录音文稿的主题和关键语句,方便用户对转写内容进行整理,还可以用语音一句话查找录音内容。

在云端存储技术的加持下,用户还能在录音笔、手机APP、网页、PC客户端等多端自动同步和管理录音数据,并实现一键导出、扫码分享等便捷操作

其中,S1采用的业内首创的NLP引擎智能摘要技术,可通过智能语义组织段落,智能提取关键字形成标签,智能提取段落摘要让用户一眼即知,同时可基于用户的录音标记、录音中的掌声、笑声等节点提取内容重点并进行汇总,大大增加了整理工作的便捷性。

基于云存储服务,S1还支持用户在录音笔、手机APP、网页、PC客户端等多个客户端自动同步和管理录音数据,同时还能进行录音回听、文稿回看、一键导出、扫码分享等操作,各方面对用户来说都十分友好。

搜狗产品经理李健涛表示,通过产品的用户画像,三类人群如记者、办公职员、学生对于录音需求较高。

“针对这三种人我们会提供定制化服务,比如智能摘要、区分讲话人、分析开会过程中的一些笑声、掌声,都是为了方便我们在整理会议纪要、笔记、采访内容的时候,可以更高效地整理和协同办公,这些都是针对这样目标人群提供定制化AI创新功能点。”

全能翻译,让沟通交流更无碍

一直以来,翻译也是搜狗AI录音笔十分看重的一大功能。此次发布的S1对话翻译功能支持全球200个国家63种语言的在线翻译,以及中、英、日、韩、法、俄等9种常用语言的离线翻译,其行业首创的自由对话翻译功能,可实现多场景下的自在交流。

同时,它还是业内首个应用个人同传功能的录音笔,支持实时中英互译,转写结果同步呈现,能够极大的促进高效沟通。

搜狗AI录音笔S1售价2698元,E1售价1298元。目前均已在京东平台搜狗自营旗舰店、搜狗有品小程序里上架发售。

搜狗AI录音笔S1

过去一段时期,智能手机凭借易于携带、方便操作等优势成为传统录音设备的替代品,相关录音App可以完成大部分场景的录音,进而有力地冲击了录音笔这一垂直市场。

对于如何从“录音”这个细分领域开拓更多的市场机遇,王小川在发布会后的采访中表示,搜狗会在软硬件部分进行更多辅助功能和配件的优化,打开新的市场,”现在录音笔市场,可以看成被颠覆、重新定义的状态。”

除了硬件之外,搜狗CTO杨洪涛提到,希望能够探索一种服务化的模式,通过AI能力向用户提供好的增值服务。

”文字可以转写生成文稿,还可以做后续的重点摘要整理,基于翻译做更多赋能工作,无论是交传还是同传模式,用户享受这种服务。过去传统卖硬件,可能卖硬件的毛利,未来我们期待探索无论搜狗自己的产品,还是通过跟行业、传统硬件厂商的互动之后,通过AI赋能向用户提供更多的增值服务,能够以服务化的方式在传统硬件很单薄的毛利之外获得一部分增值的商业模式空间”。