【猎云网北京】8月13日报道
猎云网今日获悉,2018年7月,在老股东杭州天使湾创投的支持及系统服务下,语忆科技完成了由苏州高美资本领投、杭州天使湾创投跟投的千万级pre-A轮融资,并将继续投入到人工智能自然语言技术的研发与精进上。
对于自然语言处理技术的开发和精进一直是人工智能领域的重点研究课题之一。其重要性主要体现在两个方面:一是因为语言沟通本身是人类交往所必不可少的互动行为,从人工智能最终形态的长远发展角度出发,具备语言理解、表达能力无疑是人工智能全面化的必经之路;其次,信息时代,如何利用好各行各业各类大数据,从中提炼极具价值的商业洞察帮助企业发展,已成为了当下不可或缺的重要竞争力。而传统技术难以解析的非结构化数据(如语言、文本)更能为企业带来显著的优势。
正如很多人相信那样,下一个十年,对人类影响最为深刻的自然语言技处理技术将是人工智能发展的又一个重大突破。
大数据中的蓝海
在理解为何自然语言处理有着如此重要的地位之前,我们应当认识到,非结构化数据在未来扮演的重要角色。
区别于传统结构化数据,针对非结构化数据目前尚缺少有效的技术手段进行深度的剖析,以至于企业对这部分数据宝藏都浅尝辄止。如何理解非结构化数据的重要意义,让我们举个非常简单的栗子:当你在电商网站购物时一定有通过阅读评论以了解用户对该产品的真实反馈(这里我们就先忽略水君的作用),那么呈现在你面前的将是两组数据,如下图所示:
评论区的上半部分一般是一组带数字的标签,标签内容是已整合好的典型问题,而括号内的数字则代表着包含该类问题的评论数。而下方则是具体的每一则评论内容和用户信息。
上方标签栏可以看作是所有评论的观点总结,用户可以通过直接观察数字的方式快速地判断产品的整体情况;同时,已总结好的观点标签也为用户提供了快速通道,方便直接定位(点击跳转)某一类评论。这就是结构化数据为理解问题、分析问题带来的便利性:数字的大小成为了方便获取的简单评判依据,明显区分开的标签也减少了用户自行判断、总结的时间,大大降低了决策成本,提高了购物体验。
但试想一下,如果只显示下方评论区内容,而没有上半部分结果会怎么样?四位数、动辄百字以上的非结构化数据——评论文字无法定向、无法删选,无法总结。用户只能凭自己的直觉挑选着阅读,而有限的样本也很难令用户得出的客观的结论。这部分评论虽然作为源数据为“上方”总结提供了的依据,但其本身很难产生有用的价值。
事实上,如今各行各业里都存在着太多极富价值的语言文本类非结构化数据,如:大量的员工邮件是不是能帮助企业优化内部管理?开放性调研问题能不能自动归纳观点?运维人员能否从大量客服对话中总结业务痛点?音乐歌词及网络文学等能否智能概括大意?等等……然而最主要的问题是,受限于技术手段,大多数此类非结构化数据都无法像电商评论那样可以被简单地提炼成结构化数据从而产出商业价值,这也阻碍了很多企业对此类数据价值的进一步探求。
有多重要,就有多难
不同于图像识别技术的高成熟度,自然语言处理在整个商业化过程中仍然处于比较初级的阶段,以最热门的应用——个人助手来说,也许微软小冰和苹果的Siri功能已经足够让你感到惊艳,但事实上,这些针对性较强的应用场景——简单系统操作、任务布置——都难以单独作为技术主体实现商业变现。事实上,目前自然语言处理的低商业化水平及需求度不高,本质还是因为技术瓶颈以至于没有达到商业化要求。截至目前,单单自然语言阅读的准确度,行业内也不不过将近9成。而同时,计算机视觉的物体识别准确率已经可以达到将近百分之百。
受行业内普遍认同的是,同样是非结构化数据,自然语言处理的难度要比图像识别要高一个等级。
首先,从人工智能的宏观分类来看,计算机视觉属于“感知智能”,而自然语言则属于“认知智能”,不同于对客观事物的纯粹识别,“认知智能”理解和消化内容的认知能力,从某种意义上来说才是更接近于人工智能最终形态的技术核心。
其次,尽管计算机视觉技术有着广泛的应用空间,例如安防领域、车辆识别、个人身份认证等,但本质上,计算机视觉技术的核心就是物体探测。虽然应用很多,但基本上核心算法都离不开物体探测这个方向,背后使用的逻辑也相当一致。
此外,图像识别都是一输入一输出,问题非常干净、简洁。比如输入一个图片,要判断里面有没有花或者草,直接判断就行了。这些方向中间没有多轮,不需要交互,一般不太依赖于知识图谱和常识,即使用也被证明没有什么太大效果。目前普遍认为,计算机视觉的技术成熟度已经达到商用化的标准,所以我们可以看到很多不同的公司百花齐放。
但自然语言处理的情况完全不同。不同场景、不同语言,甚至不同专业所需要用到的自然语言处理层次都不同。宾夕法尼亚大学教授Dan Roth曾说道:在各种专业应用中,必须要选择正确的自然语言模型,没有任何单一模型可以解决自然语言领域中所遇到的所有问题,自然语言处理没有一个可以解决所有问题的魔术盒子存在,你必须要把所有相关的知识库放进盒子里,选择对的算法,并且针对性的处理特定问题,那么这个盒子最后才有作用。这种现状加大了技术落地的难度。
语忆核心技术 —— 细化语言理解技术
语忆科技正是在这样一种背景下孕育而生。早在2016年,语忆核心创始人就基于早年海外丰富的自然语言模型研发经验,尝试通过创新深度学习算法将中文文本的智能理解提升至一个新的高度。于是便诞生了语忆科技最初的核心技术优势 —— 语忆情感解析引擎。
语忆情感解析引擎虽然不是市场上第一款中文文本情感分析工具,但却是第一个精准实现了多维细节情绪提取的智能引擎。此前,已有的许多常规中文情感分析工具大多只能实现情感状态的正负极判断,即只能区分某句中文是否积极、消极(、中性),这一点很大程度上局限了情绪解析技术的应用范围。
而语忆自主研发的自然语言处理算法,其核心思想是摒弃传统的、研究词与词之间关系的学习模式,而是细化至分析字与字之间的关系,并专注于某几个细分领域,强化训练数据的可用性及针对性,以此打造出能够识别中文文本中多达12种细节情绪——如愤怒、失望、兴奋、愉快、悲伤等——的智能解析引擎。除此之外,这套新型情感分析工具还能区分不同情绪浓度——即某一种情感的激烈程度,以及情感关键词——引起某一种情绪的特定对象,进一步丰富了模型的使用场景。
基于行业领先的中文文本情绪解析引擎,语忆于2017年4月完成了天使轮融资,并进一步专注于人工智能算法的精进与商业化发展。
为了克服当下自然语言技术商用的最大局限——难以匹配商业需求的处理精度,语忆的核心策略是两个“细化”:
一、细化具体行业及应用领域。正如Dan Roth所述,不同于计数机视觉技术,行业与行业之间的语言文本数据将呈现出极大的结构内容差异,而相应的自然语言处理技术也将有着截然不同的实现方法,“大而全”的解决方案是无法满足当前市场需求的。在这个前提下,语忆基于不同行业对自然语言解决方案的需求程度和可行性分析,判断并挑选数个细分领域,专注于行业高度定制化的模型研发,大大提高产品的实用性。
二、细化人工智能模型功能开发。自然语言处理本身涵盖了丰富的语言文本处理技巧及维度,同样,要做到“大而全”不仅需要分散大量的资源,同时亦很难在任何一方面实现“单点突破”。语忆绕开了这条弯路,将大量精力投入至细分功能的研发及精进,最终确定了以语忆专利技术——语忆深度学习算法——为核心的智能语言文本解析体系。该体系涵盖了以情绪解析引擎为主的数个功能,并将继续以专利技术为基础进行自然语言理解技术的开发与迭代。
(由语忆科技独家提供技术支持的《今日头条手机行业白皮书》)
在历经一年多的实践过程后,语忆成功地为数个领域带来了基于自主研发自然语言技术的业务智能化方案:基于通话内容理解的客服智能管理方案;基于社交网络发言分析的舆情洞察方案;基于整合内容剖析的文学IP评估方案。并已经与业内知名的新闻媒体、保险公司、科技公司、电商代理、运营商等展开了正式合作。
以客服智能管理方案为例:电商时代,每天将产生巨量的客服通话数据,这些对话内容不仅涵盖了客服本身的服务表现——情感控制、敬语禁语、话术准确性等,更是包含了消费者对指定产品的偏好、态度、观点。甚至还能从中挖掘品牌的接受度和等。如今,语忆借由人工智能自然语言处理技术,解析客服通话内容,将非结构化数据转化成结构化数据:客服服务规范度、消费者满意度、消费者关注热点等。帮助企业做到实时、全量、准确的理解服务情况和业务痛点,大大提高企业管理效率,降低了运营成本。