深度学习助力OCR技术突破,易道博识AI开放平台提供一站式识别技术服务

WechatIMG72_meitu_1

【猎云网北京】5月24日报道(文/都保杰)

人工智能技术正在渗透到各行各业的商业应用当中,其中以深度学习加持的计算机视觉技术最为突出,且具备相当刚性的实用价值。从娱乐交互到金融、安防,再到自动驾驶、智慧城市等等,计算机视觉技术正在改变传统的行业生态,大幅提高社会生产效率。

在机器视觉领域,市场上既有互联网巨头的强势布局,亦有资本推波助澜的独角兽公司的风生水起,如何在垂直细分场景下寻找商业机会成为一个关键问题。日前,猎云网记者采访到易道博识联合创始人兼CTO康铁钢,了解到易道博识如何从OCR(光学字符识别)识别切入,以及推进AI技术快速商业化落地的路径思考。

WechatIMG1643.jpeg

易道博识成立于2013年,创始人兼CEO朱军民毕业于中科院自动化所模式识别与智能系统专业,后在汉王从事OCR核心研发工作,具有10多年人工智能技术经验。联合创始人兼CTO康铁钢是朱军民在中科院自动化所的研究生同学,毕业后曾在贝尔实验室等外企工作,专业方向是模式识别图像处理等,也比较擅长对技术进行产品转化和市场工作领域,目前公司团队中,研发人员占到半数以上。

据了解,易道博识从2013、2014年就开始做诸如银行卡、身份证等卡证识别的产品应用,但当时这些产品在业界的应用还没有得到广泛认可。

在康铁钢看来,彼时技术和产品还处于准备阶段,之所以没有一下子打开局面,是因为这类产品的爆发期风口还没有到来。2015年是一个十分关键的转折点。随着移动互联网发展起来,支付宝、微信等扫码支付成为主流付款方式,手机上的扫卡、扫码应用变得高频,之后众多app,尤其是互联网金融领域的应用都开始提出识别身份证、银行卡的技术需求,易道博识的业务量也随之出现明显增长。2016年底,易道博识完成了首轮千万级人民币的融资。到了2017年,公司整体营收实现了翻倍增长,累计服务超过500家大型客户,其中包括中国平安、PICC、华为、万达集团、民生银行、广发银行、长江证券、翼支付、中国移动、首汽集团、丰田金融等等。

WX20180524-164139@2x.png

通过为客户提供AI识别技术服务和行业智能解决方案的方式,易道博识一方面有了稳健的营收和现金流,另一方面对市场一线的需求变化也有了进一步判断。在商业模式和技术路线的考量上,易道博识逐渐摸索出了自己的方式。

康铁钢表示:“可以这样理解,我们是一家做机器视觉的人工智能公司,核心技术可以分为两方面,一方面是文字识别,包括我们常见的身份证、银行卡、行驶证、房产证、车牌以及各类票据识别技术等等。另外一方面是人脸和图像识别。文字识别是我们的竞争优势所在,基于这些底层识别技术,我们开发了AI开放平台,用户可以基于易道博识AI开放平台提供的产品,帮助他们开发各种应用。”

OCR技术的演进,近年来大大得益于深度学习的发展。康铁钢介绍,之前的OCR识别技术就是基于传统方式的图像处理、提取特征等,容易受光线、角度等干扰,识别率较差。但现在市面上仍然有人在做这样的技术,因为这种传统方法也有它特定的优势,例如计算量比较小,在终端就可以处理。当然它的劣势也很明显,那就是识别精度不够高。相对基于深度学习平台开发的OCR识别技术来讲,传统OCR识别对输入的图像质量要求非常高,例如字要拍得非常清晰,画面没有褶皱,必须保持固定的角度等等,在实际使用中存在诸多受限条件,对业务效率的提升并不明显。

从2016年开始,易到博识开始研发基于深度学习的OCR技术,识别率准确率大幅提升,提高到了98%以上。初期DeepOCR的计算量非常大,所以必须部署在云端。易道博识团队通过不断提升DeepOCR识别技术的性能,通过压缩识别技术的模型等途径,使之在移动端也达到了非常高的识别率,用户体验得到明显提升。在产品线上,易道博识也从单一依靠OCR识别,延展到对人脸和物体的识别,以及提供数据业务等领域,帮助简化业务流程,实现高效智能自动化。

WX20180524-164523@2x.png

康铁钢表示:“我们不仅是一个提供智能OCR识别技术的企业,我们还可以提供更完整的解决方案。目前做AI开放平台的想法,也是从市场的切实需求出发的。之前我们的客户,比如说一些大型的银行,券商或保险公司等,它的业务特性决定为确保自身数据安全,更倾向于选择私有云部署。我们把核心的识别技术放到他们的服务器上,嵌入到内部业务环节当中,帮助他们改造业务流程,降低人工成本,提升用户体验,增强风控安全,这是我们一直以来在做的工作。然而私有云部署成本较高,可能需要大量资金投入,对于小型客户来说大多难以承受。但是中小企业对于识别技术的需求正在激增,尤其是对于创业公司,这个痛点绝对不在少数,所以我们从市场的角度出发,也希望能抓住这个机会。”

目前,易道博识的AI开放平台为企业提供识别技术的Saas服务,已开放的技术产品包括三大类:文字识别、人脸识别、数据业务,共计30余项产品。其中文字识别包含各种常见的卡证、票据、表单的识别,例如身份证、银行卡、营业执照、房产证、港澳通行证、发票、车票、银行表单等等,证件识别速度平均时间小于400ms,识别精度超过99%。支持任意角度身份证图像识别,提供公安部高清人像数据源验证接口,支持视频流中瞬间识别获取驾驶证/行驶证上的要素信息等,都是不小的技术亮点。此外,易道博识提供的产品服务还包括条码识别、车牌识别、支票汇票甚至数学公式的识别,细分应用越来越多元。人脸识别和数据服务与这些具体的识别应用相辅相成,形成一体化的行业智能解决方案,比提供单一技术产品更符合市场需求。

WX20180524-164715@2x.png

据透露,基于AI开放平台,易道博识还打算着手研发可供C端用户使用的识别产品,帮助个人用户把拍下来的图像直接转化成可编辑的文本、表格等,方便人们在工作生活中使用,提升个人的工作效率。新产品可能会采用免费+付费相结合的策略,为公司的识别产品拓展更大的市场,也为更广泛的客户群体提供服务,从而触及更多潜在客户。

“C端产品虽然不一能给我们带来可观的收益,但可以让更多的用户体验到我们的AI产品技术,可以提升我们的知名度。只要我们的产品做得真的不错,个人用户试用之后也可能转化为公司后期的采购行为,或者是在涉及到识别技术和产品的时候为我们创造良好的口碑,打造传播效应。如果能从C端衍生出稳定的收入来源,我们求之不得,但我们并不依赖这个领域生存,而是更愿意把它作为一种尝试。”

在商业模式方面,康铁钢说:“从我们的观念来讲,最重要的一点一定是做技术,专注于做核心的识别技术,专注于做机器视觉领域的技术。而另外一点,我们会长期服务于行业内的大型客户,但to C业务也是我们想尝试的方向,它的用户量级可观,发展成熟之后也会更稳定。”

据透露,目前易道博识正在筹备新一轮融资,虽然公司现金储备足够,但还是期望能跑得更快一点。

“抓住机会吧,毕竟技术窗口期就这几年时间。再努力一点去扩大市场,走得更快一点,接触更多的战略资源和机会,进而迅速壮大达到业内领军的优势地位。”康铁钢在采访的最后说道。

项目:机器视觉领域商业自动化应用
公司:北京易道博识科技有限公司
官网:www.exocr.com