AI Challenger设300万奖金打造“中国版ImageNet”,国内最大规模深度学习数据集上线

WechatIMG72_meitu_1

【猎云网北京】8月29日报道(文/吕梦)

人工智能产业中,数据、算法、计算能力是三大基石,其中,数据更是人工智能科研的最宝贵资产。对于需要运用机器学习作为其业务核心技术的创业团队来说,高质量的数据集就是竞争优势的重要保证。

为了能让更多AI人才有机会拿到真实的数据,解决真实世界里的问题,今日,由创新工场、搜狗、美团点评、美图公司联合主办的“2018 AI Challenger全球AI挑战赛”正式开赛。“AI Challenger全球AI挑战赛”是面向全球人工智能人才的开源数据集和编程竞赛平台,也是目前国内规模最大的科研数据集平台、以及最大的非商业化竞赛平台。

88.jpg

在2017年的首届大赛中,AI Challenger发布了从百万到千万量级的4个数据集、6个兼具学术前沿性和产业应用价值的竞赛、以及超过200万人民币的奖金,吸引了来自全球65个国家的8892支团队参赛,成为目前国内规模最大的科研数据集平台、以及最大的非商业化竞赛平台。

本届赛制中,四家主办方投入千万元规模以上的资金,同时引入了更多企业、大学、政府机构合作。此外,还新增十余个全新高质量数据集,和十余个兼具科研、产业应用、社会意义的竞赛,以及超过300万人民币的奖金。

3.jpg

创新工场人工智能工程院执行院长王咏刚

创新工场人工智能工程院执行院长王咏刚介绍了今年大赛的主题,他表示,今年会突出数据集建设和问题设置方面与产业结合的特点,尽量让AI Challenger发布的数据能直接满足科研和产业的一线需求。同时,AI Challenger也会尽量突出人才平台、人才社区、人才网络的建设,利用平台把全世界范围内的优秀人才聚集在一起。

本届大赛的主题是“用AI挑战真实世界的问题”,希望在数据集的建设上,既具有科研和学术上的前瞻性,也希望数据集能紧贴AI商业化、AI落地的实际场景、实际需求,从产业需要出发,为学术研究和AI人才培养提供方向性的建议,也反过来帮助产业界更好地利用最新的科研成果,解决真实世界的最有价值的问题。

数据集和赛道如下:

主赛道

观点型问题阅读理解竞赛:机器阅读理解是让机器读懂人类语言、和人类更好交流互动的重要领域。此技术可广泛应用于智能搜索、智能问答、智能客服、智能音箱、语音控制等场景,用AI实现基于文字、语音的人机智能互动。数据集包含30万问题、篇章与候选答案,是全球难度最大的中文观点型问题机器阅读理解数据集。

1.jpg

细粒度用户评论情感分析竞赛:在线评论的细粒度情感分析对于深刻理解商家和用户、挖掘用户情感等方面有至关重要的价值,并且在互联网行业有极其广泛的应用,主要用于个性化推荐、智能搜索、产品反馈、业务安全等。数据集包含15万条餐饮用户评论、6大类20个细粒度要素标签,为业界最大。

2.jpg

英中文本机器翻译竞赛:机器翻译正越来越成为人们跨越语言障碍的重要工具,应用于各种领域。数据集在2017年数据集的基础上,总量达到1300万句对,为业界最大;且其中具有上下文情景的中英双语数据达到300万句对,为机器翻译的研究提供了更多探索空间。

4.jpg

短视频实时分类竞赛:近几年发展极快的短视频行业具有明显的娱乐性和流行性,深受人们喜爱;基于短视频机器分类的技术还可以广泛用于视频内容分析、编辑与生产,监控、安防等领域。数据集包含20万条短视频、涵盖63类流行元素,为业内首个多标签短视频分类数据集。

5.jpg

无人驾驶视觉感知竞赛:自动驾驶技术即将改变我们的出行和生活方式。本次大赛的自动驾驶竞赛采用了UC Berkeley DeepDrive(BDD)2018年最新发布的BDD 100K数据集,这是全世界最庞大、最复杂的自动驾驶数据集,包含原始图片1.2亿张、标注图片10万张,涵盖多样天气和昼夜光照条件。

6.jpg

除5个主赛道之外,AI Challenger 2018还开放5个实验赛道竞赛和相应的数据集:

实验赛道:

1.天气预报竞赛:气象要素的变化深刻影响着人类生活的方方面面。我们带来北京气象要素数据集,包含10个站点、3年多逐小时历史“观测”和“睿图”资料,探索以AI提高天气预报的准确性。

2.农作物病害检测竞赛:2016年农作物病害造成的直接损失占我国农业生产总值的8.48%。我们发起世界上首个农作物病害检测竞赛,标注图片50,000张、包含10种植物的27种病害,探索“AI植物医生”。

3.眼底水肿病变区域自动分割竞赛:我们发起国内首个眼底病变医学图像检测竞赛,建立了目前最大的眼底病变数据集,包含由专业眼科医生标注了三种类型水肿的、各含128张图片的100个OCT体数据。

4.商品实例分割迁移学习竞赛:以3D虚拟图像训练机器“认识”真实世界的物品,能极大降低标注成本、也是新兴研究热点。数据集包含不同场景的100个类日常生活用品的30,000张虚拟图片和9,000张真实照片。

5.零样本学习竞赛:受人类学习能力的启发,零样本学习希望借助辅助知识学习从未见过的新概念。本此竞赛是首个国际性零样本学习竞赛,数据集包含78,017张图片、230个类别、359种属性。

9.jpg

作为此次比赛的联合主办方,搜狗CEO王小川表示,搜狗带来的数据集是超过30万问题和答案标注的数据,由于搜狗每天都有数亿用户在使用,所以有规模最大的带有观点的中文数据。翻译方面,搜狗有1300万对语料,且进行了很好的标注,准确率超过97%,同时还给出了300万对具有上下文情景的中英双语数据,也是历史最大的语料集。

8.jpg

美团则在今年支持了两个赛道,美团点评CTO罗道锋介绍,一个是细粒度用户评价情感分析,美团今年贡献了15万条的用户评论数据集用来做细粒度情感分析。第二个赛道是无人驾驶视觉感知,目前,美团正在研发无人配送机器人,此次支持的是BDD的无人驾驶的数据集,包括原始图片1.2亿张,标注图片10万张。

“在今年的五个主赛道里,有三个是NLP(自然语言处理)领域的,两个计算机视觉领域的。NLP领域是现在人工智能方面进展比较慢的领域,让机器真正理解文字的含义,相比较机器认识猫狗要困难的多,是非常有挑战性的项目。另外两个赛道,短视频理解和无人驾驶也是在视觉领域比较前沿比较困难的任务。所以这五个赛道设置都是瞄准现在AI应用里面还没有取得很好突破的技术”。

自今日开赛后,12月18、19日进行竞赛的总决赛答辩和颁奖。AI Challenger 2018的竞赛主要分为三个阶段:

  • 第一阶段比赛从2018年8月29日至11月4日,参赛队基于训练集、验证集、测试集A,进行算法设计、模型训练及评估,并提交预测结果,系统会按照评测指标实时反馈分数,并更新榜单排名。个别竞赛采取参赛队提交代码、docker的形式进行比赛。期间进行双周赛排名和评奖。

  • 第二阶段比赛从2018年11月6至8日,开放测试集B;各竞赛提交结果的时限不同。结果提交后即进入评分、排名、代码验证环节,个别比赛还将考察参赛队的算法运行效率。参赛选手在测试集B上的预测结果表现,将作为进入决赛的排名依据。

  • 第三阶段于12月18、19日进行竞赛的总决赛答辩。

实验赛道数据集和竞赛将持续建设,并不定期开放新内容。