由于全球新冠疫情仍未结束,今年不少学术会议延期或取消,召开的也大多在线上举行。尽管2020年发生了很多事情,研究者们仍然为人工智能技术的进步做出了大量重要的贡献。
位于蒙特利尔的 AI 内容创作者 Louis Bouchard (他的 YouTube 账号叫 What’s AI) 汇总了一份2020年最值得关注的 AI 论文名单(https://github.com/louisfb01/Best_AI_paper_2020 )。除了在相关领域内的各项指标上创造了新纪录,在应用层面带来了新的思路,这些论文也对偏见等 AI 道德方面的议题有所探讨。
为了读者的方便,Bouchard 还非常贴心地为入选的每篇论文,都提供了视频、短文介绍、论文链接和代码地址,帮助大家更快速理解论文的核心内容,还能最快速度上手用起来。
但首先,Bouchard 用一条视频汇总了这些论文的内容,还加上了包括 Gary Marcus、李飞飞、Luis Lamb 等 AI 大牛在今年发表过的对 AI 的展望:
以下是 Bouchard 整理的2020最佳AI论文列表,排名不分先后:
YOLOv4: Optimal Speed and Accuracy of Object Detection
简介:全称 You Only Look Once,YOLO 是一个超快速识别物体的计算机视觉算法,在今年4月已经升级到了第四版,来自作者 Alexey Bochkovsky 等人。
这篇论文最大的进步来自于研究者采用的数据增强方法,叫做”Mosaic and Self-adversarial training”(马赛克和自我对抗训练),使得 YOLOv4 的实时物体识别速度依然惊人,并且这一次在识别准确率上也有了非常大的提升。YOLOv4 在很多需要物体识别的场景都能排上用场,对于那些需要实时、高精度识别的场景更是十分关键。
论文链接:https://arxiv.org/abs/2004.10934
作者撰写的介绍文章:https://bit.ly/3rM3ubJ
代码:https://github.com/AlexeyAB/darknet
DeepFaceDrawing: Deep Generation of Face Images from Sketches
这篇论文提出的算法很有意思,正如上图所示,给它一张随笔肖像,它就能生成惟妙惟肖的“真”人头像——当然,肯定是假的,但看起来足以乱真。
这个 AI 也有很大用处,比如警察办案查找疑犯,或者各种需要大量“真”人头像填充的设计用途。但同时值得提及的是,不合理的使用这项技术可能会引发道德问题。
比如,今年就有一些海外媒体曾被爆出,一些评论员文章的作者其实都是假的,这些人有伪造的姓名、供职单位和教育经历,再配上一张头像,创建一个社交网络账号,迷惑性极强。
论文链接:https://bit.ly/37Y54za
What’s AI 短文介绍:https://bit.ly/2JtvJdI
代码:https://github.com/IGLICT/DeepFaceDrawing-Jittor
Learning to Simulate Dynamic Environments with GameGAN
这项研究由英伟达多伦多AI实验室和日本游戏大厂万代南梦宫 *BANDAI NAMCO) 一同开发,技术来自前者,数据来自后者。
简单来说,仅对简单的游戏录像和玩家输入进行学习,GameGAN 就能够模拟出接近真实游戏的环境,还不需要游戏引擎和底层代码。它的底层是在 AI 领域很有名的生成对抗网络 (GAN)。
正是因为它的学习方式很简单,任何游戏它都能模拟出来,除了吃豆人这样的2D游戏,连 DOOM 这种3D游戏都可以。英伟达指出,这项技术有助于游戏开发者为已有的游戏开发全新的关卡。
论文链接:https://arxiv.org/pdf/2005.12126.pdf
英伟达论文介绍:https://bit.ly/2WXLg8G
代码:https://github.com/nv-tlabs/GameGAN_code
PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models
在欧美电影里,你一定见过特工们对着一个模糊的监控录像说“增强”,旁边的技术员一通操作就真的做到了……这曾经是个经典荧幕梗,但随着 AI 技术的进步,竟然还就真的实现了。
PULSE 是一个所谓的“超级分辨率”算法,可以把一张最低16*16的照片增强到1080p的清晰度。当然,出来的照片肯定还是假的,毕竟是计算计算出来的,但 PULSE 采用了自我监督,用多张同一个人不同表情的高清照片进行压缩训练,结果是生成的高清假照片,其实和低清晰度照片的主人非常接近。
论文链接:https://arxiv.org/abs/2003.03808
论文介绍:https://bit.ly/2WXkPzX
代码:https://github.com/adamian98/pulse
Unsupervised Translation of Programming Languages
在两种编程语言之间互译,需要“源代码到源代码编译器”(transcompiler)。这类编译器通常依赖大量人工铺路搭桥,比如手写规则,非常耗时,而且效果不太好,翻译出来的语法也经常不对,需要进一步的人工编辑。
正如标题,Facebook AI 开发的这个 AI 结合了机器翻译方面的一些最佳研究,采用非监督学习技术,能够在 C++ 和 Python 两种编程语言的函数之间进行互译,而且能够理解不同语言的语法,能够泛化到 Java 等其它语言。
论文链接:https://arxiv.org/abs/2006.03511
论文介绍:https://medium.com/what-is-artificial-intelligence/this-ai-translates-code-from-a-programming-language-to-another-facebook-transcoder-explained-3017d052f4fd
代码:https://bit.ly/3aSrZO5
PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization
这篇论文我们写过:G7领导人大跳神曲?这个三维生成AI要被网友玩坏了。它提出了一种全新的基于神经网络的算法:只用一张人物全身正面照片,几分钟的计算时间,就可以自动重建高分辨率细节丰富的3D模型。
和已存在的类似技术相比,PIFuHD的长处是:1)对于来源照片里并不存在的身体部位,比如背部,它可以”猜“出一个大概的,符合常理的结果。2)能够同时高精度还原照片中的人体模型和服装细节。
网友用这个算法进行了很多很搞笑的二次创作,比如把 G7 领导人复制成3D模型,强迫他们跳舞:
论文链接:https://arxiv.org/pdf/2004.00452.pdf
论文介绍:阅读此文
代码:https://github.com/facebookresearch/pifuhd
High-Resolution Neural Face Swapping for Visual Effects
过去几年,各种换脸工具我们都见过、玩过不少了。迪士尼也在研究这项技术,他们的研究员在这片论文里提出了一个算法,能够生成百万像素分辨率的换脸视频。换脸视频往往会出现各种瑕疵让人一看就知道是假的,不过迪士尼在这一点上想要做到尽善尽美。
这项技术在电影拍摄中很有用处。比方说,过去让大牌演员演打戏,往往都要用到武替,一般都是不露面或者快速闪过侧脸,尽量让观众看不出来,但凡露面的,都需要大量的后期逐帧修改。现在有了这项技术,就可以直接把演员的脸嵌套到原始素材上,极大地降低后期制作成本,提高电影制作的效率。
论文链接:https://bit.ly/2WRMnH0
论文介绍:https://bit.ly/2X8i7rL
GPT-3: Language Models are Few-Shot learners
GPT-3 我们已经写过很多次了,你可以通过此文了解这个史无前例版巨大的1750亿参数量的文本生成模型。随着 GPT-3 的发布,开发机构 OpenAI 也提供了可调用的 API 给开发者使用,而开发者用它做出了各种各样的神奇 demo。
论文链接:https://arxiv.org/abs/2005.14165
中文介绍:阅读此文
代码:https://github.com/openai/gpt-3
Learning Joint Spatial-Temporal Transformations for Video Inpainting
我们都知道抠图这件事,也就是从一张照片中把背景去掉,抠出主题的人和物。但如果你想要把前台的主题抠掉,保留一个完整的背景那就难了,毕竟主题把背景盖住了。
这篇论文解决的就是抠背景的难题,而且还是在视频上做。研究者设计了一个空间-时间 Transformer 神经网络,同时对视频的所有帧进行填补,效果优于已知的类似技术。
论文链接:https://arxiv.org/abs/2007.10247
论文简介:https://bit.ly/34VFbOr
Beyond the Nav-Graph: Vision-and-Language Navigation in Continuous Environments
操控机器人很容易,你只需要告诉它前进、后退、左转和右转。用自然语言对一个基于计算机视觉的机器人进行导航控制,难度则在另一个级别上了。正因为此,过去几年里有一些在此方面实现了重大突破的论文,在各大学术会议上都拿了奖。
来自俄勒冈州立大学、佐治亚理工和 Facebook AI 实验室的研究员,共同开发了这样一个自然语言导航模型,能够让机器人在完全未知的三维场景下,仅通过”前面过门往左转“、”停在茶几旁边“诸如此类的自然语言命令来实现三维视觉导航。
论文地址:https://arxiv.org/abs/2004.02857
论文简介:https://bit.ly/3pMfPLd
代码:https://github.com/jacobkrantz/VLN-CE
以上就是我们从 Louis Bouchard 汇总的2020最佳AI论文里精选的十篇优秀论文。你还可以访问 https://github.com/louisfb01/Best_AI_paper_2020 继续翻阅其它入选论文,比如老照片翻新、修改照片人物年龄、用计算机视觉算法取代绿幕等等——都很值得一看。
本文内容大部分来自 Bouchard 的汇总结果,硅星人仅提供部分中文翻译和一些补充解读。