宇宙“创造”了人类,人类创造了AI。但似乎,AI比人类更“懂”这个宇宙。
用AI来帮助有“中国天眼”之称的世界最大单口径射电望远镜FAST更好寻找星星的“探星计划”启动已过一年,FAST找到了22颗脉冲星候选体。在没有AI帮助时,这很难做到。
去年的世界人工智能大会上,腾讯与国家天文台合作的“探星计划”宣布正式启动。腾讯优图实验室的计算机视觉技术能力、腾讯云计算及存储能力,将会帮助中国天眼FAST提升脉冲星搜索效率,并辅助快速射电暴和近密双星系统中脉冲星的搜索。
在今年世界人工智能大会的腾讯论坛上,“探星计划”到目前为止的最新进展首次披露。
腾讯云副总裁、腾讯优图实验室总经理吴运声表示,截至目前,优图AI天体探索方案已从巡天观测数据中找到22颗脉冲星候选体。其中包括在天体物理中具有较高观测研究价值的高速自转的毫秒脉冲星7颗,具有间歇辐射现象的年老脉冲星6颗。
此外,优图实验室的动态谱AI模型还首次探测到了某磁陀星射电脉冲。
这是FAST与腾讯优图实验室连续第二年一同出现在世界人工智能大会上,背后是天文探索与AI的结合愈发紧密。
AI在几十亿张图片中找10颗星星
2017年10月10日,中国科学院国家天文台公布世界最大单口径射电望远镜,也就是被称为“中国天眼”的FAST所取得的首批成果。其中最重要的一项是我国射电望远镜首次发现脉冲星。而最新的公开资料显示,FAST已经捕获了超过660颗脉冲星。
但FAST的观测只是发现脉冲星的第一步,这个500米口径的庞然巨物带来的是峰值每秒接近40G的数据量,以多模态的数据形式传输回来。于是一个天文问题被转化成了数据标注问题。如何在海量而极其相似的数据中判断出目标星体的信号,是FAST团队最核心的工作。
“这份22颗脉冲星的候选名单中,短周期的脉冲星发现大概是在10颗左右,我们是在几十亿张图片中找到这10颗脉冲星的”,复旦大学教授池明旻做了个粗略的比方,她也是“探星计划”中一位同时拥有计算机和天文领域背景的研究成员。
通过大数据训练,机器学习能为天体探索标注处理掉其中很大一部分“一眼假”的数据信息,这种能力通过“半监督学习”来实现。
半监督学习属于无监督学习(没有任何标记的训练数据)和监督学习(完全标记的训练数据)的中间地带。以少量标记数据结合大量未标记数据,在机器学习领域中被认为可以明显提高机器学习的准确性,在对于脉冲星信号数据的辨识中,这些“标识数据”可以被理解为天文工作者抽取了某些图片预先做了标注,这些标注形成一个初筛的判断标准后会对接收到的所有图片做第一次的过滤。
“比如色散值,色散有一个曲线,这个曲线如果没有峰值的话,我们就可以排除掉它是脉冲星的可能”,池明旻表示,“因此我们在机器学习面有一个色散值的判定标注就非常重要。当捕获的天体信号精度足够高,色散值就可以起到过滤的作用”,池明旻说。
色散值是FAST接收到天体数据的其中一个纬度。天体研究中的数据信息往往是跨模态的,这有利于对天体是否是脉冲星的综合判断。腾讯优图实验室提供的AI解决方案中加入了包括频率、色散以及相位的多模态融合的技术,这是腾讯优图实验室为天体探索提供的另一项关键能力。
天体研究非常独特和艰难的地方在于,这是一个统计学几乎无从下手的领域。
根据哈勃太空望远镜2019年以前的观测结果建立的假设是,宇宙共有2万亿个星系,其中小型星系有几十亿颗恒星,大的星系可以包含近4000亿颗恒星,如果以每个星系平均2000亿颗恒星在估计。 全宇宙总共有4千万亿亿颗恒星,而这仅仅是恒星。
除了我们所居住的地球以及已知极其有限的天体外,宇宙中几乎所有空间都藏在未知里,人类对于宇宙的理性认知长期处在极其贫乏的数据基础上。
AI、机器学习当下的应用普遍总与大数据联系在一起,但在天文探索的语境下,这个已知数据的仓库家徒四壁,于是“小样本学习(Few-shot Learning)”被更加重视起来。
小样本学习不是某项技术,而是一种综合的研究方式,指在有限的信息中建立完整的分类模型,并且以这个模型去对未知的信息完成分类。简单来说,一个孩子在看了几张绵羊的照片之后就可以在动物园里认出其他品种的羊,这就是某种通过少量图像识别某个视觉对象的小样本学习概念。
这对人类大脑来说轻而易举,但对于机器学习来说却非常困难,但由于天体研究的特殊性,小样本学习又是必不可少的。
腾讯优图实验室总监汪铖杰表示,虽然整体上优图需要处理处理百亿TB(1TB=1024GB)的数据量,但实际上其中有效样本很少。“现在为止我们用于学习的也就是100TB左右的脉冲星样本”,而FAST每天产生的数据量就高于500TB。
半监督学习是小样本学习的一个思路,在统计学概念缺乏实际土壤时,以脉冲星样本搭配更多非脉冲星样本来构建训练模型,可以使得机器学习整体在特征提取上更加充分。
除此之外,在这个脉冲心探索的项目中有另外两种小样本学习的具体思路。
一种是数据扩增,即在常规的脉冲星上面做位移的偏移,或加一些宇宙仿真的噪音叠加,通过把观测数据的误差人为地加进去,AI可以将那些“疑似”脉冲星的图片数据标注出来。
另一种方式是对抗生成式的学习方法,让AI在学习过程中从已有样本中生成新的样本,然后继续用于未来的计算。优图实验室里与FAST合作的算法团队在今年新引进了一位国家天文台的博士后来做小样本学习的模型设计,也是为了在样本数量有限的情况下让模型能进一步契合对脉冲星特性的预测。
“以M31(仙女座星系)做个例子,到目前为止M31还没有找到任何一个脉冲星,我们可以预测一下它可能的样子,然后大量模拟出数据放到模型里学习,然后用FAST对M31观测到的大量数据去比对,因为只要找到一颗,这就是一个从0到1的突破”,汪铖杰说。
宇宙也在“培养”AI
“探星计划”一年之后,汪铖杰提到了优图实验室与FAST最初结缘的细节。
2019年腾讯宣布企业文化升级,科技向善被提到了显眼位置,那之后优图实验室团队在部门内部做了一次讨论,关于AI在普适化过程,除了一些常规应用外还能做哪些事情。“探星计划”并不产生任何经济效益,动力在于优图实验室对于AI普世化的愿景。
那场头脑风暴之后排出了一个序列,优先级最高的就是FAST。
彼时的优图实验室副总经理黄飞跃带着项目去见FAST团队,两个小时后双方就签订了项目合同。“我从来没有见过一个项目这么快就定下来的情况,可见大家对这个项目认可度非常高”,池明旻表示。
AI为天文探索带来了效益,天文反过来对AI带去了什么?
汪铖杰总结成三点,技术上“探星计划“中相当多的数据对于优图实验室本身在研究无监督学习或者异常检测算法等技术上都带来了珍贵的实践经验。并且随着探索脉冲星的积极影响,优图实验室与更多天文领域相关的的合作也已经提上日程。
最主要的则是探索出了一个AI和天文结合的模式,与基础科学建立联系是AI普适化的一个重要维度。
优图实验室下一个即将开启的探索领域是甲骨文的破译,用AI技术来尝试对甲骨文进行缀合和摹本,为专家提供破译线索,其中视觉AI将试图对甲骨文进行3D建模,以进一步帮助甲骨文的识别与考释。
汪铖杰表示,甲骨文的难度可能会比脉冲星会更高,甚至可能要高出一两个数量级。因为AI对脉冲星探索的帮助更多在效率层面,但在甲骨文这个领域里面已经有好多年没有任何新发现了。
“探寻自己能力的边界,这可能是每个人、每个团队或者每家公司都在探究的东西,FAST这个项目实际上是我们朝着自己未知的能力边界迈出的一步。”