如果真做“中国的OpenAI”,王小川这票我投了

在“ChatGPT现象”掀起中国人工智能科学、科技企业界和创业投资界的众声喧哗之侧,前搜狗CEO王小川发了一条朋友圈,表达了一点不同的看法:

“OpenAI的成功,首先是技术理想主义的胜利。中国需要自己的OpenAI,就需要技术理想主义。大厂受自己的业务牵引,追逐资本热点的创业公司更动作变形。不止如此,这种理想主义还需要有爱国之心、商业智慧和学术尊重去获得政府支持,推动企业联盟和学术界协同。中国能诞生自己的OpenAI”。

在互联网巨头和投资和创业领域大佬前仆后继地宣布“下场”做中国的自然语义大模型热火朝天之际,王小川的这条朋友圈并未引起太广泛的关注和讨论,然而它确实表达了一些审慎冷静,又不无乐观主义的不同声音,甚至释放了一些新的信号。

首先,王小川用了“技术理想主义”一词,定义了类似OpenAI的创业项目。它不仅仅是一个创业项目,更是技术理想的穷尽实验。而技术理想主义需要一个时期不计成本与反复实验的坚持,很难快速出结果。

其次,王小川隐晦地批评了当下分别弥漫在中国互联网巨头之间和创投生态圈内的“ChatGPT热”,总而言之,它们缺乏朴素和纯粹的技术理想主义。

最后,王小川强调了做一家“中国的OpenAI”不仅是科技企业和投资界的事,也是国家、政府和学术界共同“合力”的产物。它需要有坚定的中国立场,也需要学术界的大力参与,是社会大规模协同的结果。

意外的是,这与品玩几日前发布的《谁拖了中国ChatGPT的后腿》一文中的一些观点颇有接近之处。该文指出科技巨头并非进行大规模自然语义模型实验模型的最佳实验场;中国不少曾经漠视AI模型建构的VC和创业者近期对“大模型”异乎寻常的兴趣背后缺乏真诚和长期性;以及“中国自己的OpenAI”,要有为全球自然语义模型提供中国智慧和中国解决方案的多样性的理想和愿景。

更重要的是,并不难发现,长期投身人工智能研发、特别是在自然语言深度学习领域长期浸淫,有技术理想主义情结;有足够的商业智慧在复杂的中国互联网商业环境中辗转腾挪,做出最关键的决定;还有家国情怀,在学术界有良好的声望、成果和人脉支持——王小川所提到的成功打造一家“中国的OpenAI”所需具备的关键要素,都在他自己身上得到了体现。

你索性可以认为,王小川就是通过这条朋友圈,隐晦地宣示了自己即将进入“中国的OpenAI”这一关键战场。

据公开信息,2022年6月,王小川设立了人工智能技术公司——北京百方众智信息技术合伙企业,自己占股80%。另据36氪向王小川本人求证是否回归创业做AI大模型的消息,王小川承认自己在“快速筹备中”。

品玩从接近王小川本人的消息源获知:王小川确实已有具体的行动,正在与产业界和学术界的一些重要人士进行密集沟通。

技术理想主义价值观、清华天工智能计算研究院的学术背景、推动产业界和学术界开放合作的经历、主导搜狗技术驱动的商业化产品落地的实操成果、擅长借力巨头的创业者,加上“天才少年”的传奇经历,让“中国的OpenAI”跟王小川划上等号,成了值得期待的一幕。

外界熟悉王小川,总是从他天才少年的故事开始——他1996年获得国际奥林匹克信息学竞赛金牌,进入清华大学。进入搜狐后,在2004年主导推出搜狗搜索,并旋即在27岁那年成为彼时中国互联网界最年轻的高管。张朝阳形容他当时的团队“全是精英”,主力即是王小川担纲国际奥林匹克信息学竞赛教练带出的获奖“队友”。

这些技术天赋逐渐转化成实在的技术实力——搜狗输入法的成功不仅对搜狗意义重大,作为最早的中文输入法之一,它也给中文的语言AI打开了许多入口。2011年开始研究语音识别技术的搜狗团队,也开发出第一个公开使用的AI同传。

这些语言AI技术的能力不一定能获得最大的商业回报,却是王小川“技术理想主义”价值观的体现。

“小川十几年前就研究机器学习了,可惜在搜狐的体系下没有足够的资源,这也是他把搜狗独立出来的原因”,一位接近王小川的互联网界人士对品玩透露。

ChatGPT今天的热闹,本质是大语言模型发展里的里程碑,而王小川形容自己在搜狗做的事,都是在跟语言模型打交道。“语言AI是人工智能皇冠上的明珠”,这是王小川多次在公开场合提出、颇具个人风格的论断。

常年浸淫输入法、搜索、语音等技术领域,借助人工智能率先推出唇语合成和手语识别等创新的语言技术,也让他和大语言模型更近,他也成了国内发展语言AI最积极的“鼓吹者”之一。他在公开的访谈中说:“只有掌握了语言,AI才具备创造力和推理能力。”

王小川对语言大模型的“执念”,是20年以来有迹可循的,而不是“风口”上的一时冲动。也正是这种技术理想主义,让王小川一直没有远离基础科学和学术界。

他参与共建了清华大学天工智能计算研究院,并担任联席院长,他同时也是清华大学计算机学科顾问委员会委员。这都并非虚职——他推动搜狗和清华大学等学术机构合作,做了很多实际的尝试。比如当年包含1.3亿原始网页的SogouT开放数据库,就以免费形式对科研机构开放,希望从语料的质量上推动国内技术的发展,也成为很多NLP研究者和从业者最常用的数据库之一。

在Google学术搜索引擎上检索“SougouT”,能发现至少600多篇学术论文得到了这个王小川一手推动的开源数据库的支持。

在“获得政府支持、推动企业联盟和学术界协同”的课题上,王小川的思考和实践,比大多数仅仅从投资风口和商业回报上考虑的人深入得多。当然更被大众媒体津津乐道的,更多是他在中国互联网商业进程里体现的“商业智慧”:

在搜狗的发展中,他不仅全局操盘过算法、工程、数据等各个技术与商业结合的部门,更稀有的,是他游走大厂之间的经验——从最初在张朝阳“反对”之下坚持创立搜狗,到后来几个关键生死节点,靠个人智慧和努力,在最合适的时间点,先后争取到阿里巴巴和腾讯的投资与合作,最大程度在搜狗的成长历程里,保持了难度的自主性——这些过去的故事,与今天讨论ChatGPT的过程中被反复提到的微软与OpenAI的组合,竟然有颇多相似之处。

从人们津津乐道的天才少年故事,指向带有某种浪漫主义色彩的语言AI梦想,再将梦想照进一次躬身入局建设里程碑式中国语言大模型的现实实践。如果真的有这件事发生,值得期待。