图源:机器之心Pro

虚拟人直播带货,这事儿靠谱吗?

晚上12点,还没睡的小王不经意间刷到了一场带货直播。

这位主播像往常一样娴熟地介绍着产品,推荐着各种热销的套餐——即使是拥有着数百个SKU,各种风格,口味特别的产品和优惠政策,这位主播依然可以讲得是头头是道。

不过吸引他的是,它并不是哪个主播签约公司旗下的当家主播,而是一名刚刚上岗的虚拟人。作为2022年互联网领域最火热的两个赛道,虚拟人和电商直播,被这样地结合在了一起。

宁波银行最近也上线了一位虚拟主播。12月16日的一场直播活动中,上海分行的001号数字人员工“小宁”主持了一场虚实结合的线上直播活动,她风趣幽默地介绍了自己的工作内容,还专业、亲切地向网友推荐宁波银行的多种金融产品和优惠福利。在直播活动之后,也获得了不错的反响。

 图源:商汤科技
图源:商汤科技

在各大电商平台,虚拟人直播带货其实已经不是什么新鲜事。他们越来越频繁地出现在各大直播间,有的作为主力直播,有的被当做直播的辅助数字映射员工,有的则会和真人主播进行配合完成一场游戏互动和连麦直播,玩法多样,吸睛效果提升明显。

据了解,有了虚拟主播的帮助,AI主播的表现和业绩几乎与一名真实人类主播无异。而类似的数据,证明着虚拟人直播的存在自有其逻辑。

虚拟主播背后更大的话题,则是AIGC。和PGC、UGC等概念类似,AIGC则是指利用AI人工智能技术生成的内容,也就是说内容的生产者已经完全从人变成了AI。

作为当下最炙手可热的技术概念,这也是虚拟主播正创造着的更多的内容和更大的价值——他们既成为了生产力又成为了生产工具,既解放了工具又解放了“思想”。

被调侃许多的虚拟人带货其实只是起点,它背后所代表的技术迭代和产业效率提升才是未来。

虚拟主播:买它买它买它!

虚拟主播,简而言之,就是虚拟人/数字人,其实是通过计算机图形技术、CG渲染、动作捕捉、人工智能、语音合同等数十种计算机技术打造。她通常拥有人类一样的外观面貌,可以表达面部表情;她还可以张嘴交流,甚至是结合语言内容和表情表达某种内心心境;而更厉害的是,如今的虚拟人也可以具备多样性的人格,不同的虚拟人也可以像真实世界的人一样展现完全不同的性格。

市场数据验证了虚拟人技术的发展趋势。IDC发布的《中国AI数字人市场现状与机会分析,2022》报告显示,中国AI数字人市场规模呈现高速增长趋势,预计到2026年将达到102.4亿元人民币。

近年来,国内直播电商也呈现着迅猛发展的态势。引述电子商务研究中心发布的《2022年(上)中国直播电商市场数据报告》,预计2022年国内直播电商交易规模可达34879亿元,同比增长47.69%。

而直播电商这一概念的兴起,其实源自于商家或品牌等借助直播平台或电商平台直播板块来触达用户,让用户了解产品各项功能及促销信息,从而实现购买这种交易行为。

于是,很多企业主就看到了一层机遇:不仅将直播作为一种促成交易的场景,也天然地将其作为一个展现品牌线上营销内容的绝佳“渠道”。

随着直播告别了过去几年野蛮爆发式的增长时期,如今直播电商行业正呈现着去头部化和多样化的趋势,越来越多的企业主,走上了直播的道路,并且带上了各种新的内容、元素和玩法加入到直播中去。

虚拟人的众多应用场景中,也就扩展到直播,成为了最近火热的赛道之一。

夜晚刷手机直播的小王其实提供了一个很好的场景:相比于真实人类,虚拟人直播的优势还不少,虚拟人和真实人类可以在直播中配合,完美覆盖到全天24小时介绍商品。尤其是当面向Z时代的用户的时候,更容易被这种新鲜事物吸引。

几家开始引入虚拟主播的企业主也对我们表示,新鲜内容是其一,更重要的是通过低成本的方式做到更长时间的覆盖。

企业主其实内心都会打着一个小算盘——直播的转化率、人效比等是否真的有所改善。结论是,在拥有一个稳定,和不受时间、空间限制的虚拟主播之后,很多商家估算,本身的成本效益表现也不错。这是他们继续使用虚拟主播带货的主要原因。

但从技术上来看,虚拟主播背后,其实代替的是真人主播的个人能力水平,比如产品介绍的业务,更关键的是带动直播间的情绪等等。

所以这就极其考验,虚拟主播具体在场景的中的表现效果,它的效果/交互足不足够真实,因为虚拟主播又是一个刚刚兴起的行业,背后则是产业链找那个各个节点之间的配合,不同节点和层级一旦配合不好,其具体展现就可能相对割裂,如何高效协同,将不同的技术作为一个整体考量,则是运营虚拟主播的关键。

从形神兼备到富有情绪

宁波银行的那段直播活动中,“小宁”一段逗趣的脱口秀表演引爆直播间,展现了鲜明的人格化魅力,随后又化身专业的银行业务经理,以生动自然的声音和动作、扎实的业务能力,获得网友们的纷纷称赞。

据了解,本次活动不仅是“小宁”在直播平台的首次亮相,也是商汤科技AI数字人“虚拟IP”在“线上”营销场景中的首次应用,用创新的用户触达方式,让广大客户对宁波银行产生更具象化的品牌认知和好感,进一步助推宁波银行上海分行的数字化转型。

过去在金融和银行业,商汤科技已经在线下服务型虚拟人领域深耕,打造了诸多范例。比如AI虚拟人“小宁”,过去以“服务型数字人”,不仅能够主动接待前来办理业务的顾客,还能够提供各类业务咨询和服务办理。“小宁”能回答550个以上常见业务问题,以及由此衍生的3000个以上相关业务问题。通过运营管理平台的持续运营优化,每天能够新增50个以上衍生问题。

从效率上,“小宁”在一定程度上已经提升网点的服务速度和质量。

而此次线上营销场景的展现,则代表着商汤科技虚拟人数字技术综合运用能力和成熟度体现。以具有IP属性的“人格型数字人”,帮助企业建立目标受众的品牌认知,促进转化。

不同的数字人在应用端的职能划分上不同,产生的内容形式以及带来的价值不一样。

数字人的拟人化,以及生产制作的自动化程度反映数字人系统整体进化和发展水平。在此之前,商汤科技将数字人像自动驾驶分级一样分成了L1-L5五个等级。达到L4级时,数字人能够实现部分智能化交互;L5级则能够实现完全智能化交互,而数字人智能化交互程度的加深,则依赖于底层的AI技术的迭代。

 图源:商汤智能产业研究院
图源:商汤智能产业研究院

我们都很清楚,人工智能技术作为生态基础层的核心要素,既关系到数字人的拟人化程度,包括形象和动作的逼真性,以及深度学习和多模态交互能力的发展,也是数字人制作效率提升的关键引擎。在这方面,商汤关注情感,也更关注效率,在虚拟人技术定制服务中,已经拥有了不可多得的全套技术能力。

用一句比较流行的话说,商汤科技拥有AIGC“全栈式”布局,打造了“一站式”生产流水线。

据了解,基于原创的OpenXRLab扩展现实平台的领先算法,结合大量真人动作数据,商汤打造了一套基于深度学习的动作捕捉及生成解决方案。该方案适配性强、自由度高、易于部署,无需绿幕和专业动捕设备,即可高效率、低成本地实现AIGC内容生成,满足企业在虚拟IP内容定制、直播运营等活动中的广泛需求。即便在日常直播等低算力设备应用场景,也可进行流畅、高精度的视频创作和实时互动。同时,该方案可配套提供用于“虚拟IP”生成的大规模、高质量、语义化的3D动作库,供企业进行数字人相关的自主高效创作,推动企业数字化时代升级。

 图源:商汤智能产业研究院
图源:商汤智能产业研究院

简单解释一下,在应用层面,多模态交互其实是AI虚拟人的“核心力”。

虚拟主播在更广泛的应用场景中逐步替代真人角色其实就是深度学习神经网络和计算机图形学相结合,是一种多模态的交互。简而言之,这是让虚拟主播学会能听会说,还能表演出来。总之,为的是让他的表现更真实。

 图源:商汤科技
图源:商汤科技

其次,AIGC其实重塑了虚拟主播的生产流程,在人物模型的重建、动画准备和制作等各个环节辅助数字人自动化生成,大幅加速虚拟人生产,降低制作门槛和成本投入。

比如过去绿幕动捕需要长达数月的时间制作一个动态视频,而如今通过AI驱动的模型,对于少量照片进行面部扫描,就可以在数天之内生成一个高精度的人物3D模型。

技术积累方面,商汤科技视觉相关的算法模型已累计超过49000个,覆盖视觉信号的分析理解,以及实现数字内容的生成,并研发建成了世界上最大的计算机视觉基模型,参数高达300亿,可以支持数字人在图像、视频等视觉信号处理的复杂长尾应用。在语音语义理解方面,商汤也自研并具备了包括语音识别 (ASR)、语义理解(NLP/ 知识图谱)、语音合成(TTS)以及语音动画合成(STA)等多项技术能力。

虚拟主播和AIGC的未来

商汤科技提到,结合企业品牌的符号、标签等元素,商汤“虚拟IP解决方案”可智能生成符合品牌性格和调性的专属形象,让品牌形象更年轻、更鲜活、更具辨识度和记忆点,打破刻板印象,拉近与用户的距离。

这套方案还具有高度可延展的内容生成能力,定制生成IP人物成长故事、创意短视频等一系列AIGC内容,使虚拟IP形象更饱满,提升品牌亲和力。商汤数字人“虚拟IP”可以自主直播运营,从粉丝互动到直播带货,用更低的运营成本为企业前端业务带来全天候的“用户触达”,不断增强品牌粘性,为品牌带来持续增值。

任何行业的发展,或者走向成熟,不能只靠一到两个成熟的IP,或是直播网红,它需要的一定是一个批量参与的过程。

这也是商汤科技一直以来对AI世界的思考——如何解放生产力才是王道。商汤科技此次着重研发了AIGC赋能平台——以人工智能技术为核心生产力,通过算法程序模块化、技术服务组件化、 生产流程标准化,为开发者创造“低代码”的数字人开发环境。

在这方面,商汤科技不光注重批量生产,也更注重运用和管理。为此,商汤科技通过运营管理平台的“架桥通路”,实现与商业化的最终链接,打通创新技术到产业应用的“最后一公里”,为企业全流程实现降本增效。

其次,虚拟主播强依赖NLP自然语言处理以及GPT(Generative Pre-Training 生成式预训练)这类AI底层技术的突破。前者是说,当你在和虚拟主播对话时,形象的真实度只是一方面,最重要的还是互动。终有一天,你不会发觉你是在和一位虚拟人在交流。

后者也关乎虚拟人的未来。想象一下,如果我们看到的虚拟主播只会站在原地发表生产的内容和观点,但不能随时“附和”上手部动作,那怎么可以称之为真实呢。

 图源:机器之心Pro
图源:机器之心Pro

人工智能最重要学术会议之一CVPR 2022,今年也给出了最新的数字人技术趋势。来自商汤的研究者们和南洋理工大学、中山大学和UCLA在论文《Bailando: 3D Dance Generation via Actor-Critic GPT with Choreographic Memory》中提出了一种音乐到舞蹈的新框架Bailando——给出一段内容比如音乐,让计算机理解,并生成视觉跳舞的动画。这段舞蹈得卡上点,使其看起来更自然,这是一个非常困难的任务。

想要虚拟人AIGC实现更广泛更真实的生产力,就离不开这些底层AI技术的突破。

商汤科技正在往这个方向努力。根据沙利文发布的《2022年中国数字人市场观测报告-里程碑》,商汤的数字人产品已进入“成熟阶段”。而作为技术的领导者之一,商汤科技要以此为契机,不断拓展AI数字人的角色和能力,助力企业更好地拥抱数字时代,实现品牌破圈。