揭秘“挑战杯”数字人的“前世今生”


【编者按】3月19日,第十三届“挑战杯”中国大学生创业计划竞赛圆满收官,北京理工大学以7金1银金奖总数第一、总分第一的优异成绩捧得最高荣誉“挑战杯”!作为本次大赛的承办方,北理工充分发挥科技优势,创新数字办赛,打造了001号数字参赛者“灵”,受到了社会广泛关注,《中国科学报》等多家媒体报道了数字人诞生背后的故事。

微信图片_20230322151819.jpg

《数字少年》MV中,“灵”(左)迎接参赛选手。

“主持人好!大家好!我是本届‘挑战杯’的001号参赛选手,我叫‘灵’。”一个扎着高马尾辫,穿着白衬衫、灰裙的“女孩”,在蓝色大屏幕中向全国观众打招呼。

3月17日是“灵”正式“上岗”的第一天。此前,她出现在第十三届“挑战杯”中国大学生创业计划竞赛(以下简称“挑战杯”)主题曲《数字少年》当中。作为“挑战杯”数字化参赛的引导者,她站在石灰色的大门前,轻摆着右臂,接引着“挑战杯”参赛选手入场,身后晨光熹微。

3月17日至19日,第十三届“挑战杯”中国大学生创业计划竞赛在北京理工大学举行。与往届比赛不同,这届“挑战杯”大赛是元宇宙在中国高校第一次大规模运用,“灵”也是“挑战杯”办赛史上第一位数字人。隔着屏幕,不少大学生惊呼“太酷了!”

“灵”是怎么诞生的?带着这份好奇,让我们一起走进光电学院教授翁冬冬的实验室。

能换装、换发型的数字人

微信图片_20230322152024.jpg

采集数字人表情的“大球”

走进一个光线幽暗的实验室,一旁的摄像头星罗棋布包裹成一个“大球”,仿佛来到了一个星际空间。这里就是数字人的诞生地。

“大球”里共有80个三角面,42个顶点和120条边,边的中点和顶点上安装光源,实际光源数量为156个。球形灯光舞台围绕其中心均匀排布36台佳能850D相机,用来采集各个视角下的人脸图像、极限表情和人脸材质。

演员坐在球的正中央,在快门频繁开合、后台算法的运算下,最终制作团队重建高精度人脸三维模型、高精度多通道人脸材质。在“大球”中,生成的数字人有数字明星李星澜、手语主持人千言等。

与以往的数字人诞生有所不同,此次团队开发的“灵”,完全由数字生成,并没有真人原型。她由800多根骨骼协同控制其面部表情,同时由82个材质参数的变化进行面部材质的动态调整,成为一个栩栩如生的数字人。

微信图片_20230322152029.jpg

“挑战杯”开幕上“灵”的登场

“作为‘挑战杯’数字化办赛的形象大使,‘灵’的登场将开启数字技术基础上的办赛办会新模式。”校团委书记刘渊说。

据介绍,“灵”是本届“挑战杯”数字化参赛的引导者。与“灵”搭档的,还有一名数字人“境”,作为本届“挑战杯”元宇宙世界的引导者。“灵”与“境”共同组成“灵境”一词,是钱学森对“Virtual Reality”(虚拟现实)的中译。

早期的数字人多基于二维体系构建而成,由于解耦程度比较低,换衣服、换发型、换光线等效果都难以实现。

如今,技术已发展到在三维体系中制作数字人,“二维与三维最大的区别,有点像电影与游戏的区别——电影拍完不能改,而游戏是由玩家控制。三维下的数字人,表情、服装、头发甚至动作都可实时变换,而二维体系下的数字人很难做到。”翁冬冬说。

比如,“灵”可以换装,在刚出场时穿着生活装,而到了正式场合就换成了礼服;而脸部光线也会随着白天、黑夜有所变化,让表情更加灵动自然。此外,随着话语内容的不同,“灵”还可以做出丰富多样的播报动作。

捏脸的有意思之处

微信图片_20230322152032.jpg

在元宇宙中,数字人是不可或缺的角色。

7年前,北京理工大学与其他高校合作成立北京市未来影像高精尖中心,当时翁冬冬接到的任务是做“沉浸式叙事”,简单来说,就是要在虚拟现实空间中把故事重新呈现出来。研究之初,翁冬冬便发现了一个重要问题——没有“演员”。为此,他们决定做高逼真数字人。

在做超写实数字人之前,也有人问过翁冬冬,“95后”Z时代喜欢二次元,为什么不考虑做二次元?

事实上,二次元是小众文化,真人参演的影视剧远比二次元人物多得多。那么,是真人,就一定要像一个人。

把表情做的生动是第一步。“数字人的表情应该非常丰富,能够根据控制需要,准确的做出喜、怒、哀、乐各种表情。同时数字人的表情还应该具有个性化,使得每个数字人看起来都与众不同。” 团队中负责表情驱动的博士生包仪华解释道。

微信图片_20230322152035.png

提高“灵”面部模型数据的精度

第二步是精确采集人的表情。为此,系统需要非常灵敏,即使演员做出了一个非常微小的表情动作,系统也能够立刻准确的将其捕捉到。“如今毫米级的采集已可以做到,但对于人脸仅仅是精确还不够,还要保证采集能够在一个很高的速度下完成。”翁冬冬说。

做人脸之所以困难,是因为我们对人脸太熟悉,但同时又存在太多不同的语言体系来对其进行描述。包仪华表示,“最害怕”的是和艺术学老师在一起讨论数字人,“他们常说数字人缺少神韵”。

“神韵是啥?能否说具体一点?”

“我已经说得很具体了,就是没神。”

之前,翁冬冬团队在做“数字梅兰芳”项目时,就经常出现这样的“尬聊”,“我们拿着尺子去量,你看脸、鼻子的距离一样,但拼合在一起,艺术学老师就是觉得不一样,这就是人脸的有意思之处。”

让数字人去打一场比赛

微信图片_20230322152037.jpg

测试中的“灵”

美国传播学家艾伯特·梅拉比安对于沟通提出一个公式:沟通时信息的全部表达="7%语调+38%声音+55%肢体语言。

看到这个比例,你也许会很吃惊,原来信息大部分是通过肢体语言和表情来传达。但是语言、表情和动作等通道之间的不协调,却会使得数字人产生错误的表达。比如,一个人嘴上说着“很有道理”,眼睛里却流露出轻蔑的表情,你会相信他这句话是真的吗?

翁冬冬介绍,相比较从前只有声音、没有形象的人工智能,有形象的智能数字人在是否“像人”方面,被用户寄予了更高的期望和要求。一个简单的“不当行为”就可能暴露出数字人的“虚假本质”。比如,银行入口站着一个“接待员”,有顾客经过时,真人的目光会跟随、会跟顾客打招呼,而数字人可能无动于衷。

翁冬冬一直在想“要不要给数字人赋予需求,因为有了需求的智能体才会像人一样去主动探索世界”。比如让数字人会饿,会有社交焦虑等。

他把这一想法放在“灵”身上实现,便是给予她参赛选手的身份,让她有“竞争”的需求。站在元宇宙的舞台中央,“灵”作为北理工“老智星”团队的参赛选手,落落大方地为台下“观众”介绍这款专为老年人设计的,专门对抗老年人智力流失的VR游戏。他们还引入了由清华大学团队开发的、类似ChatGPT功能的聆心智能。

“你们所需要的启动资金是多少?”

“我的启动资金是20万元,我希望以转让股权的方式吸引到一位投资人加入,以促进我们公司更好更快地发展。”流利地给出答案同时,“灵”目光流转,很自然地做出了一个欢迎的手势。

有意思的是,考虑再三,翁冬冬最终还是决定把“灵”的赛场形象做得“假一点”。“真是担心选手们把‘她’与真人混淆起来。”翁冬冬笑道。




Baidu
map