揭秘“挑战杯”数字人的“前世今生”

首页/ 新闻网/ 品读校报

揭秘“挑战杯”数字人的“前世今生”

发布日期：2023-03-22 供稿：《中国科学报》摄影：校园网

编辑：吴楠审核：蔺伟阅读次数：

【编者按】3月19日，第十三届“挑战杯”中国大学生创业计划竞赛圆满收官，北京理工大学以7金1银金奖总数第一、总分第一的优异成绩捧得最高荣誉“挑战杯”！作为本次大赛的承办方，北理工充分发挥科技优势，创新数字办赛，打造了001号数字参赛者“灵”，受到了社会广泛关注，《中国科学报》等多家媒体报道了数字人诞生背后的故事。

微信图片_20230322151819.jpg

《数字少年》MV中，“灵”（左）迎接参赛选手。

“主持人好！大家好！我是本届‘挑战杯’的001号参赛选手，我叫‘灵’。”一个扎着高马尾辫，穿着白衬衫、灰裙的“女孩”，在蓝色大屏幕中向全国观众打招呼。

3月17日是“灵”正式“上岗”的第一天。此前，她出现在第十三届“挑战杯”中国大学生创业计划竞赛（以下简称“挑战杯”）主题曲《数字少年》当中。作为“挑战杯”数字化参赛的引导者，她站在石灰色的大门前，轻摆着右臂，接引着“挑战杯”参赛选手入场，身后晨光熹微。

3月17日至19日，第十三届“挑战杯”中国大学生创业计划竞赛在北京理工大学举行。与往届比赛不同，这届“挑战杯”大赛是元宇宙在中国高校第一次大规模运用，“灵”也是“挑战杯”办赛史上第一位数字人。隔着屏幕，不少大学生惊呼“太酷了！”

“灵”是怎么诞生的？带着这份好奇，让我们一起走进光电学院教授翁冬冬的实验室。

能换装、换发型的数字人

采集数字人表情的“大球”

走进一个光线幽暗的实验室，一旁的摄像头星罗棋布包裹成一个“大球”，仿佛来到了一个星际空间。这里就是数字人的诞生地。

“大球”里共有80个三角面，42个顶点和120条边，边的中点和顶点上安装光源，实际光源数量为156个。球形灯光舞台围绕其中心均匀排布36台佳能850D相机，用来采集各个视角下的人脸图像、极限表情和人脸材质。

演员坐在球的正中央，在快门频繁开合、后台算法的运算下，最终制作团队重建高精度人脸三维模型、高精度多通道人脸材质。在“大球”中，生成的数字人有数字明星李星澜、手语主持人千言等。

与以往的数字人诞生有所不同，此次团队开发的“灵”，完全由数字生成，并没有真人原型。她由800多根骨骼协同控制其面部表情，同时由82个材质参数的变化进行面部材质的动态调整，成为一个栩栩如生的数字人。

微信图片_20230322152029.jpg

“挑战杯”开幕上“灵”的登场

“作为‘挑战杯’数字化办赛的形象大使，‘灵’的登场将开启数字技术基础上的办赛办会新模式。”校团委书记刘渊说。

据介绍，“灵”是本届“挑战杯”数字化参赛的引导者。与“灵”搭档的，还有一名数字人“境”，作为本届“挑战杯”元宇宙世界的引导者。“灵”与“境”共同组成“灵境”一词，是钱学森对“Virtual Reality”（虚拟现实）的中译。

早期的数字人多基于二维体系构建而成，由于解耦程度比较低，换衣服、换发型、换光线等效果都难以实现。

如今，技术已发展到在三维体系中制作数字人，“二维与三维最大的区别，有点像电影与游戏的区别——电影拍完不能改，而游戏是由玩家控制。三维下的数字人，表情、服装、头发甚至动作都可实时变换，而二维体系下的数字人很难做到。”翁冬冬说。

比如，“灵”可以换装，在刚出场时穿着生活装，而到了正式场合就换成了礼服；而脸部光线也会随着白天、黑夜有所变化，让表情更加灵动自然。此外，随着话语内容的不同，“灵”还可以做出丰富多样的播报动作。

捏脸的有意思之处

在元宇宙中，数字人是不可或缺的角色。

7年前，北京理工大学与其他高校合作成立北京市未来影像高精尖中心，当时翁冬冬接到的任务是做“沉浸式叙事”，简单来说，就是要在虚拟现实空间中把故事重新呈现出来。研究之初，翁冬冬便发现了一个重要问题——没有“演员”。为此，他们决定做高逼真数字人。

在做超写实数字人之前，也有人问过翁冬冬，“95后”Z时代喜欢二次元，为什么不考虑做二次元？

事实上，二次元是小众文化，真人参演的影视剧远比二次元人物多得多。那么，是真人，就一定要像一个人。

把表情做的生动是第一步。“数字人的表情应该非常丰富，能够根据控制需要，准确的做出喜、怒、哀、乐各种表情。同时数字人的表情还应该具有个性化，使得每个数字人看起来都与众不同。” 团队中负责表情驱动的博士生包仪华解释道。

微信图片_20230322152035.png

提高“灵”面部模型数据的精度

第二步是精确采集人的表情。为此，系统需要非常灵敏，即使演员做出了一个非常微小的表情动作，系统也能够立刻准确的将其捕捉到。“如今毫米级的采集已可以做到，但对于人脸仅仅是精确还不够，还要保证采集能够在一个很高的速度下完成。”翁冬冬说。

做人脸之所以困难，是因为我们对人脸太熟悉，但同时又存在太多不同的语言体系来对其进行描述。包仪华表示，“最害怕”的是和艺术学老师在一起讨论数字人，“他们常说数字人缺少神韵”。

“神韵是啥？能否说具体一点？”

“我已经说得很具体了，就是没神。”

之前，翁冬冬团队在做“数字梅兰芳”项目时，就经常出现这样的“尬聊”，“我们拿着尺子去量，你看脸、鼻子的距离一样，但拼合在一起，艺术学老师就是觉得不一样，这就是人脸的有意思之处。”

让数字人去打一场比赛

测试中的“灵”

美国传播学家艾伯特·梅拉比安对于沟通提出一个公式：沟通时信息的全部表达="7%语调+38%声音+55%肢体语言。

看到这个比例，你也许会很吃惊，原来信息大部分是通过肢体语言和表情来传达。但是语言、表情和动作等通道之间的不协调，却会使得数字人产生错误的表达。比如，一个人嘴上说着“很有道理”，眼睛里却流露出轻蔑的表情，你会相信他这句话是真的吗？

翁冬冬介绍，相比较从前只有声音、没有形象的人工智能，有形象的智能数字人在是否“像人”方面，被用户寄予了更高的期望和要求。一个简单的“不当行为”就可能暴露出数字人的“虚假本质”。比如，银行入口站着一个“接待员”，有顾客经过时，真人的目光会跟随、会跟顾客打招呼，而数字人可能无动于衷。

翁冬冬一直在想“要不要给数字人赋予需求，因为有了需求的智能体才会像人一样去主动探索世界”。比如让数字人会饿，会有社交焦虑等。

他把这一想法放在“灵”身上实现，便是给予她参赛选手的身份，让她有“竞争”的需求。站在元宇宙的舞台中央，“灵”作为北理工“老智星”团队的参赛选手，落落大方地为台下“观众”介绍这款专为老年人设计的，专门对抗老年人智力流失的VR游戏。他们还引入了由清华大学团队开发的、类似ChatGPT功能的聆心智能。

“你们所需要的启动资金是多少？”

“我的启动资金是20万元，我希望以转让股权的方式吸引到一位投资人加入，以促进我们公司更好更快地发展。”流利地给出答案同时，“灵”目光流转，很自然地做出了一个欢迎的手势。

有意思的是，考虑再三，翁冬冬最终还是决定把“灵”的赛场形象做得“假一点”。“真是担心选手们把‘她’与真人混淆起来。”翁冬冬笑道。