Page 18 - 何晓冬：智能交互时代服务业数字化的实践与思考

P. 18

服务业数字化新场景：数字人多模态交互（语音、情绪、视觉形象等）

通过3D图形学建模和音素识别技术，塑造可以实时播报的虚拟主播，让语音生“动”起来

数字人技术

形象风格定制语音个性定制口唇/情绪驱动

需要客户提供真人照片以及播高自然度、有感情、个性化的语形象和语音植入引擎，通过引擎

报视频，进行针对性训练音合成服务，支持中英文双语实现口型和表情的实时驱动匹配

在青海发展投资贸易洽谈会（青洽会）上通过AI 虚拟主播，将创新性的实现展会动态、新闻咨询报道主持、
云展馆等场景的全新表达和呈现，通过化身本次大会及展馆的三个虚拟主播形象“小青”、“小海”、“小云”，为
参会用户在线上提供丰富的大会动态资讯、云展馆综合内容报道等服务，让参会用户感受到有温度、更生动

的云上青洽会服务体验。该技术通过京东TTS语音驱动虚拟形象说话及反馈情绪和动作，将深度学习神经网络
和计算机图形学结合，可以理解语音的内容同时精细化驱动虚拟形象的口唇动作、面部表情、肢体姿态，生
成极具逼真感的虚拟形象动画。新闻编辑报道人员仅需输入文字内容，插入图片等素材，即可快速生成具备
同步口型、丰富面部表情及模型动作的AI虚拟主播视频。

13 14 15 16 17 18 19 20 21