编辑/LiveVideoStack
大家好,我是来自美摄科技研发中心的高级AI算法专家张瑞全。今天分享的主题是美摄科技关于快速落地基于“AIGC+数字人”的数字化内容生产的整体方案。概括
美摄科技产品主要分为AI数字人、视音频处理SDK、AI智能处理、汽车及智能硬件方案、云端/PC端视频处理方案和开发及设计服务六个部分。
美摄的技术已经在超过千余款实际产品中落地,尤其针对大量的手机厂商和大型互联网客户,面向多款超千万级的DAU应用,美摄的SDK技术对大量的硬件和系统进行适配,保障各类场景下兼容性的同时,提供高质量的服务。
实时语音数字人是基于语音和文字实时驱动的高精度数字人,主要用于数字客服、车载形象和APP助手等场景中。虚拟主播则更多的应用于新闻播报、直播助手和虚拟讲解等场景中。
数字人形象生成
数字人形象的三维渲染是数字人领域核心内容。美摄科技自研的三维图像渲染技术拥有强大的渲染能力、多端互通、高效率处理、体积小巧、快速拓展和制作方便六个特点,可以为数字人制作提供非常强大的辅助作用。
目前美摄科技支持支持基于物理的材质渲染、实时阴影处理、法向量贴图、全局环境光和屏幕空间环境光遮蔽,为各种环境下的数字人提供全面且逼真的渲染能力。为了增加可玩性和用途,可以在数字人身上添加不同的配饰等。目前美摄科技的渲染引擎可以很好地支持辅助道具和数字人动作的同步,让数字形象更加逼真。
要实现实时语音输出,就需要数字人拥有唇音同步能力。美摄科技基于AI训练建立了一套独特的唇音分析算法,可以实现自然生动的形象展现。通过对输入的语音进行轻量化AI分析,获取实际人物的面部表情,再将AI算法输出的结果与语音内容结合,驱动数字人模型,实现实时的三维唇音同步效果。美摄AI唇音同步技术具有高效、无时延、过度顺滑自然、适配多种语音系统等特点。
基于自研的Morphing技术,美摄渲染引擎支持多达54种人脸基础表情。这些基础表情相互组合,构成了拟真的数字人面部系统,几乎可以囊括所有的人脸表情,为数字人模型生动的表情展现奠定基础。左边5张图是通过基础的表情融合出的一些复杂面部动作。中间是一个实时驱动的样例,同时也携带了头发的物理效果。
同时我们也提供了非常全面的数字人设计工具,设计师可以将其与C4D、Maya等工具配合,快速进行贴图更换、效果调节,实现高效设计。其中,美摄自研的数字人设计工具与渲染器内部使用同一套引擎,设计效果与最终渲染效果完全一致,所见即所得。设计制作出的模型效果可快速部署发布。
这张图是数字人的一套基本流程。美摄实时语音数字人集成了多家合作伙伴的语音系统,可以快速理解用户输入的文字信息并返回答案,并生成对应的数字人语音,驱动数字人进行实时语音播报和动作表达。整套数字人方案具有良好的开放性和可拓展性,能够快速与各种主流的AI聊天系统、语音系统进行结合,形成对应的方案。
广州鼎瀛计算机科技有限公司 版权所有 Copyright 2007-2018 All rights reserved
总部地址:广东省广州市天河区五山路267号瑞华大厦北塔19楼19E
电话:13342876698 Email:305625228@qq.com