要创造一个虚拟俄语主播,拢共分几步?

要创造一个虚拟俄语主播,拢共分几步?

2019-06-27 10:33阑夕 合作伙伴
也许,不需要到2049年,电影中的想象就能真切地成为现实了

2017年秋天,《银翼杀手2049》上映,相信许多人都记得,电影中的男主角K拥有一个虚拟形态的女友,她由投影产生,看上去却与真人无异,能做饭,能点烟,还能与K交流谈心。当时,不少人发出疑问,2049年的科技水平真能实现这一点吗?

事实上,不必等2049年,就在此时此刻,技术发展已经让我们无比接近电影中的想象了。

今年6月,在第23届圣彼得堡国际经济论坛上,出现了一位虚拟的俄语主播。和真人主播一样,她说着一口流利的俄语,能够声情并茂地播报新闻,如果不加以提醒,不会有人发现她其实是一个虚拟的形象,而这正是由中国新华社、俄罗斯塔斯社和中国搜狗公司联合推出的全球首个俄语AI合成主播,名叫Lisa。

虚拟主播Lisa的真人原型,是俄罗斯塔斯社的国际关系部专家伊丽莎白·泽莲斯卡娅,即便是伊丽莎白本人站在Lisa旁边,你也会发现,她们的面貌相似程度非常高,而且由于Lisa充分学习了伊丽莎白的说话方式,Lisa在播报起新闻来,也是字正腔圆的“伊丽莎白腔”。而Lisa比伊丽莎白厉害的地方是,她不会疲惫,无需休息,更不会出错,只要把新闻的文字给她,她就能24小时无休地播报新闻了。

相信所有人都能想象,虚拟主播已经来了,虚拟女友也不会太远了。从技术上来看,搜狗研发的虚拟主播已初步达到电影中AI人工智能机器人的标准,即可以实现简单的逻辑思考,又可以运用不同的表情和动作对文字内容做出阐释——今天我们则要向大家揭秘,看看要创造一个充满未来感的俄语虚拟主播,拢共分几步。

第一步:研发一个AI分身技术

关注搜狗在人工智能领域研发动向的专业人士会发现,搜狗虚拟主播技术并不是一条单独的研发线,而是以搜狗AI分身技术为基础,延展出的众多研究领域中的一个。搜狗AI分身技术可以利用少量目标说话人的音视频数据,完成目标说话人AI分身的定制。换句话说,除了定制俄语主播之外,搜狗AI分身,可以在未来定制任何人。

搜狗AI分身技术总体来说,是由两大引擎组成,分别是语音合成和图像生成。语音合成引擎负责将输入的文本转换为对应的语音,图像生成则负责生成AI分身的视觉形象。通过这两大引擎,虚拟主播拥有了基本的形体和语言系统。划重点,电影中K所拥有的“虚拟女友”,也离不开这两项基础技术。

(友情提示:前方高能,技术小白可跳过两段)

具体一点说,音频合成部分,搜狗沿用了自主研发的语音合成系统框架,并采用了业内领先的WaveRNN波形建模技术,实现更加逼真的语音合成效果,这一领域是搜狗公司的长项,记得2018年6月,他们首次参加国际语音合成大赛Blizzard Challenge,就曾取得两项子任务第一。

至于图像生成部分,首先,搜狗利用人脸检测及识别系统,学习训练数据中图像的人脸表征信息,同时通过搜狗唇语识别系统提取唇语隐层表征,之后训练端到端模型学习输入文本与人脸以及唇语表征的映射关系,最后,用基于GAN网络,从预测的表征信息生成恢复出每一帧的形象,进而获得高逼真的图像序列。

以上两段对技术小白来说,可能有点艰深,但如果是内行人士,一看就会明白搜狗这是把自己压箱底儿的技术都拿出来分享了。

第二步:微表情建模,外加超深度神经网络技术

以上说了许多关于搜狗AI分身技术的内容,但还没有涉及到俄语主播Lisa。

搜狗方面表示,Lisa有自己独特的技术亮点,因为他们在音视频合成领域取得了新的技术突破,都应用到了本次俄语合成主播上。

在图像生成能力上,搜狗分身在原有的表情和唇形生成技术基础中,添加了微表情能力的建模,能够生成更细致的表情细节,Lisa因此变得更加生动。

其次,基于海量大数据学习得到的超深度神经网络,能够预测更丰富的头部姿态,让虚拟主播整体形象更逼真自然。同时,搜狗在业内首个采用了 wavernn语音合成技术,使合成品质较之前有大幅提升,让虚拟主播的声音与真人基本无异。

第三步:教会她说俄语

研发到这个时候,Lisa哪都好,可惜还不会说俄语……

由于俄语发音与汉语、英语有较大不同,俄语合成主播的研发更具挑战性。根据搜狗项目负责人介绍,针对俄语颤音复杂、语句偏长,以及发音时唇部形态比较丰富的特征,技术团队邀请了专业的俄语语言专家配合人工智能工程师共同研发俄语合成主播模型。经过搜狗研发团队反复试验、调整和优化,最终在论坛上呈现给大众完美的虚拟主播。

来到这里,大功告成,一个俄语虚拟主播诞生了。

看过以上的技术分享,大家想必已经明白个八九不离十了。如果你也想创造一个属于自己的虚拟主播,甚至是虚拟女友的话,只需要这么非常简单的三步,就可以实现了。

咳咳,当然了,这个过程里免不了要掌握语音合成、WaveRNN波形建模、唇语识别、Seq2seq模型、GAN网络、深度学习这些领域的知识……所以,更好的选择当然是什么都不做,让像搜狗这样擅长这件事的公司去完成,我们只需要坐享其成就好。

总的来说,虚拟主播创造技术的成功,预示着现代社会越来越接近科幻作品中的“未来”世界,也许,不需要到2049年,电影中的想象就能真切地成为现实了,你说呢?

*本文作者陆离,由新芽NewSeed合作伙伴微信公众号:阑夕授权发布,转载请联系原出处。如内容、图片有任何版权问题,请联系新芽NewSeed处理。