中国教育在线
中国教育在线
西北工业大学拟人化语音合成技术——“客服机器人”上线
2020-12-24 10:32
西北工业大学
作者:

  “您好,某某客服,请问您是要咨询什么问题呢?”

  “我点的外卖什么时候可以送到?”

  你有没有给客服热线打过电话?亦或是接到客服人员给你打来的电话?每天这样的电话有上千万通,在人工智能和智能语音技术的帮助下,大量的这种电话目前可以自动通过内呼和外呼机器人自动完成,帮助人们从大量的简单重复劳动中解脱出来,投入到更有创造力的工作中去。特别是在疫情期间,智能外呼机器人可以完成大量的无接触式远程沟通服务,极大的提升信息获取的效率和安全性。在这种智能对话系统的背后包括语音识别、语义理解、对话管理和语音合成等一系列核心技术。

语音合成是智能客服机器人中重要的技术环节

  作为机器人对话系统的嘴巴,语音合成的自然度尤为关键。

  语音合成又称为文语转换技术,是指一类将文本转化语音的人工智能技术,是人工智能的一个经典研究问题。大家听到的手机地图导航音、手机和智能音箱上的虚拟助手的语音交互、公共场合的信息播报、AI有声读物等都是通过该项技术完成的。然而和上述应用相比,智能客服和外呼机器人应用场景落地对该项技术提出了更高的要求。在这些场景中,当人们听到是事先录制好的固定录音或者机器味十足、字正腔圆的朗读语音合成效果时,往往没有耐心去听完而直接挂电话,从而导致服务完成度不高。这对语音合成技术提出了更高的要求,需要高自然度、拟人化的技术。

语音合成技术架构

  近日,通过产学研合作项目,西北工业大学计算机学院智能语音方向谢磊教授团队与美团合作的“客服场景下的高自然度语音合成技术”成功上线美团智能客服和外呼机器人。该系统取代了先前读音生硬的语音合成系统,通过自然拟人化语音生成,能够大幅提升通话体验的流畅性。通过美团测试团队严格的AB测试,该技术的应用能够使通话成功率相对提升15%以上。目前搭载该服务的美团内呼和外呼机器人月均调用量超过620万次,极大地提升了沟通效率,降低了沟通成本,改善了用户体验。

  如何才能研发出一套高表现力的语音合成系统,达到逼真的拟人化效果呢?标准的语音合成系统搭建流程包括:发音人选择、录音棚高质量语音数据录制与标注、模型训练和系统调优等繁琐的过程。最关键的问题是为了进行品控,录音棚录制的发音人数据主要采用朗读和风格模仿的方式进行,往往自然度不够高,很难做到接近真人的逼真合成效果。另一方面,发音人的选择和数据录制成本很高,录音和系统搭建周期很长。

  针对上述问题,谢磊教授带领实验室研究生杨丰煜等同学和美团的合作伙伴进行了深入的探索。他们首先想到的是:美团自身就有大量的真实的客服的语音数据。是否可以直接通过这些现有数据进行建模呢?这样一来,建模数据来自真实客服,如果模型可以完美的学到真实客服的发音风格,就可以做到极高的语音合成自然度,同时节省了标准数据的高昂录制与采购成本,而且极大的缩短系统搭建的周期。

真实客服数据与传统音库建模的对比

  但是,正是因为客服人员工作环境不是在标准的安静录音棚,而是在多人同时工作的办公环境中,因此数据采集质量不高,存在环境噪声干扰等问题。为了解决这一问题,谢磊教授团队和美团合作者们设计了一套自动化数据筛选方案,通过语音检测、声纹识别、语音识别、声学信号分析与过滤,有效地选择出适合建模的目标客服发音人数据。

  数据的问题解决,随之而来的是新的问题。即便是采用筛选出来的数据,通过先进的深度学习技术进行建模,仍然合成语音仍然存在发音不稳定的现象。这是因为客服人员和客户的自然对话往往存在很多难以建模的口语化现象,包括快语速、长停顿、延音等。为了更为准确的对这些口语化现象进行建模,谢磊教授团队和美团合作者们提出了一套自动化检测口语化现象的方法,对长停顿、延音等现象进行有效检测,同时更新到语音合成建模的文本表示中,完美的解决了发音不稳定的现象。

客服场景下的高自然度语音合成建模流程

  拟人化、自然度问题解决了,最后需要攻克的是音质问题。如果合成音质差,必然影响到用户体验。由于原始客服语音数据质量不高,现有神经声码器合成效果较差,因此需要更加鲁棒的神经声码器才能合成稳定的声音。为了解决这一问题,谢磊教授团队研发了更加鲁棒的神经声码器技术,通过改良需要预测的语音特征,实现了稳定自然的发音合成效果。经过双方几个月的共同努力,解决了上述几个难点问题,该技术得以成功落地。

  该技术的成功应用离不开校企合作的大力支持。2019年,谢磊教授团队凭借雄厚的研究基础与实力,入围成为“美团科研合作计划”合作伙伴,开展语音合成技术的前沿探索。实验室研究生杨丰煜前往美团开展合作,圆满的完成了合作任务。除上述成果落地外,双方在小资源抗噪音色克隆上的最新研究成果“Data Efficient Voice Cloning from Noisy Samples with Domain Adversarial Training”发表在语音研究顶级会议Interspeech2020上,并在线进行了宣读。

谢磊教授团队获得“美团科研合作计划”支持

从坚同学在语音顶级会议Interspeech上宣读与美团合作论文

在美团合作的杨丰煜同学(左二)参加公司团建

  计算机学院音频语音与语言处理研究组(ASLP@NPU)隶属于空天地海一体化大数据应用技术国家工程实验室。近年来,实验室在张艳宁教授的带领下,围绕人工智能语音处理中的各种关键性问题取得了突出进展。仅仅在语音合成这一领域,在包括Interspeech在内的语音研究的顶级会议上发表论文20余篇,研究成果应用于智能家居与穿戴、智能客服、语音助手、AI朗读、语音玩具等多个方面,产生了良好的经济和社会效益。

实验室语音合成技术落地多个产品

实验室获得语音顶级会议Interspeech2020竞赛优异成绩

  围绕国家“新一代人工智能”拟人化人机交互的重大需求,实验室深入开展包括语音增强与分离、语音识别、语音合成、声纹识别等在内的全链路智能语音处理技术。在多项语音技术国际评测中取得顶尖成绩,包括今年语音顶级会议Interspeech深度噪声抑制竞赛(DNS)实时赛道第一名、非实时赛道第二名、Interspeech远场声纹挑战赛(FFSVC)分布阵列赛道第二名的优异成绩。入选《互联网周刊》中国人工智能高校排行十大顶尖实验室。

  目前实验室先后与包括腾讯、美团、华为、阿里巴巴、搜狗、微软、字节跳动、爱奇艺、百度、小米、快手、京东等在内的业界众多企业开展广泛深入、多层次的产学研合作。通过校企合作,最新的人工智能研究成果得到快速落地。

免责声明:

① 凡本站注明“稿件来源:中国教育在线”的所有文字、图片和音视频稿件,版权均属本网所有,任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本站协议授权的媒体、网站,在下载使用时必须注明“稿件来源:中国教育在线”,违者本站将依法追究责任。

② 本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。

相关新闻
西北工业大学 2022-06-02 09:36
西北工业大学 2022-06-01 10:44