雷锋心水论坛com

同盾科技语音合成论文入选国际旗舰学术大会ASRU2019

时间:2019-10-16 来源:本站原创 作者:admin

  ASRU是国际上最大的非营利性专业技术学会IEEE旗下语音和语言处理技术委员会的旗舰技术活动,每两年举办一次,来自全球学术界和工业界的顶级专家和研究人员将围绕当下语音领域的研究热点进行深入探讨。ASRU 2019将于12月14日至12月18日在新加坡圣淘沙举行。同盾也作为此次会议的赞助商,推动产学研合作。

  论文指出,相较于传统语音合成方法,端到端的语音合成技术已经被印证拥有更简洁的预测流程以及更自然的声音。此外,相比于英文直接以字符作为输入,中文由于更为复杂的语言现象,需要更加精细的前端特征,例如语法词边界、韵律词/韵律短语边界等。论文作者们创造性地提出一种新结构SAG-Tacotron,在编码端引入自注意力结构代替CBHG结构,并加上可学习的高斯偏置。主客观实验表明,该方法可以在后端仅仅使用拼音信息就可以达到复杂输入的合成效果,无需复杂特征工程。

  目前,该方法已在大量线上语音合成系统中应用,通过对接各类智能客服场景,让客户体验到更加自然流畅的合成语音。

  同盾智能语音实验室相关技术人员表示,使用自注意力结构作为编码器的优势在于,它很好地考虑到了上下文的信息。编码器读入输入数据,利用层层叠加的自注意力结构,2019年湖南省永州市的二级造价师的报名条件是什么?,可以对每一个音素输入都得到一个新的考虑了上下文信息的表征。但是同时,自注意力结构对全局信息的关注也会分散注意力,而引入了可学习的高斯偏置来加强局部信息可以有效解决这个问题。

  “在句子中,与当前音素关联比较大的音素往往出现在周围,但是普通的注意力结构并不能做到这一点。我们的想法是,应当鼓励自注意力结构给邻近的音素更大的权重,为此,我们给原始的权重上加上了一个按临近位置分布的高斯先验概率,改变自注意力结构的权重分布,从而更加有效地建模句子的局部结构。”

  将自注意力结构和可学习的高斯偏置结合作为端到端的语音合成的编码器,实验表明可以在尽可能减少输入端信息的情况下,能达到跟将韵律信息也作为输入信息时可比的效果,这样极大的简化了合成前端需要耗费大量数据和人工设计复杂的韵律模型训练的过程。

  依托金融科技领域的行业经验积累,同盾智能语音技术针对金融业务的各个场景,已实现了贴合不同场景的智能交互应用。

  据悉,同盾科技于2018年成立人工智能研究院,发力智能语音等领域,目前已经上线自研的语音合成、语音识别、声纹识别和语义理解等全流程对话机器人技术。智能语音实验室相关研究人员均来自于微软、Nuance、腾讯、西北工业大学等一线语音企业和研究机构。同盾与西北工业大学成立联合实验室,并邀请谢磊教授担任同盾科技语音实验室首席科学家,组成产学研闭环,本篇论文也是双方良好合作的阶段性成果。同盾还积极参行业内的标准制定和技术研讨会,其中包括人工智能产业发展联盟AIIA《中文语音合成服务系统评估规范》的行业标准。

  1.凡本网站注明“来源:中国网财经”的所有作品,均为本网合法拥有版权或有权使用的作品。

  2.未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源及作者”。违反上述声明者,本网将追究其相关法律责任。

  中国网是国务院新闻办公室领导,中国外文出版发行事业局管理的国家重点新闻网站。本网通过10个语种11个文版,24小时对外发布信息,是中国进行国际传播、信息交流的重要窗口。

  凡本网站注明“来源:中国网财经”的所有作品,均为本网合法拥有版权或有权使用的作品,未经本网授权不得转载、摘编或利用其它方式使用上述作品。

  地址:北京市海淀区花园路2号牡丹科技楼A座2层 北京国新汇金股份有限公司

Copyright © 2002-2011 DEDECMS. 织梦科技 版权所有 Power by DedeCms

开奖结果| 香港马会开奖现场| 香港神算子心水论坛| 九龙红姐图库心水论坛| 四九图库| 港彩印刷图库全年资料| 好心水高手坛精准资料| 辉哥图库手机看图区一| 静心阁资料大全| 四海彩色统一图库四海|