A Convolutional Recurrent Neural Network for Real

阅读: 评论:0

A Convolutional Recurrent Neural Network for Real

A Convolutional Recurrent Neural Network for Real

A Convolutional Recurrent Neural Network for Real-Time Speech Enhancement

文章:A Convolutional Recurrent Neural Network for Real-Time Speech Enhancement
作者:Ke Tan, DeLiang Wang

ABSTRACT

现实生活中许多语音增强的应用都需要实时处理,最好没有延迟或者低延迟,例如助听器和人工耳蜗。本文提出了CRN的网络结构实现单通道语音增强。把CED和LSTM结合到CRN架构中,形成一个实时处理的因果系统。而且,所提出的模型中噪声与说话人无关,即噪声类型和说话人在训练集和测试集中可以是不同的,实验表明CRN比现存的LSTM模型表现出更好的PESQ和STOI。而且,CRN所需的参数更少。
关键字:噪声和说话人无关的语音增强。实时应用,CED,LSTM,CRN

Introduction

语音分离旨在将目标说话人从背景干扰噪声中分离出来,包括非语音噪声,干扰语音和房间混响。语音增强涉及到分离语音和非语音噪声,生活中有各种各样的应用,例如:鲁棒性自动语音识别和移动设备语音交流。这些都需要实时处理,换句话说,语音增强应该被表现为低计算复杂度,并且提供瞬时输出。
文章中,我们集中于可运行在实时应用中的单通道语音增强,例如,在数字助听器中,对于听的人来说,3毫秒的延迟就很明显,大于10毫秒的延迟则令人讨厌。对于这些应用,需要一个没有未来信息的因果语音增强系统。
受CASA中时频掩蔽的启发,近年来语音分离被作为监督学习任务进行研究,使用DNN来学习噪声特征到时频掩蔽的mapping。IBM是第一个在监督语音分离中使用的目标,他把时频单元归为语音域或噪声域。最近提出的训练目标包括IRM,和基于mapping的特征,对应于目标语音的功率或幅度谱。此项研究中,我们使用了目标语音的幅度谱作为训练目标。
对于有监督的语音增强,噪声泛化和说话人泛化同样重要,处理噪声泛化的一个简单有效的方法是训练不同类型的噪声,类似的,处理说话人泛化也是这样,训练集中包含了大量的说话人,然而,许多研究发现DNN的前向传播不能跟踪训练集中的多个说话人,典型的,DNN从帧周围的小上下文窗口独立的为每个时间帧预测一个标签。一种解释是DNN不能利用对于跟踪目标说话人来说非常重要的长的上下文信息。最近的研究发现将语音分离当作序列到序列的映射能更好利用长的上下文信息。
基于这样的想法

本文发布于:2024-01-31 08:16:08,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170666016927052.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:Recurrent   Convolutional   Neural   Real   Network
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23