[arXiv:1706.03762] Attention Is All You Need
[arXiv:1807.03748] Representation Learning with Contrastive Predictive Coding
[Interspeech 2021] Self-Supervised Learning Based Phone-Fortified Speech Enhancement
[ICASSP 2018] x-vectors: Robust DNN Embeddings For Speaker Recognition
[Interspeech 2020] ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN Based Speaker Verification
[Interspeech 2021] Speech Enhancement with Weakly Labelled Data from AudioSet
[Interspeech 2020] A Deep Learning-based Kalman Filter for Speech Enhancement
[ICASSP 2021] High Fidelity Speech Regeneration with Application to Speech Enhancement
[ICASSP 2021] Densely Connected Multi-Stage Model With Channel Wise Subband Feature for Real-Time Speech Enhancement
[ICASSP 2021] TSTNN: Two-Stage Transformer Based Neural Network for Speech Enhancement in The Time Domain
[IEEE Signal Processing Letters] Additive Margin Softmax for Face Verification
[Interspeech 2021] Personalized Speech Enhancement through Self-Supervised Data Augmentation and Purification
[ICASSP 2021] Speech Enhancement Aided End-To-End Multi-Task Learning for Voice Activity Detection
[Speech Communication 08/2019] Deep learning for minimum mean-square error approaches to speech enhancement
[ICASSP 2021] Fullsubnet: A Full-Band and Sub-Band Fusion Model for Real-Time Single-Channel Speech Enhancement
[ICASSP 2021] Monaural Speech Enhancement with Complex Convolutional Block Attention Module and Joint Time Frequency Losses
[IEEE/ACM 2020] DeepMMSE: A Deep Learning Approach to MMSE-Based Noise Power Spectral Density Estimation
[ICASSP 2021] A Modulation-Domain Loss for Neural-Network-Based Real-Time Speech Enhancement
[ICASSP 2021] Speech Enhancement with Mixture of Deep Experts with Clean Clustering Pre-Training
[Speech Communication 12/2020] Masked multi-head self-attention for causal speech enhancement
[Interspeech 2020] DCCRN: Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement
[IEEE Access 2021] DeepLPC: A Deep Learning Approach to Augmented Kalman Filter-Based Single-Channel Speech Enhancement
[Interspeech 2018] A Convolutional Recurrent Neural Network for Real-Time Speech Enhancement
[IEEE Access 2021] DeepLPC-MHANet: Multi-Head Self-Attention for Augmented Kalman Filter-Based Speech Enhancement
[Interspeech 2020] Noisy-Reverberant Speech Enhancement Using DenseUNet with Time-Frequency Attention
[Preprint submitted to Elsevier] On Training Targets for Supervised LPC Estimation to Augmented Kalman Filter-based Speech Enhancement
[arXiv:2010.12713] Dual-path Self-Attention RNN for Real-Time Speech Enhancement
[arXiv:2111.07518] Time-Frequency Attention for Monaural Speech Enhancement
[arXiv:1810.04805] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
[IEEE/ACM Trans. Audio Speech Lang. Process.] Dense CNN With Self-Attention for Time-Domain Speech Enhancement
[arXiv: 2111.06015] Uformer: A Unet based dilated complex & real dual-path conformer network for simultaneous speech enhancement and dereverberation
[ICASSP 2022] MMLatch: Bottom-Up Top-Down Fusion For Multimodal Sentiment Analysis
动机:反馈回路已被证明存在于人脑中,例如在发声或视觉运动协调的情况下。人类感知模型强调了自上而下融合的重要性,即高级表征会影响感知感官输入的方式,即认知会影响感知。这些自上而下的互动在当前的深度学习模型中没有得到体现。
方法: 提出了一种神经体系结构,在网络训练过程中,使用前向传递中的反馈机制来捕获自上而下的跨模态交互。提出的机制提取每个模态的高级表示,并使用这些表示来屏蔽(mask)感官输入,从而允许模型执行自上而下的特征屏蔽。
[arXiv:2110.04474] A Mutual learning framework for Few-shot Sound Event Detection
动机:原型网络(Prototypic network,简称ProtoNet)已被证明是一种有效的少样本(few-shot)VAD方法,但仍存在两个问题:首先,小规模的支持集不足,因此类原型(class prototypes)可能无法准确地表示类中心。 其次,特征提取器是任务不可知的(或类不可知的): 特征提取器使用基类数据进行训练,并直接应用于看不见的类数据。
方法: 提出了一个相互学习(mutual learning)的框架,以不断更新特征提取器和类原型。 更具体地说,我们首先使用基类数据训练特征提取器,并使用类原型初始化分类器。 然后,我们利用未标记音频的统计信息,用转换推理更新分类器。 为了获得特定于任务的特征提取器,我们进一步使用更新的类原型作为监督信息来微调特征提取器。 这些过程可以重复几次,以便特征提取器和分类器可以不断更新。 我们的贡献可以总结如下:
(1)为了解决类原型不能准确地代表真实的类中心的问题,我们提出用跨导(transductive)学习更新类原型。
(2)为了使特征提取器具有任务特定性,我们提出了一种新的方法来微调特征提取器。
(3)与最先进的方法相比,我们的相互学习框架显著提高了少样本生物声学事件检测的性能。
[arXiv:2110.05588] DeepFilterNet: A Low Complexity Speech Enhancement Framework for Full-Band Audio based on Deep Filtering
动机:最近的工作建议使用复数滤波器代替带掩码的逐点乘法。噪声和语音通常具有平滑的频谱包络(spectral envelope)这一事实。深度滤波(DF)增强仅适用于较低频率,因为周期性语音成分包含较低频率的大部分能量。
方法: 提出了DeepFilterNet,这是一个利用深度滤波的两阶段语音增强框架。首先,我们使用模拟人类频率感知(frequency perception)的ERB标度增益(ERB-scaled gains)来增强频谱包络(spectral envelope)。第二阶段采用深度滤波来增强语音的周期成分(periodic components)。
除了利用语音的感知特性(perceptual properties),我们还通过可分离(separable)卷积和线性层和递归层的广泛分组(extensive grouping)来增强网络稀疏性(sparsity),以设计一个低复杂度的体系结构。
[arXiv:2203.07960] Investigating self-supervised learning for speech enhancement and separation
动机:将自监督学习(SSL)应用于增强和分离的研究非常有限。
方法: 评估了语音增强和分离下游任务的13种SSL上游方法。分析了现有SSL框架难以应用于语音增强和分离的因素,并讨论了这两项任务所需的表示属性。
结论:
主要实验:
一些SSL表示始终优于基线(STFT、对数梅尔滤波器库[FBBank])。
与ASR等其他任务相比,SSL在增强和分离方面的改进并没有那么大。比FBANK基线提高了0.05 PESQ以上的模型包括 HuBERT/UniSpeech-SAT/WavLM Large 和 UniSpeech-SAT Base+ 。
SSL模型性能不佳的可能原因:
1)SSL模型从未见过噪声和说话人重叠;
2)只关注全局结构并建立长期依赖关系,丢失信号重建所需的一些局部信息。
矢量量化(VQ)似乎会降低分离性能(文章解释:将连续语音表示转换为离散语音表示不利于语音分离等连续序列生成任务)。
消融研究:
步幅:步幅大小对语音增强和分离性能有很大影响(提高步幅会导致性能降低)。
不同层做表示:对于HuBERT,第12层对于语音增强获得最佳PESQ和STOI数。第1层对于语音分离性能最好(第一层的性能比最后一层高4.21dB)。
对不同层加权求和的表示进一步改善了增强和分离结果,对于大多数SSL模型,较低的层通常获得更高的权重。文章解释为:增强和分离需要细粒度的波形信息来重建干净的信号,而这些信号通常在SSL模型的深层中丢失。
[ICASSP 2022] SNRi Target Training for Joint Speech Enhancement and Recognition
动机:典型的单通道SE前端旨在完美地去除噪声,但在实践中,它们会在经过去噪的语音中产生伪影(影响下游任务)。本文希望以数据驱动的方式估计每个噪声输入的适当降噪水平。
方法:提出“信噪比改善(signal-to-noise ratio improvement,SNRi)目标训练”——SNRi-Net。解决了以下问题:对于给定的噪声输入,每个任务需要多少信噪比改善(SNRi)? 产生具有指定目标SNRi的输出信号。另外,在ASR联合训练中,目标SNRi值由一个辅助网络SNRi-Pred-Net估计。
[ICASSP 2022] BLOOM-NET: BLOCKWISE OPTIMIZATION FOR MASKING NETWORKS TOWARD SCALABLE AND EFFICIENT SPEECH ENHANCEMENT
动机:[模型压缩语音增强] 在多阶段语音增强中,时域分离模型(基线1)和时域分块优化(基线2)都显示出了模块冗余问题。一个可扩展且高效的系统必须通过自适应模型体系结构覆盖边缘计算中与资源相关的广泛多样性,而不是训练不同块配置的多个版本,以适应各种应用和硬件需求。
方法:提出可伸缩语音增强模型(BLOOM-Net),实现了特征空间而非原始信号域的可伸缩性。具体方法为:
对于所有的块序列,Encoder都是共享和重用的。BLOOM-Net执行特定于块的Mask和Decoder只是为了计算特定于块的loss。
这样,在测试期间,实际推理涉及Enc,Sep(1~l), Mas(l)和Dec(l),即上图中的阴影块。
另外,微调(所有L块中的所有模块都使用所有损失函数的组合进行更新)可以进一步细化经过充分训练的BLOOM-Net,使其从全局中学习,性能接近理论上限。
结果,所提出的分块优化方法在性能略有下降的情况下实现了所需的可伸缩性。
[ICASSP 2022] Low Resources Online Single-Microphone Speech Enhancement with Harmonic Emphasis
动机:[损失函数] 许多语音增强算法的基音谐波之间的降噪能力很低,在严重的情况下,谐波结构甚至可能会丢失。认识到这个缺点,我们提出了一种新的加权Loss,强调了基音占主导地位的频带。
方法:引入了一种新的加权损失来训练基于DNN的语音增强算法,该算法强调由人类语音典型的谐波结构控制的频带。首先提出了一种利用输入信号的自相关来检测谐波频带的方法。语音片段周期性可以通过语音信号的自相关(以语音周期的典型滞后(lags typical to the speech periods)计算)与其方差之间的比率来评估。然后,通过增加相应的权重来强调这些检测到的频带对整体损耗函数的贡献。
[ICASSP 2022] Multi-Scale Temporal Frequency Convolutional Network with Axial Attention for Multi-Channel Speech Enhancement
Department of Speech Technology, Baidu Inc, Beijing, 100085, China
动机:[多通道语音增强] 全DNN方法通常比信号处理与DNN结合的方法具有更好的性能。
方法:设计了多尺度时频卷积网络(MTFAA-Net)。采用等效矩形带宽(equivalent rectangular bandwidth,ERB)的频带合并模块处理输入。模型包括多通道相位编码器(复数的卷积层)、多尺度(multi-scale)时频处理(在时间维度上进行了扩张卷积,在频率维度上进行了上下采样)、轴向自注意(axial self-attention,ASA)和两级掩蔽等策略。
图1 所提出的MTFAA-Net的架构
图2 相位编码器(a)、TF卷积模块(b)、频率提升采样模块(c)、掩模估计和应用模块(d)和轴向自注意模块(e)的流程图
[arXiv:2111.04436] Low Resources Online Single-Microphone Speech Enhancement with Harmonic Emphasis
动机:[网络浮点数量化] 许多压缩和加速策略在分类任务中取得了显著的效果,但在回归任务中产生了不满足的(ungratified)性能。
方法:提出了一种新的仅符号指数浮点网络(sign-exponent-only floating-point network,SEOFP-NET)技术,其参数由符号指数浮点表示。SEOFP-NET通过量化原始单精度浮点表示的分数位(fraction bits),并将浮点乘法器(floating-point multiplier)替换为整数加法器(integer-adder)。
本文发布于:2024-01-28 21:38:43,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170644912610458.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |