HiFi

阅读: 评论:0

HiFi

HiFi

会议:2020 NIPS
单位:韩国KAKAO
作者:Jungil Kong, Jaehyeon Kim
文章主页
开源代码

  • 使用心得:
    • hifigan的收敛速度和效果都比PWG要好一点;
    • hifigan预测真实值表现良好,但是和声学模型接在一起之后有电音(杂音),主要是两个系统的mismatch(真实mel-spec和预测的mel-spec之间的差异)
    • 2的解决方法:声学模型预测的更精准一些;vocoder用一些predict-mel训练,增强泛化性。

      文章目录

        • abstract
        • HiFi-GAN
          • 生成器结构
          • MSD: multi-scale discriminator
          • MPD:multi-period discriminator
          • 目标函数
        • experiments
          • ablation study
          • unseen speaker的泛化

abstract

motivation:在推理时间 & 生成高保真音质方面均作出改进

  • 观点:modeling periodic patterns of an audio is crucial
  • 结果:22.05k的单人音频生成质量和录制语音接近;优点全CNN网络,前向推理速度非常快

HiFi-GAN

包括一个生成器和两个判别器(multi-scale & multi-period),

生成器结构

  • ConvTranspose:输入mel-spec,通过卷积上采样到和wav采样点同等长度;
  • multi-receptive field fusion (MRF) module:res-block conv,作者设置了四种不同长度的生成器,可通过调节参数实现合成效率 & 生成质量的平衡。

MSD: multi-scale discriminator

  • 因为MPD是对信号重采样为不同的周期(离散点进行判断),因此加入MSD对连续点语音进行判别;
  • MSD包含三个子判别器:对连续的语音采样点进行建模,分别建模原始语音,✖️2 average-pooled audio,✖️4 average-pooled audio。是对平滑后波形的判断。

MPD:multi-period discriminator


    • motivation:语音由不同的周期信号组成,重建语音数据需要对不同的周期模式进行建模。
  • 对不连续的采样点进行建模,设置素数【2,3,5,7,11】为不同的period,按照period将音频采样点reshape为二维信号,然后用卷积单独处理周期重采样后的信号。
  • 如上图所示:可以看成大周期sin signal+小周期sin signal,不同的采样间隔建模到不同周期的信号。

目标函数

  • Feature Matching Loss:衡量判别器对于真实样本和生成样本预测的结果偏差

experiments

  • 对比1:LJSpeech的效果,baseline选择官方开源的WaveNet,WaveGlow,MelGAN
  • 对于unseen speaker的泛化效果:VCTK数据集,9个人作为unseen speaker,剩下的用于训练WaveNet,WaveGlow,MelGAN, hifigan
  • 为了对比合成质量和合成速度,分别设置三组参数V1,V2,V3,参数量依次越来越小;

ablation study

  • MPD模块对结果的改善最显著

unseen speaker的泛化

本文发布于:2024-01-28 04:53:22,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/17063888084924.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:HiFi
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23