UNSUPERVISED PRETRAINING TRANSFERS WELL ACROSS LANGUAGES

阅读: 评论:0

UNSUPERVISED PRETRAINING TRANSFERS WELL ACROSS LANGUAGES

UNSUPERVISED PRETRAINING TRANSFERS WELL ACROSS LANGUAGES

UNSUPERVISED PRETRAINING TRANSFERS WELL ACROSS LANGUAGES

1. 论文思路:

作者基于CPC的自监督预训练方法提出了改进版本,解决了原CPC配置中encoder通过batch normalization 泄露信息的问题,并用一层Transformer layer 提升了phoneme 的表征能力。最终得出的主要结论是:通过改进版cpc学习到的表征可以跨语音使用,并能够取得甚至超过有监督预训练的效果。

2. 模型改进

  • CPC
    将输入T时间长度的音频序列过一个encoder (五层卷积网络) 得到 z t z_t zt​, 然后将 z t z_t zt​经过一个序列模型得到最终的表征 c t c_t ct​ (公式中用 z t z_t zt​表示.

    基于contrast loss利用 c t c_t ct​去预估未来K时间步的 z t z_t zt​.
  • 改进版CPC
    问题:
    (1)原CPC的训练不稳定,经常出现收敛问题,主要是因为encoder 中层与层之间采用batch normalization,encoder 在sequence中是共享的,这样在过去和未来的窗口存在参数信息的泄露。改用channel-wise normalization.->layer nomalization.

    (2)在做contrast loss 的时候采用了线性的分类器,因此学到的phonemes embedding 编码也倾向于是线性可分的。但是实际上的表征应该是包含时间窗的。因此可以采用其他替代的方法,比如将future representations 再过一个sequence model 比如transformer,不同结构的对比结果为:

3.实验结果

实验配置:将编码后的特征经过线性分类器做音素分类。
评判标准:ABX score 通过估计不同语音片段彼此接近的概率来衡量不同音素之间的可分性。

  • Within language

    取得了在within language下 within 和 across speaker 实验优于CPC的实验结果,并且与一些专注音素识别的无监督模型结果相当。
  • Cross-lingual


    在target language 的训练数据只有1h的条件下,改进版CPC这种自监督方法表现良好,超过CPC 5.4个PER,仅比有监督模型低1.3个点。同时基本超过了其他无监督模型的结果。

    模型不冻住做finetune的结果更好。

文章总结:
通过改进版CPC编码的向量可在跨语言的数据集上均取得不错的效果,解决了一些小语种训练数据少的问题。

本文发布于:2024-02-02 17:14:02,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170686524045260.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23