transformer XL

阅读: 评论:0

transformer XL

transformer XL

.html

  1. 模型特点

在 AI-Rfou 等人提出的vanilla Transformer上做了两点创新:

引入循环机制(Recurrence Mechanism)
相对位置编码(Relative Positional Encoding)
  1. 优点

    在几种不同的数据集(大/小,字符级别/单词级别等)均实现了最先进的语言建模结果。
    结合了深度学习的两个重要概念——循环机制和注意力机制,允许模型学习长期依赖性,且可能可以扩展到需要该能力的其他深度学习领域,例如音频分析(如每秒16k样本的语音数据)等。
    在inference阶段非常快,比之前最先进的利用Transformer模型进行语言建模的方法快300~1800倍。
    有详尽的源码!含TensorFlow和PyTorch版本的,并且有TensorFlow预训练好的模型及各个数据集上详尽的超参数设置。

  2. 不足

    尚未在具体的NLP任务如情感分析、QA等上应用。
    没有给出与其他的基于Transformer的模型,如BERT等,对比有何优势。
    在Github源码中提到,目前的sota结果是在TPU大集群上训练得出,对于我等渣机器党就只能玩玩base模式了。


Transformer-XL

Transformer-XL架构在vanilla Transformer的基础上引入了两点创新:循环机制(Recurrence Mechanism)和相对位置编码(Relative Positional Encoding),以克服vanilla Transformer的缺点。与vanilla Transformer相比,Transformer-XL的另一个优势是它可以被用于单词级和字符级的语言建模。

本文发布于:2024-02-01 11:35:22,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170675852236313.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:transformer   XL
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23