.html
在 AI-Rfou 等人提出的vanilla Transformer上做了两点创新:
引入循环机制(Recurrence Mechanism)
相对位置编码(Relative Positional Encoding)
优点
在几种不同的数据集(大/小,字符级别/单词级别等)均实现了最先进的语言建模结果。
结合了深度学习的两个重要概念——循环机制和注意力机制,允许模型学习长期依赖性,且可能可以扩展到需要该能力的其他深度学习领域,例如音频分析(如每秒16k样本的语音数据)等。
在inference阶段非常快,比之前最先进的利用Transformer模型进行语言建模的方法快300~1800倍。
有详尽的源码!含TensorFlow和PyTorch版本的,并且有TensorFlow预训练好的模型及各个数据集上详尽的超参数设置。
不足
尚未在具体的NLP任务如情感分析、QA等上应用。
没有给出与其他的基于Transformer的模型,如BERT等,对比有何优势。
在Github源码中提到,目前的sota结果是在TPU大集群上训练得出,对于我等渣机器党就只能玩玩base模式了。
Transformer-XL
Transformer-XL架构在vanilla Transformer的基础上引入了两点创新:循环机制(Recurrence Mechanism)和相对位置编码(Relative Positional Encoding),以克服vanilla Transformer的缺点。与vanilla Transformer相比,Transformer-XL的另一个优势是它可以被用于单词级和字符级的语言建模。
本文发布于:2024-02-01 11:35:22,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170675852236313.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |