Transformer 和 Transformer

阅读: 评论:0

Transformer 和 Transformer

Transformer 和 Transformer

目录

  • 写在前面
  • 1. Transformer
    • 1.1 从哪里来?
    • 1.2 有什么不同?
      • 1.2.1 Scaled Dot-Product Attention
      • 1.2.2 Multi-Head Attention
      • 1.2.3 Masked Multi-Head Attention
  • 2. Transformer-XL
    • 2.1 XL是指什么?
    • 2.2 它做了什么?
  • 3. 小结

写在前面

前两天我正在微信上刷着消息,猛然间关注的几个学习号刷屏,又一个超强预训练语言模型问世——XLNet,它由卡耐基梅隆大学与谷歌大脑的研究者提出,在 SQuAD、GLUE、RACE 等 20 个任务上全面超越 BERT。我想不少人和我一样,还没来得及完全消化BERT,如今大脑里的NLP知识就又要被XLNet刷新。这个场景,像极了去年还在看ELMo的我遇上BERT(苦笑)。写这篇博客主要是为了总结一些Transformer和Transformer-XL的特点。如有不正确的地方,欢迎大家指正,我将及时修改。

1. Transformer

2018年,谷歌BERT在朋友圈刷屏,各大公众号争相发布BERT的最新消息。这个号称“最强NLP预训练模型”刷新了NLP领域中11个任务。而Transformer,正是BERT中最核心的部分。同时我也认为,这是将是一种取替RNN或LSTM的模型。

1.1 从哪里来?

2017年,谷歌大脑(是的没错,还是他们)发表了文

本文发布于:2024-01-30 17:51:19,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170660828221773.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:Transformer
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23