首页 > 编程札记 > 编程

Transformer 和 Transformer

阅读：评论：0

Transformer 和 Transformer

Transformer 和 Transformer

目录

写在前面
1. Transformer
- 1.1 从哪里来？
- 1.2 有什么不同？
- - 1.2.1 Scaled Dot-Product Attention
  - 1.2.2 Multi-Head Attention
  - 1.2.3 Masked Multi-Head Attention
2. Transformer-XL
- 2.1 XL是指什么？
- 2.2 它做了什么？
3. 小结

写在前面

前两天我正在微信上刷着消息，猛然间关注的几个学习号刷屏，又一个超强预训练语言模型问世——XLNet，它由卡耐基梅隆大学与谷歌大脑的研究者提出，在 SQuAD、GLUE、RACE 等 20 个任务上全面超越 BERT。我想不少人和我一样，还没来得及完全消化BERT，如今大脑里的NLP知识就又要被XLNet刷新。这个场景，像极了去年还在看ELMo的我遇上BERT（苦笑）。写这篇博客主要是为了总结一些Transformer和Transformer-XL的特点。如有不正确的地方，欢迎大家指正，我将及时修改。

1. Transformer

2018年，谷歌BERT在朋友圈刷屏，各大公众号争相发布BERT的最新消息。这个号称“最强NLP预训练模型”刷新了NLP领域中11个任务。而Transformer，正是BERT中最核心的部分。同时我也认为，这是将是一种取替RNN或LSTM的模型。

1.1 从哪里来？

2017年，谷歌大脑（是的没错，还是他们）发表了文

本文发布于:2024-01-30 17:51:19，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170660828221773.html

版权声明：本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。

上一篇：Ubuntu猛然发力，誓言两年超Apple

下一篇：S9T9查看下代码猛然发现目前的这个代码有点奇怪

标签：Transformer

留言与评论（共有 0 条评论）

推荐文章

排行榜

热门标签

我要关灯

我要开灯
返回顶部