BERT for Coreference Resolution Baselines and Analysis论文阅读

阅读：评论：0

基于前面提出的端到端的共指消解模型，如何在基准数据集上表现更好的效能

使用Bert来进行改进，在OntoNotes ( + 3.9 F1 )和GAP ( + 11.5 F1 )基准上取得了显著提升

优点：论文采用的Bert-large模型与ELMo和Bert-base相比，在区分相关但不同的实体方面特别好

缺点：在文档级上下文、会话和提及释义的建模方面仍有进步的空间

Bert的优势：
- Bert在多个nlp任务[QANLINER(命名实体识别)] 上取得了显著提升
- Bert具有更好的双向推理能力
- Bert可以进行段落级别的训练，可以更好的建模较长的序列
有两种改进c2f-coref模型[基于ELMo]的方法：独立变量和重叠变量
- 独立变量：使用互不重叠的片段，每个片段作为Bert的独立实例
- 重叠变量：将文档分割成重叠的片段，为模型提供超过512个token的上下文
Bert-large在使用更长的上下文窗口(384)时更有优势，但在更长的上下文窗口(512)表现更差
Bert-large比ELMo在区分相关但截然不同的实体或概念方面具有显著的优势，但两者都面对共同的问题：
- 区分相关但不同的实体，困难在于区分它们需要世界知识的案例
- 代词的建模仍然困难，尤其是在会话中
重叠变量企图将上下文窗口扩展到512个token之外的失败说明使用更大的上下文窗口进行预训练可能无法转化为有效的远程特征用于下游任务。同时较大的模型也加剧了跨度表示的记忆密集性

采用高阶共指模型（c2f-coref）
在c2f-coref中用Bert transformer 替换整个LSTM-based encoder(以ELMo和GloVe嵌入作为输入)
数据集：GAP和OntoNotes
对两种变体（变量）进行实验：
- 独立变量：使用互不重叠的片段，每个片段作为BERT的独立实例。这种变体的编码能力有限，特别是对于位于其片段的开头或结尾的token
- 重叠变量：将文档分割的重叠片段分别进行编码，然后将重叠部分的表示放在一起得到最终的表示

在段落级别的GAP数据集和文档级别的英文OntoNotes 5.0数据集上评估基于Bert的模型
扩展c2f-coref和Bert的原始Tensorflow实现
参数设置：
- epoch：20
- dropout：0.3
- learning rates：1e-5
- Bert参数和task参数的linear decay：2e-4
- 在所有参数使用相同的学习率的情况下，产生了2 - 3 %的影响
- 训练模型的片段长度：128[bert-base表现最好]、256、384[bert-large表现最好]、512
- 批处理大小：大小为1的文档
Baselines：将c2f - coref + BERT系统与两个主要的基线进行了比较
- 原始的基于ELMo的c2f - coref系统( Lee et al . , 2018)
- 2018的前身，e2e-coref (Lee et al., 2017）
  
  【c2f - coref除了比e2e - coref具有更高的计算效率外，还利用注意力对跨度表示进行迭代精化以进行高阶推理】
Paragraph Level: GAP
Document Level: OntoNotes

虽然基于特征的方法具有更高的记忆效率，但微调后的模型似乎能产生更好的结果。

评分跨度或提及对可能是共指消解中最主要的范式之一
最近（2019），共指消解和其他NLP任务的进展都是由无监督的语境化表征推动的。其中，BERT显著地使用了对段落级序列(结合双向掩蔽语言的建模目标)的预训练来更有效地建模长程依赖关系。SpanBERT专注于预训练跨度表示，以独立的变体实现OntoNotes上当前最先进的结果

本文发布于:2024-01-28 21:37:25，感谢您对本站的认可！

留言与评论（共有 0 条评论）