基于前面提出的端到端的共指消解模型,如何在基准数据集上表现更好的效能
使用Bert来进行改进,在OntoNotes ( + 3.9 F1 )和GAP ( + 11.5 F1 )基准上取得了显著提升
优点:论文采用的Bert-large模型与ELMo和Bert-base相比,在区分相关但不同的实体方面特别好
缺点:在文档级上下文、会话和提及释义的建模方面仍有进步的空间
Bert的优势:
有两种改进c2f-coref模型[基于ELMo]的方法:独立变量和重叠变量
独立变量:使用互不重叠的片段,每个片段作为Bert的独立实例
重叠变量:将文档分割成重叠的片段,为模型提供超过512个token的上下文
Bert-large在使用更长的上下文窗口(384)时更有优势,但在更长的上下文窗口(512)表现更差
Bert-large比ELMo在区分相关但截然不同的实体或概念方面具有显著的优势,但两者都面对共同的问题:
重叠变量企图将上下文窗口扩展到512个token之外的失败说明使用更大的上下文窗口进行预训练可能无法转化为有效的远程特征用于下游任务。同时较大的模型也加剧了跨度表示的记忆密集性
采用高阶共指模型(c2f-coref)
在c2f-coref中用Bert transformer 替换整个LSTM-based encoder(以ELMo和GloVe嵌入作为输入)
数据集:GAP和OntoNotes
对两种变体(变量)进行实验:
在段落级别的GAP数据集和文档级别的英文OntoNotes 5.0数据集上评估基于Bert的模型
扩展c2f-coref和Bert的原始Tensorflow实现
参数设置:
Baselines:将c2f - coref + BERT系统与两个主要的基线进行了比较
原始的基于ELMo的c2f - coref系统( Lee et al . , 2018)
2018的前身,e2e-coref (Lee et al., 2017)
【c2f - coref除了比e2e - coref具有更高的计算效率外,还利用注意力对跨度表示进行迭代精化以进行高阶推理】
Paragraph Level: GAP
Document Level: OntoNotes
虽然基于特征的方法具有更高的记忆效率,但微调后的模型似乎能产生更好的结果。
优势:Bert-base模型和ELMo之间没有存在显著的质量差异,Bert-large表现更好
劣势:
模型在较长文档上表现较差
模型都无法有效的表示较大的片段,并且在使用最大片段长度450和512时表现更差
使用重叠片段提供额外上下文并没有改善结果
large模型可以更好的编码更长的上下文,但是加剧了广度表示的记忆密集型
——》未来预训练方法的研究应考虑使用稀疏表示来编码文档级别的上下文
会话上下文中的代词建模对所有模型来说仍然是困难的
模型仍然无法解决需要提及释义的案例
评分跨度或提及对可能是共指消解中最主要的范式之一
上下文
会话上下文中的代词建模对所有模型来说仍然是困难的
模型仍然无法解决需要提及释义的案例
本文发布于:2024-01-28 21:37:25,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170644904810450.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |