基于统计的命名实体方法

阅读: 评论:0

基于统计的命名实体方法

基于统计的命名实体方法


不同机器学习方法主要区别体现在对已经向量化的数据执行不同的操作,这些方法通常已经比较成熟有效。
对于特征向量进行处理的常见的模型包括一下几类,
有监督的学习方法:隐马尔可夫模型、最大熵模型、支持向量机、条件随机场等
半监督的学习方法:利用标注的小数据集(种子数据)基于规则进行自举学习

例如:条件随机场

在确定了标注的数据集以后,就需要进行特征提取 。由于想要辨别一个词是否是实体,除了需要这个词本身的词义以外,还需要它上下文的词来帮助判断。
因此,条件随机场使用当前位置的前面 n 个字和后面 n 个字地字本身以及这个字的标注信息作为特征提取的模板,如果 n 过大,那么特征向量会很长,模型执行速度会比较慢,导致效率变差。如果 n 太小,可能又无法全面地捕捉到信息。通常来讲将 n 值取为 2~3。
确定了输入的特征向量以后,需要确定条件随机场的模型初始参数。然后就可以对模型进行训练,设定 loss 值,并对其进行最优化。

本文发布于:2024-01-30 17:19:49,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170660639321610.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:实体   方法
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23