语料库(corpus) :指收集和整理的一组文本数据,用于训练和评估自然语言处理模型,就是存放语言材料的仓库 (语言数据库)
语料库类型:异质的、同质的、系统的、专用的
知识库:指存储和组织的结构化知识数据,通常包括实体、属性和关系。
词汇语义库、词法、句法规则库、常识库等等
平衡语料库:平衡语料库着重考虑语料的代表性与平衡性。
共时语料库:是为了对语言进行共时(同一时段)研究而建立的语料库,即研究一个共时平面中的元素与元素的关系
历时语料库:是为了对语言进行历时研究而建立的语料库,即研究一个历时切面中元素与元素关系的演化
熟语料库:是指经过预处理和清洗后的文本数据,例如去除语法错误、拼写错误、标点符号等,进行了分词、词性标注、句法分析等处理
生语料库:生语料库(raw corpus)是指未经过任何处理和清洗的原始文本数据,包括语法错误、拼写错误、标点符号等。生语料库通常需要经过预处理和清洗才能用于训练和评估自然语言处理模型
N-gram模型的缺点:
基于N-gram模型的改进
词表规模V和词向量维度D如何确定?
如何学习L?
汉语分词的主要问题:汉语分词规范问题,歧义切分字段处理,未登录词的识别
链长:一个交集型切分歧义所拥有的交集串的集合称为交集串链,它的个数称为链长。
基本原则:
1)语义上无法由组合成分直接相加而得到的字串应该合并为一个分词单位
2)语类无法由组合成分直接得到的字串应该合并为一个分词单位
辅助原则:
1)有明显分隔符标记的应该切分之
2)附着性语(词)素和前后词合并为一个分词单位
3)使用频率高或共现率高的字串尽量合并为一个分词单位
4)双音节加单音节的偏正式名词尽量合并为一个分词单位
5)双音节结构的偏正式动词应尽量合并为一个分词单位
6)内部结构复杂、合并起来过于冗长的词尽量切分
正向最大匹配算法:
逆向最大匹配算法:
双向最大匹配算法:
命名实体
包含:人名、地名、组织机构名、数字、日期、货币数量
词性标注
的最大问题是消除词性兼类歧义
求链长
算分词正确率、召回率
句法分析的任务:识别句子的句法结构
(1) 汉语分词和词性标注
(2) 构造识别矩阵
(3) 执行分析过程
已考
)实现 CRFs 也需要解决如下三个问题:
特征选取、参数训练、解码
本文发布于:2024-01-30 05:01:49,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170656211319407.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |