在搜索或其它应用领域,我们通常需要对数据进行分词。在汉语言分词处理中,我们可以使用hanlp,它是开源的汉语言处理包,可用于分词、语言处理等操作。
hanlp由三部分组成,分别是词库、驱动器(jar包)、hanlp配置。
词库包含词典和模型,词典(位于data/dictionary目录下)用于词法分析,模型(位于data/model目录下)用于语法分析。对应的数据包有如下几类:
下载地址是115.159.41.123/click.php?id=3
详情在地址.3.4中
hanlp提供了轻便的jar包,内置了基本的词典,maven依赖如下:
<dependency><groupId>com.hankcs</groupId><artifactId>hanlp</artifactId><version>portable-1.2.8</version>
</dependency>
若在lucene或solr中使用,单独安装词典,则添加对应的依赖包,如下:
<dependency> <groupId>com.hankcs.nlp</groupId> <artifactId>hanlp-solr-plugin</artifactId> <version>1.1.2</version>
</dependency>
<dependency> <groupId>com.hankcs.nlp</groupId> <artifactId>hanlp-solr-plugin</artifactId> <version>1.1.2</version>
</dependency>
主要是配置词库的地址root=D:/HanLP/,配置文件内容如下:
#本配置文件中的路径的根目录,根目录+其他路径=绝对路径
#Windows用户请注意,路径分隔符统一使用/
root=D:/HanLP/
#核心词典路径
CoreDictionaryPath=data/
#2元语法词典路径
BiGramDictionaryPath=data/am.txt
#停用词词典路径
CoreStopWordDictionaryPath=data/
#同义词词典路径
CoreSynonymDictionaryDictionaryPath=data/dictionary/
#人名词典路径
PersonDictionaryPath=data/dictionary/
#人名词典转移矩阵路径
PersonDictionaryTrPath=data/dictionary/
#繁简词典路径
TraditionalChineseDictionaryPath=data/dictionary/
#自定义词典路径,用;隔开多个自定义词典,空格开头表示在同一个目录,使用“文件名 词性”形式则表示这个词典的词性默认是该词性。优先级递减。
#另外data/dictionary/是个高质量的词库,请不要删除
CustomDictionaryPath=data/dictionary/; 现代汉语补充词库.txt; 全国地名大全.tx
本文发布于:2024-02-02 18:01:12,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170686990545623.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |