首页 > 编程札记 > 编程

hanlp汉语言包

阅读：评论：0

hanlp汉语言包

文章目录

hanlp汉语言包
- - 一、简介
  - 二、组成
  - - 2.1 词库
    - 2.2 驱动器（jar包）
    - 2.3 配置文件hanlp.properties
  - 三、直接使用hanlp的代码实例
  - - 3.1 添加maven依赖
    - 3.2 代码
  - 四、lucene中hanlp使用实例
  - - 4.1 添加maven依赖
    - 4.2 配置文件hanlp.properties
    - 4.3 示例

一、简介

在搜索或其它应用领域，我们通常需要对数据进行分词。在汉语言分词处理中，我们可以使用hanlp，它是开源的汉语言处理包，可用于分词、语言处理等操作。

二、组成

hanlp由三部分组成，分别是词库、驱动器（jar包）、hanlp配置。

2.1 词库

词库包含词典和模型，词典（位于data/dictionary目录下）用于词法分析，模型（位于data/model目录下）用于语法分析。对应的数据包有如下几类：

data.full.zip,完整的词库（包括词典和模型）;
data.standary.zip，完整的词典，不包含模型;
data.mini.zip，小体积的词典，不包含模型;

下载地址是115.159.41.123/click.php?id=3

详情在地址.3.4中

2.2 驱动器（jar包）

hanlp提供了轻便的jar包，内置了基本的词典，maven依赖如下：

<dependency><groupId>com.hankcs</groupId><artifactId>hanlp</artifactId><version>portable-1.2.8</version>
</dependency>

若在lucene或solr中使用，单独安装词典，则添加对应的依赖包，如下：

<dependency>   <groupId>com.hankcs.nlp</groupId>    <artifactId>hanlp-solr-plugin</artifactId>    <version>1.1.2</version>
</dependency>
<dependency>   <groupId>com.hankcs.nlp</groupId>    <artifactId>hanlp-solr-plugin</artifactId>    <version>1.1.2</version>
</dependency>

2.3 配置文件hanlp.properties

主要是配置词库的地址root=D:/HanLP/，配置文件内容如下：

#本配置文件中的路径的根目录，根目录+其他路径=绝对路径
#Windows用户请注意，路径分隔符统一使用/
root=D:/HanLP/
#核心词典路径
CoreDictionaryPath=data/
#2元语法词典路径
BiGramDictionaryPath=data/am.txt
#停用词词典路径
CoreStopWordDictionaryPath=data/
#同义词词典路径
CoreSynonymDictionaryDictionaryPath=data/dictionary/
#人名词典路径
PersonDictionaryPath=data/dictionary/
#人名词典转移矩阵路径
PersonDictionaryTrPath=data/dictionary/
#繁简词典路径
TraditionalChineseDictionaryPath=data/dictionary/
#自定义词典路径，用;隔开多个自定义词典，空格开头表示在同一个目录，使用“文件名 词性”形式则表示这个词典的词性默认是该词性。优先级递减。
#另外data/dictionary/是个高质量的词库，请不要删除
CustomDictionaryPath=data/dictionary/; 现代汉语补充词库.txt; 全国地名大全.tx

本文发布于:2024-02-02 18:01:12，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170686990545623.html

上一篇：大型网站架构缓存服务器,一个普通网站发展成大型网站的架构演变历程

下一篇：微信小程序的微信一键登录与验证码登录

标签：汉语言 hanlp

留言与评论（共有 0 条评论）