Hanlp

Latest version: v2.1.0

Safety actively analyzes 693883 Python packages for vulnerabilities to keep your Python projects secure.

Scan your dependencies

Page 5 of 11

1.6.6

- CRF模型重构为对数线性模型,复用感知机框架的维特比解码算法,速度提高10倍
![speed](https://user-images.githubusercontent.com/5326890/42154501-81aeb396-7e18-11e8-85ad-075deaf874f8.png)
- 正式废弃CRFSegment,删除`CRFSegmentModel.txt.bin`
- 句法分析器默认使用NLPTokenizer
- 修复新Nature框架下角色标注机构名识别问题:https://github.com/hankcs/HanLP/issues/870
- 新旧模型不兼容,请下载新数据包[data-for-1.6.6.zip](http://hanlp.linrunsoft.com/release/data-for-1.6.6.zip) `md5=aea7194670d89f920d59a592568c88ad`
- Portable版同步升级到v1.6.6


<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.6.6</version>
</dependency>


:tada:感谢所有在issue中提出宝贵建议的用户!

1.6.5

**Pre-release测试版**

1. 重构Nature枚举为类,避免反射,兼容最新JDK:https://github.com/hankcs/HanLP/issues/866
1. 新增感知机分类器,基于此实现人名性别识别
1. 新增一阶、二阶HMM
1. 新增中文分词评测工具
1. 支持使用环境变量HANLP_ROOT来代替hanlp.properties中的root
1. IOUtil读取空白文件时的稳定性,兼容 UTF8 file with BOM
1. IOUtil.loadDictionary支持标记整个词典的默认词性
1. DoubleArrayTrieSegment和AhoCorasickDoubleArrayTrieSegment支持构造自词典路径
1. 修正感知机词法分析器在不进行命名实体识别时对字符的正规化 wangzhe258369
1. 微调人名识别模型、删除错误词条
1. 修订CharTable,删除橙子和橘子的不合理的转换 linuxsong
1. 数据包 [data-for-1.6.4.zip](http://hanlp.linrunsoft.com/release/data-for-1.6.4.zip) `md5=8b5b944f89c4052d0552bf8ad7479010`
获取最新版的数据包,请`fork`并`git clone`一份仓库中的最新data。
1. Portable版同步升级到v1.6.5


<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.6.5</version>
</dependency>


:tada:感谢所有在issue中提出宝贵建议的用户!

1.6.4

1. 优化CorpusLoader、优化MutableFeatureMap的设计
1. 优化新词发现,使结果不含分隔符:https://github.com/hankcs/HanLP/issues/826
1. TextRank提取关键词提升算法速度 hlstudio
1. 用户词典热更新时支持.csv patrick_lin
1. 增强词向量读取时的健壮性:https://github.com/hankcs/HanLP/issues/821
1. 根据百度汉语和在线辞海修正拼音词典 AnyListen
1. 修订停用词词典 duohappy
1. 修复词法分析器禁用用户词典时发生的问题、修复词法分析器seg接口与命名实体识别的配合问题:https://github.com/hankcs/pyhanlp/issues/15#issuecomment-382583304 、修正结构化感知机多线程平均的问题
1. 微调人名识别模型、新增月份词汇
1. 数据包 [data-for-1.6.4.zip](http://hanlp.linrunsoft.com/release/data-for-1.6.4.zip) `md5=8b5b944f89c4052d0552bf8ad7479010`
获取最新版的数据包,请`fork`并`git clone`一份仓库中的最新data。
1. Portable版同步升级到v1.6.4


<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.6.4</version>
</dependency>


:tada:感谢所有在issue中提出宝贵建议的用户!

1.6.3

1. 词法分析器支持`CustomDictionary.insert`动态插入的用户词条
1. 词法分析器支持用户词典中的自定义词性
1. 词法分析器支持[`enableCustomDictionaryForcing`](https://github.com/hankcs/HanLP/wiki/FAQ#%E4%B8%BA%E4%BB%80%E4%B9%88%E4%BF%AE%E6%94%B9%E4%BA%86%E8%AF%8D%E5%85%B8%E8%BF%98%E6%98%AF%E6%B2%A1%E6%9C%89%E6%95%88%E6%9E%9C)提高用户词典优先级
1. NLPTokenizer默认使用感知机词法分析器
1. 完善圆圈数字对应关系 AnyListen
1. 开放命名实体识别的特征提取方法
1. TextRankKeyword使用CoreStopWordDictionary的过滤器
1. 删除人名识别中的BXD模式,优化日本人名识别
1. 修复ViterbiSegment激活多个配置项带来的问题
1. 微调bigram、微调人名识别模型
1. 数据包兼容 [data-for-1.6.2.zip](http://hanlp.linrunsoft.com/release/data-for-1.6.2.zip) `md5=3ebb9e47ecff740f09c9ec7c21324661`
获取最新版的数据包,请`fork`并`git clone`一份仓库中的最新data。
1. Portable版同步升级到v1.6.3


<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.6.3</version>
</dependency>


:tada:感谢所有在issue中提出宝贵建议的用户!

1.6.2

1. 所有词法分析器都支持用户词典、简繁、offset与全切分索引模式(需更新模型与CharTable)
1. CRF分词升级到[CRF词法分析器](https://github.com/hankcs/HanLP/wiki/CRF%E8%AF%8D%E6%B3%95%E5%88%86%E6%9E%90),支持训练,与CRF++兼容
1. 重构词法分析器,提供统一的接口。
1. HanLP.newSegment支持传入算法名称构造相应的分词器
1. Sentence支持[翻译词性](https://github.com/hankcs/HanLP/blob/master/data/dictionary/other/TagPKU98.csv),方便记不住词性短码的初级用户
1. Sentence支持输出brat standoff format:http://brat.nlplab.org/standoff.html
1. 修复DoubleArrayTrie的LongestSearcher
1. 修订词库、修订CharTable、微调人名识别模型,解决:https://github.com/hankcs/HanLP/issues/772
1. 新数据包 [data-for-1.6.2.zip](http://hanlp.linrunsoft.com/release/data-for-1.6.2.zip) `md5=3ebb9e47ecff740f09c9ec7c21324661`
获取最新版的数据包,请`fork`并`git clone`一份仓库中的最新data。
1. Portable版同步升级到v1.6.2


<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.6.2</version>
</dependency>


:tada:感谢所有在issue中提出宝贵建议的用户!

1.6.1

1. [感知机分词性能评估](https://github.com/hankcs/HanLP/wiki/%E7%BB%93%E6%9E%84%E5%8C%96%E6%84%9F%E7%9F%A5%E6%9C%BA%E6%A0%87%E6%B3%A8%E6%A1%86%E6%9E%B6#%E5%87%86%E7%A1%AE%E7%8E%87)、修正感知机词法分析器在空白字符串时的问题
1. [感知机命名实体识别支持任意NER类型](https://github.com/hankcs/HanLP/wiki/%E7%BB%93%E6%9E%84%E5%8C%96%E6%84%9F%E7%9F%A5%E6%9C%BA%E6%A0%87%E6%B3%A8%E6%A1%86%E6%9E%B6#%E5%91%BD%E5%90%8D%E5%AE%9E%E4%BD%93%E8%AF%86%E5%88%AB)、开放词法分析器CWS、POS和NER的getter
1. 修复MutableDoubleArrayTrieInteger遍历时可能产生的问题
1. 优化角色标注人名识别的启发式规则
1. 文本分句支持颗粒度
1. 微调bigram、人名识别模型
1. 依然兼容数据包 [data-for-1.6.0.zip](http://hanlp.linrunsoft.com/release/data-for-1.6.0.zip) `md5=38d19afa881ddb00b213f4680259ce68`
获取最新版的数据包,请`fork`一份并`git clone https://github.com/YourName/HanLP.git`。
1. Portable版同步升级到v1.6.1


<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.6.1</version>
</dependency>


:tada:感谢所有在issue中提出宝贵建议的用户!

Page 5 of 11

© 2025 Safety CLI Cybersecurity Inc. All Rights Reserved.