Hanlp

Latest version: v2.1.0

Safety actively analyzes 693883 Python packages for vulnerabilities to keep your Python projects secure.

Scan your dependencies

Page 9 of 11

1.2.6

1. 改进:自定义词典的优先级高于核心词典
2. 大幅补充了简繁分歧词典,对简繁转换和繁体中文分词支持更好
3. CoreStopWordDictionary不过滤null词性
4. 为CRFSegment添加自定义词典支持
5. 修复了BinTrie和SegmentWrapper的潜在问题
6. 一些模型、词典的人工微调
7. 数据包依然兼容[data-for-1.2.4.zip](http://pan.baidu.com/s/1gd1vo8j)

1.2.5

1. 新增加了一些工具,开放了对内部词库的动态读写
2. CRFModel支持BiGram Feature Template,成为通用的模型类
3. Suggester 增加removeAllSentences方法
4. 优化繁体中文分词
5. 优化CRF分词对标点的支持
6. 数据包依然兼容[data-for-1.2.4.zip](http://pan.baidu.com/s/1gd1vo8j)

1.2.4

1. 调整用户词典作用为:分词后使用用户词典合并相邻词语
2. KeywordExtractor排除空格换行等
3. 优化地名识别模块对短地名的处理
4. 词典加载期间提供更人性化的报错信息
5. 默认关闭字符正规化
6. 求解两个数组中最相近的数更新到一种O(n)时间的算法
7. 自动校验CoreNatureDictionary.ngram.txt的缓存与CoreNatureDictionary.txt的缓存的一致性
8. 词典微调,最新数据集:[data-for-1.2.4.zip](http://pan.baidu.com/s/1gd1vo8j)
9. Portable同步升级到v1.2.4,Maven:


<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.2.4</version>
</dependency>

1.2.3

1. 增加了字符正规化功能,该配置项位于hanlp.properties中,通过`Normalization=true`来开启
2. 调整平滑参数,使得两个节点的代价一定比一个大
3. 数词自动合并:零○〇一二两三四五六七八九十廿百千万亿壹贰叁肆伍陆柒捌玖拾佰仟
4. 防止原子分词造成图不连通
5. 数据包依然兼容[data-for-1.2.2.zip](http://pan.baidu.com/s/1i3DyYYL)

1.2.2

1.分词器全面支持并行化分词:


segment.enableMultithreading(true); // 或者 segment.enableMultithreading(4);


2.修复JDK7下TextRankKeyword可能触发的issue https://github.com/hankcs/HanLP/issues/11
3.数据包小幅调整,修复了CRF标点黏着的问题:[data-for-1.2.2.zip](http://pan.baidu.com/s/1i3DyYYL)
4.Portable同步升级到v1.2.2,Maven:


<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.2.2</version>
</dependency>

1.2.1

1. fixed issue https://github.com/hankcs/HanLP/issues/10
2. data与[data-for-1.2.0.zip](http://pan.baidu.com/s/1nt64YDV)兼容,不必升级

Page 9 of 11

© 2025 Safety CLI Cybersecurity Inc. All Rights Reserved.