Paddlenlp

Latest version: v2.8.1

Safety actively analyzes 693883 Python packages for vulnerabilities to keep your Python projects secure.

Scan your dependencies

Page 7 of 9

2.2.6

问题修复
* 优化了AutoModel & AutoTokenizer模块的报错信息 1902
* 修复了ErnieDoc模型分类任务默认类别缺失的问题 1867
* 修复了Roberta tokenizer加载本地资源报错的问题 1821
* 修复了bstc数据集文件缺失的问题
* 优化了xnli数据集的报错信息 1838
* 修复了FewCLUE数据集中unlabeled.json文件为空的问题 1881
* 修复了load_dataset读取CLUE tnews数据集所有splits时报错的问题 1941
* 修复中文阅读理解指标计算偏低的问题 1874
* 修复textcnn静态图预测报错的问题 1839
* 修复了文本分类使用预训练模型进行分布式训练时报错的问题 1839

2.2.5

新功能

Taskflow
* 分词和NER多级模式 1666
* AutoSplitter/AutoJoiner功能支持无限长文本自动切分 1666

问题修复
* 修复ERNIE-Doc文本分类任务数据集读取错误 1687
* 修复原生生成式 API 传入 tensor 为 None 时不能正确执行的问题 1656
* 修复 Roberta 模型不支持2维 attention mask 1676
* 修复 ConvBert 模型不支持动转静 1643
* 修复 ERNIE-M 训练hang住的问题 1681

文档更新
* FasterTransformer 文档新增编译报错 FAQ 1750
* 修复 T5 模型 example 文档 1652
* 更新生态贡献权重文档 1749

2.2.4

新功能

* 新增西班牙语和荷兰语实体识别数据集 CoNLL-2012。 1561


功能优化

* 小模型 PP-MiniLM 接入 FasterTokenizer,量化、裁剪后的模型推理速度达到 BERT<sub>base</sub> 的 8.8 倍。1542
* Transformer 动态图支持 O2 级别 AMP 训练zhangbo9674。1574
* 语义索引应用增加Paddle Serving支持。 1558

问题修复

* 修复 ERNIE-Doc 模型 NLTK 包模型下载的错误。1515
* 修复多个 Transformer 模型在 FP16 精度下 `attention_mask` 计算溢出的错误。1585
* 修复 LAC 模型 TRT 预测配置错误。 1606
* 修复 BART 文本摘要示例的评估错误。1560
* 修复 BART 文本摘要示例在 Windows 环境下报错。 1588
* 修复 `Tokenizer.__call__()` 方法truncation_strategy不生效的bug。 1615
* 修复 RobertaTokenizer 不能获取special token的bug。 1618
* 修复BART和mBART不支持2维attention mask。1637
* 修复CNN/DailyMail 和 XNLI 数据集多卡下载报错。1587

文档更新
* 为 ERNIE-1.0 训练任务添加了 CLUECorpusSmall 数据集训练教程。https://github.com/PaddlePaddle/PaddleNLP/pull/1555


社区贡献
* 新增 FNet HJHGJGHHG。1499
* 修复 Read the Docs 文档 Dataset API 页面格式错误的问题GT-ZhangAcer。1570

2.2.2

New Features

新增产业应用案例
新增评论观点抽取的应用案例 1505
* 提供评论观点抽取和属性级情感分类能力,并支持全流程情感分析推理能力
* 提供基于 PP-MiniLM 小模型推理加速解决方案,推理性能提升 900%

新增端到端语义检索引擎应用案例 1507
* 支持监督语义索引模型 In-Batch Negatives 基于 Paddle Inference 计算文本对相似度的推理能力
* 支持无监督语义索引模型 SimCSE 基于 Paddle Inference 计算文本对相似度的推理能力

FasterGeneration
* 优化 JIT 载入自定义 op 逻辑以优化 `enable_faster_encoder()` `need_build` 参数以及 pipeline 方式使用多个加速模型时框架冗余的 Warning,提升使用体验 1495

New Models
* 新增长文本语言模型 Funnel Transformer,新增基于Funnel Transformer的SQUAD问答任务示例 1419

Bugfix

* 修复了GPT-3静态图,训练参数选项错误问题 1500
* 修复了LayoutXLM模型在windows环境下的报错 1489
* 优化静态图参数转化成动态图参数脚本,支持paddlenlp中动静统一的模型结构 1478

2.2.1

New Features

中文特色小模型 PP-MiniLM 发布 1403
- 推理速度快,推理速度是BERT-base(12L768H) 4.2倍
- 模型参数少,模型参数量相对BERT-base(12L768H) 减少52%
- 模型精度高,在中文语言理解评测基准 [CLUE](https://github.com/CLUEbenchmark/CLUE) 7 个分类数据集上精度比 BERT-base(12L768H) 高 0.32

产业级语义检索框架发布 1463
- 一站式提供高可用的训练&预测语义检索框架,同时集成高性能 ANN 引擎 Milvus
- 召回模型方案覆盖有监督、无监督多种数据场景,支持只基于无监督数训练语义索引模型

Taskflow
- Taskflow 新增中文对话PLATO-mini任务,支持多轮对话记忆功能 1383

FasterGeneration
- 生成解码框架新增注意力机制QKV融合,解码性能最高提升 8% 1455

Bugfix

* 修复使用Paddle2.2及其以下版本兼容性问题 1450
* 修复MSRA_NER示例中 max_steps 选项,不生效的问题 1451
* 修复ERNIE-1.0模型预训练部分参数,增强预训练稳定性 1344
* 修复EFL及ernie-matching在windows下的静态图预测问题 1480
* 修复Taskflow文本相似度计算任务windows兼容性问题 1465
* 修复LayoutXLM模型加载时无法找到yaml文件的问题 1454
* 修复SqueezeBert模型vocab等资源路径的缺失和typo 1454
* 修复FasterGeneration下diversity rate的结果错误的问题 1477
* 修复FasterGeneration下GPT模型的repetition_penalty被屏蔽的问题 1471

2.2.0

New features

预训练加速训推一体加速开发FasterERNIE
- 新增支持高性能文本预处理算子FasterTokenizer,提供更快的文本预处理 1220
- 融合Fused TransformerEncoder API,极致优化Transformer性能 1308
- 新增`to_static()`接口,支持文本处理与模型计算整图导出,提供更易用的模型导出
- 优化C++部署体验,显著降低C++开发成本
- 提供文本分类、序列标注使用示例

面向生成任务的高性能加速组件FasterGeneration
- FasterTransformer升级至V4.0版本
- Transformer 加速版本在 sampling 以及 3 种 beam search 策略下新增 force decoding 策略支持
- 生成API新增Diverse Beam Search策略

Taskflow升级
- 新增名词短语标注及文本相似度计算任务 1246 1345
- 句法分析任务增加已分词方式解析句法树能力 1351
- 中文分词、词性标注、命名实体识别任务支持用户自定义词典干预策略 364 1420
- 知识挖掘任务支持自定义模型、自定义Term-Linking等进阶使用方式 1329
- 解语套件词类知识标注工具WordTag支持增量数据训练 1329
- 解语套件百科知识树TermTree使用体验完善,支持定制化使用 1329

更多预训练模型
- 新增表单多模态模型LayoutLM、LayoutLMv2、LayoutXLM模型
- 新增基于unimo-text-1.0-lcsts-new中文摘要预训练模型
- 新增mBART和mBART50模型,用于多语言翻译
- 解语套件新增NPTag模型,可直接用于名词短语标注,标签类别2000+ 1246
- 新增GPTModel预训练权重 gpt2-en、gpt2-large-en、gpt2-xl-en,可用于英文文本生成 1302
- 新增Mengzi中文预训练模型

自动模型与分词器加载
- 新增AutoModel和AutoTokenizer模块,可更便捷加载不同网络结构预训练模型与分词器

社区贡献
- 新增BertJapaneseTokenizer & 新增BertJapanese模型预训练权重 by iverxin in 1115
- 新增BlenderbotSmall & Blenderbot模型 868 ,感谢 kevinng77 的贡献
- 新增SqueezeBERT模型 937 ,感谢 renmada 的贡献
- 新增CTRL模型 921 ,感谢 JunnYu 的贡献
- 新增T5模型 916 ,感谢 JunnYu 的贡献
- 新增Reformer模型 870 ,感谢 JunnYu 的贡献
- 新增MobileBert模型 1160 ,感谢 nosaydomore 的贡献
- 新增ChineseBert模型 1100 ,感谢 27182812 的贡献
- 新增End-to-End Memory Network模型 1046,感谢 yulangz 的贡献
- 完善Bert模型下游任务代码 & 新增Bert预训练权重 by JunnYu in 1085
- 完善BigBird模型下游任务代码 by iverxin in 1114
- 完善Electra模型下游任务代码 & 新增Electra预训练权重 by JunnYu in 1086
- 完善Roberta模型下游任务代码 & 新增Roberta预训练权重 by nosaydomore in 1133
- 完善GPT模型下游任务代码 & 新增GPT预训练权重 by JunnYu in 1088
- 完善XLNet模型下游任务代码 & 新增DistilBert预训练权重by renmada in

Misc
- 新增文本分类数据集XNLI 1336
- GPT-3模型预训练,支持静态图Pure FP16训练 1353
- 命名实体识别,增加了peoples_daily_ner数据集支持,同时支持使用ERNIE模型 1361
- 优化ViterbiDecoder解码性能,在GPU设备上可提升10倍 1291

Bugfix
- 修复下载进度条单位不正确的问题
- 修复GPT模型导出后,预测报错问题 1303
- 修复文本纠错模型指标统计Bug 1255 1265 1273
- 修复generate API接口的get_logits_processor参数缺失 JunnYu in 1399
- 修复BERT模型对2D attention mask的支持 JunnYu in 1226

Page 7 of 9

© 2025 Safety CLI Cybersecurity Inc. All Rights Reserved.