Paddlenlp

Latest version: v2.8.1

Safety actively analyzes 693883 Python packages for vulnerabilities to keep your Python projects secure.

Page 9 of 9

2.0.4

Bug fix
* 修复了ERNIE-GRAM的vocab中，`idx_to_token`和`token_to_idx`不对应的问题。感谢BFJL的贡献！🎉 🎉 🎉

更多的数据集
* 新增`SE-ABSA16_CAME`中文情感分类数据集，感谢 jiaqianjing 的高质量贡献！ 🎉 🎉 🎉
* 新增`COTE-BD & COTE-MFW`中文语义角色识别数据集，感谢 jiaqianjing 的高质量贡献！ 🎉 🎉 🎉

Finetuned model
* 新增`ernie-2.0-en-finetuned-squad`模型，由`ernie-2.0-en`在`squad1.0`数据集上finetune得到。

2.0.3

API功能优化
* 升级了`load_dataset()`方法，现在同时传入`splits`和`data_files`参数时将由`splits`参数来指定读取本地数据集的格式。行为更加符合直觉。
* 生成式API`generate()`现在支持GPT预训练模型了！

更多的数据集
* 新增`BQCorpus`中文文本相似度数据集，感谢 frozenfish123 的高质量贡献！ 🎉 🎉 🎉
* 新增`PAWS-X`中文文本相似度数据集，感谢 jiaqianjing 的高质量贡献！ 🎉 🎉 🎉
* 新增`NLPCC14-SC`中文情感分类数据集，感谢 fiyen 的高质量贡献！ 🎉 🎉 🎉

2.0.2

丰富预训练模型
* 新增多粒度语言知识预训练模型[ERNIE-Gram](https://arxiv.org/abs/2010.12148)，该模型在多项中文NLP任务取得SOTA成绩。
* 新增NeZha中文预训练模型，感谢 jm12138 的高质量贡献！ 🎉 🎉 🎉
* 新增GPT CPM-Distill中文小型化模型，感谢 jm12138 的高质量贡献！🎉 🎉 🎉

Bug Fix
* 修复了`softmax_with_crossentropy` API导致的deprecated warning
* 更新了`ChnSentiCorp`等数据集的官方下载链接。

2.0.0

PaddleNLP 2.0是飞桨生态的文本领域核心库，具备易用的文本领域API，多场景的应用示例、和高性能分布式训练三大特点，旨在提升飞桨开发者文本领域建模效率，并提供基于飞桨框架2.0的NLP领域最佳实践。

特性

易用的文本领域API

提供从数据集加载、文本预处理、组网建模、评估、到推的领域API：如一键加载丰富中文数据集的Dataset API, 可灵活高效的进行数据与处理的Data API，预置60+预训练词向量的Embedding API, 内置50+预训练模型，提供预训练模型生态基础设施的Transformer API等，可大幅提升NLP任务建模和迭代的效率。更多API详细说明请查看PaddleNLP官方文档

多场景的应用示例

PaddleNLP 2.0提供多粒度多场景的应用示例，涵盖从NLP基础技术、NLP核心技术、NLP系统应用以及文本相关的拓展应用等。全面基于飞桨2.0全新API体系开发，为开发提供飞桨2.0框架在文本领域的最佳实践。

高性能分布式训练

基于飞桨核心框架『动静统一』的特性与领先的自动混合精度优化策略，通过分布式Fleet API，支持超大规模参数的4D混合并行策略，并且可根据硬件情况灵活可配，高效地完成超大规模参数的模型训练。

1.0 Page 9 of 9

Releases

Has known vulnerabilities

Paddlenlp

Page 9 of 9

2.0.4

2.0.3

2.0.2

2.0.0

1.0

Page 9 of 9

Links

Releases