【新增模型】增加chatglm-6b/llama-7b/BELLE_llama/vicuna/moss/苏神、uer的roberta-small/Tiny模型以及ChatYuan v2模型/fnlp的bart2.0, 增加量化模块并适配llama,增加skip_init参数加快加载, 增加stream输出/网页demo, 增加ptuning_v2和lora;
【generation】生成式解码新增SeqGeneration和Seq2SeqGeneration,单向decoder模型和encoder decoder模型解码增加cache, 增加batch_generate()/stream_generate功能;
【其他】修改rope为不使用max_position,修复model.half()类型不一致问题,支持加载多个权重文件, gpt系列默认不加softmax,增加苏神Tiger的pytorch实现, 增加了对attention_key_size的入参支持,把_token_pad_ids重命名为pad_token_ids, tokenizor中重命名部分字段