问题描述:
微调baichuan2-7b模型,验证一轮后继续训练第一个iteration显存大幅增加
项目链接:
https://github.com/wp931120/baichuan_sft_lora
具体描述:
由于某些原因,笔者是在transformers4.30.2、torch2.0.1,accelerate==0.22版本上进行实验。
在训练过程中,发现显存溢出,考虑是句子长度问题,将1024设置为512。
然而训练还是显存溢出,通过调试分析,在评估验证集之前,显存大概占用11G左右,在评估过程中,显存依然保持11G左右,然而评估一结束,继续训练时,显存大幅增加,变为20G左右,后面不管怎么训练和评估,显存基本上都维持在20G。
然而根据项目作者的实验,明明12G左右的显存就够。
为此,后经群里大佬提示,考虑释放torch缓存或者更新transformers版本。
1、尝试各种方式在评估之后释放显存依然无效。
2、由于某些原因无法更新transformers版本,暂无法验证。
由于作者在原始代码上的更改并不多,遂怀疑是否是由于基座大模型(baichuan2-7b)的原因导致显存增加,因此将基座大模型换成chatglm2-6b,将数据处理的代码稍作修改后进行实验,发现模型在评估后继续训练显存没有大幅增加。
至此,虽然不清楚为什么baichuan-7b在当前环服务器托管网境无法正常训练,可能的原因是当前版本的transformers不太足够支持baichuan-7b的训练,对chatglm2-6b训练是足够的。
注释:
卡2是chatglm2-6b在qlora训练模服务器托管网式下的显存占用,卡3是baichuan2-7b在qlora训练模式下的显存占用。
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net
机房租用,北京机房租用,IDC机房托管, http://www.fwqtg.net
日志框架: 什么是日志框架? a. 是一套能实现日志输出的工具包. b. 能够记录系统运行状态的所有时间的日志. 场景: 用户下线、接口超时、数据库崩溃、HelloWorld 日志框架的能力: 定制输出目标: 并不只是输出到控制服务器托管网台,如文件、数据库、…